strategie di campionamento per il monitoraggio e la valutazione

38
Studi e ricerche
Studi e ricerche
Temi&Strumenti
Temi&Strumenti
38
I
Unione europea
Fondo sociale europeo
STRATEGIE DI CAMPIONAMENTO PER IL MONITORAGGIO E LA VALUTAZIONE
DELLE POLITICHE
l volume raccoglie una serie di metodi di campionamento e di tecniche di stima
sviluppati nel quadro della progettazione di indagini campionarie di natura socioeconomica, rivolte sia a imprese che a famiglie. L’implementazione di rilevazioni
campionarie per la produzione di dati necessari al monitoraggio e alla valutazione
delle politiche del lavoro è un’operazione che presenta diversi aspetti di complessità,
legati essenzialmente alla natura multidimensionale dei fenomeni indagati. Le
rilevazioni necessarie a produrre informazioni sull’attuazione di un provvedimento o
sulla misura di impatto di una riforma del mercato del lavoro, perseguono
generalmente obiettivi multipli spesso in contrasto tra loro: di qui l’esigenza di definire
disegni campionari in grado di fornire soluzioni di compromesso e capaci di conciliare
l’accuratezza dei dati prodotti, la tempestività e la rilevanza con i temi oggetto di
interesse. Il volume ripercorre le tecniche sviluppate dall’Isfol per la pianificazione delle
principali rilevazioni statistiche promosse dall’Istituto, esponendo le metodologie di
campionamento, i diversi approcci all’inferenza utilizzati in fase di stima e i metodi di
trattamento delle mancate risposte totali.
STRATEGIE DI
CAMPIONAMENTO
PER IL MONITORAGGIO
E LA VALUTAZIONE
DELLE POLITICHE
ISBN 978-88-543-0282-2
9 788854 302822
Istituto per lo sviluppo della formazione professionale dei lavoratori
Istituto per lo sviluppo della formazione professionale dei lavoratori
Temi&Strumenti
Studi e ricerche
38
ISBN 978-88-543-0282-2
L’Isfol, Istituto per lo sviluppo della formazione professionale dei lavoratori, è
stato istituito con D.P.R. n. 478 del 30 giugno 1973, e riconosciuto Ente di ricerca con Decreto legislativo n. 419 del 29 ottobre 1999, è sottoposto alla vigilanza del Ministero del Lavoro e della Previdenza Sociale. L’Istituto opera in base
allo Statuto approvato con D.P.C.M. 19 marzo 2003, nel campo della formazione, delle politiche sociali e del lavoro al fine di contribuire alla crescita dell’occupazione, al miglioramento delle risorse umane, all’inclusione sociale ed allo sviluppo locale.
L’Isfol svolge e promuove attività di studio, ricerca, sperimentazione, documentazione, informazione e valutazione, consulenza ed assistenza tecnica. Fornisce
un supporto tecnico-scientifico al Ministero del Lavoro e della Previdenza
Sociale, ad altri Ministeri, alle Regioni e Province Autonome, agli Enti locali, alle Istituzioni nazionali, pubbliche e private, sulle politiche e sui sistemi della formazione ed apprendimento lungo tutto l’arco della vita, del mercato del lavoro e dell’inclusione sociale. Svolge incarichi che gli vengono attribuiti dal
Parlamento e fa parte del Sistema Statistico Nazionale. Svolge inoltre il ruolo
di assistenza metodologica e scientifica per le azioni di sistema del Fondo sociale europeo, è Agenzia nazionale Lifelong Learning Programme – Programma
settoriale Leonardo da Vinci e Struttura Nazionale di Supporto Equal.
Presidente
Sergio Trevisanato
Direttore Generale
Giovanni Principe
La collana “Temi&Strumenti” – articolata in Studi e Ricerche, Percorsi, Politiche
comunitarie – presenta i risultati delle attività di ricerca dell’Isfol sui temi di competenza istituzionale, al fine di diffondere le conoscenze, sviluppare il dibattito, contribuire all’innovazione e alla qualificazione dei sistemi di riferimento.
La collana “Temi&Strumenti” è curata da Isabella Pitoni, responsabile Ufficio
Comunicazione Istituzionale Isfol.
2007 – ISFOL
Via G. B. Morgagni, 33
00161 Roma
Tel. 06445901
http://www.isfol.it
ISFOL
STRATEGIE DI
CAMPIONAMENTO
PER IL MONITORAGGIO
E LA VALUTAZIONE
DELLE POLITICHE
ISFOL EDITORE
Il volume propone una serie di metodologie sul campionamento statistico e sui
metodi di stima, sviluppate dall’Ufficio Statistico e dall’Area Analisi e valutazione delle politiche per l’occupazione tra il 2004 e il 2006. Le tecniche raccolte
nel volume sono state messe a punto per la pianificazione delle indagini di
campo orientate alla produzione di dati sul mercato del lavoro, nell’ambito
del Programma Operativo Nazionale Ob. 3 (Misura A1 Azione 2, Attività 1).
I contributi sono il frutto della collaborazione tra l’Isfol e Piero Demetrio
Falorsi che ha contribuito in misura determinante allo sviluppo dell’Ufficio
Statistico dell’Isfol, coordinato da Marco Centra tra il 2004 e il 2006.
I curatori del volume ringraziano inoltre i ricercatori dell’Istat Marco Ballin,
Stefano Falorsi e Alessandro Pallara che hanno contribuito alla redazione dei
cap 4.
Il volume è a cura di Marco Centra e Piero Demetri Falorsi.
Sono autori del volume:
Marco Ballin (Istat), cap. 4;
Marco Centra (Isfol), introduzione, capp. 1, 2, 3;
Piero Demetrio Falorsi (Istat), introduzione, capp. 2, 3, 4;
Stefano Falorsi (Istat), cap. 4;
Alessandro Pallara (Istat), cap. 4.
Editing del volume: Anna Nardone.
Coordinamento editoriale della collana “Temi & Strumenti”:
Piero Buccione e Aurelia Tirelli.
Collaborazione di Paola Piras.
INDICE
Introduzione
Cap. 1
Cap. 2
Introduzione al problema dell’allocazione del campione
1.1
Introduzione
1.2
Relazione tra errore della stime e numerosità
campionaria
1.3
Allocazione del campione nel campionamento
stratificato
1.3.1
Allocazione proporzionale
1.3.2
Allocazione con medesimo errore negli strati
1.4
Un modello alternativo di allocazione
1.5
Un’applicazione empirica
1.6
La soluzione dell’allocazione nei domini di studio
Definizione della numerosità campionaria e
dell’allocazione del campione
2.1
Introduzione
2.2
Contesto di riferimento
2.2.1
Definizione dei parametri di interesse
2.2.2
Approccio all’inferenza
2.2.2.1
Approccio basato sul disegno di
campionamento
2.2.2.2
Approccio assistito dal modello
2.2.2.3
Approccio predittivo
2.2.2.4
Approccio basato sulla varianza
anticipata
2.2.2.5
Parametri non lineari
2.3
Decomposizione della variabilità negli strati
2.3.1
Risultato generale
2.3.2
Strategie di campionamento prese in
considerazione
pag.
9
13
13
15
18
20
24
27
33
37
49
49
50
50
54
55
59
61
63
63
64
64
65
5
2.3.3
2.3.4
2.3.2.1
Disegni di campionamento
2.3.2.2
Stimatori
Decomposizione della varianza per la stima di totali
in strategie campionarie di grande utilizzo
applicativo
2.3.3.1
Disegno di campionamento CS
2.3.3.2
Disegno di campionamento NP
2.3.3.3
Disegno di campionamento DS
2.3.3.4
Disegno di campionamento DF
2.3.3.5
Disegno di campionamento PO
2.3.3.6
Varianza anticipata
Decomposizione della varianza nel caso di
stimatori non lineari
2.3.4.1
Parametri ottenuti come funzione non
lineare dei totali Ycd
73
73
74
77
81
83
84
85
85
2.3.4.2
2.4
2.4.1
2.4.2
2.5
2.5.1
2.5.2
Cap. 3
6
Parametri ottenuti come soluzione di un
sistema di equazioni di stima
Allocazione univariata
Allocazione ottima
Allocazioni alternative
2.4.2.1
Allocazione ottima rispetto a una
variabile ausiliaria x
2.4.2.2
Allocazione proporzionale
2.4.2.3
Allocazione proporzionale al totale della
variabile d’interesse
2.4.2.4
Allocazione proporzionale al totale della
variabile ausiliaria x
2.4.2.5
Allocazione esponenziale
2.4.2.6
Allocazione di compromesso
2.4.2.7
Allocazione basata su un modello di
superpopolazione
Allocazione multivariata e multidominio
Soluzioni di costo minimo
Soluzione di ottimo analoga al caso univariato
pag.
65
71
La costruzione di stime campionarie mediante l’uso di
variabili ausiliarie
3.1
Introduzione
3.2
Teoria statistica dello stimatore di regressione
generalizzato
3.2.1
Lo stimatore di regressione generalizzato
3.2.2
Espressioni alternative dello stimatore
88
90
90
94
94
96
97
97
98
99
100
101
101
103
105
105
105
105
108
pag.
3.3
3.4
3.4.1
3.4.2
3.4.3
3.5
3.6
3.6.1
3.6.2
3.6.3
3.7
Cap. 4
Stimatore di regressione generalizzata come caso
particolare dello stimatore di calibrazione
Concetti sottostanti lo stimatore di regressione
generalizzato
Gruppo di riferimento del modello
Livello del modello
Tipo di modello
Stima della varianza di campionamento e criterio di
scelta delle variabili ausiliarie
Stimatore di regressione generalizzata sotto diversi
disegni di campionamento
Campionamento casuale semplice senza
reimmissione
Campionamento stratificato
Campionamento stratificato a grappoli
Software per l’applicazione di metodi di stima
lineare
Il trattamento delle mancate risposte totali nelle indagini
complesse
4.1
Introduzione
4.2
Diversi aspetti connessi al problema delle mancate
risposte
4.2.1
Premessa
4.2.2
Cause ed effetti delle mancate risposte
4.2.3
Strumenti per la riduzione della distorsione
4.2.3.1
Prevenzione della mancata risposta
4.2.3.2
Disegni di rilevazione che prevedono un
ritorno sulle unità non rispondenti
4.2.3.3
Trattamento dei dati per tenere conto
della mancata risposta
4.2.4
Documentazione
4.3
Trattamento delle mancate risposte mediante la
costruzione di pesi campionati
4.3.1
Premessa
4.3.2
Modellizzazione esplicita
4.3.2.1
Definizione delle celle di ponderazione
4.3.2.2
Scelta a priori
4.3.2.3
Tecniche basate su modelli logit o probit
4.3.2.4
Tecniche basate su modelli di
regressione non parametrica
4.3.3
Modellizzazione implicita
4.3.3.1
Informazione ausiliaria disponibile per
l’intera popolazione
109
111
111
112
115
117
119
119
120
121
122
125
125
126
126
127
128
129
130
131
131
131
131
134
140
140
141
143
144
144
7
pag.
4.3.3.2
4.3.4
4.3.5
Informazione ausiliaria disponibile solo
per il campione
4.3.3.3
Informazione ausiliaria disponibile in
parte per il campione e in parte per
l’intera popolazione
Stima della varianza
Approfondimento delle condizioni che determinano
la distorsione dello stimatore di calibrazione
4.3.5.1
Espressione generale della distorsione
4.3.5.2
Condizioni che garantiscono l’assenza
di distorsione
4.3.5.3
Caso dello stimatore di calibrazione
ˆ con distanza non lineare
[12 ] Y
4.3.6
4.4
4.4.1
4.4.2
4.4.3
4.4.4
Criteri di scelta della strategia di stima
4.3.6.1
Criterio di variabilità
4.3.6.2
Criterio di riduzione della distorsione
Brevi cenni all’esperienza delle indagini condotte
nell’ambito della statistica ufficiale
Premessa
Indagini sulle famiglie
Indagini sulle imprese
Indagini sulle aziende agricole
Riferimenti bibliografici
8
146
146
150
152
152
155
156
158
158
159
163
163
163
165
166
173
INTRODUZIONE
Le attività connesse al monitoraggio e alla valutazione delle politiche
richiedono dati in grado di assicurare una qualità elevata dell’informazione,
declinata secondo i diversi aspetti che la caratterizzano (Brackstone, 1999;
Fortini, 2000). Tra questi assumono particolare importanza la rilevanza,
l’accuratezza e la tempestività.
La rilevanza indica la capacità dell'informazione di soddisfare le esigenze
conoscitive degli utenti dei dati. Nel contesto delle attività di monitoraggio e
di valutazione delle politiche l’informazione prodotta deve essere in grado di
rispondere a diversi obiettivi conoscitivi, dal momento che l’impatto delle politiche si articola secondo numerosi aspetti. Nella pratica applicativa gli obiettivi sono molteplici e coincidenti spesso con sottogruppi della popolazione di
riferimento come ad esempio la componente giovanile della popolazione o
particolari segmenti a rischio di emarginazione. Su tali gruppi l’impatto di una
politica può essere differente anche in misura sensibile. Compito della ricerca è di rendere conto della misura di impatto per tutti i soggetti o i gruppi di
soggetti interessati.
L’accuratezza misura il grado di corrispondenza fra l’informazione utilizzata e il valore effettivo ma non noto, della caratteristica di interesse nella
popolazione studiata. Il livello di accuratezza coincide, nell’ambito delle indagini campionarie, con il grado di attendibilità statistica dei dati prodotti ed
è misurata tradizionalmente tramite indicatori di variabilità campionaria e di
distorsione.
La tempestività indica l’intervallo di tempo intercorrente fra il momento
della diffusione dell'informazione prodotta e il periodo di riferimento dei dati.
In particolare la tempestività del monitoraggio di una politica permette di
intervenire in modo efficace modificando in corso d’opera gli interventi programmati.
L’attività di monitoraggio e di valutazione delle politiche riguarda spesso
provvedimenti specifici e richiede informazioni capillari sull’attuazione delle
9
INTRODUZIONE
norme, informazioni generalmente non ricavabili, con il richiesto livello di
dettaglio, da fonti statistiche correnti derivanti sia da indagini campionarie
che da dati di natura amministrativa. Per ottenere i dati utili alle attività di
monitoraggio e di valutazione è necessario quindi condurre specifiche indagini campionarie in grado di produrre l’informazione richiesta con il grado di
accuratezza e il livello di dettaglio necessari.
La progettazione e l’implementazione di tali indagini è un’operazione che
presenta diversi aspetti di complessità, legati essenzialmente alla natura
multidimensionale dei fenomeni da indagare. Le rilevazioni necessarie a
produrre informazioni sulle modalità di attuazione di un provvedimento o
sulla misura di impatto di una riforma del mercato del lavoro perseguono
generalmente obiettivi multipli spesso in contrasto tra di loro, nel senso che
le scelte che risultano ottime per un determinato obiettivo spesso sono molto
poco efficienti nel raggiungimento di obiettivi differenti, rendendo le dimensioni della qualità spesso in conflitto tra loro.
La rilevanza di una indagine, espressa come capacità di indagare
fenomeni per loro natura multidimensionali, confligge con la tempestività.
Infatti la necessità di fornire stime attendibili per ciascuna delle sottopopolazioni di interesse porta a progettare rilevazioni basate su questionari
lunghi e articolati e su campioni di numerosità molto elevata. Tali aspetti
comportano un dilatazione dei tempi sia di progettazione che di esecuzione
dell’indagine, allungando l’intervallo tra la diffusione dei dati e il periodo di
riferimento dei fenomeni studiati.
L’accuratezza può confliggere con la rilevanza: il carattere multidimensionale dei fenomeni studiati definisce obiettivi differenti rispetto ai
quali la progettazione dell’indagine prevede soluzioni spesso in conflitto tra
loro.
Anche l’accuratezza e la tempestività sono dimensioni della qualità
spesso in conflitto: l’accuratezza di una indagine implica una elevata
numerosità campionaria e un trattamento sofisticato dei dati, mentre un dato
tempestivo è generalmente ottenuto tramite indagini di piccole dimensioni e
con un trattamento molto semplificato dei dati.
Il livello di complessità presentato da indagini campionarie condotte a fini
di monitoraggio e di valutazione delle politiche necessita perciò di adeguati
strumenti metodologici, che permettano di affrontare in modo rigoroso le
questioni sopra richiamate, minimizzando i costi e ottimizzando i parametri di
qualità.
Il presente volume approfondisce alcuni aspetti specifici legati alla
progettazione delle indagini campionarie volte a studiare aspetti di natura
socio-economica, e orientate sia ad imprese che a famiglie. Il libro si articola
in due parti: la prima parte è dedicata alle problematiche connesse alla
definizione del disegno di campionamento; la seconda parte tratta gli aspetti
connessi alla produzione delle stime campionarie, collocandosi nel contesto
di un sistema informativo complesso in cui le stime prodotte dall’indagine
10
INTRODUZIONE
sono supportate da un sistema integrato di dati provenienti da diverse fonti,
sia statistiche che amministrative.
In particolare la prima parte è composta di due contributi, il primo dei
quali affronta in modo introduttivo il problema della determinazione della
numerosità campionaria negli strati, noto come problema di allocazione,
evidenziando i problemi connessi alla molteplicità degli obiettivi conoscitivi
dell’indagine. In particolare si esamina il caso in cui l’indagine deve produrre
stime affidabili per l’intera popolazione e per domini di studio coincidenti con
gli strati del campione. I due obiettivi conducono a soluzioni ottimali differenti
e in contrasto tra loro: si esaminano quindi le due soluzioni ottenute e si
propone un criterio di compromesso che consente di rispondere a entrambi
gli obiettivi, controllando in modo opportuno la perdita di efficienza rispetto
alle soluzioni ottimali. La trattazione è limitata al caso della stima di proporzioni e all’utilizzo di disegni campionari semplici o stratificati. Il secondo
lavoro generalizza quanto esposto nel capitolo precedente, tenendo conto di
diversi aspetti di cui tener conto, in modo integrato, nella fase di progettazione di un’indagine:
• il tipo di parametro di popolazione che si intende stimare. La soluzione
ottima nel caso in cui si debba stimare il totale di una determinata
variabile può essere differente dalle soluzioni relative ai casi in cui si
intenda stimare un indice dei prezzi o il rapporto tra i totali della stessa
variabile riferiti a due differenti istanti temporali;
• il disegno di campionamento adottato. Il campionamento stratificato può
essere realizzato mediante differenti schemi probabilistici di selezione
delle unità negli strati;
• l’approccio usato per l’inferenza. Il calcolo delle stime di un’indagine può
essere realizzato basandosi su differenti approcci all’inferenza: l’approccio classico del campionamento da popolazioni finite, l’approccio
predittivo o l’approccio assistito da modello;
• la tipologia di informazione disponibile al momento della progettazione
dell’indagine. La soluzione ottima è strettamente dipendente dal contesto informativo in base al quale l’indagine viene progettata. Ad esempio
si possono conoscere le varianze a livello di strato, o come caso estremo può essere noto unicamente il numero di unità della popolazione a
livello di strato.
La seconda parte del volume si compone di due contributi, nel primo dei
quali vengono descritte le principali caratteristiche statistiche dello stimatore
di regressione generalizzata che consente di produrre stime campionarie
caratterizzate da buone proprietà statistiche e operative che si possono sintetizzare nei seguenti punti:
• flessibilità e facilità operativa. Le stime dei parametri di interesse vengono, infatti, ottenute ponderando ciascuna unità inclusa nel campione con
un peso (detto anche coefficiente di riporto all’universo) che dal punto di
vista logico può essere visto come il numero delle unità della popolazione oggetto di studio rappresentate dall’unità osservata nell’indagine;
11
INTRODUZIONE
•
efficienza. Le stime prodotte sono in genere contraddistinte da una variabilità di campionamento minore rispetto a quella ottenibile da metodi
di stima più tradizionali;
• coerenza dell’informazione diffusa. Le stime campionarie possono,
infatti, riprodurre la struttura della popolazione di interesse nota da fonti
esterne.
Un parte del lavoro è dedicata all’illustrazione di un software generalizzato, implementato sul pacchetto SPSS, per l'applicazione di metodi di
stima lineare ad una qualsiasi banca dati.
L’ultimo lavoro presentato tratta in profondità gli aspetti connessi al trattamento delle mancate risposte. Tale argomento è particolarmente delicato
nel contesto delle rilevazioni socio-economiche: trascurare il problema del
trattamento delle mancate risposte, diffondendo basi di dati con informazioni
mancanti o incomplete, potrebbe introdurre forti distorsioni nella stima di
parametri rilevanti ai fini dell'analisi statistica. In particolare, i dati economici
possono presentare delle caratteristiche che rendono, per certi aspetti, critico il trattamento dei dati mancanti. Ad esempio, la distribuzione di importanti
variabili d’indagine può essere asimmetrica, per cui ignorare anche poche
osservazioni, basando le analisi solo sulle unità osservate, potrebbe introdurre una forte distorsione sulle stime, dal momento che i rispondenti (e i
non rispondenti) raramente costituiscono un sottoinsieme casuale dell'intero
campione.
L’attenzione è posta essenzialmente sul problema della mancata risposta
totale nel contesto delle indagini campionarie sulle famiglie e sulle imprese,
condotte nell’ambito della statistica ufficiale. Questo tema può essere
approfondito sotto vari aspetti quali: (i) le cause, (ii) gli effetti, (iii) i metodi per
la prevenzione, (iv) il trattamento statistico successivo alla fase di raccolta
dei dati, (v) la documentazione degli effetti delle mancate risposte sulla
qualità dell’indagine. In questo lavoro l’attenzione è focalizzata al tema del
trattamento e della correzione delle mancate risposte attraverso la costruzione dei pesi campionari.
Il volume nasce nell’ambito dell’attività dell’Ufficio Statistico e dell’Area
Analisi e Valutazione delle Politiche per l’Occupazione dell’Isfol e ripercorre
le metodologie utilizzate e sviluppate, nel corso degli ultimi anni, nel quadro
del supporto metodologico fornito dall’Ufficio Statistico al disegno e alla
progettazione delle indagini campionarie attivate dall’Istituto.
I curatori del volume sono Marco Centra, attualmente coordinatore
dell’Area Analisi e Valutazione delle Politiche per l’Occupazione dell’Isfol e
responsabile dell’Ufficio Statistico dell’Isfol dal 2004 al 2006 e Piero
Demetrio Falorsi, dirigente dell’Istat, che ha collaborato, in qualità di consulente, alle attività dell’Ufficio Statistico e dell’Area Analisi e Valutazione
delle Politiche per l’Occupazione dell’Isfol.
12
INTRODUZIONE AL
PROBLEMA
DELL’ALLOCAZIONE
DEL CAMPIONE*
1.1 Introduzione
La progettazione e l’implementazione di un’indagine campionaria, di tipo
probabilistico o ragionato, è un’operazione articolata in vari passi, ciascuno
dei quali definisce le condizioni delle scelte da considerare nei passi successivi e presenta diversi aspetti di complessità. Tale complessità è essenzialmente legata alla natura multidimensionale dei fenomeni da indagare, il che
ha come conseguenza il fatto che le indagini perseguono obiettivi multipli
spesso in contrasto tra di loro, nel senso che le scelte che risultano ottime
per un determinato obiettivo spesso sono molto poco efficienti nel
raggiungimento di obiettivi differenti.
Uno dei passi più importanti è quello connesso alla definizione della strategia di stratificazione. Per introdurre questa tematica è opportuno considerare
che le informazioni desunte dalle indagini di campo, rivolte sia alle imprese
che alle famiglie, sono generalmente legate ad alcune caratteristiche
strutturali delle unità campionarie. Ad esempio, nelle indagini sulle imprese
le variabili strutturali sono tipicamente individuate in base all’attività economica o alla classe dimensionale delle aziende. Per tenere conto di queste
caratteristiche, le indagini campionarie, condotte su un particolare fenomeno, tendono a suddividere le unità della popolazione da indagare in strati
– ciascuno dei quali è costituito da un particolare sottoinsieme di unità aventi
specifiche caratteristiche strutturali – e ad osservare un campione di unità in
ciascuno strato.
La stratificazione consente di migliorare la qualità delle stime prodotte da
un’indagine in molti modi. Generalmente viene sfruttato il legame tra le
caratteristiche di statificazione e la caratteristica oggetto di stima: una maggiore omogeneità della variabile stimata in un singolo strato tende a rendere
*
Di Marco Centra.
13
CAPITOLO 1
più efficiente la stima a parità di numerosità campionaria, rispetto ad un
campione casuale non stratificato. Oltre a migliorare, anche sensibilmente,
l’attendibilità delle stime, il disegno stratificato permette di predeterminare
nella fase di disegno il livello fiduciario delle stime prodotte.
Una strategia di stratificazione è caratterizzata di diversi aspetti, di cui i due
più importanti sono:
• la definizione del criterio di stratificazione;
• la determinazione del numero di unità da campionare in ciascuno strato.
Quando il numero totale di unità da rilevare nell’intera indagine è fissato
a priori – in genere in base a vincoli di costo – la determinazione della
numerosità campionaria in ciascuno strato definisce un problema di
allocazione di una numerosità totale prefissata.
La definizione del criterio di stratificazione è un aspetto piuttosto complesso
per vari ordini di motivi; qui di seguito se n’elencano i due più importanti.
• Le variabili di stratificazione devono essere disponibili per tutte le unità
della popolazione. In molte situazioni concrete le variabili che sarebbero
utili per la stratificazione non sono disponibili nell’archivio di selezione e,
in tal caso, la stratificazione viene basata su variabili correlate a quelle
ideali per la stratificazione ma che rappresentano solo un’approssimazione di queste ultime. Il contesto delle indagini sulle imprese si presenta, comunque, diverso da quello delle indagini sulle famiglie. Nelle indagini sulle imprese è disponibile, presso l’Istituto nazionale di statistica,
l’Archivio Statistico delle Imprese Attive (denominato ASIA). Da tale archivio sono selezionati i campioni della maggior parte delle indagini condotte dall’ISTAT e dal SISTAN caratterizzanti il sistema informativo della
statistica ufficiale. In ASIA sono disponibili come variabili di stratificazione: il codice NACE di attività economica, il numero di addetti, la forma
giuridica, ecc. Nelle indagini sulle famiglie non si dispone di un registro
unico nazionale. Le anagrafi, infatti, risultano disponibili solo a livello
locale; pertanto, nel primo stadio di campionamento, la popolazione può
essere stratificata solo in base a variabili di tipo geografico come, ad
esempio, la regione, la provincia, la tipologia di comune, ecc.
• La natura multidimensionale del fenomeno da indagare implica che le
indagini condotte su larga scala hanno obiettivi multipli. Ciò comporta
che variabili di stratificazione utili per un obiettivo conoscitivo possono
non essere tali quando si considera un obiettivo differente. D’altra parte,
il problema non può essere risolto aumentando le variabili di stratificazione dal momento che nei casi concreti ciò implicherebbe la definizione
di un numero troppo elevato di strati. Per ottenere stime corrette, in ciascuno strato deve essere selezionato un campione composto di almeno
un’unità; nel caso in cui si voglia ottenere una stima corretta della
varianza la dimensione minima del campione è di almeno due unità in
ciascuno strato. Ciò può comportare la definizione di una numerosità
campionaria troppo elevata, non sostenibile con le risorse assegnate
all’indagine.
14
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
Come vedremo meglio nel corso di questo lavoro, la soluzione del problema
di allocazione della numerosità campionaria negli strati presenta notevoli
elementi di difficoltà, principalmente connessi alla natura multi obbiettivo
delle indagini concrete.
Una trattazione sistematica e completa dei vari aspetti connessi alla definizione della strategia di stratificazione esula dalle possibilità di questo lavoro; in questa sede ci si limiterà a trattare, relativamente a un caso semplificato, il problema dell’allocazione, evidenziando i problemi connessi alla
molteplicità degli obiettivi conoscitivi dell’indagine. In particolare si esaminerà il caso in cui l’indagine deve produrre stime affidabili
• per l’intera popolazione oggetto d’indagine;
• per domini di studio coincidenti, nel caso in esame, con gli strati del
campione.
Come si vedrà in seguito i due obiettivi conducono a soluzioni ottimali
differenti e in contrasto tra loro. Si esamineranno quindi le due soluzioni ottenute e si definirà successivamente un criterio di compromesso che consente di rispondere a entrambi gli obiettivi, controllando in modo opportuno
la perdita di efficienza rispetto alle soluzioni ottimali.
La trattazione è sviluppata relativamente al caso in cui il parametro oggetto
di stima è rappresentato da una generica frazione della popolazione; tale
parametro può riguardare, nel caso pratico, la quota di individui occupati con
un determinato tipo di contratto, o il numero di aziende che utilizzano un
particolare strumento di incentivo all’occupazione, ecc. Le medesime procedure qui esposte possono essere applicate anche alla stima di caratteristiche della popolazione di natura diversa, ad esempio la stima di una
media. Tuttavia nelle indagini effettuate nell’ambito dell’attività di monitoraggio o valutazione delle politiche per l’occupazione vengono utilizzate più
frequentemente stime di frequenze relative; si è quindi preferito, come accennato, limitare l’esposizione alla stima di una frequenza relativa della popolazione.
La trattazione è articolata nel modo seguente: il par. 1.2 illustra, nel caso
della stima di una proporzione, i fondamenti guidano il problema della determinazione della numerosità campionaria in un campione casuale semplice;
nel cap. 3 viene affrontato il problema dell’allocazione di un campione stratificato di numerosità data, tenendo conto dell’attendibilità delle stime negli
strati; infine viene accennata la formulazione del problema nel caso in cui i
domini di interesse non coincidano con gli strati ma con loro aggregazioni.
Il lavoro affronta aspetti specifici delle tecniche di campionamento, pertanto,
si è evitato di riportare le nozioni basilari dell’inferenza e della teoria del
campionamento, che sono date per acquisite.
1.2 Relazione tra errore delle stime e numerosità campionaria
Un primo risultato necessario alla trattazione successiva riguarda la
relazione funzionale tra l’errore campionario e la numerosità del campione. Il
15
CAPITOLO 1
problema prevede la stima, tramite un campione casuale semplice, di un
parametro P, riferito ad una generica frazione di una caratteristica in una
popolazione finita, in modo che l’errore relativo dovuto al campionamento
non sia superiore, in modulo, ad un livello fissato, con una probabilità data.
Per illustrare formalmente tale problema, si indichi con U la popolazione di
interesse costituita da N unità e si denoti con yk il valore di una variabile
dicotomica che assume il valore 1 se l’unità k (k=1,...,N) presenta una
determinata caratteristica di interesse e il valore 0 altrimenti. Ad esempio, se
la caratteristica d’interesse riguarda la condizione lavorativa e il parametro di
interesse coincide con la proporzione di occupati nella popolazione, la
variabile yk assume valore 1 se l’individuo k è occupato e assume valore 0
altrimenti.
Il parametro di interesse è dato da
P=
1 N
∑ yk .
N k =1
Si supponga di aver selezionato dalla popolazione U un campione casuale
semplice s, di dimensione n, senza reimmissione e con probabilità di
estrazione uguali. La sima campionaria di P è data dalla proporzione, p,
osservata nel campione, essendo
p=
1 n
∑ yk .
n k =1
Utilizzando un risultato standard della teoria del campionamento da
popolazioni finite, la varianza V ( p ) della stima p nell’universo dei campioni
è data da
N −n
V ( p) =
Nn
N
∑ ( yk − P) 2 =
k =1
N −n
P (1 − P )
Nn
(1)
Lo stimatore p, per n sufficientemente grande, ha, sullo spazio dei campioni,
distribuzione normale con media P e varianza V ( p )
p ~ N [P, V ( p )] .
Pertanto, la variabile trasformata
z=
p−P
V ( p)
.
è distribuita come una normale standardizzata di media 0 e varianza 1
z ~ N (0, 1) .
16
(2)
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
L’intervallo di confidenza della stima p, al livello di probabilità (1- α ) è dato
da
p ± z1−α / 2 V ( p )
dove z1−α / 2 rappresenta il percentile della variabile normale standardizzata corrispondente ad un livello di probabilità pari a 1 − α ; ad esempio, fissando un livello di fiducia (1 − α ) pari a 0,95, il percentile assume valore
1,96.
Il problema che si vuole risolvere è quello di determinare la numerosità
campionaria n tale che il valore del parametro di interesse nella popolazione
P e la sua stima campionaria p non differiscano, in valore relativo, oltre una
soglia fissata ε , con probabilità pari a 1 − α , ossia
⎡ p−P
⎤
Pr ⎢
≤ ε⎥ =1−α .
⎣ P
⎦
(3)
Utilizzando le relazioni (2) e (3), si ottiene:
⎡ V ( p ) ⋅ z1−α / 2
⎤
≤ ε⎥ = 1−α .
Pr ⎢
P
⎥⎦
⎣⎢
Nel seguito, la quantità
La (4) è soddisfatta se:
ε
(4)
verrà denominata con errore relativo della stima p.
V ( p ) ⋅ z1−α / 2
≤ ε.
P
(5)
Elevando entrambi i termini della (5) al quadrato ed esplicitando l’espressione della varianza di p, data dalla (1), la precedente espressione può
essere riformulata come
1
P
2
⋅
(N − n ) ⋅ P(1 − P ) ⋅ z 2
N ⋅n
1−α / 2
≤ ε2.
Esplicitando la disequazione rispetto al termine n si ottiene
n≥
z12−α / 2 ⋅ (1 − P ) ⋅ N
ε 2 ⋅ N ⋅ P + z12−α / 2 ⋅ (1 − P )
.
La precedente disequazione può essere espressa rispetto al valore più
basso che la soddisfa:
17
CAPITOLO 1
n=
z12−α / 2 ⋅ (1 − P ) ⋅ N
ε 2 ⋅ N ⋅ P + z12−α / 2 ⋅ (1 − P )
.
(6)
La (6), che definisce la numerosità campionaria minima necessaria per
soddisfare la (3), mostra che la numerosità del campione aumenta al diminuire dell’errore relativo massimo ammesso. La (6) rende inoltre esplicita la
relazione tra la numerosità campionaria e il valore del parametro oggetto di
stima: a parità dell’errore relativo ε , la numerosità del campione aumenta al
diminuire del valore di P nella popolazione. Tali evidenze non fanno che
confermare che per ottenere una maggiore precisione delle stime occorre
aumentare il campione e che per stimare una caratteristica rara nella popolazione è necessaria una numerosità campionaria più elevata. Il legame funzionale tra la dimensione campionaria e il livello di precisione delle stime,
riportato dalla (6), si renderà necessario nella trattazione successiva per
l’analisi di alcuni aspetti dell’allocazione nel campionamento stratificato.
Introducendo nella (6), la seguente quantità
K = z12−α / 2 ⋅ P (1 − P )
(7)
è possibile esprimere la stessa in forma compatta:
n=
K⋅N
.
ε ⋅ P2 ⋅ N + K
2
(8)
Per la trattazione successiva è opportuno esprimere la precedente relazione
2
esplicitandola rispetto ad ε :
ε2 =
K ⋅ (N − n )
.
N ⋅ n ⋅ P2
(8b)
1.3 Allocazione del campione nel campionamento stratificato
Di seguito verrà affrontato il problema dell’allocazione di un campione di
numerosità fissata pari ad n in un contesto di seguito definito.
L’indagine adotta un disegno di campionamento di tipo stratificato ed è
finalizzata alla stima della frequenza relativa di una generica caratteristica di
interesse riferita sia all’intera popolazione che a ciascuno degli strati in cui la
popolazione è suddivisa.
Al fine di illustrare formalmente il problema trattato, si denoti con U la
popolazione di interesse, composta da N unità. Si supponga inoltre che essa
sia partizionata in H strati e si denoti con U h (h=1,…,H) la popolazione del
generico strato composta da N h unità, essendo
18
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
H
H
U≡
U Uh ;
N=
h =1
∑ Nh .
h =1
I parametri oggetto di stima sono H+1, costituiti dalle proporzioni, Ph
(h=1,…,H), della variabile di interesse nei singoli strati e dalla proporzione
della medesima variabile nell’intera popolazione, essendo:
N
1 h
Ph =
∑ yk ;
N h k =1
(9)
N
H
N
1 H h
P=
y k = ∑ h Ph .
∑
∑
N h =1k =1
N
h =1
(10)
Si supponga di aver selezionato un campione stratificato con selezione
senza reimmissione e probabilità di estrazione uguale negli strati. La dimensione campionaria in ciascuno strato è indicata con nh , dove:
n=
H
∑ nh
(11)
h =1
Sotto il disegno di campionamento sopra definito, le stime degli (H+1)
parametri di interesse Ph (h=1,…,H) e P e sono date rispettivamente da
n
ph =
p=
1 h
∑ yk ,
nh i =1
H
∑ ph
(12)
Nh
.
N
(13)
h =1
Le varianze delle stime suddette sono pari rispettivamente a:
V ( ph ) =
N h − nh
Ph (1 − Ph )
( N h − 1) nh
H
2
⎛ Nh ⎞
⎜
⎟ V ( ph )
STV ( p ) =
N ⎠
h =1⎝
∑
(14)
(15)
Il problema da risolvere riguarda l’allocazione del campione negli H strati,
vale a dire il criterio con cui si determinano le dimensioni campionarie nh in
ciascuno strato, nel rispetto vincolo definito dalla (11).
19
CAPITOLO 1
Al fine di studiare l’effetto di scelte allocative differenti sulla variabilità della
stima p, è utile introdurre la statistica
V ( p)
deff = ST
,
V ( p)
(16)
definita come rapporto tra la varianza del campione stratificato e quella del
campione casuale semplice di pari numerosità. Nel contesto in esame, la
statistica (16), nota anche come effetto del disegno di campionamento,
esprime l’impatto sulla precisione delle stime dovuto all’introduzione di un disegno di campionamento stratificato.
Nel caso in cui si abbia deff > 1 , la strategia di stratificazione adottata –
denotando con questo termine la coppia individuata dal regola di stratificazione e dal criterio di allocazione – è una scelta poco efficiente per
quanto riguarda la stima della proporzione P, in quanto provoca un aumento
della variabilità e una conseguente diminuzione della precisione della stima
stessa rispetto al campionamento casuale semplice.
Nel caso in cui si abbia deff ≤ 1 , la strategia di stratificazione è una scelta
efficiente per la stima della proporzione P, in quanto aumenta la precisione
della stima della proporzione.
Di seguito saranno presi in considerazione tre differenti modelli di allocazione del campione negli strati: (i) l’allocazione proporzionale, (ii) l’allocazione che impone uno stesso errore della stima negli strati e, infine, (iii) un
modello alternativo in grado di bilanciare, in un’ottica di compromesso, i vantaggi e gli svantaggi dei modelli precedenti.
1.3.1
Allocazione proporzionale
Il metodo proporzionale di allocazione del campione negli strati è un caso
particolare del modello di allocazione ottima, o di Neyman (Cicchitelli,
Herzel, Montanari, 1991).
L’allocazione ottima prevede che la numerosità del campione in ciascuno
strato sia proporzionale alla numerosità della popolazione nello strato corrispondente, ponderata con una misura della variabilità della caratteristica
oggetto di stima. Indicando con Sh la deviazione standard della caratteristica
di interesse nello strato h, l’allocazione ottima, dato n, è definita:
N h ⋅ Sh
NE nh = n ⋅ H
.
(17)
∑ N h ⋅ Sh
h =1
Nel contesto che si sta trattando, relativo alla stima della proporzione P, si
ha
S h = Ph (1 − Ph ) .
20
(18)
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
In tal modo la (17) può essere riformulata nel modo seguente:
NE nh
= n⋅
N h ⋅ Ph (1 − Ph )
H
∑ Nh ⋅
h =1
.
(19)
Ph (1 − Ph )
Rimandando alle fonti bibliografiche per una trattazione esaustiva
dell’allocazione di Neyman, ci limitiamo qui a ricordare che l’idea che
sottende al modello dell’allocazione ottima prevede che sia aumentata la
numerosità del campione negli strati caratterizzati un elevato valore: (i) del
numero N h di elementi nella popolazione; (ii) della variabilità del parametro
oggetto di stima, espressa da
Ph (1 − Ph ) .
Il modello di Neyman pone alcune difficoltà applicative, riconducibili, in estrema sintesi, al fatto che generalmente le quantità S h non sono note e, nella
pratica, vengono approssimate da stime già disponibili o ricavate con metodi
indiretti. Se le quantità utilizzate per stimare le deviazioni standard negli strati della popolazione si discostano in maniera sensibile dal valore reale si otterrà un risultato, in termini di efficienza dell’allocazione, inferiore a quello
ottimale.
Un’alternativa percorribile è quella di ipotizzare l’uguaglianza dei valori
S h negli strati, ottenendo un’allocazione del campione di numerosità n
proporzionale a quella osservata nella popolazione.
_
Posto: S h = S ∀ h , la (17) diviene:
_
[
PR nh
= n⋅
]
Nh ⋅ S
H
_
∑ Nh S
= n⋅
Nh
.
N
(20)
h =1
_
Nel contesto in esame la condizione S h = S ∀ h equivale a porre:
[
]
S h = Ph (1 − Ph ) = P (1 − P ) .
La (20) è detta allocazione proporzionale.
Oltre alla elevata facilità di applicazione, sussistono ulteriori motivi che inducono a preferire, nella pratica, l’allocazione proporzionale a quella di
Neyman.
Al fine di comprendere la relazione tra l’allocazione di Neyman e quella proporzionale, si consideri che nella fase di progettazione del disegno di
21
CAPITOLO 1
campionamento i valori Ph possono essere determinati in base alle stime
derivanti da indagini precedenti. Tali stime sono spesso caratterizzate da
alta variabilità e risultare non attendibili. In questo quadro, per garantire la
robustezza della soluzione individuata, la soluzione ragionevole è quella di
ipotizzare un valore costante negli strati della proporzione Ph . Nei casi concreti considerati nelle indagini su larga scala, i valori delle proporzioni per
strato Ph non variano in modo sensibile tra gli strati ma si distribuiscono in
modo piuttosto addensato intorno al valore della proporzione per l’intera
popolazione che ne costituisce peraltro la media ponderata.
Per tali ragioni è lecito utilizzare l’ipotesi semplificatrice
Ph ≅ P, (h = 1,..., H ) .
Inoltre, confronti effettuati tra la varianza delle stime ottenute con campioni
stratificati secondo l’allocazione ottima e campioni con allocazione proporzionale, hanno evidenziato che per ottenere riduzioni apprezzabili della
varianza, passando dall’allocazione proporzionale a quella ottima, sia necessaria una elevata variabilità dei valori Ph . Pertanto, in molti casi concreti,
l’allocazione proporzionale risulta essere una buona approssimazione di
quella ottima.
Una importante proprietà dell’allocazione proporzionale è quella per cui
quando Ph ≅ P (h=1,…,H), la varianza del campione stratificato, relativamente alla stima p, è uguale a quella del campione casuale semplice. Si ha
infatti:
STV ( p ) =
≅
2
H
P (1 − P ) ⋅ ( N − n ) ⎛ N ⎞
∑ h Nh ⋅ nh PR h ⎜⎝ Nh ⎟⎠ ≅
h PR h
h =1
2
H
P(1 − P ) ⋅ ( N h − PR nh ) ⎛ N h ⎞
⎜
⎟ =
∑
N
⋅
n
N
⎝
⎠
h
PR
h
h =1
Nh
2
)
N ⎛⎜ N h ⎞⎟ = P(1 − P ) (N − n ) = V ( p ) . (21)
=∑
N
nN
⎝ N ⎠
h =1
Nh ⋅ n h
N
Nel contesto che si sta considerando, in cui Ph ≅ P (h=1,…,H), si possono
H
P(1 − P ) ⋅ ( N h − n
evidenziare i seguenti aspetti:
• l’allocazione ottima corrisponde a quella proporzionale;
• il campione casuale semplice ha una varianza di campionamento uguale
a quella campionamento stratificato ottimo;
• qualsiasi regola di allocazione differente da quella proporzionale
22
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
comporta una varianza di campionamento più elevata rispetto a quella
del campionamento casuale semplice;
• il valore della statistica deff assume un valore sempre superiore ad 1 ed
è pari ad 1 solo nel caso in cui si adotti il criterio di allocazione
proporzionale.
Vale la pena ribadire che nel caso generale in cui le proporzioni per strato
Ph siano differenti tra loro, la statistica deff può assumere anche valori
inferiori ad 1.
Il contesto descritto in precedenza prevede che l’interesse sia focalizzato,
oltre che sulla stima del parametro P riferito all’intera popolazione, anche
alla stima dello stesso parametro all’interno degli strati. L’allocazione
proporzionale, pur presentando aspetti positivi sulle stime riferite all’intera
popolazione, non permette di controllare la precisione delle stime negli strati.
Tale precisione, infatti, può variare anche in misura sensibile. Per esplicitare
quest’ultimo aspetto si denoti con
ε h2 = zα2
V ( ph )
Ph2
(22)
l’errore relativo dello stimatore p h nello strato h.
Sotto l’ipotesi che il valore della proporzione d’interesse sia uguale negli
strati, Ph ≅ P ∀ h , la (22) può essere riformulata nel modo seguente
[
]
N ⎞
⎛
K ⋅ ⎜ Nh − n h ⎟
N − nh P (1 − P )
N ⎠ K ⋅ (N − n )
⎝
. (23)
=
=
ε h2 = zα2 ⋅ h
2
N
N h nh
P
Nh ⋅ n ⋅ P2
Nh ⋅ n h ⋅ P2
N
La (23) indica che l’errore campionario commesso nella stima di un
medesimo valore del parametro negli strati della popolazione aumenta al
diminuire del valore assoluto della popolazione nello strato. Vale a dire che
se il parametro Ph in due strati differenti assume lo stesso valore, la precisione delle stime corrispondenti dipende dalla numerosità della popolazione
nello strato; ciò si traduce nell’impossibilità di assicurare la medesima precisione a stime di parametri che presentano uguale valore tra due strati della
popolazione. Ad esempio, nelle indagini dove un campione rappresentativo
della popolazione nazionale è stratificato per regione e allocato proporzionalmente, è frequente il caso in cui stime di proporzioni approssimativamente uguali, riferite a regioni dove la popolazione è poco numerosa, risultano
molto meno precise rispetto alle stime relative alle regioni più popolate.
Nella pratica delle indagini campionarie di numerosità data, dove è frequente
la presenza di strati in cui la popolazione è poco numerosa, si opera
sovracampionando gli strati poco numerosi a scapito degli strati dove le
quantità N h sono più elevate. In questo caso ci si allontana dall’allocazione
23
CAPITOLO 1
proporzionale, rinunciando progressivamente alle proprietà positive di tale
disegno. In particolare l’effetto del disegno, misurato dalla statistica deff (16),
sarà tanto più elevato quanto l’allocazione che prevede un sovracampionamento si discosta dall’allocazione proporzionale. In tale ottica, l’allocazione di un campione di numerosità fissata negli strati diviene un problema complesso, dove è necessario ottimizzare due obiettivi contrapposti:
da un lato l’allocazione proporzionale del campione garantisce l’efficienza
massima della stima riferita all’intera popolazione; dall’altro, se l’indagine
prevede di fornire stime disaggregate per strato, è necessario abbandonare
il disegno proporzionale per garantire la stessa precisione delle stime relative agli strati.
Di seguito viene definito un metodo per allocare il campione di numerosità
fissata in modo che la precisione dello stimatore sia uguale in ciascuno
strato: l’allocazione così definita permette di raggiungere uno dei due
obiettivi, vale a dire la massima omogeneità della precisione delle stime tra
gli strati, ottenuta al prezzo di rinunciare al disegno proporzionale e di
rendere meno efficiente lo stimatore riferito all’intera popolazione. Più avanti
verrà definita un’allocazione di compromesso tra le due soluzioni proposte,
secondo un metodo che permette di controllare aspetti positivi ed elementi
critici delle due soluzioni.
1.3.2
Allocazione con medesimo errore negli strati
In questo paragrafo sarà definita un’allocazione del campione, di numerosità
fissata, in modo che la precisione dello stimatore, misurata tramite l’errore
relativo, sia uguale in tutti gli strati.
Analogamente a quanto fatto per il campione casuale semplice, è possibile
definire la numerosità campionaria in ciascuno strato, UG nh , in funzione
2
dell’errore massimo ammesso in ogni strato. Posto UG ε l’errore relativo
massimo ammesso, uguale per tutti gli strati, si ottiene che la numerosità
campionaria dello strato h, UG nh (h=1,…,h), deve soddisfare il seguente
sistema di (H+1) equazioni
⎧ 1 (N h − nh ) ⋅ Ph (1 − Ph ) 2
⋅ z1−α / 2 = UG ε 2 ( h = 1,..., H )
⎪ 2⋅
N h ⋅ nh
⎪ Ph
⎨H
⎪
n =n
⎪ UG h
⎩h =1
∑
(24)
La (24) definisce un sistema implicito di (H+1) equazioni così caratterizzato:
− vi sono (H+1) incognite: le H numerosità campionarie UG nh (h=1,…,H)
2
e l’errore massimo atteso UG ε ;
24
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
−
i termini noti sono n, N h (h=1,…,H) e Ph (h=1,…,H).
Nel caso in cui valgono le condizioni:
N h ≅ N / H = N (h=1,…,H) (ossia le dimensioni degli strati, espresse
in termini di numero di unità, siano approssimativamente costanti).
− Ph ≅ P (h=1,…,H),
−
le numerosità UG nh vengono ottenuta mediante la semplice relazione
2
UG nh =n/H (h=1,…,H) e l’errore UG ε è definito come
UG ε
2
=
1
P
2
⋅
H (N − n ) ⋅ P (1 − P ) 2
⋅ z1−α / 2
N ⋅n
In tutte le altre situazioni, in cui non valgono le condizioni semplificatrici
2
precedenti, le H numerosità UG nh (h=1,…,H) e il valore UG ε sono
determinati risolvendo il sistema (24) in modo iterativo mediante il metodo
delle tangenti di curva. I passi computazionali necessari alla risoluzione del
sistema (24) sono illustrati nell’appendice 1. Sotto l’ipotesi che Ph ≅ P ,
(h=1,…,H), si ottiene l’espressione delle numerosità in ciascuno strato
UG nh
=
Nh
t ⋅ Nh + 1
(25)
dove il parametro t, pari a
ε 2 ⋅ P2
UG
,
t=
K
viene ricavato tramite la procedura iterativa riportata in appendice.
Un aspetto particolarmente interessante del criterio di allocazione
proporzionale è che, quando si ha Ph ≅ P (h=1,…,H), la numerosità
UG nh , non dipende dal valore del parametro P nella popolazione, né dal
livello di confidenza 1 − α : ciò risulta evidente osservando che in nessuna
delle due espressioni, riportate in appendice, che definiscono l’allocazione
uguale, la (A.3) e la (A.12), sono presenti i parametri P e α .
Le implicazioni di tale risultato assumono particolare rilevanza nella
determinazione della soluzione del problema dell'allocazione del campione,
dal momento che è sufficiente individuare una sola allocazione in grado di
assicurare che l'errore campionario commesso nella stima del parametro P
sia uguale in tutti gli strati per qualsiasi valore del parametro stesso e
indipendentemente dal livello di significatività richiesto.
L’allocazione trovata si discosta dall’allocazione proporzionale che presenta,
come rilevato in precedenza, un effetto del disegno pari a 1. Pertanto la
25
CAPITOLO 1
precisione dello stimatore p nel disegno che assicura l’omogeneità dell’errore relativo negli strati è inevitabilmente inferiore a quella dell’allocazione
proporzionale. La misura dello scostamento è ricavabile tramite la statistica
deff, per definire la quale è necessario conoscere la varianza dello stimatore
p, sotto il criterio di allocazione proposto.
Sotto l’ipotesi Ph ≅ P (h=1,…,H), la varianza dello stimatore p con
l’allocazione uguale è pari a:
UGV ( p ) =
P ⋅ (1 − P ) ⋅ ( N h −UG nh ) N h2
⋅
.
∑
2
⋅
N
n
N
h
UG
h
h =1
H
(26)
Come mostrato in appendice 2, l’effetto del disegno nel caso di allocazione
con medesimo errore negli strati è pari a
deffUG =
UGV ( p )
=
UG ε
2
2 H
∑
N h2
.
(27)
2
h =1 N
La (27) suggerisce che l’effetto dell’allocazione uguale è tanto più elevato
quanto più la numerosità degli strati nella popolazione è eterogenea.
L’impatto negativo del livello di eterogeneità della popolazione sulla
precisione delle stime è un elemento costante dell’inferenza; tuttavia nel
caso in esame non si tratta della variabilità di un parametro oggetto di stima,
ma del livello di eterogeneità delle quote della popolazione negli strati.
Per illustrare tale relazione, è possibile definire la statistica deff UG come
V ( p)
ε
funzione del livello di eterogenità delle quote
σ 2N
h
la varianza delle quote
N h / N . Si denoti a tal fine con
N h / N che definiscono la distribuzione della
N
popolazione negli strati:
σ 2N
h
N
2
1 H ⎛ Nh 1 ⎞
1 H N h2
1
=
− ⎟ =
−
.
⎜
∑
∑
2
H h =1⎝ N
H⎠
H h =1 N
H2
N h2
si ottiene
∑
2
h =1 N
H
Esplicitando l’espressione precedente rispetto a
⎛
⎞
⎛
⎞
1 ⎟ 1 ⎜ 2 2
⎜ 2
⎟
= H ⋅ ⎜σ N +
= ⋅ ⎜ H ⋅ σ N + 1⎟ .
⎟
2
2
h
⎜ h H ⎟ H ⎜
⎟
h =1 N
N
⎝ N
⎠
⎝
⎠
H
∑
N h2
(28)
Sostituendo l’ultimo termine della (28) nella (27), l’espressione dell’effetto del
disegno assume la forma:
26
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
ε
deffUG = UG
2
ε
2
1
⋅
H
⎛
⎞
⎜ 2 2
⎟
⋅ ⎜ H ⋅ σ N + 1⎟ .
h
⎜
⎟
N
⎝
⎠
Fissato il numero degli strati, la varianza delle quote
0 e ( H − 1) / H
nell’intervallo
2
N h / N è compresa tra
(Leti, 1997): ne consegue che l’effetto del disegno varia
⎡ UG ε 2 1 UG ε 2 ⎤
deffUG ∈ ⎢
⋅ ;
⎥.
2
H
ε 2 ⎥⎦
⎣⎢ ε
Ciò sta ad indicare che l’effetto del disegno con uguale allocazione negli
strati è tanto minore quanto più la distribuzione della popolazione negli strati
si avvicina all’equiripartizione e tanto maggiore quanto più la ripartizione
della popolazione negli strati è eterogenea. Il valore del parametro deffUG
può assumere quindi valori elevati, in particolare in disegni campionari che
prevedono una stratificazione della popolazione con strati di numerosità
molto differente, con il risultato che l’uguaglianza dell’errore relativo negli
strati sia ottenuta al prezzo di una rilevante diminuzione della precisione
della stima riferita all’intera popolazione.
1.4 Un modello alternativo di allocazione
Si ricorda che il contesto affrontato riguarda una indagine che persegue un
duplice obiettivo:
• produrre stime efficienti per la stima della proporzione P, riferita all’intera
popolazione;
• produrre stime riferite agli strati con uguale livello di affidabilità.
Da quanto esposto in precedenza ciascuno dei due criteri di allocazione
sopra esaminati – quello proporzionale e quello con uguale errore negli strati
– permette di raggiungere solo uno dei due obiettivi presi a riferimento,
risultando inefficiente per l’altro.
Di seguito viene definito un criterio di allocazione che permette di definire un
compromesso tra l’allocazione proporzionale che, fissata la dimensione
campionaria n, massimizza la precisione dello stimatore per l’intera popolazione, e l’allocazione che rende uguale l’errore campionario negli strati.
L’allocazione di compromesso conduce a definire numerosità campionarie,
denotate con λ nh , determinate da una combinazione convessa delle numerosità campionarie nello strato definite da ciascuno dei due criteri di allocazione sopra definiti
λ nh = λ ⋅ PR nh ⋅ + (1 − λ )⋅UG nh
(29)
dove 0 ≤ λ ≤ 1 è un parametro determinabile in fase di disegno secondo
27
CAPITOLO 1
criteri illustrati più avanti. Al variare di λ nell’intervallo chiuso compreso tra
0 e 1 l’allocazione definita da λ nh permette di aumentare l’omogeneità
dell’errore relativo negli strati ma, al contempo, diminuire la precisione dello
stimatore p. Dalla (29) risulta immediato che i valori estremali di λ definiscono l’allocazione proporzionale, per λ =1, e l’allocazione con medesimo
errore relativo negli strati, per λ =0.
Sostituendo le corrispondenti espressioni, riportate nelle (20) e nella (25) la
(29) può essere riformulata nel seguente modo
λ nh = λ ⋅ n ⋅
Nh
Nh
.
+ (1 − λ ) ⋅
N
t ⋅ Nh + 1
Si dimostra agevolmente che l’allocazione definita dalla (29) soddisfa, indipendentemente dal valore di λ , il vincolo dato dalla dimensione campionaria fissata e pari ad n. Sommando per strato entrambi i termini della (29) e
applicando il vincolo definito dalla H+1esima equazione della (24) si ottiene:
H
H
∑ λ nh = ∑ λ ⋅ n ⋅
h =1
=
h =1
λ ⋅n
H
Nh
+ (1 − λ ) ⋅ ∑ UG nh =
N
h =1
H
∑ N h + (1 − λ )⋅ n = n .
N h =1
Sostituendo nella (29) l’espressione di n ottenuta dalla (8), le quantità λ nh
2
possono essere inoltre determinate come funzione degli errori, UG ε ed
ε 2 , dei due criteri di allocazione considerati:
⎛
⎜
λ nh = K ⋅ N h ⋅ ⎜ 2
λ
⎝ε ⋅N + K
+
⎞
⎟.
2
⎟
UG ε ⋅ N h + K ⎠
1− λ
(30)
2
2
Si osservi che UG ε è funzione di ε (la funzione, come già visto, non è
esplicitabile, ma la relazione tra le due quantità è comunque biunivoca); ne
consegue che la quantità λ nh risulta determinata dai due soli parametri
e λ.
La varianza che lo stimatore p assume nel disegno lambda è pari a:
λV ( p ) =
dove
28
H
N h2
∑ λVh ( p) ⋅ N 2
h =1
ε2
(31)
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
λVh ( p ) =
P(1 − P ) ⋅ ( N h − λ nh )
.
N h ⋅λ n h
(32)
Una volta determinata l’espressione della varianza è possibile definire
l’effetto del disegno dell’allocazione in modo analogo a quanto fatto per i
modelli esposti in precedenza:
V ( p)
deff λ = λ
V ( p)
(33)
Sostituendo le espressioni ricavate dalla (32), dalla (33) e dalla (1) si ottiene:
⎛ H N h2
⎞
n
deff λ =
⋅ ⎜⎜ ∑
− N ⎟⎟ .
N ( N − n ) ⎝ h =1 λ n h
⎠
(34)
Nelle applicazioni pratiche la scelta del valore di λ non è immediata né agevole. Gli scenari in cui è richiesto un campionamento efficiente sono estremamente variabili e dipendono da una serie articolata di elementi che
influiscono sulla scelta del campione da utilizzare. Tra i fattori che hanno
maggiore rilievo nella messa a punto di un piano di campionamento vanno
ricordati:
i. il tasso di sondaggio, all’aumentare del quale l’errore campionario diminuisce fino ad annullarsi per valori prossimi all’unità; se il tasso di sondaggio tende a 1, l’allocazione proporzionale e l’allocazione uguale
tendono a coincidere;
ii. la distribuzione della popolazione negli strati; una distribuzione omogenea, con valori molto simili delle quote N h N , avvicina l’allocazione
con uguale errore tra gli strati al disegno proporzionale; viceversa, se la
numerosità della popolazione varia considerevolmente tra uno strato e
l’altro, le quantità PR nh
e UG nh , ferma restando la dimensione
campionaria n, risulteranno molto diverse.
Ne consegue che in contesti dove il tasso di sondaggio è molto basso e
dove la popolazione è stratificata in maniera eterogenea, il parametro λ ha
effetti sensibili sulle prestazioni del disegno campionario e la scelta del livello
di compromesso ottenuto tramite la (29) assume un’importanza cruciale. È
utile pertanto mettere a punto alcuni strumenti in grado di orientare correttamente la scelta di λ , misurando, al variare del parametro, il guadagno ottenuto in termini di omogeneità dell’errore campionario tra gli strati e la
perdita subita in termini di aumento dell’effetto del disegno.
In corrispondenza dei valori estremi di λ si ha:
λV ( p ) = V ( p ); se λ = 1
λV ( p ) =UGV ( p ); se λ = 0 .
29
CAPITOLO 1
L’effetto del disegno dell’allocazione lambda, espresso dalla (34), varia
pertanto tra 1, per λ =1, e deffUG , ricavato dalla (27), per λ =0. Disponendo dei valori minimo e massimo dell’effetto del disegno al variare di
possibile calcolare un indice relativo:
I deff (λ ) = 1 −
deff λ − 1
.
deffUG − 1
λ,
è
(35)
L’indice varia tra 0 e 1 e misura il guadagno relativo, in termini di efficienza
dello stimatore p, al variare di λ .
In modo analogo è possibile costruire un indice relativo che misuri l’omogeneità dell’errore all’interno degli strati al variare di λ . Una buona misura
del livello di variabilità dell’errore negli strati è dato dallo scarto quadratico
medio1.
Si denoti con
σ λ εh =
2
⎞
1 H ⎛⎜
1 H
∑ λ ε h − H ∑ λ ε h ⎟⎟
H h =1⎜⎝
h =1
⎠
(36)
lo scarto quadratico medio dell’errore negli strati, dove
λ
εh =
P (1 − P) z12−α 2 ⋅ (N h − λ nh )
N h ⋅ λ nh ⋅ P
2
=
K ⋅ ( N h − λ nh )
.
N h ⋅λ nh ⋅ P 2
La quantità definita dalla (36) assume valore 0 per λ =0, poiché, in
corrispondenza di tale valore, l’allocazione lambda presenta lo stesso errore
in tutti gli strati. Assume valore massimo, pari allo scarto quadratico medio
dell’errore negli strati del campione con allocazione proporzionale, nel caso
di λ =1
⎡
2
⎤
ε2 ⋅N ⎢ H 1
2 ⎛⎜ H 1 ⎞⎟ ⎥
(
σ
)
=
.
−
⋅ ∑
max
∑
λ εh
H ⎢ h =1 N h H ⎜⎝ h=1 N h ⎟⎠ ⎥
λ∈[0, 1]
(37)
⎦
⎣
Anche in questo caso è possibile calcolare, tramite la (36) e la (37), un indicatore relativo del grado di omogeneità dell’errore negli strati al variare di λ
Iσ ε (λ ) = 1 −
σ λ εh
max (σ λ ε h )
.
(38)
λ ∈[0, 1]
1 È possibile utilizzare altre misure di variabilità: intervallo di variazione, indici di eterogeneità,
ecc.
30
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
Nella figura successiva è riportato l’andamento dei due indicatori I σ (λ ) e
ε
I deff (λ ) definiti rispettivamente dalla (35) e dalla (38), al variare di λ ,
ricavati da un’applicazione empirica illustrata nel par. 1.5.
Fig. 1 - Indicatori dell’allocazione di compromesso in funzione del parametro λ
Indicatore
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0
λ
0,1
0,2
0,3
0,4
0,5
0,6
I deff
Ideff
(λ )
0,7
0,8
0,9
IsqmIσ
1,0
ε
(λ )
Al tendere di λ ad 1 l’allocazione fornita dalla (29) tende a quella proporzionale e, di conseguenza, l’indicatore dell’omogeneità tende al suo minimo
(massima variabilità dell’errore relativo negli strati), mentre l’indicatore
relativo alla precisione dovuta all’effetto del disegno tende al suo massimo,
vale dire all’effetto del disegno con allocazione proporzionale.
Dai due indicatori succitati è possibile definire una funzione sintetica ξ (λ )
della perdita complessiva registrata al variare di λ :
ξ (λ ) = 2 − [ I deff (λ ) + Iσ ε (λ )] .
(39)
[ ]
La funzione ξ (λ ) è definita nell’intervallo λ ∈ 0, 1 ; in tale intervallo la funzione è continua e presenta due punti di massimo, entrambi pari ad 1, in corrispondenza di λ = 0 e di λ = 1 ; nell’intervallo aperto λ ∈ (0, 1) la fun31
CAPITOLO 1
zione
ξ (λ )
è strettamente minore di 1. La funzione
ξ (λ )
misura la per-
dita complessiva dell’allocazione ottenuta in corrispondenza del valore di λ
selezionato, sia in termini di aumento dell’effetto del disegno che in termini di
eterogeneità dell’errore campionario negli strati. L’andamento della funzione
di perdita è riportato nella figura successiva, anch’essa ricavata dall’applicazione empirica esposta nel par.1.5.
Fig. 2 - Andamento della funzione di perdita
ξ (λ )
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0
λ
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
Un criterio per determinare il valore ottimale di λ potrebbe essere quello di
individuare il valore di λ a cui corrisponde il valore minimo della funzione di
perdita definita dalla (39). Tale valore è determinato in maniera univoca
derivando la funzione ξ (λ ) e annullando la derivata prima.
Tuttavia, in alcune situazioni concrete, tale criterio conduce a soluzioni non
accettabili. Può accadere che nel punto di minimo della funzione ξ (λ ) ,
almeno uno dei due indici I deff (λ ) e I σ ( λ ) si discosti notevolmente dai
ε
valori accettabili nell’applicazione che si sta prendendo in esame. La
funzione di perdita deve quindi essere utilizzata con accortezza, al fine di
determinare l’allocazione ottimale alle esigenze dell’indagine, e unitamente
ad elementi ulteriori: il valore assoluto di deff λ , lo scarto quadratico medio
dell’errore negli strati, il valore massimo dell’errore negli strati, l’intervallo di
variazione dell’errore tra gli strati, ecc.
Un’applicazione della funzione di perdita, congiuntamente ad altri indicatori
della bontà dell’allocazione selezionata, è esposta nel paragrafo successivo.
32
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
1.5 Un’applicazione empirica
Il metodo di allocazione del campione esposto in precedenza è stato applicato ad un progetto di indagine dall’Area Mercato del lavoro dell’Isfol, relativa al monitoraggio dell’applicazione della legge 68/99 sugli incentivi
all’ingresso nell’occupazione di soggetti disabili. L’indagine prevede la
somministrazione di un questionario ad un campione di consulenti del lavoro, per acquisire informazioni sull’applicazione della legge oggetto di studio
da parte dei loro clienti. L’unità di campionamento è il consulente del lavoro.
Il campione è stratificato per regione; la popolazione, desunta dagli elenchi
provinciali degli iscritti all’ordine, è pari a 18.907 consulenti del lavoro.
Fig. 3 - Calcolo di
UG
UG
ε
tramite il procedimento iterativo
Calcolo di
ε
UG
ε tramite il procedimento iterativo
0,28
0,24
0,20
0,16
0,12
0,08
0,04
0,00
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Iterazione
In primo luogo sono stati determinati i parametri di campionamento: α = 0,05 ; ε = 0,6 ; P = 0,50 . Vale a dire che si vuole ottenere un
campione in grado di stimare una caratteristica della popolazione P avente
una frequenza relativa pari al 50%, con un errore massimo ε del 6%, con
probabilità (1 − α ) del 95%. Definiti i parametri fondamentali del campione,
tramite la (8) è stata determinata la numerosità campionaria, che risulta pari
a 1.010 consulenti del lavoro.
Il passo successivo è volto a determinare l’errore uguale per tutti gli strati. Il
procedimento iterativo converge in pochi passi ad un valore di
UG ε = 0,26 , come evidenziato nella figura precedente.
Le caratteristiche delle allocazioni calcolate sono riportate nello schema
successivo.
33
CAPITOLO 1
Schema n. 1 - Parametri e caratteristiche delle diverse allocazioni calcolate
Regione
(strato)
Piemonte
Consulenti
del lavoro
iscritti agli
ordini
provinciali
Numerosità
campionaria
1.135
61
0,244
55
0,260
87
5
0,884
35
0,260
2.585
138
0,162
56
0,260
216
12
0,562
45
0,260
1.591
85
0,206
55
0,260
423
23
0,402
50
0,260
Valle D Aosta
Lombardia
Trentino A.A.
Veneto
Friuli V.G.
Liguria
Allocazione
proporzionale
Errore
relativo
Allocazione con errore
costante per strato
Numerosità
campionaria
Errore
relativo
512
27
0,364
51
0,260
Emilia Romagna
1.196
64
0,238
54
0,260
Toscana
1.608
86
0,206
55
0,260
Umbria
321
17
0,460
48
0,260
Marche
635
34
0,328
52
0,260
2.445
130
0,166
55
0,260
Abruzzo
474
25
0,378
51
0,260
Molise
118
6
0,760
38
0,260
Lazio
Campania
1.660
89
0,202
55
0,260
Puglia
1.375
73
0,222
54
0,260
Basilicata
192
10
0,596
44
0,260
Calabria
501
27
0,368
51
0,260
1.179
63
0,240
54
0,260
Sicilia
Sardegna
Italia
654
35
0,322
52
0,260
18.907
1.010
0,060
1.010
0,074
Effetto del disegno (deff)
Scarto quadratico medio
dell’errore negli strati (
σ λ εh
)
1,000
1,496
0,097
0,000
Applicando la (29) viene definita l’allocazione combinata in funzione del
parametro λ :
λ
⎛
⎞
λ
1− λ
⎟⎟
n h = 1,96 2 ⋅ 0,25 ⋅ N h ⋅ ⎜⎜
+
2
2
2
2
⎝ 0,03 ⋅ 18.907 + 1,96 ⋅ 0,25 0,13 ⋅ N h + 1,96 ⋅ 0,25 ⎠
(40)
Applicando la (40) a ciascuno strato si ottiene l’espressione dell’allocazione
del campione dei 1.010 consulenti del lavoro in funzione di λ , al variare del
quale si hanno differenti allocazioni del campione. Per ogni allocazione
34
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
ottenuta risultano definiti l’effetto del disegno, lo scarto quadratico medio
dell’errore relativo, gli indici relativi e la funzione di perdita.
Di seguito sono riportati i parametri delle allocazioni ottenute in
corrispondenza di tre valori di λ
λ
deff λ
I deff (λ )
Iσ ε ( λ )
ξ (λ )
min( λ ε h )
max( λ ε h )
0,27
1,248
0,50
0,86
0,64
0,109
0,159
0,57
1,093
0,81
0,67
0,52
0,095
0,209
0,70
1,049
0,90
0,24
0,55
0,090
0,244
h
h
La funzione di perdita ξ ( λ ) presenta il valore minimo per λ = 0,57.
Tuttavia, in corrispondenza di tale valore, l’omogeneità dell’errore negli strati
è giudicata troppo esigua (l’errore standard varia dal 18% registrato in
Lombardia a quasi il 38% della Valle d’Aosta). Una scelta che migliora
l’omogeneità dell’errore negli strati si ottiene ponendo λ = 0,27; in questo
caso il campo di variazione dell’errore negli strati, compreso 21,8% e 31,8%,
è considerato accettabile, al prezzo però di veder aumentato l’effetto del
disegno. Quest’ultima allocazione, pur essendo notevolmente lontana dal
minimo della funzione di perdita, è stata selezionata per l’indagine in questione. Il disegno campionario utilizzato è riportato nello schema seguente.
Schema n. 2 - Parametri e caratteristiche delle allocazioni di compromesso
Regione
(strato)
Consulenti del lavoro
iscritti agli ordini provinciali
(popolazione)
Piemonte
Valle D Aosta
Allocazione di compromesso
λ = 0,27
1.135
Numerosità
campionaria
56
Errore
relativo
0,256
87
26
0,318
2.585
78
0,218
216
36
0,298
1.591
63
0,242
Friuli V.G.
423
43
0,284
Liguria
512
45
0,280
Emilia Romagna
1.196
57
0,254
Toscana
1.608
63
0,242
Umbria
321
40
0,290
Marche
635
47
0,274
0,222
Lombardia
Trentino A.A.
Veneto
Lazio
2.445
76
Abruzzo
474
44
0,282
Molise
118
30
0,310
1.660
63
Campania
0,240
segue schema
35
CAPITOLO 1
Schema n. 2 segue
Allocazione di compromesso
Consulenti del lavoro
iscritti agli ordini provinciali
(popolazione)
Regione
(strato)
Puglia
Numerosità
campionaria
60
1.375
λ = 0,27
Errore
relativo
0,248
Basilicata
192
35
Calabria
501
44
0,280
1.179
56
0,254
Sicilia
Sardegna
Italia
654
48
0,274
18.907
1.010
0, 680
Effetto del disegno (deff)
Scarto quadratico medio dell’errore
negli strati (
σ λ εh
0,300
1,248
0,0137
)
Nella figura successiva è riportato l’errore relativo negli strati del campione
selezionato tramite il parametro λ , confrontato con l’errore dell’allocazione
proporzionale.
Fig. 4 - Errore nell'allocazione lambda e nell'allocazione proporzionale
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
Strato
Allocazione lambda
Italia
Sardegna
Sicilia
Calabria
Basilicata
Puglia
Campania
Molise
Lazio
Abruzzo
Marche
Umbria
Toscana
Emilia R.
Liguria
Friuli V.G.
Veneto
Trentino A.A.
Lombardia
Valle d'Aosta
Piemonte
0,00
Allocazione proporzionale
Il procedimento seguito ha permesso, in sostanza, di livellare l’errore delle
stime nelle regioni generalmente sensibili a problemi di significatività quali,
ad esempio, la Valle d’Aosta e il Molise. Tale risultato è stato ottenuto a
prezzo di accettare un valore dell’effetto del disegno, misurato dalla statistica
deff, pari a 1,248. Tale valore è comunque contenuto rispetto al massimo
36
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
teorico, pari a 1,496, che si sarebbe ottenuto imponendo lo stesso errore in
ciascuno strato.
Il procedimento seguito ha permesso, in sostanza, di livellare l’errore delle
stime nelle regioni generalmente sensibili a problemi di significatività quali,
ad esempio, la Valle d’Aosta e il Molise. Tale risultato è stato ottenuto a
prezzo di accettare un valore dell’effetto del disegno, misurato dalla statistica
deff, pari a 1,248. Tale valore è comunque contenuto rispetto al massimo
teorico, pari a 1,496, che si sarebbe ottenuto imponendo lo stesso errore in
ciascuno strato.
1.6 La soluzione dell'allocazione nei domini di studio
La soluzione esposta nel par. 1.3 può essere estesa al caso dei domini di
studio. Si consideri il caso generale in cui si possano definire G partizioni
distinte della medesima popolazione U. Si indichi con g (g=1, ,G) la generica
partizione; ad esempio sia g una data suddivisone della popolazione U nelle
regioni geografiche. Si indichi inoltre con Ugd, (dove d=1,…., Mg) un
generico sottoinsieme di interesse – di dimensione Ngd – definito nell’ambito
della partizione g; riprendendo l’esempio precedente, Ugd può indicare
l’insieme delle unità di una determinata regione geografica. Sia
Mg
(41)
N =
N gd .
d =1
∑
Si supponga, inoltre, che ciascun dominio Ugd possa essere definito come
aggregazione di strati elementari interi:
U gd =
UUh
(g=1, …,G; d=1,…., Mg )
(42)
∑ Nh
(g=1, …,G; d=1,…., Mg ).
(43)
h ∈ gd
N gd =
h ∈ gd
In tal modo la partizione negli strati rappresenta una suddivisione più fine
della popolazione rispetto alla generica partizione g, i domini della quale
sono perciò ricavabili unendo insieme gli strati elementari.
Si consideri come fissa la generica partizione g e si ipotizzi di voler definire
un’allocazione delle n unità del campione s in modo che le stime riferite al
generico dominio gd abbiano il medesimo errore relativo. I termini del problema sono analoghi a quanto esposto nel caso degli strati: vi sono quindi
Mg+1 parametri di interesse definiti da
i) le proporzioni Pgd relative a ciascun dominio
37
CAPITOLO 1
N
N
gd
h
Nh
1
1
Pgd =
y
=
yk = ∑
Ph ,
∑
∑
∑
k
N gd k =1
N gd h∈gd k =1
N
gd
h∈gd
(d=1,…,Mg)
(44)
ii) proporzione P per l’intera popolazione data da
H
M
M
g N
g N
N
Nh
gd
gd
P = ∑ Ph h = ∑
P
=
Pgd .
∑
∑
h
N
N
N
N
gd
h =1
d =1
h∈gd
d =1
(45)
Si supponga di aver estratto un campione stratificato, di numerosità data n,
con selezione senza reimmissione e con probabilità uguale negli strati. Si
supponga inoltre di stimare gli Mg+1 i parametri Pgd (d=1,…,Mg) e P nel
modo seguente:
n
Nh 1 h
Nh
p gd = ∑
yk = ∑
ph , (d=1,…,Mg)
∑
N
n
N
gd
h
gd
h∈gd
k =1
h∈gd
H
M
M
g N
g N
Nh
Nh
gd
gd
p= ∑
ph = ∑
ph = ∑
p gd .
∑
N
N h∈d N gd
N
h =1
d =1
d =1
Il problema di allocazione del campione si presenta, nel caso in questione,
come un problema da risolvere in due stadi.
Il primo stadio è relativo all’allocazione del campione in ciascun dominio di
studio. Nel primo stadio si determinano quindi le numerosità campionarie ngd
(d=1,…,Mg) essendo
Mg
∑ n gd = n .
(46)
d =1
Il problema di allocazione del secondo stadio attiene alla definizione della
numerosità campionaria in ciascuno strato in modo che
∑ nh = ngd .
(47)
h∈gd
La procedura complessiva, articolata in due stadi, rispetta il vincolo della
numerosità campionaria data, infatti dalle due relazioni precedenti si ricava:
38
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
Mg
Mg
∑ ngd = ∑ ∑ nh = n .
d =1
(48)
d =1 h∈gd
Per descrivere la procedura relativa al primo stadio, si consideri il caso in cui
si voglia ottenere un errore di campionamento uguale in ciascuno dei domini
di studio.
Si adotta dapprima l’ipotesi semplificatrice che gli Mg domini corrispondano
agli strati elementari dell’indagine. Analogamente a quanto fatto nel caso
degli strati è possibile definire la numerosità campionaria in ciascun dominio,
UG n gd , in funzione dell’errore massimo ammesso in ogni dominio.
&&&g2 il quadrato dell’errore relativo massimo ammesso, uguale per
Posto UG ε
tutti i domini della partizione g, si ottiene che la numerosità campionaria del
dominio gd, UG n gd (d=1,…,Mg), deve soddisfare il seguente sistema di
(Mg+1) equazioni
⎧ 1 (N gd − n gd )⋅ Pgd (1 − Pgd ) 2
⋅ z1−α / 2 = UG &ε&&2 ( d = 1,..., M g )
⎪ 2 ⋅
N
n
⋅
P
⎪ gd
gd
UG gd
⎨Mg
⎪
UG n gd = n
⎪⎩∑
d =1
(49)
La (49) definisce un sistema implicito di (Mg +1) equazioni così caratterizzato:
• vi sono (Mg+1) incognite: le Mg numerosità campionarie UG n
gd
(d=1,…,Mg) e l’errore massimo atteso UG ε&&&g2 ;
i termini noti sono n, P, N gd e Pgd (d=1,…,Mg).
Analogamente a quanto fatto nel caso degli strati, il problema allocativo sarà
studiato ipotizzando che le proporzioni Pgd siano approssimativamente
uguali nei vari domini di studio, ossia Pgd ≅ P , (d=1,…,Mg). Pertanto
•
riformulando la (25), sostituendo i domini agli strati, si ottengono le
numerosità del campione nei domini della partizione g, in modo che gli errori
delle stime dei parametri Pgd assumano il medesimo valore in ciascun
dominio della partizione:
UG n gd
=
N gd
τ g ⋅ N gd + 1
(50)
39
CAPITOLO 1
dove
τg
assume una valenza analoga al parametro t presente nella (25) ed
è il limite cui tende la successione analoga alla (A.12), riformulata in termini
di domini della partizione g:
Mg
∑
τ g ,i =
d =1
Mg
N gd
τ g ,i −1 ⋅ N gd + 1
2
N gd
−n
+ τ g ,i −1 ;
τ g ,0 = 0
∑ τ (t ⋅ N + 1)2
g ,i −1
gd
d =1
La (50) assicura anche il rispetto della relazione (46).
Nel secondo stadio della procedura di allocazione si fa cadere l’ipotesi che i
domini coincidano con gli strati e si considera nuovamente il fatto che
ciascun dominio è ottenibile come aggregazione di strati elementari.
Una volta definite le numerosità ngd (d=1,…,Mg), è ora necessario definire
un'allocazione del campione ngd negli strati elementari che compongono il
dominio Ugd in grado di soddisfare la (47).
Il problema è analogo a quello della migliore allocazione di una campione di
numerosità n in H strati; anche in questo caso la soluzione ottima
corrisponde all'allocazione proporzionale.
Come mostrato nel par. 1.3, sotto l’ipotesi di omogeneità del valore del
parametro negli strati che compongono il dominio, l’allocazione proporzionale garantisce che l’errore campionario della stima Pgd, ottenuta tramite
&&&g , definito nel primo stadio
un campionamento stratificato, sia pari a UG ε
della procedura di allocazione esposta.
Pertanto l’allocazione finale del campione negli strati elementari, UGg nh ,
che assicura il medesimo errore nei domini della partizione g è data da
UGg n h =UG n gd ⋅
=
Nh
=
τ g ⋅ N gd + 1
N gd
Nh
N
=
⋅ h =
N gd τ g ⋅ N gd + 1 N gd
(h ∈ gd ; g = 1,..., G ) .
(51)
La (51) definisce, per ciascuno strato h, G allocazioni alternative, la generica
delle quali, riferita alla partizione g, assicura l'uguaglianza della precisione
delle stime dei parametri Pgd nei domini della partizione. La numerosità
definita per una determinata partizione non assicura comunque un uguale
errore di campionamento nei domini di una qualsiasi delle altre G-1 partizioni. Poiché il problema allocativo implica una soluzione unica sull’intera
stratificazione è necessario definire un criterio di compromesso che
40
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
consenta di individuare una soluzione in grado di tener conto dei diversi
obiettivi conoscitivi dell’indagine, espressi in termini di comparabilità delle
stime prodotte in domini riferiti a partizioni differenti. Ad esempio una indagine sulle imprese può prevedere una partizione della popolazione definita
dalla regione della sede legale e un’altra partizione definita in base all’attività
economica dell’impresa. Parimenti un’indagine sulle famiglie può avere
come obiettivo quello di produrre stime con uguale errore campionario sia
rispetto al genere sia rispetto alle classi di età.
Analogamente a quanto esposto nel par. 3.3, è possibile individuare una
soluzione di compromesso tra le diverse allocazioni proposte, in grado di
bilanciare, secondo gli scopi della ricerca e le risorse disponibili per
l'indagine, le proprietà delle allocazioni che permettono di ottenere una
identica precisione delle stime in ciascuna delle partizioni. Nell’individuare il
criterio di compromesso è opportuno considerare anche l’allocazione PR nh ,
definita dalla (20), che consente di ottenere l’allocazione ottima per la stima
relativa all’intera popolazione.
La soluzione di compromesso, indicata dalla numerosità del campione in
ogni strato h, è pari alla media delle numerosità di ciascuna delle allocazioni
proposte, ponderata con coefficienti λ g (g=0,…,G) compresi tra 0 e 1, dove
λ0
è il coefficiente relativo al peso dell'allocazione proporzionale. Indicando
con * nh la soluzione per ogni strato si ottiene
G
(
)
λ0 , λ1 ,..., λ g ,..., λG ∈ [0; 1] ,
* nh = λ0 ⋅ PR nh + ∑ λ g ⋅UGg nh ;
g =1
(52)
dove
G
∑λ
g
= 1,
g =0
essendo quindi
G
λ0 = 1 − ∑ λg .
g =1
Una soluzione banale alla (52) è data da
λg =
1
(g=0,…,G)
G +1
(53)
che equivale ad assegnare un peso uguale:
• all’obiettivo di avere una stima ottima per l’intera popolazione;
• ai G obiettivi distinti definiti dall’avere un uguale errore di campionamento per tutti i domini di una data partizione.
41
CAPITOLO 1
Il numero di parametri coinvolti nella (52), G+1, è generalmente molto
elevato, specialmente nelle indagini di natura socio-economica; diviene
quindi computazionalmente complesso definire una soluzione di compromesso, basata sulla minimizzazione di una misura della perdita complessiva
dell’efficienza in modo analogo a quanto riportato nella (39).
Qualora si abbiano buoni motivi per non utilizzare la soluzione banale
espressa dalla (53) è più opportuno utilizzare metodi differenti di allocazione
basati sulla definizione di criteri di errore massimo ammesso per la stima
riferita a ciascun dominio; in tal modo però la numerosità complessiva n non
è determinabile a priori come nel caso in esame. Tali metodi sono
ampiamente trattati nel par. 2.4 del capitolo successivo.
42
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
APPENDICE 1
METODO ITERATIVO PER LA DETERMINAZIONE
DELLE NUMEROSITÀ CAMPIONARIE UG nh
Ipotizzando un valore del parametro Ph costante negli strati e pari a P, ed
estendendo la il sistema (24) può essere riformulato nel seguente modo
alternativo
K ⋅ Nh
⎧
⎪ UG nh =
2
2
⎪
UG ε ⋅ P ⋅ N h + K
⎨H
⎪ ∑ UG nh = n
⎪⎩h =1
( h = 1,..., H )
.
(A.1)
Posto, per semplicità di notazione,
2
ε ⋅P
t = UG
K
2
(A.2)
le prime H equazioni della (A.1) diventano:
UG
nh =
Nh
.
t ⋅ Nh + 1
(A.3)
Sommando per strato i due termini della (A.3) e applicando il vincolo
espresso dall’ultima equazione del sistema (A.1) si ottiene:
H
n=∑
k =1
Nh
.
t ⋅ Nh +1
(A.4)
La (A.4) fissa i termini del problema: occorre trovare un valore t , invariante
tra gli strati, che sostituito nella (A.3) fornisce la numerosità del campione in
ciascuno strato, assicurando il vincolo espresso dalla il vincolo espresso
dall’ultima equazione del sistema (A.1).
La relazione espressa dalla (A.4) non è invertibile e non è pertanto
esplicitabile rispetto a t: è necessaria una procedura iterativa che approssimi
la soluzione con tangenti alla curva.
A tale scopo è necessario considerare la (A.4) una funzione R → R ; le
quantità n e t assumono pertanto il significato di variabili e, nel prosieguo
dell’esposizione sarà utile modificare leggermente la notazione: si indichi
con n* la numerosità campionaria fissata e con t * il valore incognito che
fornisce, tramite la (A.3), l’allocazione del campione negli strati.
43
CAPITOLO 1
Sia n = u (t ) una funzione R → R definita dalla (A.4):
Nh
;
t ⋅ Nh +1
H
n = u (t ) = ∑
k =1
(A.5)
sia definita, dalla (A.5), un’equazione implicita f ( n, t ) = 0 :
H
f ( n, t ) ≡ ∑
k =1
Nh
−n = 0.
t ⋅ Nh +1
(A.6)
[
Sia definita l’equazione della tangente alla curva f nel generico punto t i , ni
t = g i (n) .
]
(A.7)
[
]
Pertanto, fissato un punto arbitrario t 0 , n0 , la quantità t1 = g o (n* ) approssima la soluzione cercata; sostituendo t1 nella (A.5) si ricava
H
n1 = ∑
k =1
Nh
,
t1 ⋅ N h + 1
[
]
ottenendo il punto t1 , n1 .
[
]
Tramite la tangente alla curva f nel punto t1 , n1 , definita dalla (A.7), si ottiene t 2 = g 1 (n* ) . La quantità t 2 approssima la soluzione cercata in misura
migliore rispetto a t1 . Il procedimento iterativo converge verso la soluzione
t* .
Sostituendo il valore n = u (t ) nella (A.7) è possibile esprimere il processo
iterativo tramite una sola espressione:
t i +1 = g i [u (t i )] .
(A.8)
È ora sufficiente esprimere in forma esplicita le funzioni g i (n) e
intervengono nella (A.8).
L’equazione della tangente ad una generica funzione implicita
nel punto (t i , ni ) è data da:
⎡ ∂f ⎤
⎡ ∂f ⎤
⋅ (n − ni ) + ⎢ ⎥ ⋅ (t − t i ) = 0
⎢⎣ ∂n ⎥⎦
⎣ ∂t ⎦ η =ti
n = ni
che, esplicitata rispetto a t, definisce la funzione t = g i (n) ;
44
u (t ) che
f (t , n) = 0
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
⎡ ∂f ⎤
⎢⎣ ∂n ⎥⎦
n = ni
t=
⋅ ( ni − n ) + t i .
⎡ ∂f ⎤
⎢⎣ ∂t ⎥⎦
t =ti
(A.9)
Derivando la funzione f rispetto a t e ad n, ed applicando la (A.9), si ricava la
forma funzionale della tangente g i ( n ) :
H
N h2
∂f
= −∑
2
∂t
h =1 (t ⋅ N h + 1)
∂f
= −1 ;
∂n
g i ( n) =
(ni − n )
∑ (t
h =1
+ ti .
N h2
H
i
⋅ N h + 1)
(A.10)
2
[
]
Dalla (A.5), applicata al generico punto t i , ni , si ricava la forma funzionale
della u (t ) :
ni
H
= u (t i ) = ∑
k =1
Nh
ti ⋅ N h + 1
(A.11)
Sostituendo la (A.11) nella (A.10) e calcolando la funzione g nel punto n* si
ottiene:
H
Nh
− n*
t
⋅
N
+
1
i
h
ti +1 = g i ( n* ) = h =1
+ ti .
H
N h2
∑
(A.12)
∑ (t ⋅ N + 1)2
i
h
h =1
L’espressione (A.12) esplicita totalmente la (A.8) e permette di calcolare il
valore t * che, applicato per ciascuno strato all’espressione definita dalla
(A.3), fornisce l’allocazione cercata. Si osservi che nella notazione riportata
nelle (A.12) non è presente il termine ni ; pertanto è sufficiente stabilire arbitrariamente un valore iniziale t 0 per determinare la soluzione cercata. Una
volta fissata la numerosità campionaria n* , è univocamente determinata,
tramite la (A.12) e la (A.3), l’allocazione che rende uguale l’errore relativo tra
gli strati,
UG
nh , e il corrispondente errore relativo,
UG
ε 2;
vale a dire che
l’errore campionario associato al campionamento casuale semplice e l’errore
commesso nel campionamento stratificato, e allocato secondo il disegno
45
CAPITOLO 1
UG, sono in relazione biunivoca. Ricordando che la quantità n ed ε sono
legate dalla relazione (8) ne deriva che, una volta fissata la numerosità
campionaria e la partizione della popolazione in strati, è univocamente
determinata l’allocazione del campione che rende omogeneo l’errore della
stima negli strati.
2
Sul piano operativo l’applicazione della (A.12) non è particolarmente
complessa, tuttavia la scelta di un valore adeguato di t 0 permette una
convergenza più veloce e la determinazione della soluzione in pochi passi. Il
numero di passi necessari per ottenere una buona approssimazione di t * ,
dipende dal livello di omogeneità delle quantità N h : tanto più le numerosità
degli strati nella popolazione sono simili, tanto più veloce sarà la convergenza verso il valore t * . Nel caso di disegni campionari che prevedono un
numero elevato di strati e una accentuata eterogeneità tra le quantità N h , il
valore di t 0 può agevolare molto i calcoli.
Si ipotizzi, in un contesto puramente teorico, che la popolazione U sia equidistribuita negli H strati:
N h' =
N
H
[∀ h].
Applicando l’allocazione proporzionale del campione di numerosità n a tale
popolazione si ottiene :
'
PR nh = n ⋅
N h'
n
=
N
H
[∀ h]
l’errore negli strati può ora essere calcolato in ciascuno strato applicando la
(8b). Posto 0 ε h l’errore in ciascuno strato dell’allocazione teorica appena
definita, si ottiene:
2
0ε h
=
(
K ⋅ N h' − nh'
N h' ⋅ nh' ⋅ P 2
)
⎛N n ⎞
K ⋅⎜ − ⎟
2
⎝ H H ⎠ = K ⋅ H ⋅ (N − n ) = H ⋅ ε (A.13)
=
N n
N ⋅ n ⋅ P2
P2
⋅ ⋅ P2
H H
dove ε
è il quadrato dell’errore del campione casuale semplice di
dimensione n. Il livello dell’errore espresso dalla (A.13) non dipende da h ed
è perciò costante in ciascuno strato; essa rappresenta pertanto il valore che
2
assumerebbe
46
UG
ε 2 se la popolazione fosse equidistribuita negli strati.
INTRODUZIONE AL PROBLEMA DELL’ALLOCAZIONE DEL CAMPIONE
Ponendo quindi tale quantità come punto iniziale dal quale far partire il
procedimento iterativo riportato nella (A.12):
t0 =
H ⋅ε 2
K
si ottiene si ottiene il valore di un punto di origine della procedura iterativa
che approssima la soluzione cercata in modo tale da far convergere
l’algoritmo in maniera sensibilmente più rapida. Nelle applicazioni del
metodo si è visto che la soluzione viene determinata in solo 2 o 3 iterazioni.
47
APPENDICE 2
VALORE DELL’EFFETTO DEL DISEGNO
NELL’ALLOCAZIONE UGUALE
L’effetto del disegno di campionamento nell’allocazione uguale è dato da
V ( p)
deffUG = UG
.
V ( p)
Tale quantità può essere riformulata nel modo seguente.
H
deffUG =
P ⋅ (1 − P ) ⋅ ( N h −UG nh ) N h2
N ⋅n
⋅∑
⋅
=
P ⋅ (1 − P ) ⋅ ( N − n ) h =1
N h ⋅UG nh
N2
=
H
( N h −UG nh )
n
⋅∑
⋅ Nh =
N ⋅ ( N − n ) h =1
UG nh
=
⎛ H
⎞
N h2
n
⋅⎜ ∑
− N⎟ =
⎟
N ⋅ ( N − n ) ⎜⎝ h =1 UG nh
⎠
=
⎛1 H
⎞
N h2
n
⋅⎜ ∑
− 1⎟ .
⎟
N − n ⎜⎝ N h =1 UG nh
⎠
Sostituendo nell’espressione precedente la formulazione di
UG
nh data dalla
(A.1), si ha
⎛ 1 H N h2 ⋅UG ε 2 + N h ⋅ K
⎞
n
⋅⎜ ∑
− 1⎟ =
⎟
N − n ⎜⎝ N h =1
K
⎠
2
2
2
H
⎛ 1 H N h ⋅UG ε ⎞
n⋅UG ε
n
⎟=
=
⋅⎜ ∑
⋅ ∑ N h2 .
⎟ (N − n ) ⋅ N ⋅ K
N − n ⎜⎝ N h =1
K
h =1
⎠
deffUG =
Inserendo nella precedente relazione, l’espressione di n data dalla (8) si
ottiene
K ⋅ N ⋅UG ε 2
H
ε 2 H N h2
ε2 ⋅N + K
deffUG =
⋅
N h2 = UG
.
2
2
K⋅N ⎞
⎛
ε
N
h
=
1
h
=
1
⎜N − 2
⎟⋅N ⋅K
∑
⎝
∑
ε ⋅N +K⎠
48
DEFINIZIONE DELLA
NUMEROSITÀ
CAMPIONARIA E
DELL’ALLOCAZIONE
*
DEL CAMPIONE
2.1 Introduzione
La definizione della numerosità campionaria nel campionamento stratificato
rappresenta un problema di notevole complessità, in quanto l’individuazione
di una soluzione ottima può dipendere da differenti aspetti di seguito
elencati.
• Il tipo di parametro di popolazione che si intende stimare. La soluzione
ottima nel caso in cui si debba stimare il totale di una determinata variabile può essere differente dalle soluzioni relative ai casi in cui si intenda
stimare un indice dei prezzi o il rapporto tra i totali della stessa variabile
riferiti a due differenti istanti temporali.
• Il disegno di campionamento adottato. Il campionamento stratificato può
essere realizzato mediante differenti schemi probabilistici di selezione
delle unità negli strati, come ad esempio: il campionamento casuale
semplice il campionamento a probabilità variabile, ecc.
• La molteplicità degli obbiettivi dell’indagine. Questa infatti può avere un
unico obiettivo di stima o obiettivi molteplici, dovendo in tal caso produrre stime relative a differenti sottoinsiemi della popolazione sotto studio.
• L’approccio usato per l’inferenza. Il calcolo delle stime di un’indagine
può essere realizzato basandosi su differenti approcci all’inferenza: l’approccio classico del campionamento da popolazioni finite, l’approccio
predittivo (basato su particolari modelli di superpopolazione) o l’approccio assistito da modello. Ciascuno degli approcci suddetti può definire tipi di stimatori differenti come, ad esempio lo stimatore di HorvitzThompson, lo stimatore di regressione generalizzato o lo stimatore predittivo. Le soluzioni ottime variano al variare dell’approccio considerato.
• La tipologia di informazione disponibile al momento della progettazione
dell’indagine. La soluzione ottima è strettamente dipendente dal con*
Di Marco Centra, Piero Demetrio Falorsi.
49
CAPITOLO 2
testo informativo in base al quale l’indagine viene progettata. Ad
esempio si possono conoscere le varianze a livello di strato, o come
caso estremo può essere noto unicamente il numero di unità della popolazione a livello di strato.
Il particolare contesto di una data indagine, di cui bisogna tenere conto nella
definizione della soluzione da adottare per l’indagine stessa, è definito quindi
da una data specificazione degli aspetti sopra elencati.
Il presente lavoro cerca di affrontare in modo unificato i differenti contesti
d’indagine, individuando uno schema generale di soluzione a cui può essere
riportato, mediante opportuni adattamenti il particolare contesto che caratterizza una singola indagine. A tal fine, nel par. 2.2, si illustrano gli strumenti
statistici utili a caratterizzare un particolare contesto d’indagine.
Nel par. 2.3, si riporta un risultato generale sulla decomposizione della
varianza nel campionamento stratificato e si approfondisce come tale risultato può essere particolarizzato a specifici contesti caratterizzanti le indagini
su larga scala. Infine, i parr. 2.4 e 2.5 affrontano il problema della determinazione della numerosità campionaria rispettivamente per i casi in cui l’indagine abbia un unico obiettivo di stima (caso univariato) o gli obiettivi di stima
siano molteplici.
2.2
Contesto di riferimento
2.2.1 Definizione dei parametri di interesse
Prima di illustrare in modo dettagliato la notazione simbolica adottata nel lavoro, è utile precisare che, relativamente agli obiettivi conoscitivi che cerca
di perseguire, ciascuna indagine statistica può essere classificata in base
alle modalità incrociate di due fattori:
1° il numero di parametri che vengono stimati; in tal senso possiamo
distinguere tra indagini
− univariate, se hanno l’obiettivo di stimare un unico parametro di
popolazione;
− multivariate, se forniscono stime di un pluralità di parametri;
2° la molteplicità dei sottoinsiemi di popolazione rispetto ai quali devono
essere prodotte le stime dei parametri di interesse; in tal senso possiamo distinguere tra indagini
− unidominio, se hanno l’obiettivo di stimare i parametri di interesse
solo a livello dell’intera popolazione;
− multidominio, le stime dei parametri di interesse non debbono
essere fornite solo per la popolazione nel suo complesso ma anche
per specifiche sottopolazioni di essa, denominate domini (Cicchitelli
et al., 1991 ch. 8).
Quasi tutte le indagini condotte su larga scala sono di tipo multivariato e
multidominio; ad esempio la Rilevazione Trimestrale ISTAT sulle Forze di
Lavoro (in seguito denominata come RTFL) è multidominio in quanto fornisce stime per differenti livelli territoriali (l’intero territorio nazionale, la regio50
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
ne e la provincia) ciascuno dei quali costituisce uno specifico dominio; nel
contempo l’indagine è multivariata in quanto per ciascun dominio vengono
fornite le stime di differenti parametri di popolazione (numero occupati,
numero di persone in cerca di occupazione, ecc.).
Si osservano comunque anche combinazioni di tipo diverso, ad esempio
alcune indagini congiunturali dell’ISTAT, possono essere classificate come
univariate e multidominio in quanto forniscono le stime di un unico parametro, (ad esempio le vendite) per differenti sottopopolazioni di imprese
identificate dalla classificazione dell’attività economica.
La notazione simbolica che di seguito si introduce è piuttosto articolata per
tenere conto in modo rigoroso della complessità degli obiettivi propri delle
indagini statistiche.
Ciò detto si indichi con U la popolazione di interesse composta da N unità
statistiche e si identifichi con k (k = 1,..., N ) la singola unità facente parte
della popolazione medesima.
Si supponga che U sia partizionata in H strati e si denoti con U h (h=1,…,H)
la popolazione del generico strato composta da N h unità, essendo
H
H
U≡
U Uh
h =1
;
N=
∑ Nh ,
h =1
dove la generica unità dello strato h viene denotata con uhk (k=1,…, N h ).
A fini formali si indica con d un generico dominio (d =1,…,D) e con U d la
sottopopolazione di unità ad esso appartenenti. Tale notazione è di tipo
generale e permette di trattare le differenti situazioni che si incontrano nelle
indagini concrete come casi particolari; ad esempio, nel caso di un indagine
unidominio si ha: D=1, U D ≡ U .
I D domini di interesse non costituiscono una partizione della popolazione U,
ma possono identificare insiemi parzialmente sovrapposti; ciò significa che
una medesima unità può appartenere a due (o più) domini distinti. Riprendendo l’esempio dell’indagine RTFL si nota che un medesimo individuo appartiene a tre distinti domini di interesse: l’intero territorio nazionale, la regione e la provincia.
Nelle indagini concrete si osservano relazioni diverse che legano la
partizione della popolazione di interesse negli strati con la suddivisione della
stessa nei domini di studio:
• domini pianificati; i domini di studio sono definiti come aggregazione di
interi strati elementari. Ad esempio, nel caso dell’indagine RTFL, essendo gli strati costruiti nell’ambito della provincia, i domini di interesse definiti dalla provincia, o da aggregazioni di province (come ad esempio le
regioni), risultano essere domini pianificati;
• domini non pianificati; i domini di studio sono costituiti come aggre51
CAPITOLO 2
gazione di parti di strati elementari. Questo è il caso più generale in cui
ciascuno strato comprende sottopopolazioni differenti, di unità per
ciascuna delle quali si vogliono produrre le stime di interesse. Ad
esempio nel caso dell’indagine RTFL, ciascuno strato elementare, definito a livello geografico come aggregazione delle popolazioni di differenti
comuni, comprende individui sia di sesso maschile che femminile.
Poiché nella RTFL i parametri di interesse vengono stimati separatamente per sesso (ad esempio, le persone in cerca di occupazione di
sesso maschile e di sesso femminile), il sesso degli individui conduce
alla definizione di due domini non pianificati: i maschi e le femmine.
Si denoti quindi con Yc una generica variabile di interesse (c =1,…,C) e si indichi con yc ,hk (c=1,…, C; h=1,…,H; k=1,…, N h ) il valore della specifica
variabile Yc, relativo all’unità uhk , ossia la k–esima unità appartenente alla
popolazione U h . Ad esempio, nel caso di un’indagine che presenta il duplice obiettivo di stimare il reddito e la spesa, si ha: c=1, per il reddito; c = 2 =
C per la spesa; e, relativamente allo specifico individuo uhk si indica con
•
y1,hk il reddito dell’individuo e con
•
y2 ,hk la spesa dello stesso.
Tale notazione è di tipo generale; ad esempio nel caso di un indagine univariata si ha C=1.
Indicando, infine, con δ d ,hk (d=1,…, D; h=1,…,H; k=1,…, N h ) la variabile
indicatrice che assume valore 1 se all’unità
uhk appartiene al dominio d, e
assume valore 0, altrimenti, è possibile introdurre la variabile
se uhk ∈ U d
⎧y
ycd ,hk = yc,hk δ d ,hk = ⎨ c,hk
se uhk ∉ U d
⎩0
(c=1,…, C; d=1,…, D; h=1,…,H; k=1,…, N h ).
I parametri di interesse possono essere ottenuti come specifiche funzioni
definite sui (NxCxD) valori ycd ,hk . Nella trattazione che segue, affronteremo in modo esplicito i seguenti casi:
• parametri che costituiscono una funzione lineare dei valori
•
•
52
ycd ,hk ;
parametri ottenuti come funzione non lineare di parametri lineari;
parametri che costituiscono una funzione implicita dei valori ycd ,hk .
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
Parametri che costituiscono una funzione lineare dei valori
ycd ,hk
Un parametro che assume una particolare rilevanza è il totale del carattere
Yc nel dominio d
Nh
H
Ycd =
∑∑
H
ycd ,hk =
h =1 k =1
dove
∑Ycd ,h ,
(2.1)
h =1
Ycd ,h denota il totale, relativamente alla popolazione dello strato U h
del carattere Yc nel dominio d.
Qualora sia nota la consistenza della popolazione
N d , un parametro deri-
vato dalla (1) e che assume particolare rilevanza nelle indagini su larga scala è la media del carattere Yc nel dominio d
Y
Ycd = cd .
Nd
(2.1.b)
Nel caso in cui variabile Yc sia una variabile dicotomica – che è pari a 1 se
un’unità assume una determinata caratteristica d’interesse ed è pari a 0,
altrimenti – il parametro Ycd assume il significato della proporzione Pcd di
unità che presentano la caratteristica d’interesse nel dominio d.
Si fa notare che tutti i parametri di tipo lineare possono essere ricondotti alla
forma (2.1), mediante un’opportuna definizione delle variabili elementari
ycd ,hk . Ad esempio, nel caso del valore medio, Ycd , si può definire la
variabile trasformata
qcd , hk =
1
ycd , hk
Nd
In tal modo si ha che la media Ycd può essere espressa come il totale nel
dominio delle variabili trasformate qcd , hk
Ycd =
1
Nd
H
Nh
∑∑
H
ycd ,hk = Qcd =
h =1 k =1
Nh
∑ ∑ qcd ,hk .
h =1 k =1
Parametri ottenuti come funzione non lineare dei parametri Ycd
Nel seguito della trattazione tali parametri saranno indicati come
(
θ A&&& , A&&& = f YA&&& , A&&&
C
D
C
D
)
(2.2)
53
CAPITOLO 2
in cui, f (⋅) denota una funzione non lineare e differenziabile del vettore
YA&&& , A&&& = {Ycd : c ∈ AC&&& , d ∈ AD
&&&} dei totali di popolazione Ycd , dove
C D
AC&&& e AD
&&& indicano specifici sottoinsiemi delle C variabili di interesse e dei
D domini. Un parametro che assume particolare rilevanza nelle indagini concrete è il rapporto, riferito allo specifico dominio d, tra i totali Yc e Yc’ di
variabili differenti
Y
R(c ,c' ), d = cd
Yc' d
(con c ≠ c’)
Nel caso appena descritto l’insieme
e c’, mentre l’insieme
(2.2.b)
AC&&& contiene due elementi: le variabili c
AD
&&& contiene come unico elemento il dominio d.
Parametri che costituiscono una funzione implicita dei valori
ycd ,hk
È tipico il caso delle equazioni di stima
H
Z (ω) =
Nh
∑ ∑ f (y z, hk ω) = 0
(2.3)
h =1 k =1
f (⋅ ω) è una funzione implicita che dipende dal parametro
incognito
ω
e
dal
vettore
delle
variabili
di
interesse
y z , hk = ( yc1 , d1 , hk ,..., yc z , d z , hk ,..., yc Z , DZ , hk )′ avendo indicato con
dove
yc z ,d z ,hk la generica variabile d’interesse relativa alla all’unità hk, essendo
la variabile identificata dalla coppia di pedici ( c z , d z ) ( c z = c1,..., cZ ;
d z = d1,..., d Z ) di cui il primo relativo alla specifica variabile ed il secondo
attinente al dominio di stima. Un esempio di questo tipo di parametri è
riportato nel par. 2.3.4.2.
2.2.2 Approccio all’inferenza
Dal generico strato U h (h=1,…,H) si seleziona il campione sh , costituito da
nh unità, essendo nh ≤ N h . Il campione totale, denotato con s, è definito
dall’unione dei campioni dei vari strati
H
s=
U sh .
h =1
54
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
Poiché gli strati formano una partizione delle popolazione U, la dimensione
totale del campione n è naturalmente data da:
H
n=
∑ nh .
(2.4)
h =1
La selezione, dalle
delle
N h unità della popolazione dello strato U h (h=1,…,H),
nh unità costituenti il campione, può essere effettuata con disegni di
campionamento probabilistici o non probabilistici.
La stima di un generico parametro di interesse può essere realizzata
adottando differenti approcci all’inferenza:
(a) approccio basato sul disegno di campionamento;
(b) approccio assistito da modello;
(c) approccio predittivo.
Esiste una relazione tra il tipo di campionamento e l’approccio all’inferenza
su cui si vuole fondare la stima. Con disegni di campionamento probabilistici
la stima di un particolare parametro di interesse può essere effettuata alternativamente con uno dei tre approcci sopra elencati. Mentre, adottando un
disegno campionario di tipo non probabilistico, la stima può essere ottenuta
unicamente mediante un approccio predittivo. Per semplificare la trattazione,
nel seguito del lavoro ipotizzeremo che, nel caso di un campionamento probabilistico, la stima di un generico parametro di popolazione viene effettuata
unicamente mediante gli approcci (a) o (b); si tratterà l’approccio (c)
unicamente nel caso di un campionamento non probabilistico.
Si descrivono di seguito le principali caratteristiche degli approcci sopra
elencati. Nell’ultimo paragrafo di questa sezione si illustra anche una misura
di variabilità, nota in letteratura come varianza anticipata, che rappresenta
un ponte tra l’approccio basato sul disegno di campionamento e quello predittivo.
2.2.2.1 Approccio basato sul disegno di campionamento
Qualora si adotti un disegno di campionamento probabilistico, l’inclusione di
un’unità nel campione viene determinata da un meccanismo di tipo casuale.
Un concetto fondamentale in tale approccio è quello di disegno di campionamento che, dal punto di vista formale definisce una funzione di probabilità
p(s) sul supporto Ψ , dove p(s) denota la probabilità che il campione s sia
selezionato dalla popolazione U e Ψ indica l’insieme di tutti i possibili
campioni estraibili da U.
Ciascun disegno di campionamento definisce un particolare universo dei
campioni costituito dal sottoinsieme S di Ψ caratterizzato dai campioni
aventi probabilità p ( s ) > 0 . Si ha quindi
55
CAPITOLO 2
∑
p( s ) =
s∈Ψ
∑
p( s ) = 1
s∈S
Ciascun disegno di campionamento viene quindi realizzato mediante uno
specifico schema di campionamento, termine con il quale viene denotato il
meccanismo probabilistico di selezione delle unità che assegna le probabilità p(s) ai campioni di Ψ .Si denoti, quindi, con a, uno specifico disegno di
campionamento stratificato di tipo probabilistico e si indichi con a s al generico campione selezionato con tale disegno in cui
H
U
as =
a sh ,
(2.5)
h =1
essendo a sh il campione selezionato nello strato h.
Il disegno di campionamento a determina un universo dei campioni, denotato con a sh , dove il generico campione a sh ( a sh ∈ a Sh ) ha probabilità
p( a sh ) di essere osservato, essendo
∑
p ( a sh ) = 1 .
(2.6)
a sh ∈ a Sh
L’universo complessivo dei campioni generati dal disegno a, denotato con
aS, è dato dall’unione degli universi dei campioni dei vari strati
H
aS =
U
a Sh .
(2.7)
h =1
La probabilità del campione a s di essere osservato, indicata con
definita come
p( a s ) , è
H
p( a s ) =
∏ p ( a sh )
(2.8)
h =1
essendo
∑
a s∈ a S
H
p( a s ) =
∏
∑
h =1 a sh ∈ a Sh
H
p ( a sh ) =
∏ 1 = 1.
(2.9)
h =1
Le proprietà inferenziali di una generica stima vengono studiate facendo riferimento ai valori attesi delle stima nell’universo dei campioni a S . Per illu56
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
~
strare formalmente il concetto di valore atteso si indichi con a ,b Ycd ( a s ) la
Ycd determinata con un generico stimatore, denotato con b,
sui dati raccolti dal campione a s , dove
stima del totale
~
a ,b Ycd ( a s ) =
H
~
∑ a,bYcd ,h (a sh )
(2.10)
h =1
~
essendo a ,b Ycd ,h ( a sh ) la stima relativa allo strato h.
~
Il valore atteso dello stima a ,b Ycd ( a s ) nell’universo dei campioni è dato da
H
(
) ∑ ∑
(
)
~
Ed a ,b Ycd ( a s ) =
~
a ,bYcd ,h ( a sh ) p ( a sh ) .
(2.11)
h =1 a sh ∈a Sh
In genere si richiede che il metodo di stima adottato sia corretto. La proprietà
di correttezza può essere definita come
~
Ed a ,b Ycd ( a s ) − Ycd = 0 .
(2.12)
Per stimatori corretti, la varianza di campionamento è definita da
(
)
2
~
~
Vd ( a ,b Ycd ( a s )) = Ed a ,b Ycd ( a s ) − Ycd =
H
=
~
Vd ( a ,b Ycd ,h ( a sh )) =
∑
h =1
H
~
∑ (a,bYcd ,h (a sh ) − Ycd ,h ) p (a sh ) . (2.13)
h =1
Un ruolo fondamentale nell’approccio approccio inferenziale che si sta esaminando è definito dalle probabilità di inclusione semplici e congiunte delle
unità nel campione. La probabilità di inclusione semplice dell’unità uhk nel
campione, denotata con a π hk , è formalmente definita come
a π hk
= p(uhk ∈ a s ) = p(uhk ∈ a sh ) =
∑
p( a sh ) a λhk
(2.14)
a sh ∈ a Sh
essendo a λhk una variabile dicotomica che assume valore 1 se l’unità
uhk è selezionata nel campione a sh e valore 0 altrimenti.
La probabilità congiunta, indicata con a π hk ,h ′k ′ , definisce la probabilità che
la coppia di unità ( uhk , uh ′k ′ ) sia osservata nel campione; formalmente
essa è definita come.
57
CAPITOLO 2
a π hk ,h ′k ′ = p((uhk , uh ′k ′ ) ∈ a s ) =
∑
a s∈ a S
p( a s ) a λhk a λh′k ′ .
(2.15)
È immediato verificare che nei campioni stratificati, la probabilità in parola è
data da
⎧ a π hk
⎪
a π hk , h ′k ′ = ⎨ a π hkk ′
⎪ π
⎩ a hk aπ h ′k ′
se hk = h' k '
se h = h′ e k ≠ k ′
se h ≠ h′
.
(2.16)
L’espressione esplicita delle probabilità di inclusione semplici e congiunte
dipenderà dalle specifiche caratteristiche del disegno di campionamento a
preso in esame; tali probabilità permettono di definire lo stimatore di Horvitz
Thompson che gioca un ruolo fondamentale nell’approccio all’inferenza
basato sul disegno di campionamento e che, come è facilmente verificabile,
gode della proprietà di correttezza:
~
a , E Ycd =
H nh
1
∑∑ a π hk
y cd ,hk .
(2.17)
h =1 k =1
Per riportarci a una forma generale, che verrà largamente adottata nel
seguito di questo lavoro, lo stimatore (2.17) può essere visto come somma
ponderata dei dati campionari
~
a , E Ycd =
H nh
∑∑ a,E whk
ycd ,hk ,
(2.18)
h =1k =1
dove
a , E whk =
1
a π hk
(2.19)
denota il peso di campionamento anche noto come peso base. Nelle
precedenti espressioni il pedice a alla sinistra dello stimatore e del peso
definisce il piano di campionamento utilizzato; si ricorda infatti che
l’espressione esplicita delle probabilità di inclusione e del corrispondente
peso dipende dal particolare disegno di campionamento adottato. Il pedice E
serve a denotare lo stimatore; si usa la lettera E in quanto lo stimatore (2.17)
costituisce una particolare forma di stimatore espansione.
Utilizzando un risultato standard della teoria del campionamento da popolazioni finite (Särndal, et al., 1992, cap. 3), la varianza di campionamento
dello stimatore (2.17) viene quindi definita come:
58
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
H Nh Nh
(
) ∑ ∑ ∑( a π hkl −a π hk aπ hl ) ycdπ ,hk
a hk
(
) ∑ ∑ ∑ ( a π hkl −aπ π hk
a hkl
~
Vd a, E Ycd =
h =1k =1 l =1
La stima della varianza è data da:
~
~
Vd a , E Ycd =
H nh
nh
aπ hl )
h =1k =1 l =1
ycd ,hl
a π hl
.(2.20)
ycd ,hk ycd ,hl
(2.21)
a π hk
a π hl
2.2.2.2. Approccio assistito da modello
L’approccio all’inferenza assistito da modello porta alla costruzione dello
stimatore di regressione. In tale approccio si ipotizza che :
(a) la variabile di interesse
ycd ,hk sia legata a un vettore,
(
)
x hk = x1, hk ,..., xg , hk ,..., xG , hk ′ ,
di G variabili ausiliarie dal seguente modello statistico, detto anche modello
di superpopolazione :
ycd ,hk = β'cd x hk + ε cd ,hk
E m (ε cd ,hk x hk ) = 0
,
(2.22)
E m (ε cd ,hk x hk ) = g hk σ cd 2 ,
2
(2.23)
dove si è indicato con: β cd un vettore incognito di G coefficienti di regressione;
ε cd ,hk
il residuo casuale del modello; E
m
(.) l’operatore di valore at-
teso sotto il modello; g hk uno scalare il cui valore è noto a priori, che consente di trattare i problemi di eteroschedasticità del modello;
(b) il totale delle variabili ausiliarie
X=
H Nh
∑∑
x hk
h =1k =1
sia conosciuto in base a una fonte amministrativa o a una stima campionaria
molto affidabile.
Valendo le condizioni (a) e (b) precedenti, nell’approccio all’inferenza
assistito da modello (Särndal, et al., 1992), si definisce lo stimatore di
regressione che risulta in genere migliore di quello di espansione, in quanto
sfrutta la conoscenza dei valori delle variabili ausiliarie nella popolazione.
Nel contesto in esame lo stimatore di regressione del totale Ycd è dato da
59
CAPITOLO 2
~
a,R Ycd =
nh
H
∑ ∑ a,R whk
ycd ,hk
(2.24)
h =1 k =1
dove i pesi campionari a,R whk sotto la strategia a,R sono ottenuti come
prodotto del peso base, a,E whk , per il fattore correttivo
a,R whk
γ hk
= a,E whk γ hk
(2.25)
essendo
⎡
γ hk = a , E whk ⎢1 + (X − a,E X ) a,ET −1
~'
~
⎣⎢
x hk ⎤
⎥
g hk ⎦⎥
in cui
~
a,E X =
H nh
∑∑
a , E whk x hk ;
~
a,E T =
h =1k =1
H nh
∑∑
h =1k =1
x hk x'hk
a,E whk .
g c,hk
Per dimensioni campionarie sufficientemente grandi, si dimostra che: (i) lo
stimatore di regressione è corretto; (ii) l’espressione esplicita della sua
varianza campionaria può essere bene approssimata utilizzando la tecnica
di linearizzazione. In tal modo si ha
(
H Nh Nh
) ∑ ∑ ∑ ( a π hkl −a π hk
~
Vd a , R Y pd =
aπ hl )
h =1k =1 l =1
ε cd ,hk ε cd ,hl
a π hk a π hl
(2.26)
Una stima robusta della (2.26) è data da (Kott, 1990):
(
H nh
nh
) ∑ ∑ ∑( a π hkl −a π hk aπ hl )
~
~
Vd a, R Y pd =
h =1k =1 l =1
ε~cd ,hk γ hk ε~cd ,hl γ hl
a π hk
a π hl
(2.27)
dove
~
'
ε~cd ,hk = yc,hk − βcd
x hk ,
(2.28)
in cui
⎡ H nh x x '
⎤
~
hk
hk
βcd = ⎢
aE whk ⎥
⎢⎣h =1k =1 g hk
⎥⎦
∑∑
−1
H nh
∑∑
h =1k =1
a , E whk
x hk
g hk
ycd ,hk .
(2.29)
60
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
Ponendo a confronto le relazioni (2.20) e (2.26), si nota che la varianza dello
stimatore di regressione ha la medesima espressione della varianza dello
stimatore espansione, salvo il fatto che, per lo stimatore di regressione, le
variabili di interesse ycd ,hk sono sostituite dalle variabili residuo ε cd ,hk .
Per quanto riguarda le stime delle varianze definite dalle relazioni (2.21) e
(2.27) si nota che la stima della varianza dello stimatore di regressione può
essere ottenuta dalla medesima espressione di quella adottata per lo
stimatore di espansione, salvo la sostituzione delle variabili di interesse
ycd ,hk da variabili ottenute come prodotto dei residui stimati ε~cd ,hk per i
correttori del peso base
γ cd ,hk .
2.2.2.3. Approccio predittivo
L’inferenza campionaria è fondata su un modello statistico che lega la
variabile d’interesse ad un vettore di variabili ausiliarie. Si adotta in genere il
modello di superpopolazione definito dalle espressioni (2.22) e (2.23).
La stima campionaria di un totale viene quindi determinata mediante la somma dei valori osservati sul campione e la somma dei valori predetti relativamente alle unità non osservate nel campione. Tali valori sono ottenuti
sulla base:
della stima, determinata con i dati campionari, del vettore β cd del
modello statico (2.22);
• della conoscenza delle variabili ausiliarie relativamente alle unità non
campionate.
Lo stimatore predittivo del totale della variabile di interesse può essere
quindi definito come
•
~
NP, R Ycd =
N h − nh
⎡ nh
⎤
~
⎢
ycd ,hk +
ycd ,hk ⎥
⎥⎦
h =1⎢⎣ k =1
k =1
H
∑∑
∑
(2.30)
dove ~
ycd ,hk denota il valore predetto della quantità ycd ,hk , che sulla base
del modello (2.22) e (2.23) è definibile come
−1
H nh
⎡
⎤
⎡ H nh x
⎤
~
x hl x'hl
~
hl
⎥ ⎢
ycd , hk = x′hk βcd = x′hk ⎢
ycd , hl ⎥ .
⎢h =1 l =1 g hl
⎥ ⎢ h =1 l =1 g hl
⎥
⎣
⎦ ⎣
⎦
(2.31)
∑∑
∑∑
Si noti che nella precedente espressione (2.30), si usa la sigla NP in sostituzione dell’indice a che denota il disegno di campionamento; ciò è stato
fatto per mettere in luce che il disegno di campionamento cui si sta facendo
riferimento è di tipo non probabilistico. Ciò non esclude che lo stimatore di
61
CAPITOLO 2
tipo (2.30) possa essere utilizzato anche nel caso in cui il disegno di campionamento adottato per la selezione del campione sia di tipo probabilistico.
Con semplici passaggi algebrici, lo stimatore (2.30) può essere ricondotto
alla forma generale di somma ponderata dei dati campionari
~
NP,R Ycd =
H
nh
∑∑
NP,R whk
ycd ,hk
(2.32)
h =1 k =1
in cui
⎛
H nh
⎜
x hk
NP,R whk = 1 + ⎜ X −
⎜
h =1 k =1
⎝
∑∑
'
⎞ ⎛ H nh
x hk x'hk
⎟⎜
⎟⎜
⎟ ⎝ h =1k =1 g c, hk
⎠
∑∑
⎞
⎟
⎟
⎠
−1
x hk
. (2.33)
g hk
Le proprietà statistiche degli stimatori, nell’approccio considerato, sono definite rispetto al modello di superpopolazione adottato e non rispetto alla distribuzione di probabilità indotta dal disegno di campionamento.
La correttezza da modello dello stimatore è definita come
(
)
~
Em NP, R Ycd ( a s ) − Ycd = 0 .
(2.34)
La varianza da modello dello stimatore è definita come
(
)
(
)
2
~
~
Vm NP, R Ycd − Ycd = Em NP, R Ycd − Ycd
.
(2.35)
Sotto il modello di superpopolazione precedentemente introdotto, la varianza
da modello dello stimatore (2.30) è definita da:
(
H ⎡ nh
N h − nh
⎤
2 ⎥
g hk σ cd
⎥⎦
k =1
) ∑ ⎢ ∑ ( NP,R whk − 1) 2 ghk σ cd2 + ∑
⎢
~
Vm NP, R Ycd − Ycd =
h =1⎣ k =1
(2.36)
Una stima campionaria della (2.36), corretta sotto il modello (2.22) e (2.23) è
data da
(
H ⎡ nh
N h − nh
⎤
2 ,
⎥
g hk σ~cd
⎥⎦
k =1
) ∑ ⎢ ∑ ( NP,R whk − 1) 2 ghk σ~cd2 + ∑
⎢
~
~
Vm NP, R Ycd − Ycd =
h =1⎣k =1
(2.37)
dove
2
σ~cd
=
1
n − G −1
H nh
1
∑∑ ghk ( yc,hk − ~yc,hk )2
h =1k =1
denota la stima con i dati campionari della componente di varianza
62
(2.38)
2
σ cd
.
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
2.2.2.4 Approccio basato sulla varianza anticipata
Un’ulteriore misura di variabilità dagli interessanti sviluppi applicativi è la
varianza congiunta rispetto al modello e al piano di campionamento adottato, detta anche varianza anticipata (Särndal et al., 1992, pag. 451).
Quando si adottano piani di campionamento non informativi (Cicchitelli et al.,
1992, pag. 382), in cui le probabilità di inclusione non dipendono dai valori
assunti dalle variabili d’interesse, tale varianza può essere espressa come
(
[ (
)
)]
~
~
VA a,b Ycd − Ycd = Ed Vm a,bYcd − Ycd .
(2.39)
In Särndal et al. (1992, pag. 451) si dimostra che per disegni di campionamento di tipo probabilistico, sotto il modello definito dalle espressioni
(2.22) e (2.23), la varianza in oggetto per la generica strategia di campionamento di tipo (a,R) è data da:
(
=−
H Nh
(1 − aπ hk )
) ∑∑
~
VA a , R Ycd =
a π hk
h =1k =1
H Nh
∑∑
2
+
g hk σ cd
h =1k =1
2
g hk σ cd
=
H Nh
2
g hk σ cd
∑∑
h =1k =1
a π hk
.
(2.40)
Una stima campionaria corretta (sotto il disegno di campionamento e sotto il
modello) della (2.40) è definita da
(
H nh
H nh
~2
) ∑ ∑ π1 ghk σ~cd2 + ∑∑ ghk σ2 cd
π
a hk
~
~
V A a , R Ycd = −
(2.41)
h =1k =1 a hk
h =1k =1
2.2.2.5 Parametri non lineari
Una volta prescelto l’approccio all’inferenza, definito essenzialmente dalla
strategia di campionamento adottata – individuata dalla coppia (a,b) in cui a
denota il disegno di campionamento e b il tipo di stimatore – si ottengono i
pesi campionari a,b whk con cui ponderare i dati elementari e le stime
~
campionarie a ,b Ycd dei totali di popolazione. Mediante tali statistiche è possibile ottenere anche una stima di parametri non lineari come quelli definiti
nelle espressioni (2.2) e (2.3).
La stima dei parametri θ A&&& , A&&& = f YA&&& , A&&& , illustrati nella (2.2), viene
C
ottenuta come
~
(
~
(
D
a ,b θ AC
&&& , AD
&&& = f a ,b YAC
&&& , AD
&&&
)
C
D
)
(2.42)
63
CAPITOLO 2
~
in cui a ,b YA&&& , A&&& denota il vettore delle stime campionarie dei totali
C D
~
a ,b YAC
&&& , AD
&&&
{
}
~
= a ,b Ycd : c ∈ AC&&&, d ∈ AD
&&& .
Ad esempio, la stima del rapporto R(c ,c' ), d =
Ycd
Yc' d
(con c ≠ c’) è definita
da
~
a ,b R( c,c ' ),d
Y
= cd
Yc ' d
(2.42.b)
Le stime campionarie di parametri, definiti nella (2.3) come soluzione di un
H Nh
sistema di equazioni di stima del tipo Z (ω) =
f y z ,hk ω = 0 ,
∑∑ (
h =1 k =1
sono ottenute come
H nh
~
a ,b Z (ω) =
)
∑ ∑ a,b whk f (y z,hk ω~) = 0 ,
(2.43)
h =1 k =1
~ denota una stima del parametro incognito ω .
in cui ω
2.3.
Decomposizione della variabilità negli strati
2.3.1. Risultato generale
In questo paragrafo si illustra un risultato generale, sulla variabilità nel
campionamento stratificato che è alla base di tutti i metodi di allocazione
successivamente illustrati nei parr. 2.4 e 2.5. Per illustrare tale risultato, si
indichi con θ un particolare parametro di popolazione – definito alterna-
~
tivamente da una delle espressioni (2.1), (2.2), (2.3) – e si denoti con a ,b θ
la corrispondente stima campionaria, ottenuta con la strategia di
~
~
campionamento (a,b). Si denoti, inoltre con V ( a ,b θ ) la varianza di a ,b θ
che, a seconda del particolare contesto preso in esame, può indicare, alternativamente una varianza da campionamento, una varianza da modello, o
una varianza anticipata.
~
La varianza V ( a ,b θ
) può essere espressa come somma di due
componenti
(
~
)
~
~
V a,b θ = V0 ( a,b θ ) + Vcamp ( a,b θ ) =
64
H
~
H
∑ V0, h (a,bθ ) + ∑
h =1
h =1
~
Vh ( a,b θ )
nh
(3.1)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
dove il primo addendo,
H
~
V0 ( a ,bθ ) =
~
∑V0,h (a,bθ ) ,
(3.2)
h =1
pur essendo indipendente dalla scelta del numero di unità del campione da
allocare in ciascuno strato nh (h=1,…,H), è funzione della strategia di
campionamento adottata e dalle caratteristiche della popolazione; mentre, il
secondo addendo,
~
Vcamp ( a,b θ ) =
H
∑
~
Vh ( a, b θ )
nh
,
(3.3)
h =1
è, al contrario, strettamente dipendente dalla definizione delle numerosità
campionarie nh (h=1,…,H).
Si può ottenere una decomposizione analoga alla (3.1), relativamente alla
stima della varianza
H
H V~ ( θ~ )
~ ~
~ ~
~
~
~
~
h a,b
V a, b θ = V0 ( a,b θ ) + Vcamp ( a,b θ ) = V0, h ( a, b θ ) +
nh
h =1
h =1
(3.4)
dove
H V~ ( θ~ )
~
~
~
~
h a,b
V0 ( a ,bθ ) e Vcamp ( a,b θ ) =
nh
h =1
(
)
∑
∑
∑
costituiscono le stime campionarie, determinate con la strategia (a,b) delle
corrispondenti quantità
~
~
V0 ( a ,bθ ) e Vcamp ( a,b θ ) .
Nei successivi paragrafi si illustra come la decomposizione della varianza
nei due addendi possa essere applicata nel caso della stima di totali a differenti contesti campionari rilevanti nell’ambito delle indagini concrete. In
particolare il par. 2.3.2 descriverà, a grandi linee, cinque contesti campionari
frequentemente adottati nelle indagini a larga scala sulle imprese e sulle
famiglie. Successivamente, il par. 2.3.3, illustrerà la particolarizzazione delle
espressioni (3.1) e (3.4) nei contesti considerati, relativamente al caso di
parametri di tipo lineare. Infine, il par. 3.4. estenderà i risultati del par 2.3.3 al
caso di parametri non lineari.
2.3.2. Strategie di campionamento prese in considerazione
2.3.2.1 Disegni di campionamento
Come precedentemente introdotto, le indagini statistiche su larga scala,
basate su disegni stratificati, possono adottare schemi di campionamento
65
CAPITOLO 2
diversi. Una particolare importanza rivestono i disegni di campionamento di
seguito elencati:
• Campionamento Casuale Semplice (di seguito denotato con la sigla
CS);
• Campionamento Non Probabilistico (NP);
• Campionamento a Due Stadi (DS);
• Campionamento a Due Fasi (DF);
• Campionamento di Poisson (PO).
Tali disegni verranno di seguito brevemente illustrati.
Campionamento Casuale Semplice
La selezione delle unità avviene in ciascuno strato senza reimissione e a
probabilità uguali. Questo disegno è piuttosto rilevante nell’ambito della
statistica ufficiale in quanto è quello comunemente adottato nelle indagini
ISTAT sulle imprese, istituzioni e aziende agricole, condotte per via postale
e nelle indagini di tipo CATI sulle imprese e sulle famiglie.
La probabilità di inclusione semplici e congiunte sono date da
cs π hk
=
nh
Nh
⎧ nh
⎪⎪ N
h
=
π
cs hkk ′ ⎨ n ( n −1)
h
⎪ h
⎪⎩ N h ( N h−1)
(3.5)
se k = k ′
(3.6)
se k ≠ k ′
Campionamento Non Probabilistico
Tale tipo di campionamento trova ampia applicazione nelle indagini in cui
non si dispone di liste da cui selezionare il campione. L’inferenza viene
costruita adottando particolari modelli di superpopolazione che legano le
variabili di interesse a variabili di tipo ausiliario di cui si conoscono i totali
nella popolazione di interesse. Le indagini per quote rappresentano un tipico
caso di campionamento non probabilistico in cui le quote costituiscono gli
strati di campionamento.
Campionamento a Due Stadi
Questo disegno di campionamento assume un importanza fondamentale
nella statistica ufficiale in quanto è quello comunemente adottato nelle
indagini ISTAT sulle famiglie condotte tramite intervista diretta. Tale schema
può essere implementato con metodologie diverse che prevedono soluzioni
differenti per il primo e il secondo stadio di campionamento. Nelle indagini
condotte nell’ambito della statistica ufficiale, in genere in ciascuno strato, la
selezione delle unità di primo stadio è fatta con probabilità variabili e senza
66
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
reimmissione; mentre la selezione delle unità di secondo stadio è fatta senza
reimmissione e con probabilità uguali.
Si supponga che le N h unità della popolazione U h siano raggruppate in
M h gruppi (o clusters) (con N h < M h ) che costituiscono la popolazione
U1,h delle Unità di Primo Stadio (UPS) del campionamento e si indichi con
U hi la generica UPS.
Si assuma che dal generico strato h sia selezionato, senza reimmissione e
con probabilità variabili un campione s1,h di mh UPS, mediante il disegno di
campionamento p1, h (⋅) . Il campione di primo stadio s1 è pertanto costituito
dall’unione dei campioni dei vari strati
H
s1 =
s1, h .
U
h =1
Le probabilità di inclusione delle UPS
i′ =1,…, M h ' ) sono definite da
U hi e U h′i′ (h=1,…,H; i=1,…, M h ;
⎧π1,hi
per ( h = h' ) e (i = j )
⎪
per ( h = h' ) e (i ≠ i′)
DS π1, hi , h′i′ = Pr ((U hi e U h′i′ ) ∈ s1 ) = ⎨π1, hii′
⎪π
⎩ 1,hi π1,h′i′ per ( h ≠ h' )
(3.7)
Si supponga, inoltre, che dalla popolazione U hi – costituita dalle N hi unità
elementari della UPS hi (h=1,…, H; i=1,…, M h ) – sia selezionato, senza
reimmissione e a probabilità uguali, un campione, s2 hi , di nhi di Unità di
Secondo Stadio (USS), essendo
mh
∑ nhi = nh .
i =1
Si denoti quindi con u2hij la generica USS.
Condizionatamente all’evento che le UPS U hi e U hi′ (h=1,…,H; i=1,…,
M h ; i′ =1,…, M h ' ) siano state incluse nel campione di primo stadio s1 , le
probabilità di inclusione nel campione delle USS u2hij e u2h′i′j ′ sono
definite da
67
CAPITOLO 2
DS π 2, hij , h'i′j ′
⎧ nhi
⎪
⎪ N hi
⎪n
= ⎨ hi
⎪ N hi
⎪ nhi
⎪N
⎩ hi
= Pr ((uhik e uh'i′j ′ ) ∈ ( s2,hi ∩ s2, h'i′ ) (U hi e U h'i′ ) ∈ s1) =
per ( hij = h′i′j′)
nhi − 1
N hi − 1
nh'i′
N h'i′
per ( h = h' ) e (i = i′) e ( j ≠ j′)
(3.8)
per ( h ≠ h' ) e (i ≠ i′)
In tal modo, le probabilità di inclusione congiunta nel campione s delle USS
u2hij e u2h′i′j ′ è data da
DS π hij , h 'i′j ′ = Pr ((u2 hij , u2 h 'i′j ′ ) ∈ s ) = π1, hij , h 'i′j ′
π 2, hij , h'i′j ′ . (3.9)
Conseguentemente, le probabilità di inclusione finale per l’unità finale u 2 hik
appartenente all’UPS U hi è data da
DS π hik = π1, hi
nhi
.
N hi
Si ricorda che la USS u 2 hik corrisponde all’unità elementare di campionamento che nelle rimanenti parti di questo testo viene denotata come uhk .
Al fine di ricondursi al tipo di simbologia generale utilizzata nel lavoro, le
probabilità d’inclusione semplici e congiunte, precedentemente introdotte,
vengono quindi riformulate come
DS π hk , h′k ′
= Pr ((uhk e uh′k ′ ) ∈ s (uhk = u2hij ) e (uh′k ′ = u2h′i′j′ )) =
nhi
⎧
per ( h = h' ) e ( i = i ' ) e ( j = j ' )
⎪ DS π hk = π1, hi N
hi
⎪
⎪ DS π hkk ′ = π1, hi nhi nhi − 1 per ( h = h' ) e (i = i′) e ( j ≠ j ' )
⎪
N hi N hi − 1
=⎨
n n
⎪ DS π hkk ′ = π1, hii′ hi hi′
per ( h = h' ) e (i ≠ i′)
N hi N hi′
⎪
⎪
nhi nh'i′
per ( h ≠ h' )
⎪π1, hi π1, h′i′
N hi N h'i′
⎩
(3.10)
68
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
Campionamento a Due Fasi
Il campionamento in due fasi può essere realizzato con modalità differenti.
Nel presente lavoro si considera un disegno di tipo generale in prima fase e
un disegno di seconda fase di tipo stratificato con selezione senza
reimissione e a probabilità uguali negli strati.
Questo disegno trova applicazione soprattutto nei casi in cui, ad esempio
per le richieste comunitarie, è necessario produrre stime anticipate, ossia
prima che si sia completata la fase di raccolta ed elaborazione dei dati. In tali
situazioni è usuale selezionare un sottocampione (campione di seconda
fase) del campione principale, che costituisce il campione di prima fase. Per
le unità del sottocampione vengono adottate procedure di raccolta ed
elaborazione dei dati che consentono di produrre i risultati voluti in tempi più
rapidi consentendo in tal modo di rispettare i vincoli di competitività richiesti.
Il disegno di campionamento in due fasi, qui considerato, può essere illustrato nel modo seguente (Särndal et al., 1992, pp. 357). Si supponga che
dalla popolazione U sia selezionato un campione, denotato con DF1 s di
ampiezza DF1 n . Il campione DF1 s , indicato nel seguito come campione di
prima fase, è selezionato con disegno di campionamento arbitrario che
definisce probabilità di inclusione semplici e congiunte definite da
DF 1π hk
= Pr (uhk ∈ DF 1s )
DF 1π hk ,h ' k '
(3.11)
= Pr ((uhk e uh ′k ′ ) ∈ DF 1s ) .
Il campione di prima fase di unità appartenenti allo strato
DF 1 sh
(3.12)
Uh ,
= DF 1 s I U h , è costituito da DF 1 nh unità.
Nella seconda fase si selezionano nh unità dalle DF 1 nh del campione di
prima fase, mediante campionamento casuale semplice senza reimmissione, in cui
nh = ν h DF1nh
0 <νh < 1
(3.13)
dove le quantità ν h sono costanti definite a priori (h = 1,…,H).
Si assume inoltre che essendo l’insieme DF1 s , sufficientemente ampio
risulti quasi nulla la probabilità che qualcuno degli insiemi campionari
DF 1 sh (h=1,…,H) risulti vuoto.
Al termine del processo in due fasi sopra illustrato, si può determinare il va*
lore di una probabilità π hk determinata mediante il prodotto della probabilità
di inclusione di prima fase per la probabilità di inclusione di seconda fase:
*
π hk
= DF 1 π hk vhk .
(3.14)
69
CAPITOLO 2
*
Come chiarito in (Särndal et al., 1992 pp. 347-348), la probabilità π hk non
costituisce formalmente una probabilità di inclusione, ma permette di
costruire uno stimatore espansione, denominato stimatore π * , che risulta
corretto sotto il disegno di campionamento DF. In tale contesto, il peso base,
con cui ponderare i dati campionari è definito come:
DF , E whk =
1
DF 1π hk vhk
(3.15)
Campionamento di Poisson
Tale tipo di campionamento trova crescente applicazione nell’ambito della
statistica ufficiale essenzialmente per due ordini di motivi:
• esso permette di realizzare in modo relativamente semplice il
coordinamento (positivo o negativo) della selezione di diversi campioni
(Holhson, 1995), sia per occasioni differenti della stessa indagine sia per
indagini differenti che si effettuano nel medesimo arco temporale;
• la varianza del campionamento di Poisson costituisce il limite superiore
della varianza dei disegni campionari differenti che adottino le medesime
probabilità di inclusione del primo ordine. Ciò permette di avere un’indicazione della variabilità per schemi campionamento complessi – come
ad esempio il campionamento bilanciato (Deville et al. 2003), il
campionamento con selezione delle unità senza reimmissione e a probabilità variabili – che vengono adottati in particolari contesti di indagine
e per i quali risulta notevolmente complicato determinare l’espressione
analitica della probabilità di inclusione congiunte, rendendo pertanto
quasi impossibile la conseguente definizione della variabilità campionaria secondo le espressioni (2.20) e (2.21).
Per illustrare il campionamento in oggetto si supponga di conoscere relativamente all’unità uhk il valore di una variabile ausiliaria, denotato con
xhk , che assume sempre valori positivi.
Per la selezione nel campione dell’unità uhk si procede nel seguente modo:
• si genera, dalla distribuzione uniforme Unif (0,1), la variabile casuale
indipendente zhk ;
•
se zhk ≤ nh xhk
Nh
∑
xhk , l’unità viene inclusa nel campione, altrimenti
k =1
l’unità non viene osservata.
Per implementare il metodo è necessario assicurarsi in antecedenza alla
fase di selezione che per tutte le unità della popolazione sussista la
70
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
condizione nh xhk
Nh
∑ xhk ≤ 1 .
k =1
Le unità per le quali tale condizione non sussiste vanno messe in uno strato
a parte, del quale si procede a una osservazione censuaria.
La procedura di campionamento sopra illustrata determina probabilità di
inclusione semplici e congiunte definite da
nh xhk
PO π hk =
Xh
PO π hk ,h ′k ′ = PO
(3.16)
π hk
POπ h ′k ′ ,
(3.17)
essendo
Xh =
Nh
∑ xhk .
k =1
2.3.2.2 Stimatori
Indipendentemente dal disegno di campionamento utilizzato, le stime di
interesse possono essere ottenute con differenti metodi. In questo lavoro si
prenderanno in esame due stimatori che assumono particolare rilevanza
nell’ambito della statistica ufficiale:
• lo stimatore espansione (denotato nel seguito con la lettera E)
• lo stimatore regressione (R ).
Come indicato precedentemente, la generica stima del totale Ycd ottenuta
con la strategia definita dalla coppia (a,b) in cui a (nel nostro caso a=CS,
NP, DS, DF, PO) denota il disegno di campionamento e b (b=E o R) lo
stimatore viene indicata con
H nh
~
a ,b Ycd =
∑∑ a ,b whk
ycd ,hk
(3.18)
h =1k =1
dove a ,b whk indica il coefficiente di riporto all’universo o peso campionario
assegnato all’unità uhk in base alla strategia (a,b).
Stimatore espansione
Nei disegni di campionamento CS, DS, e PO, il peso a , E whk dello
stimatore espansione, detto anche peso base, viene calcolato come
71
CAPITOLO 2
a,E whk =
1
a π hk
,
(3.19)
ottenendo quindi lo stimatore di Horvitz-Thompson riportato nell’espressione
(2.17).
Nel disegno di campionamento DF, il peso è determinato mediante
l’espressione (3.15), definendo quindi lo stimatore stimatore π * .
Per quanto riguarda il campionamento NP, lo stimatore espansione viene
ottenuto ipotizzando il seguente modello di superpolazione,
ycd ,hk = β'cd x hk + ε cd ,hk ,
(
E m ε cd , hk x hk
)2 = σ cd2 ,h ,
(
)
E m ε cd , hk x hk = 0 ,
(3.20)
in cui β cd = ( μ1,..., μh ,..., μ H )′ e x hk corrisponde a un vettore H dimensionale in cui è pari a 1 solo la posizione h (corrispondente allo strato h) e
sono pari a zero tutti gli altri valori. In tale situazione si ha quindi
H Nh
X=
x hk = ( N1,..., N h ,..., N H )′ . Secondo questo modello, si ha
∑∑
h =1k =1
pertanto Em ( ycd ,hk )
= μh . In tale situazione si ha che il valore predetto
per un’unità appartenente allo strato h è data dal valore medio di
n
1 h
~
~
ycd ,hk .
strato ycd ,hk = μh =
nh k =1
∑
Di conseguenza, lo stimatore espansione, sotto il disegno NP è dato da
N h − nh
H
⎡ nh
⎤
~
~
NP , E Ycd = ∑ ⎢ ∑ y cd , hk + ∑ y cd , hk ⎥ =
h =1 ⎣ k =1
k =1
⎦
H
⎤
⎡ nh
1 nh
= ∑ ⎢∑ y cd ,hk + ( N h − n h ) ∑ y cd ,hk ⎥ =
n h k =1
h =1 ⎣ k =1
⎦
=
H nh
∑∑
h =1k =1
Nh
ycd ,hk =
nh
H nh
∑∑ NP,E whk ycd ,hk
.
h =1k =1
dove il peso base è espresso come NP,E whk = N h / nh .
72
(3.21)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
Stimatore di regressione
Lo stimatore di regressione del totale Ycd , basato sul il modello di superpopolazione illustrato nelle espressioni (2.22) e (2.23), è dato da
H nh
~
a,R Ycd =
∑ ∑ a,R whk
ycd ,hk
h =1 k =1
dove i pesi campionari a,R whk per i disegni di campionamento CS, DS, DF
e PO sono definiti dall’espressione (2.25), mentre nel caso del disegno di
campionamento NP sono definiti dall’espressione (2.33).
2.3.3 Decomposizione della varianza per la stima di totali in strategie
campionarie di grande utilizzo applicativo
2.3.3.1 Disegno di campionamento CS
Sostituendo le espressioni (3.5) e (3.6) nelle formule (2.20) e (2.21) si ottengono, per il disegno di campionamento preso in esame, le usuali espressioni della varianza e della stima della varianza della stima di un totale:
H
(
) ∑ N h (Nnh − nh ) E S 2cd ,h
h
(3.22)
(
) ∑ N h (Nnh − nh ) E S~2cd ,h
h
(3.23)
~
V CS,E Ycd =
~
~
V CS,E Ycd =
h =1
H
h =1
essendo
1
2
E Scd ,h =
Nh − 1
~2
E Scd ,h =
1
nh − 1
Nh ⎛
N
⎞
1 h
⎜y
⎟
−
y
cd ,hk ⎟
⎜ cd ,hk N h
k =1⎝
k =1
⎠
∑
nh ⎛
2
∑
(3.24)
2
n
⎞
1 h
⎜y
−
ycd ,hk ⎟ .
cd
hk
,
⎜
⎟
nh
k =1⎝
k =1
⎠
∑
∑
(3.25)
Mediante semplici passaggi algebrici, si ottiene:
⎛ H
~
V CS,E Ycd = ⎜ −
N h E S 2 cd ,h
⎜
⎝ h =1
⎛ H
~
~
~
V CS,E Ycd = ⎜ −
N h E S 2cd ,h
⎜
⎝ h =1
(
(
)
)
∑
∑
⎞ H N2
h
⎟+
⎟
⎠ h =1
⎞ H N2
h
⎟+
⎟
⎠ h =1
∑
∑
2
E S cd ,h
nh
~2
E S cd , h .
nh
(3.26)
(3.27)
73
CAPITOLO 2
Da cui è immediato derivare
~
V0 (CS,E Ycd ) = −
H
∑ N h E S 2cd ,h
~
; Vh (CS,E Ycd ) = N h2 E S 2 cd ,h (3.28)
h =1
~
~
V0 (CS,E Ycd ) = −
H
∑ N h E S 2cd ,h ;
~
~
Vh (CS,E Ycd ) = N h2 E S 2 cd ,h
(3.29)
h =1
Per quanto riguarda lo stimatore di regressione, è utile rifarsi a quanto illustrato nel par. 2.2.2.in cui si è notato che la varianza dello stimatore di regressione ha la medesima espressione della varianza dello stimatore espansione, salvo il fatto che, per lo stimatore di regressione, le variabili di interesse ycd ,hk sono sostituite dalle variabili residuo ε cd ,hk . Mentre per quanto
riguarda la stima della varianza si ricorda che essa può essere ottenuta dalla
medesima espressione adottata per lo stimatore di espansione, salvo la sostituzione delle variabili di interesse ycd ,hk con variabili ottenute come prodotto dei residui stimati ε~cd ,hk per i correttori del peso base
γ cd ,hk .
Si ha pertanto
~
V0 (CS,R Ycd ) = −
H
∑ N h R S 2cd ,h
~
; Vh ( CS,R Ycd ) = N h2 R S 2 cd ,h
(3.30)
h =1
~
~
V0 (CS,R Ycd ) = −
2
R S pd ,ch =
~2
R Scd ,ch =
2.3.3.2
H
~
∑ N h R S 2cd ,h
~
~
; Vh ( CS,E Ycd ) = N h2 R S 2 cd ,h (3.31)
h =1
Nh
1
Nh − 1
1
nh − 1
∑ε cd2 ,hk ,
k =1
2
n
⎛
⎞
1 h
⎜ γ ε~
γ hk ε~cd ,hk ⎟ .
−
hk
cd
hk
,
⎜
⎟
nh
k =1 ⎝
k =1
⎠
nh
∑
∑
Disegno di campionamento NP
(
(3.32)
~
Si ricorda che nell’approccio in questione, la varianza V NP,b Ycd
la varianza da modello, illustrata nel par. 2.2.2.3., si ha pertanto
(
)
(
)
) denota
~
~
V NP,b Ycd = Vm NP,b Ycd − Ycd .
~
Si consideri dapprima lo stimatore NP, E Ycd ottenuto sulla base del modello
semplificato (3.20). Sulla base dell’espressione (3.21) si può porre
74
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
(
H
=−
H ⎡ nh
⎛ Nh
2
N h − nh
⎤
⎞ 2
2 ⎥
⎢ ⎜
⎟
− 1⎟ σ cd , h +
g hk σ cd , h =
⎢ ⎜n
⎥
⎠
h =1 ⎣ k =1⎝ h
k =1
⎦
) ∑∑
~
V NP, E Ycd =
∑
2
N hσ cd
,h
H
∑
+
h =1
∑
2
N h2 σ cd
,h
.
nh
h =1
(3.33)
Dal precedente sviluppo deriva quindi
~
V0 ( NP,E Ycd ) = −
H
∑ N h σ cd2
~
2
Vh ( NP,E Ycd ) = N h2 σ cd
,h .
;
(3.34)
h =1
Adottando le medesime linee di sviluppo, nel contesto in cui la varianza
deve essere stimata si ha
~
~
V0 ( NP,E Ycd ) = −
H
~
2
Vh ( NP,E Ycd ) = N h2 σ~cd
,h ,
∑ Nhσ~cd2 ,h ;
(3.35)
h =1
dove
1
2
σ~cd
,h =
nh − 1
2
nh ⎛
n
⎞
1 h
⎜y
⎟
−
y
cd , hk ⎟ .
⎜ cd , hk nh
k =1⎝
k =1
⎠
∑
∑
(3.36)
Per quanto riguarda, invece, lo stimatore di regressione, è opportuno fare
riferimento ad una particolare versione del modello (2.22) e (2.23), introdotto
in Valliant (2000, cap. 6), particolarmente utile nel caso di popolazione
stratificate
'
ycd , hk = βcd
, h x hk + ε cd , hk
E m (ε cd ,hk x hk ) = 0
,
(3.37a)
(
E m ε cd , hk x hk
)2 = ghk σ cd2 ,h ,
(3.37b)
in cui
g hk = λ′ x hk
;
g hk = α′ x hk
(3.37c)
essendo λ e α due vettori i cui valori sono noti a priori.
Si supponga anche che il campione selezionato realizzi in ciascuno strato la
seguente equazione di bilanciamento
75
CAPITOLO 2
Nh
1
nh
nh
∑
k =1
∑ xhk
x hk
= Nk =1
(h=1,…,H).
h
g hk
(3.37d)
∑
g hk
k =1
Una descrizione esauriente delle condizioni di bilanciamento esula dalle
finalità del presente lavoro; per una descrizione dettagliata si rimanda a
quanto riportato nel libro di Vaillant (2000, cap. 3,4 e 6). Nel presente
contesto ci si limita ad osservare che nell’ottica dell’approccio approccio predittivo, spesso i campioni vengono selezionati in modo da rispettare equazioni di bilanciamento analoghe alla (3.37d). Il bilanciamento permette di
definire in modo semplificato gli stimatori di varianza minima dei parametri
d’interesse; viene, inoltre, garantita la robustezza dell’inferenza prodotta.
Sotto le relazioni (3.37a),…,( 3.37d), lo stimatore non distorto di minima
varianza del totale Ycd è dato da (Vaillant, 90, p. 174)
NP , R Ycd , hk
=
nh
∑ ycd ,hk NP, R wcd ,hk
(3.38)
h =1
in cui
Nh
(
NP , R wcd , hk = nh
g hk
) −1 ∑
g hl
l =1
La varianza da modello dello stimatore (3.38) è data da
(
)
(
)
~
~
V NP , R Ycd = Vm NP, R Ycd − Ycd =
2
N
H
⎞
1 ⎛⎜ h
2
=
g hl ⎟ σ cd
−
,h
⎟
n ⎜
h =1 h ⎝ l =1
h =1
⎠
H
∑
∑
⎛ Nh
⎞
2
⎜
g hl ⎟ σ cd
,h .
⎜
⎟
⎝ l =1
⎠
∑ ∑
Dalla precedente espressione deriva quindi
~
V0 ( NP,R Ycd ) = −
H ⎛ Nh
⎞
2
⎜
g hl ⎟ σ cd
,h ;
⎜
⎟
h =1 ⎝ l =1
⎠
∑ ∑
2
⎛ Nh
⎞
~
2
Vh ( NP,R Ycd ) = ⎜
g hl ⎟ σ cd
,h .
⎜
⎟
⎝ l =1
⎠
∑
76
(3.39)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
Nel contesto in cui la varianza deve essere stimata, si ha
~
~
V0 ( NP,R Ycd ) = −
2
⎛ Nh
⎞
⎞
⎛ Nh
~
2 ,
2 ;
⎟
⎜
~
g hl ⎟ σ~cd
g hl σ cd , h Vh ( NP,R Ycd ) = ⎜
,h
⎜
⎟
⎟
⎜
=
1
l
h =1 ⎝ l =1
⎝
⎠
⎠
H
∑
∑ ∑
(3.40)
in cui
1
cd , h =
nh − G − 1
σ~ 2
essendo
nh
1
∑ ghk ( yc,hk − ~yc,hk )2
k =1
⎡ nh x x '
~
hl
hl
yc, hk = x′hk ⎢
⎢ l =1 g hl
⎣
∑
⎤
⎥
⎥
⎦
−1 n
⎡ h
⎤
ycd , hl ⎥ .
⎥
⎦
x hl
⎢
⎢ l =1 g hl
⎣
∑
2.3.3.3 Disegno di campionamento DS
L’espressione usuale della varianza dello stimatore espansione, sotto il
disegno di campionamento in oggetto è data da:
H
H ⎛ nh
⎞
(
) ∑V (DS,E Y~cd ,h ) = ∑V ⎜⎜ ∑ DS , E whk ycd ,hk ⎟⎟ (3.41)
h =1
h =1 ⎝ k =1
⎠
~
dove V ( DS,E Ycd ,h ) denota la varianza campionaria della stima per strato,
~
V DS,E Ycd =
definita da
(
)
~
V DS,E Ycd ,h =
=
Mh Mh
2
M
2
h N
Y
′⎞
chi ( N hi − nhi ) E Scd , hi
− cd ,hi ⎟⎟ +
π1hi′ ⎠
π1chi nhi
⎝ π1hi
i =1
(3.42)
⎛ Ycd , hi
∑ ∑ (π1hii' − π1hi π1hi' ) ⎜⎜
i =1 i′=1
∑
essendo
Ycd ,hi =
∑ ycd ,hk
;
k∈U hi
N hi ⎛
2
⎞
1
1
⎜
⎟
2
ycd , hij −
ycd , hij ′ ⎟ .
E Scd , hi =
⎜
N hi − 1 ⎜
Nh ′
⎟
j =1⎝
j =1
⎠
∑
N hi
∑
(3.43)
La precedente espressione non risulta utile per risolvere il problema
allocativo, nel contesto campionario in oggetto; una formulazione più utile a
77
CAPITOLO 2
tale scopo può essere ottenuta definendo le varianze per strato come
funzione della statistica deff (Kish,1966) che misura il rapporto tra la varianza di campionamento del disegno di campionamento complesso sulla
varianza di un ipotetico disegno di campionamento casuale semplice di
uguale numerosità in termini di unità finali di campionamento. Si ha quindi
H
N h ( N h − nh )
~
2
V DS,E Ycd =
(3.44)
E Scd , h E deff cd , h
nh
h =1
(
) ∑
dove,
(
~
E deff cd ,h = V DS,E Ycd ,h
)
N h (N h − nh )
2
E Scd ,h .
nh
Dopo semplici passaggi algebrici si ottiene quindi
H
~
V0 ( DS,E Ycd ) = − N h E S 2cd ,h E deff cd ,h ;
h =1
~
Vh ( DS,E Ycd ) = N h2 E S 2 cd ,h E deff cd ,h .
(3.45)
∑
(3.46)
La (3.46) non è una relazione operativa se non è conosciuto il valore della
statistica E deff cd ,h . Un criterio per arrivare a determinare il valore della
statistica in oggetto è basato, sull’espressione riportata in Särndal et al.
(1992 pp. 130) in cui la statistica E deff cd ,h è espressa in funzione dell’indice di correlazione intraclasse, E ρ cd ,h , e del rapporto tra il numero di unità
primarie nello strato mh e il numero, nh ,di unità finali campione dello strato
stesso, ossia
⎞
⎛ nh
− 1⎟⎟
⎠
⎝ mh
E deff cd , h = 1 + E ρ cd , h ⎜⎜
(3.47)
Essendo
E ρ cd ,h = 1 −
2
E S 1cd ,h
2
E S cd ,h
(3.48)
in cui
2
E S 1cd ,h
1
=
Nh − M h
M h N hi
⎛
2
Y
⎞
⎜⎜ ycd ,hij − cd , hi ⎟⎟ .
N hi ⎠
i =1 j =1⎝
∑∑
(3.49)
Nei disegni di campionamento concretamente posti in essere, le quantità
mh vengono definite a priori in base a valutazioni di costo o organizzative;
78
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
ad esempio, nell’indagine RTFL, si pone mh =2 e nell’indagine ISTAT sui
consumi delle famiglie si ha mh =3. Viceversa la dimensione campionaria di
unità finali nello strato, nh , viene ottenuta risolvendo uno specifico problema
di allocazione.
Qui di seguito si illustra una procedura iterativa che permette di calcolare il
valore della statistica E deff cd , h , consentendo in tal modo di definire il
valore delle espressioni (3.46). Tale procedura si basa sulla conoscenza, a
livello di singolo strato delle seguenti statistiche:
• il coefficiente di correlazione intraclasse E ρ cd ,h ;
il numero mh di unità primarie per strato.
La procedura in oggetto è articolata nei seguenti passi, dove si indica con
τ ( τ = 0,1,2,...) la generica iterazione.
•
Passo 1. Inizializzazione. All’iterazione iniziale, τ = 0 , si pone
τ =0
opt nh = mh .
Passo 2. Iterazione. Alle iterazioni successive τ = 1,2... si calcola il valore
delle seguenti statistiche
−1
⎛ τopt
⎞
nh
τ
⎜
⎟;
=
1
+
ρ
−
1
(3.50)
deff
E
cd ,h
E cd ,h ⎜
⎟
mh
⎝
⎠
H
τ
~
V0 ( DS,E Ycd ) = −
τ
~
Vh ( DS,E Ycd ) = N h2 E S 2 cd ,h τE deff cd ,h .
∑ N h E S 2cd ,h
τ
E deff cd ,h ;
(3.51a)
h =1
(3.51b)
τ
Si determina quindi il numero ottimo opt nh di unità finali campione dello
strato h, sulla base delle statistiche (3.50) e (3.51) e applicando uno dei
metodi illustrati nei parr. 2.4 e 2.5.
Passo 3. Uscita. Se vale la condizione
H
∑ τopt−1nh =optτ nh ≤ φ ,
(3.52)
h =1
dove
φ
è una quantità piccola a piacere, il processo iterativo finisce e il va-
~
~
lore della statistiche E deff cd ,h , V0 (CS,E Ycd ) , Vh ( CS,E Ycd ) sono posti
uguale a quelli dell’iterazione corrente, definiti rispettivamente dalle espres79
CAPITOLO 2
sioni (3.49), (3.50) e (3.51).
Altrimenti si pone τ = τ + 1 e il passo 2 viene iterato fino a che la
condizione di uscita (3.52) non viene rispettata.
La procedura iterativa, appena illustrata, permette di ottenere una stima
della statistica E deff cd ,h , rendendo in tal modo operativa la relazione
(3.46).
Nel contesto in cui le variabilità campionarie devono essere stimate, la relazione (3.46) viene sostituita dalla corrispondente relazione fondata sulle
stime campionarie
H
~
~
~
~
V0 ( DS,E Ycd ) = − N h E S 2 cd ,h E d eff cd ,h ;
∑
~
Vh ( DS,E Ycd ) =
h =1
~
~
N h2 E S 2 cd ,h E d eff cd ,h .
(3.53)
Disponendo di un’indagine precedente, basata su un campionamento DS, le
stime campionarie coinvolte nella (3.53) possono essere determinate come
~
~
⎞
⎛ nh
− 1⎟⎟ ,
⎠
⎝ mh
E d eff cd ,h = 1 + E ρ cd ,h ⎜⎜
essendo
ρ~
E cd ,h
=1−
(3.54)
~2
E S 1cd ,h
2
E S cd ,h
(3.55)
in cui
~2
E S 1cd ,h
1
Nh − M h
=
2
⎛
⎛n
⎞⎞
N hi ⎟ ⎟
1 ⎜ hi
⎜
.(3.56)
w
y
y
−
DS , E hk ⎜ cd , hij
cd , hij ′
N hi ⎜⎜ ′
nhi ⎟⎟ ⎟⎟
⎜
i =1 j =1
⎝ j =1
⎠⎠
⎝
mh nhi
∑∑
∑
Può, comunque, essere difficoltoso, ottenere una stima affidabile del coef~
ficiente di correlazione intraclasse a livello di strato E ρ
cd ,h ; specie se,
come avviene nelle indagini concrete, il numero di unità primarie per strato è
di dimensione ridotta ( mh =2 o mh =3). In tale situazione, conviene ipotizzare la costanza, almeno approssimativa, del coefficiente di correlazione per
strato
~
~
~
~
E ρ cd ,1 ≅ ⋅ ⋅ ⋅ ≅ E ρ cd ,h ≅ ⋅ ⋅ ⋅ ≅ E ρ cd , H ≅ E ρ cd .
(3.57)
L’effetto del disegno di campionamento, a livello di strato, si calcola quindi
come
80
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
~ ⎛ nh − 1⎞⎟ ,
⎟
⎠
⎝ mh
~
E d eff cd ,h = 1 + E ρ cd ⎜⎜
(3.58)
determinando nel modo seguente una stima del coefficiente di correlazione
a livello complessivo
~
S 21cd
~
E
(3.59)
E ρ cd = 1 −
~2
S
cd
E
dove
~2
E S 1cd =
2
⎛
⎛n
⎞⎞
1 ⎜ hi
N hi ⎟ ⎟ ;
⎜
ycd , hij ′
DS , E whk ⎜ ycd , hij −
H
nhi ⎟⎟ ⎟⎟
N hi ⎜⎜ ′
⎜
=
1
=
1
=
1
=
1
j
h
i
j
⎝
⎠⎠
⎝
N−
Mh
mh nhi
H
1
∑
∑∑∑
∑
h =1
(3.60)
H
mh nhi
2
1
~ ⎞
⎛
DS , E whk ⎜ ycd , hk −
DS , EYcd ⎟ .(3.61)
N
⎝
⎠
h =1 i =1 j =1
~
~2
Disponendo delle stime campionarie E d eff cd ,h , E S cd , h e avendo defini~2
E S cd =
1
N −1
∑∑∑
to il numero di unità campione per strato, si può determinare il valore delle
~
~
~
~
statistiche V0 (CS,E Ycd ) e Vh (CS,E Ycd ) mediante l’algoritmo iterativo precedentemente illustrato.
Per quanto riguarda infine lo stimatore di regressione, le statistiche
~
~
~
~
~
~
V0 ( DS,R Ycd ) , Vh ( DS,R Ycd ) , V0 ( DS,R Ycd ) , Vh ( DS,R Ycd ) possono es-
sere determinate secondo quanto sopra illustrato, salvo il fatto che per le
~
~
statistiche V0 ( DS,R Ycd ) , V0 ( DS,R Ycd ) le variabili di interesse ycd ,hk
sono
sostituite
dalle
variabili
residuo ε cd ,hk ;
mentre,
le
stime
~
~
~
~
V0 ( DS,R Ycd ) , Vh ( DS,R Ycd ) possono essere ottenuta con le medesime
~
~
~
~
espressioni utilizzate per V0 ( DS,E Ycd ) , Vh ( DS,E Ycd ) salvo la sostituzione delle variabili di interesse ycd ,hk con variabili ottenuta come prodotto dei
residui stimati ε~cd ,hk per i correttori del peso base
γ cd ,hk .
2.3.3.4 Disegno di campionamento DF
Nel disegno di campionamento preso in esame, la varianza della stima
81
CAPITOLO 2
~
DF,E Ycd è definita come somma di due addendi relativi, rispettivamente,
alla prima e alla seconda fase di campionamento
(
)
~
V DF,E Ycd = DF1,EVcd + DF 2 ,EVcd
(3.62)
dove
H
H
Nh
N h′
h′ =1
k =1
k '=1
∑ ∑ ∑(
DF 1,EVcd = ∑
h =1
DF 1
π hk ,h 'k ' − DF 1 π hk
π h 'k ' ).
DF 1
⎛ y pd ,chk y pd ,chk ⎞
⎟⎟
⋅ ⎜⎜
π
π
DF
1
hk
DF
1
h
'
k
'
⎝
⎠
(3.63)
⎡H
⎤
DF 1 nh ( DF 1 nh − nh )
=
V
E
S
⎢
DF 2 ,E cd
d1
DF 2 cd ,h ⎥ ,
nh
⎢⎣h =1
⎥⎦
(3.64)
∑
in cui
2
DF 1 nh ⎛ y
DF 1 nh y
⎞
1
1
cd ,hk
cd ,hk ⎟ ,
⎜
S
=
−
DF 2 cd ,h
⎜
⎟
DF 1 nh − 1 k =1 ⎝ DF 1π hk
DF 1 nh − 1 k =1 DF 1π hk ⎠
∑
∑
(3.65)
avendo indicato, inoltre, con Ed 1 (.) il valore atteso rispetto al disegno di
campionamento di prima fase.
Al fine di superare il problema di determinare un’espressione esplicita di
DF 2 ,EVcd , si può prendere in considerazione una stima corretta della
(
~
)
varianza V DF,E Yab , espressa da:
(
)
~
~
~
~
V DF,E Yab = DF 1,EVcd + DF 2 ,EVcd ,
in cui
~
DF 1,EVcd =
H
H
DF 1 nh DF 1 nh ′
∑∑ ∑ ∑
h =1 h′=1
k =1
(3.66)
(DF1π hk ,h'k ' − DF1 π hk DF1π h'k ' ) ⋅
*
π hk
,h ' k '
k ' =1
⎛ y pd ,chk y pd ,chk ⎞
⎟⎟ ,
⋅ ⎜⎜
⎝ DF 1π hk DF 1π h 'k ' ⎠
~
DF 2 ,EVcd =
H
∑
h =1
82
(3.67)
DF 1 nh ( DF 1 nh
nh
− nh )
~
DF 2 Scd ,h ,
(3.68)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
essendo
~
DF 2 Scd , h =
1
nh − 1
nh
⎛ y
ycd , hk
⎜ cd , hk − 1
⎜
nh − 1
π
π
k =1 ⎝ DF1 hk
k =1 DF1 hk
nh
∑
∑
⎧
⎪ DF 1π hk ν h
nh − 1
⎪
*
*
π hk
,h 'k ' = ⎨ DF 1π hk ,hk ' ν h
nh − 1
⎪
*
⎪ DF 1π hk ,h′k ' ν h ν h′
⎩
⎞
⎟
⎟
⎠
2
(3.69)
per k = k ′
per h = h' e k ≠ k' .
(3.70)
per h ≠ h' e k ≠ k'
Sulla base delle espressioni (3.66), (3.67), (3.68) e (3.69) si possono definire
i due addendi della decomposizione (3.4) della stima della varianza
H
~
~
~
~
V0 ( DF,E Ycd ) = DF 1,EVcd −
(3.71)
DF 1 nh DF 2 Scd ,h
∑
h =1
~
~
Vh ( DF,E Ycd ) =
H
~
∑ DF1nh2 DF 2Scd ,h
.
(3.72)
h =1
Per il disegno di campionamento che si sta trattando, si possono definire
espressioni alternative di stimatore di regressione (Särndal et al., 1992, cap.
9); nel presente lavoro, si considera comunque solo la forma definita nelle
espressioni (2.24) e (2.25). Analogamente agli altri casi, quindi, le stime
~
~
~
~
delle componenti V0 ( DF,R Ycd ) , Vh ( DF,R Ycd ) possono essere ottenuta
~
~
~
~
con le medesime espressioni utilizzate per V0 ( DF,E Ycd ) , Vh ( DF,E Ycd )
salvo la sostituzione delle variabili di interesse ycd ,hk con variabili ottenute
come prodotto dei residui stimati ε~cd ,hk per i correttori del peso base
γ cd ,hk .
2.3.3.5 Disegno di campionamento PO
Nel disegno di campionamento preso in esame, le probabilità di inclusione
congiunte sono espresse come prodotto delle probabilità di inclusione
semplici. Per la qual cosa, tenendo presente le espressioni (2.20), (3.16) e
(3.17), si ha
H Nh
(1 − POπ hk ) y 2 =
~
V PO , E Ycd =
cd ,hk
PO π hk
h =1k =1
(
) ∑∑
83
CAPITOLO 2
H Nh
=−
∑∑
=−
∑∑
∑∑
2
y cd
,hk
+
2
ycd
, hk
N
2
X h h ycd ,hk
.
+
n
x
h
hk
h =1
k =1
h =1 k =1
H Nh
H Nh
2
y cd
,hk
h =1k =1
π
h =1 k =1 PO hk
H
∑
=
∑
(3.73)
Sulla base della precedente espressione, è quindi immediato definire
l’espressione formale dei due addendi costituenti la (3.1)
(
H Nh
) ∑∑
~
V0 PO , E Ycd = −
2
ycd
,hk ;
(
)
~
Vh PO , E Ycd = X h
h =1k =1
Nh
∑
k =1
2
ycd
,hk
xhk
. (3.74)
Le stime campionarie dei addendi definiti nella (3.74) sono date da
H nh
(
) ∑∑ 1π ycd2 ,hk
PO hk
(
)
~
~
V0 PO , E Ycd = −
h =1k =1
nh
~
~
Vh PO , E Ycd = X h
;
2
ycd
,hk
∑ PO π hk xhk .
(3.75)
k =1
Per quanto riguarda infine lo stimatore di regressione, ci si comporta
analogamente a quanto fatto negli disegni di campionamento esaminati.
2.3.3.6 Varianza anticipata
Si consideri un generico disegno di campionamento a in cui le probabilità di
inclusione del primo ordine siano analoghe a quelle definite nella (3.16)
nh xhk
(3.76)
a π hk =
Xh
Adottando l’approccio basato sulla varianza anticipata, sulla base di quanto
illustrato nel par. 2.2.2.4. si ha
H Nh
H Nh
2
g hk σ cd
~
~
2
V a, R Ycd = VA a, R Ycd = −
g hk σ cd +
=
π hk
a
h =1 k =1
h =1 k =1
Nh
H Nh
H
2
Xh
ghk σ cd
2
.
(3.77)
ghk σ cd
=−
+
nh
xhk
h =1k =1
h =1
k =1
(
)
∑∑
(
) ∑∑
∑
∑∑
∑
Sulla base della precedente espressione è quindi immediato definire i due
addendi costituenti la (3.1)
84
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
(
H Nh
(
) ∑∑
~
V0 a , R Ycd = −
~
2 ;V
g hk σ cd
h a , R Ycd
h =1k =1
)=
Xh
Nh
∑
k =1
2
g hk σ cd
. (3.78)
xhk
Le stime campionarie dei due addendi della (3.78) sono date da
H nh
1
~
~
2
V0 a , R Ycd = −
g hk σ~cd
;
π
a
hk
h =1k =1
(
) ∑∑
(
)
~
~
Vh a , R Ycd = X h
nh
∑
k =1
2
g hk σ~cd
a π hk xhk
(3.79)
2.3.4 Decomposizione della varianza nel caso di stimatori non lineari
Parametri ottenuti come funzione non lineare dei totali Ycd
2.3.4.1
In generale si indichi con
(
θ A&&& , A&&& = f YA&&&, A&&&
D
C
una
funzione
D
C
non
)
lineare
e
differenziabile
del
vettore
YA&&& , A&&& = {Ycd : c ∈ AC&&& ,d ∈ AD
&&& } dei totali di popolazione Ycd dove AC
&&&
C D
e AD
&&& indicano specifici sottoinsiemi delle C variabili di interesse e dei D
domini.
{~
~
Inoltre si indichi con a ,b YA&&& , A&&& = Ycd : p ∈ AC
&&& , d ∈ AD
&&&
C D
} il vettore delle
stime campionarie di YA&&& , A&&& ,ottenute con la strategia di campionamento
C D
caratterizzata dal disegno di campionamento a (che nel caso trattato nel
presente può corrispondere alternativamente ai disegni CS, NP, DS, DF o
PO) e dallo stimatore b (b = E o R).
Una stima naturale del parametro θ A&&& , A&&& è quella di tipo plug-in (Binder e
C
D
Patak, 1994) ottenuta sostituendo nella funzione f (⋅) il vettore YA&&& , A&&&
C D
~
con il vettore delle stime campionarie a ,b YA&&& , A &&&
C D
(
~
~
)
= f a ,b YA&&& ,A&&& .
a ,bθ AC&&& , AD
&&&
C D
Nel caso in cui le stime campionarie
~
a ,b Ycd
costituenti il vettore
~
a ,b YA&&& , A &&& siano stime non distorte dei corrispondenti totali di popolaC
D
85
CAPITOLO 2
~
zione, la stima a ,b θ A&&& , A&&& è approssimativamente non distorta per n suffiC D
cientemente grande.
~
L’approssimazione del primo ordine dell’errore campionario di a ,bθ A&&& , A&&& è
C D
data da
~
a ,b θ AC
&&& , AD
&&&
(
∑ ∑
c∈AC
&&& d ∈AD
&&&
dove K cd =
δ f
δ
) (
)
~
− θ A&&& , A&&& = f a ,b YA&&& , A&&& − f YA&&& , A&&& ≈
C D
C D
C D
~
≅
K cd a ,b Ycd − Ycd
~
a ,bYcd
~
a ,b Ycd =Ycd
(
)
(3.80)
denota la derivata parziale della funzione
~
f (⋅) rispetto alla stima a ,b Ycd valutata al valore atteso Ycd .
Dalla (3.80) è possibile dimostrare che la varianza approssimata di
~
è data da
a ,b θ AC&&& , AD
&&&
⎛
⎞
~
⎜
⎟
~
V a ,bθ A&&& , A&&& ≅V ⎜
K cd a ,b Ycd − Ycd ⎟ .
C D
⎜ c∈A&&& d ∈A&&&
⎟
D
⎝ C
⎠
)
(
∑ ∑
(
)
(3.81)
Essendo
⎞
⎛
⎟
⎜
V⎜
K cd Ycd ⎟ = 0 , la (3.81) diventa
⎟
⎜ c∈A&&& d ∈A&&&
D
⎠
⎝ C
∑ ∑
⎞
⎛
⎜
~ ⎟
V a ,bθ A&&&, A&&& ≅ V ⎜
Kcd Ycd ⎟ =
C D
⎟
⎜ c∈A&&& d ∈A&&&
D
⎠
⎝ C
⎛
⎞
H nh
⎡ H nh
⎤
⎜
⎟
⎢
V
w
z
=V
K cd
a ,b hk hk ⎥ ,
a ,b whk ycd ,hk ⎟ =
⎜
⎢
⎥⎦
⎜ c∈A&&& d ∈A&&&
⎟
h =1k =1
⎣ h =1k =1
D
⎝ C
⎠
(
~
)
∑ ∑
∑ ∑
∑∑
∑∑
(3.82)
in cui
zhk =
∑ ∑ Kcd ycd ,hk
c∈AC
&&& d ∈AD
&&&
86
(3.83)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
rappresenta la variabile linearizzata riferita alle unità elementari.
~
Dalla (3.82), quindi si desume che la varianza del parametro a ,b θ A&&& , A&&& è
D
C
~
ottenibile in modo analogo alla stima del totale Ycd in cui le variabili elementari ycd ,hk sono sostituite dalle variabili linearizzate z hk .
In pratica, i valori Ycd coinvolti nelle derivate K cd non si conoscono, comunque questi valori possono essere sostituiti dalle corrispondenti stime
~
~
campionarie Ycd , ottenendo in tal modo una stima, K cd , delle derivate
parziali. È così possibile determinare una stima, ~
zhk , delle variabili linearizzate z hk
~
zhk =
~
∑ ∑ Kcd ycd ,hk
c∈AC
&&& d ∈AD
&&&
~
(
~
La stima della varianza V a,bθ A&&& , A&&&
C D
(3.84)
) può essere quindi ottenuta come
stima della varianza del totale
⎡ H nh
⎤
~
~
~
~
V a ,bθ A&&& , A&&& = V ⎢
w
z
a ,b hk hk ⎥
C D
⎢⎣ h =1k =1
⎥⎦
in cui le variabili ~
zhk sostituiscono le variabili elementari ycd ,hk .
(
)
∑∑
(3.85)
Per esemplificare quanto appena illustrato, si consideri il caso in cui
Ycd
Yc' d
•
il parametro da stimare sia il rapporto R( c, c' ), d =
•
la strategia di campionamento adottata sia del tipo (CS,E).
(con c ≠ c’)
Si ipotizzi, inoltre, di stimare il parametro in parola mediante il rapporto delle
stime dirette
~
~
CS , E Ycd
R( c,c'),d =
~ .
CS , E Yc ′d
~
~
Nell’esempio considerato le derivate parziali, K cd e K c′d sono espresse
rispettivamente da
~
K cd =
1
~ ;
CS , E Yc ′d
~
~
K cd = − R( c,c ' ),d
1
~ .
CS , E Yc ′d
Le variabili linearizzate sono quindi formulate come:
87
CAPITOLO 2
~
z hk =
1
~
~ ( y cd ,hk − R( c,c '),d y c′d ,hk ) .
CS , E Yc′d
La varianza può quindi essere stimata come
~
H V~ ( R
~ ~
~ ~
h ( c,c ' ),d )
V ( R( c,c '),d ) = V0 ( R( c,c ' ),d ) +
nh
h =1
dove
∑
~ ~
V0 ( R(c,c '),d ) = −
H
∑
h =1
~ ~
Vh ( R( c,c ' ),d ) = N h2
1
Nh
nh − 1
1
nh − 1
nh
⎛
⎞
⎜z − 1
⎟
z
hk ⎟
⎜ hk n
h k =1
k =1⎝
⎠
nh
∑
2
∑
2
nh
⎛
⎞
⎜z − 1
zhk ⎟ .
hk
⎜
⎟
nh
k =1⎝
k =1
⎠
nh
∑
∑
2.3.4.2 Parametri ottenuti come soluzione di un sistema di equazioni di
stima
Si consideri il parametro
H Nh
Z (ω ) =
∑ ∑ f (y z, hk ω ) = 0
h =1 k =1
già illustrato nell’equazione (2.3).
Si supponga di condurre un campionamento stratificato, definito dalla
~ una stima di ω , dove
strategia (a,b) e si indichi con ω
H nh
~
Z (ω~ ) =
∑ ∑ a,b whk f (y z, hk ω~ ) = 0 .
(3.86)
h =1 k =1
Lo sviluppo in serie di Taylor può essere utilizzato per stimare la varianza di
ω~ . Si scriva
H nh
δ f y z , hk ω
~ ~
~
~
0 = Z (ω ) ≈ Z (ω ) + (ω − ω )
=
a ,b whk
δω
~
ω =ω
h =1 k =1
H nh
∑∑
~
= Z (ω ) + (ω~ − ω )
essendo
88
∑ ∑ a,b whk K hk ,
h =1 k =1
(
)
(3.87)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
K hk =
δ f (y z , hk ω )
δω
.
(3.88)
ω~ =ω
Dalla precedente si ottiene l’approssimazione al primo ordine della varianza,
definita da
−1
−1
⎛ H nh
⎞
⎛ H nh
⎞
~
⎜
⎟
⎜
⎟
V (ω~ − ω ) = ⎜
a , b whk K hk ⎟ V ( Z (ω )) ⎜
a , b whk K hk ⎟ ,
⎝ h =1 k =1
⎠
⎝ h =1 k =1
⎠
∑∑
∑∑
(3.89)
nota come stima sandwich della varianza. Essa è ottenuta definendo le
~ e sostituendo il termine di varianza nel mezzo
derivate parziali intorno a ω
con una appropriata stime di tipo plug-in. Per un valore arbitrario di ω si ha
⎛ H nh
⎞
(
)
~
⎟
V ( Z (ω )) = V ⎜
a, b whk f y z , hk ω ⎟ ,
⎜
⎝ h =1 k =1
⎠
(3.90)
~ ~
~
~ ⎟
V ( Z (ω )) = V ⎜
a,b whk f (y z , hk ω ) ⎟ .
⎜
⎠
⎝ h =1 k =1
(3.91)
∑∑
~ al valore
la cui stima di tipo plug-in è ottenuta sostituendo la stima ω
incognito ω ,
⎞
⎛ H nh
∑∑
Riunendo le precedenti espressioni si ha quindi
−1
−1
⎛ H nh
⎞ ~ ~
⎛ H nh
⎞
~ ~
⎟
⎟
~ ⎜
V (ω − ω ) = ⎜⎜
a, b whk K hk ⎟ V ( Z (ω )) ⎜
a , b whk K hk ⎟ =
⎝ h =1 k =1
⎠
⎝ h =1 k =1
⎠
∑∑
∑∑
H nh
⎞
~⎛⎜
⎟
~
=V
w
z
a, b hk hk ⎟
⎜
⎝ h =1 k =1
⎠
~
rappresenta la variabile linearizzata definita come
in cui z
∑∑
(3.92)
hk
−2
⎛ H nh
⎞
⎜
⎟
~
~
z hk = ⎜
a, b whk K hk ⎟ f y z , hk ω .
⎝ h =1 k =1
⎠
∑∑
(
)
(3.93)
~
~ − ω ) viene
Con i precedenti sviluppi, quindi, la stima della varianza V (ω
ricondotta alla stima del totale delle varibili linearizzate ~
zhk .
89
CAPITOLO 2
Un tipico esempio di parametri definiti come soluzione di un sistema di
equazioni di stima è riportato in (Chambers e Skinner, 2004, pag. 40) in cui
si ipotizza un modello in cui le variabili y z, hk sono indipendenti con fun-
(
)
zione di densità data da g y z, hk ω . Presupponendo di osservare tutta la
popolazione un approccio alla stima basato sul principio di verosimiglianza,
~ come soluzione della seguente equazione di
definisce una stima di ω
massima verosimiglianza
Nh
H
∑∑
Z (ω ) =
h =1 k =1
δ log g (y z , hk ω )
=0.
δω
(
Pertanto, nell’esempio in questione, la funzione f y z , hk
(
)
f y z , hk ω =
δ log g (y z , hk ω )
,
δω
ω ) è definita come
La stima campionaria di pseudo verosimiglianza di ω è definibile risolvendo
~ la seguente equazione di massima verosimiglianza
per ω
~
Z (ω~ ) =
nh
H
∑∑
h =1 k =1
2.4.
δ log g (y z , hk ω~ )
=0
a , b whk
δ ω~
Allocazione univariata
2.4.1. Allocazione ottima
Si indichi con θ un particolare parametro di popolazione – definito alternati-
~
vamente da una delle espressioni (2.1), (2.2), (2.3) – e si denoti con a ,b θ la
corrispondente stima campionaria, ottenuta con la strategia di campiona-
~
~
mento (a,b). Si denoti, inoltre con V ( a ,b θ ) la varianza di a ,b θ che, a
seconda del particolare contesto preso in esame, può indicare, alternativamente una varianza da campionamento, una varianza da modello o una varianza anticipata.
~
Come illustrato nel paragrafo precedente, la varianza V ( a, b θ ) e la sua sti-
~
~
ma corretta V ( a, b θ ) possono essere espresse come somma di due
componenti
H
H V ( θ~ )
~
~
~
~
h a,b
;
V a, b θ = V0 ( a, b θ ) + Vcamp ( a , b θ ) =
V0, h ( a, b θ ) +
nh
h =1
h =1
(
90
)
∑
∑
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
(
)
~ ~
~ ~
~
~
V a,b θ = V0 ( a,b θ ) + Vcamp ( a, b θ ) =
H
~
H V ( θ~ )
h a,b
∑V0, h ( a,bθ ) + ∑
h =1
h =1
nh
Si assume che il costo totale dell’indagine L’ possa essere definito mediante
il semplice modello:
L' = L0 + L
(4.1)
dove
H
L=
∑ Lh n h
,
(4.2)
h =1
in cui L0 indica il complesso dei costi fissi non influenzati dalla definizione
delle numerosità campionarie e Lh (h=1,…, H ) denota il costo unitario
(supposto costante) per rilevare le variabili di interesse nello strato h. La costante L0 include ad esempio, i costi di progettazione, di reperimento delle
liste, ecc.; mentre L è la parte dei costi che varia in funzione dell’allocazione
negli strati.
L’allocazione ottima, per una data strategia di campionamento, definita dalla
(
~
coppia (a,b), minimizza il prodotto L Vcamp a , b θ
vamente L o
(
)
) tenendo fissi alternati-
~
Vcamp a, b θ . Ciò è equivalente a minimizzare la varianza per
un costo prefissato o alternativamente a minimizzare il costo avendo fissato
il livello di accuratezza (definita in termini di variabilità campionaria)
accettabile.
Avendo determinato L o
(
)
~
Vcamp a,b θ , il valore minimo può essere derivato
alternativamente con la tecnica dei moltiplicatori di Lagrange (Hansen et al.,
1953) o usando la diseguaglianza di Cauchy Schwarz (Stuart, 1954).
(
⎡H
~
Vh a ,bθ
⎢
⎢⎣h =1
∑
(
)
2
⎤
Lh ⎥ ,
⎥⎦
H
che si realizza quando
)
~
L Vcamp a, b θ è
Il minimo globale del prodotto
nh ∝
∑
(
~
Vh a ,bθ
h =1
Nel caso in cui si tenga fisso il costo
)
Lh (Kish, 1976).
L = L'− L0 , si ha
91
CAPITOLO 2
⎡
⎡
~ ⎤⎢
L'− L0
⎢ Vh a,bθ ⎥ ⎢
⎢H
opt n h = ⎢
⎥
Lh
~
⎢⎣
⎥⎦ ⎢
Vl a,bθ
⎢
⎣ l =1
(
⎤
⎥
⎥
⎥.
Ll ⎥⎥
⎦
)
∑ (
)
(4.3)
Nel caso in cui si tenga fissa la varianza
(
) (
)
(
)
~
~
~
Vcamp a, b θ = V a, b θ −V0 a, b θ , si ha
⎡ H
~
Vl a,bθ Ll
⎡
~ ⎤⎢
⎢ Vh a,bθ ⎥ ⎢ l =1
opt nh = ⎢
⎥⎢
~
~
Lh
⎢⎣
⎥⎦ ⎢V a,bθ −V0 a,bθ
⎢
⎣
(
∑ (
)
(
)
)
(
⎤
⎥
⎥
⎥ .
⎥
⎥
⎦
(4.4)
)
Il criterio di allocazione di Neyman è finalizzato alla minimizzazione (i) della
varianza dello stimatore per un prefissato valore della numerosità campioH
nh , o (ii) della dimensione campionaria n,
naria complessiva n =
∑
h =1
avendo definito il livello di accuratezza accettato. Tale criterio corrisponde
all’allocazione ottima in cui si pone L0 = 0 e Lh = 1 (h=1,…, H ).
Se la numerosità campionaria complessiva n è fissata, l’allocazione di
Neyman è data da
ney nh = n H
(
~
Vh a,bθ
)
∑ Vl (a,bθ )
~
.
(4.5)
l =1
(
~
)
(
~
)
(
~
)
Avendo determinato la varianza, V camp a , b θ = V a , b θ − V 0 a , b θ , il
criterio di Neyman, definisce la seguente numerosità
⎤
⎡ H
ney nh
92
(
~
= Vh a,bθ
)
∑ (
)
~
⎢
Vl a,bθ
⎢ l =1
⎢
~
~
⎢V
−V0 a,bθ
a ,b θ
⎢
⎣
(
)
(
⎥
⎥
⎥.
⎥
⎥
⎦
)
(4.6)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
In alcune situazioni, per qualche strato h si può verificare che opt nh > N h ,
ossia che la numerosità campionaria, definita alternativamente dalle espressioni (4.3) o (4.4), possa risultare superiore alla corrispondente numerosità
di popolazione. In tali situazioni è necessario fare ricorso a metodi di calcolo
iterativi (Cochran,1977. pp. 104, Mergeson, 1988) basati essenzialmente sul
seguente schema: in ciascun passo di calcolo le equazioni (4.3) e (4.4) sono
ridefinite in modo tale che L e
(
~
Vcamp a ,bθ
)
corrispondano ai costi
variabili degli strati da campionare (per i quali nello specifico passo di calcolo
risulta opt nh < N h ), mentre L0 è ricalcolato in modo da includere sia i costi
fissi originali sia i costi aggiuntivi necessari a raccogliere le informazioni per
le unità degli strati da censire, per cui, in base alle equazioni (4.3) o (4.4) risulta opt nh ≥ N h e per i quali si pone opt nh = N h . L’algoritmo si interrompe
quando
per
tutti
gli
strati
si
verifica
la
condizione
opt nh ≤ N h (h=1,…,H).
Il calcolo delle numerosità ottimali opt nh può essere determinato solo se
sono conosciuti i valori veri di
~
~
V0 ( a ,bθ ) e Vh ( a ,bθ ) (h=1,…,H). Tale
situazione non è realistica; tuttavia, nelle indagine ripetute è possibile
approssimare
i
valori
veri
con
i
valori
~
~
V0 ( a ,bθ ) e
stimati
~
~
Vh ( a ,bθ ) desumibili dalle indagini precedenti; l’allocazione risultante non
corrisponde esattamente a quella ottima ma ne costituisce
un’approssimazione. In pratica, la numerosità campionaria che viene
calcolata costituisce comunque un’approssimazione di quella ottimale; ciò è
dovuto a circostanze differenti: la necessità di arrotondare ai numeri interi le
numerosità ottenute, o la necessità di assicurare una numerosità
campionaria minima in ciascuno strato al fine di calcolare la varianza, ecc..
Tuttavia è importante notare che moderate deviazioni dalle numerosità
ottimali hanno effetti molto limitati sulla efficienza delle stime. In Cochran
(1977 pp. 115-116) e Kish (1976) viene illustrata un’espressione molto utile
che definisce l’Incremento Relativo (IR) del prodotto
ottiene, tenendo fissi L o
naria
)
)
~
Vcamp a ,bθ e utilizzando numerosità campio-
nh (h=1,…,H) diverse da quelle ottime:
H
H
IR =
dove
(
(
~
L Vcamp a ,bθ che si
∑
h =1
K h Fh
⎛F ⎞
∑ ⎜⎜⎝ Khh ⎟⎟⎠ − 1
h =1
93
CAPITOLO 2
⎛
~
K h ∝ opt nh / nh e Fh = ⎜⎜ Vh a,bθ
⎝
(
)
Lh
⎞
⎟
⎟
⎠
⎛H
~
⎜ V
θ
l
a
b
,
⎜
⎝ l =1
∑ (
)
⎞
Ll ⎟ .
⎟
⎠
H
Nel caso in cui
Lh = 1 (h=1,…, H ) e L =
∑ Lh
si dimostra (Cochran,
h =1
1977, pag. 115,116) che
⎡ n ⎛ n − n ⎞2 ⎤
⎢ h ⎜ h opt h ⎟ ⎥.
IR =
⎟ ⎥
nh
⎢ n ⎜⎝
⎠ ⎦
h =1⎣
H
∑
Di conseguenza si ha
2
⎡ H ⎛ nh − opt nh ⎞⎤
⎟⎟⎥ .
IR ≤ ⎢ Max ⎜⎜
nh
⎠⎦
⎣ h =1 ⎝
Ad esempio, se la massima differenza relativa rispetto all’allocazione ottima
H ⎛n −
h opt nh ⎞
⎟⎟ è pari al 0,20, l’incremento massimo
negli strati Max ⎜⎜
nh
h =1 ⎝
⎠
2
dell’Indice IR sarà uguale a (0,20) = 0,04 . In tal modo si può argomentare
che differenze moderate dall’allocazione ottima non hanno un impatto molto
rilevante sulla variabilità risultante.
2.4.2. Allocazioni alternative
In questo paragrafo si illustrano alcune regole di allocazione che possono
risultare utili in particolari situazioni applicative o quando il contesto informativo non consente di conoscere tutti gli elementi necessari per il calcolo
dell’allocazione ottima.
Al fine di esemplificare l’esposizione e per meglio illustrare le relazioni che
intercorrono tra le allocazioni alternative proposte e quelle ottimali, nel
seguito si ipotizza che il contesto informativo in base al quale definire il
problema di allocazione sia il seguente:
• l’unico vincolo su cui fondare il calcolo dell’allocazione negli strati sia
costituito dalla numerosità campionaria complessiva n
• le stime campionarie siano costruite mediante lo stimatore espansione.
In tale situazione informativa, quindi, l’allocazione ottima di riferimento è
quella di Neyman definita dall’espressione (4.5).
2.4.2.1. Allocazione ottima rispetto a una variabile ausiliaria x
Si supponga di conoscere per ciascuna unità della popolazione il valore di
94
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
una variabile ausiliaria x g altamente correlata con la variabile di interesse e
che assume sempre valori positivi. Si indichi con x g ,hk il valore di tale variabile relativa all’unità hk e con x gd ,hk la variabile trasformata
se uhk ∈ U d
⎧x
x gd ,hk = x g ,hk δ d ,hk = ⎨ g ,hk
se uhk ∉ U d
⎩0
(d=1,…, D; h=1,…,H; k =1,…, N h ).
In tale contesto informativo il problema di allocazione ottima può venire
risolto adottando il criterio di Neyman, illustrato nell’espressione (4.5) ed
ipotizzando che l’indagine sia finalizzata a massimizzare l’efficienza della
stima espansione del totale della variabile ausiliaria
~
a,E X gd =
H nh
1
∑∑ a π hk
x gd ,hk .
h =1 k =1
Il numero di unità da campionare nello strato h è quindi ottenuto come
x nh
=n H
~
Vh ( a, E X gd )
∑
~
Vl ( a, E X gd )
.
(4.7)
l =1
Nel caso di disegno campionario di tipo CS, la (4.7) conduce alla seguente
formula di calcolo
nh = n H
N h S x d ,h
g
∑ N h S x g d ,h
l =1
dove
2
Nh ⎛
Nh
⎞
1
1
2
⎜x
S x d ,h =
x gd ,hk ⎟ .
gd ,hk −
⎟
g
Nh − 1 ⎜
Nh
k =1⎝
k =1
⎠
∑
∑
Nel caso della stima di un totale, se la correlazione tra x gd ,hk e
ycd ,hk è
perfetta, la (4.7) definisce la medesima allocazione ottima (secondo
Neyman) che si sarebbe ottenuta in base alla (4.5); tale allocazione viene
comunque bene approssimata anche nel caso in cui la correlazione assuma
valori elevati, superiori a 0,70.
95
CAPITOLO 2
2.4.2.2. Allocazione proporzionale
L’allocazione proporzionale è definita da
prop nh
Nh
=n
.
H
(4.8)
∑ Nh
h =1
Tale allocazione può essere sempre calcolata in quanto le numerosità
Nh
della popolazione negli strati risultano sempre conosciute. Inoltre se i
rapporti
~
V1 ( a ,b θ )
N1
=
~
V2 ( a ,b θ )
N2
= ... =
~
Vh ( a ,b θ )
Nh
= .... =
~
VH ( a ,b θ )
NH
=C
(4.9)
sono uguali e pari a una costante C, l’allocazione proporzionale corrisponde
a quella ottima di Neyman. Tale situazione si verifica frequentemente nelle
indagini caratterizzate dalla strategia di campionamento (CS, E) e finalizzate
a produrre stime di frequenze assolute o di proporzioni come quelle descritte
nella formula (1.b)
Ycd = N d Pcd =
H Nh
H
h =1 k =1
h =1
∑ ∑ ycd ,hk = ∑ Pcd ,h N h ,
in cui ycd , hk è una variabile dicotomica che è pari ad 1 se l’unità uhk ,
soddisfa la duplice condizione di appartenere al dominio d e di assumere la
caratteristica c d’interesse e d è pari a 0 altrimenti. In tale contesto spesso
avviene che le proporzioni della variabile d’interesse nei diversi strati Pcd , h
siano piuttosto simili, per cui si può porre
~
Vh ( CS , E Pcd ,h ) = N h2 Pcd ,h (1 − Pcd ,h ) ≅ N h2 Pcd (1 − Pcd )
essendo
~
CS , E Pcd ,h
=
1
~
CS , EYcd ,h ,
Nh
da cui deriva il fatto che la condizione (4.9) risulta verificata in quanto
~
Vh ( CS , E Pcd ,h )
Nh
96
=
N h Pcd (1 − Pcd )
= Pcd (1 − Pcd ) = C .
Nh
(4.10)
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
2.4.2.3. Allocazione proporzionale al totale della variabile d’interesse
Se i valori assunti dalla variabile ycd , hk risultano sempre non negativi, è
possibile adottare un criterio di allocazione proporzionale al totale di tale
variabile,
Nh
∑
k =1
ytot nh = n
ycd , hk
Ycd
=
Ycd , h
Ycd
.
(4.11)
Questo criterio può essere usato quando:
•
•
i totali Ycd , h siano conosciuti in base a dati passati, ad esempio in base
alla fonte censuaria;
i fenomeni di interesse presentino una certa stabilità temporale.
Se i rapporti
~
V1 ( a ,b θ )
Ycd ,1
=
~
V2 ( a ,b θ )
Ycd , 2
= ... =
~
Vh ( a ,b θ )
= .... =
Ycd ,h
~
VH ( a ,b θ )
Ycd ,H
=C.
(4.12)
sono uguali e pari a una costante C, l’allocazione (4.11) corrisponde a quella
ottima di Neyman.
Nel caso della stima di un totale, in una strategia di rilevazione di tipo (CS,
E), la (4.12) implica la costanza del coefficiente di variazione negli strati
~
Vh (CS , E Yc, d )
N h E Scd , h N h E Scd ,h
S
=
= E cd , h = C .
Ycd , h
Ycd , h
Ycd , H
N h Ycd , h
Nel caso descritto nel paragrafo precedente in cui ycd , hk è una variabile
=
(
)
dicotomica ed in cui vale la condizione Pcd , h 1 − Pcd , h ≅ Pcd (1 − Pcd ) , la
(4.12) viene verificata in quanto
~
Vh ( CS , EYcd , h )
Ycd , h
≅
Nh
Pcd (1 − Pcd )
N h Pcd
=
(1 − Pcd )
Pcd
.
2.4.2.4. Allocazione proporzionale al totale di una variabile ausiliaria x
Se i valori assunti dalla variabile x gd , hk risultano sempre non negativi, è
possibile adottare un criterio di allocazione proporzionale al totale di tale
variabile
97
CAPITOLO 2
Nh
∑
x gd , hk
k =1
xtot nh = n H N
h
∑ ∑
=
x gd , hk
X gd , h
X gd
.
(4.13)
h =1 k =1
La giustificazione della (4.13) è quella che se il rapporto
~
Vh ( a,bθ )
X cd , h
è pressappoco costante al variare dello strato, allora l’allocazione definita
dalla (4.13) approssima abbastanza bene quella ottima di Neyman.
2.4.2.5. Allocazione esponenziale
Il criterio di allocazione esponenziale, proposto da Bankier (1995) per
affrontare la situazione in cui esistano grandi differenze nelle dimensioni
degli strati, risolve il seguente problema di minimo vincolato, dove la
funzione obiettivo è data da
2
~
H ⎡
⎤
V
Y
a,b
cd
h
,
⎢X α
⎥ = min
(4.14)
gd ,h
Y
⎢
⎥
cd
h
,
h =1 ⎣
⎦
∑
(
)
ed il vincolo è espresso da
H
nh = n ,
h =1
∑
essendo α una costante scelta in modo opportuno.
La soluzione del precedente problema mediante il metodo dei moltiplicatori
di Lagrange individua la seguente soluzione:
(
)
(
~
~
Vh a,b Ycd ⎡ H α
Vl a,b Ycd
α
⎢ X gd ,h
esp nh = n X gd ,h
Ycd ,h
Ycd ,h
⎢ l =1
⎣
∑
) ⎤⎥
⎥
⎦
−1
.
(4.15)
Nel caso della stima di un totale, l’allocazione ottima di Neyman costituisce
un caso particolare dell’allocazione (4.14) ottenibile nel caso in cui si ponga
α =1 e X gd ,h = Ycd ,h .
Una scelta opportuna del valore della costante α rende possibile incrementare in modo considerevole la precisione della stima relativa ai piccoli
98
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
~
strati a ,b Ycd ,h , introducendo solo una piccola perdita di precisione nella
~
stima complessiva a ,b Ycd . Esperienze empiriche suggeriscono di definire il
valore della costante α all’interno dell’intervallo 0,33 ≤ α ≤ 0 ,5 .
2.4.2.6. Allocazione di compromesso
Il criterio di allocazione di compromesso sviluppato nel lavoro di Centra e
Falorsi (2006), affronta un problema analogo a quello dell’allocazione
esponenziale in cui l’indagine debba produrre stime a livello di strato e per
l’intera popolazione sotto studio.
Il lavoro che considera il caso della stima di una proporzione ed è
sviluppato per la strategia (CS,E), propone la seguente soluzione
comp nh
in cui:
λ
= λ ney nh + (1 − λ ) ug nh
(4.16)
è un parametro compreso tra 0 e 1, da fissare in modo opportuno ;
ney nh è definita secondo l’espressione (4.5) relativamente al caso in cui la
~
stima sia CS , E Pcd ; ug nh viene individuata risolvendo, mediante un
complicato algoritmo iterativo, il seguente problema di minimo vincolato:
⎧H
∑
⎪ ug nh = n
⎪h =1
⎨
~
Vh ( CS , E Pcd , h )
~
⎪
=V
⎪V0, h ( CS , E Pcd , h ) +
n
ug
h
⎩
.
(4.17)
(h = 1,..., H )
La (4.17) definisce una dimensione campionaria che garantisce che tutte le
stime di strato abbiano un uguale errore di campionamento, pari a V ,
garantendo al contempo la numerosità complessiva del campione.
Fissando il valore di λ pari a 1, si ottiene l’allocazione di Neyman ottima
~
per la stima CS , E Pcd , ma che al contempo può indurre una grande variabilità dei coefficienti di variazione delle stime per strato. Viceversa, un valore
di λ pari a 0, garantisce che le stime degli strati abbiano la medesima variabilità, allontanandosi però dalla soluzione ottimale per la stima comples-
~
siva CS , E Pcd . La definizione di un valore del parametro
λ
intermedio tra 0
e 1 permette di individuare una esplicita soluzione di compromesso tra i differenti obiettivi dell’indagine. Nel lavoro sopra riportato viene definito anche
un criterio di ottimalità per la scelta di λ , basato sull’analisi dell’effetto del
disegno di campionamento.
Si fa notare che nel caso in cui:
99
CAPITOLO 2
•
le numerosità N h siano sufficientemente grandi;
•
valga, almeno approssimativamente la condizione
Pcd ,1 ≅ Pcd ,2 ≅ ... ≅ Pcd ,h ≅ ... ≅ Pcd , H = Pcd ,
la (4.16) può essere utilmente approssimata da:
acomp nh = λ ney nh + (1 − λ )
n
.
H
(4.18)
2.4.2.7. Allocazione basata su un modello di superpopolazione
Spesso nella fase della definizione del disegno di campionamento si
conosce solo la variabilità negli strati di una variabile ausiliaria che potrebbe
essere correlata con la variabile d’interesse. Nei lavoro di Dayal (1985)
Godfrey et al. (1984) si illustra il caso in cui la variabile d’interesse e quella
ausilia siano legate da un modello lineare del tipo
q
ycd ,hk = α + β x gd ,hk + ecd ,hk x gd
,hk ,
dove si è indicato con:
αe β
(4.19)
i coefficienti di regressione di tipo costante; q
un parametro costante; ecd ,hk la componente residua di tipo casuale, i cui
valori attesi sotto il modello introdotto sono dati da
(
)
(
)
2
2
2
Em ecd
.
,hk x gd ,hk = 0 , Em ecd ,hk x gd ,hk = δ
(4.20)
La regola di allocazione di Dayal è finalizzata a minimizzare, la varianza
anticipata (Isaki e Fuller, 1982), ossia il valore atteso sotto il modello (4.16)
della varianza di campionamento per un dato costo o una definita
dimensione del campione n.
Se n è fissato, la regola di allocazione di Dayal per la strategia di
campionamento (CS,E) è data da:
Nh β
day nh = n
H
∑
l =1
Nl
2
1
S x2 d , h + δ 2
g
N
β 2 S x2
g d ,l
+δ2
H Nh
∑∑ xgd2q,hk
h =1 k =1
1
N
.
(4.21)
H Nh
∑∑ xgd2q,lk
h =1 k =1
Nel caso in cui δ = 0 allora la (4.18) è uguale all’allocazione ottima rispetto
alla variabile ausiliaria x definita dalla (4.7).
100
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
2.5. Allocazione multivariata e multidominio
Come illustrato nel par. 2.2, in generale le indagini campionarie sono di tipo
multivariato e multidominio, devono quindi produrre stime per una pluralità di
parametri di interesse in ciascuno dei domini di studio, caratterizzanti la
popolazione sotto esame. Per descrivere tale situazione, si denoti con θα
( α = 1,2,.., Ω ) un generico parametro di interesse. Ad esempio, supponendo che l’indagine debba produrre stime dei totali Ycd (c=1,…,C; d=1,…,D),
si ha che
•
i parametri di interesse sono in numero pari al prodotto C D ;
•
il parametro θα corrisponde al singolo totale Ycd ;
• l’indice α assume valori da 1 a Ω dove Ω = C D .
Si presupponga di avere selezionato un campione mediante il disegno di
campionamento stratificato a e di voler stimare il generico parametro θα
~
mediante lo stimatore a ,b θα . Si supponga, inoltre, che per la varianza del
suddetto stimatore valgano le decomposizioni illustrate nel par. 2.3.1, ossia
che risulti:
(
~
)
~
~
V a ,b θα = V0 ( a ,b θα ) + Vcamp ( a ,b θα ) =
(
)
~
~
~
~
~
~
V a,bθα = V0 ( a,bθα ) + Vcamp (a,bθα ) =
H
H V ( θ~ )
h a ,b α
~
∑V0,h (a,bθα ) + ∑
h =1
H
h =1
H
~
∑V0,h (a,bθα ) + ∑
h =1
nh
~
Vh ( a,bθα )
h =1
nh
Nel contesto appena introdotto, il problema di definizione della dimensione
del campione negli strati può essere affrontato mediante due differenti
approcci:
1. il primo risolve il problema, individuando la soluzione di costo minimo
~
che garantisce che ciascuna delle stime diffuse a ,bθα ( α = 1,2,.., Ω )
abbia un prefissato di accuratezza;
2. il secondo approccio determina una soluzione generale di ottimo come
nel caso univariato.
2.5.1. Soluzione di costo minimo
~
In questo approccio, per ciascuna stima a ,bθα ( α = 1,2,.., Ω ) si definisce
~
~
*
un valore soglia V ( a ,bθα ) della varianza V ( a ,bθα ) .
La soluzione ottima cerca di minimizzare il costo variabile dell’indagine sotto
101
CAPITOLO 2
il vincolo che varianza della generica stima non sia superiore al valore soglia
fissato per la stima stessa; in simboli
⎧ H
∑
Lh nh = min
⎪⎪
⎨ h =1
⎪
~
~
*
⎪⎩ V ( a ,b θα ) ≤ V ( a ,bθα ) per α = 1,2,.., Ω
Come mostrato in Bethel (1989) esistono dei valori
(4.22)
λα ( α = 1,2,.., Ω )
tali
che consentono di individuare la soluzione al problema (4.22) mediante la
seguente relazione
Ω
~
∑ λα Vh (a,bθα )
beth nh
= α =1
.
Lh
(4.23)
Nel lavoro di Bethel si prova anche la convergenza di un algoritmo iterativo
che consente di determinare i valori numerici dei coefficienti λα
( α = 1,2,.., Ω ).
Un algoritmo iterativo più semplice dal punto di vista applicativo è illustrato in
Chromy (1987). L’algoritmo è articolato nei passi di seguito illustrate.
1. Si denoti con
(τ )λ
all’iterazione τ (con
τ
2. All’iterazione iniziale,
α
il valore di
=0,1,…)
λα ( α = 1,2,.., Ω )
calcolato
τ = 0 , si pone (τ ) λα = 1 .
3. Nelle successive iterazioni ( τ =1,2,…) si calcolano i valori
(τ ) n
h,
mediante l’equazione (4.23)
Ω
∑
(τ ) n = α =1
h
(τ −1)λ V ( θ~ )
α h a ,b α
.
Lh
4. Si calcolano i valori delle varianze all’iterazione
H V ( θ~ )
~
~
h a ,b α
(τ )
.
V a ,bθα = V0 ( a ,bθα ) +
(τ )
n
h
h =1
(
)
∑
5. Si calcolano i valori aggiornati di
aggiornamento
102
(τ )λ
α mediante l’equazione di
DEFINIZIONE DELLA NUMEROSITÀ CAMPIONARIA
(
(
)
)
~
~
⎡ (τ )
(τ ) λ = (τ −1)λ ⎢ V a ,b θα − V0 ( a ,bθα )
α
α⎢
~
~
*
⎢⎣ V a ,b θα − V0 ( a ,b θα )
⎤
⎥
⎥
⎥⎦
2
( α = 1,2,.., Ω ).
(τ )
λα .
I passi 3,4 e 5 sono ripetuti utilizzando i valori aggiornati
La soluzione, beth nh (h=1,…,H) di costo minimo è ottenuta quando per tutti
α ( α = 1,2,.., Ω ) si ha
~
~
~
~
(τ )
V a ,b θα ≤ V * a ,b θα e (τ −1)λα (τ )V a ,bθα − V * a ,b θα = 0 .
i valori di
(
)
(
( (
)
)
(
))
L’algoritmo appena illustrato è stato implementato all’ISTAT in una macro
SAS (Falorsi et al. 1998) e all’Isfol in un programma SPSS (Centra, 2006).
Non esiste la prova matematica della convergenza dell’algoritmo appena
illustrato; ma, in tutte le esperienze empiriche condotte, l’algoritmo ha trovato
una soluzione di ottimo convergendo dopo un numero limitato di iterazione,
in genere inferiori a 15.
Il principale problema di tipo concettuale è quello della definizione dei valori
~
*
soglia V ( a ,b θα ) . In genere tali valori sono individuati, con numerose
~
*
prove empiriche finalizzate a individuare i valori V ( a ,b θα ) che consentono
di ottenere una dimensione campionaria compatibile con le risorse da assegnare all’indagine e al contempo di diffondere stime sufficientemente
affidabili. Un’interessante soluzione al problema, applicata al contesto delle
indagini sulle imprese condotte dal Bureau of the Census è riportata in
Hidirogloou et al. (1995).
2.5.2. Soluzione di ottimo analoga al caso univariato
Nel lavoro di Chatterjee (1967) si propone di scegliere i valori nh che per
~
ciascuna stima, a ,bθα , minimizzano il valore medio dell’incremento proporzionale di varianza rispetto alla soluzione ottima univariata. Se, relativamente allo strato h, si indica con α nh la dimensione campionaria ottima
~
univariata per la stima a ,bθα , la soluzione proposta è la seguente
⎡ Ω
2
⎢
cha nh = n
α nh
⎢ α =1
⎣
∑
H
Ω
∑ ∑
h =1
2
α nh
α =1
⎤
⎥ .
⎥
⎦
(4.24)
Una situazione alternative riportata in Cochran (1977, pp. 121) è quella di
minimizzare la seguente funzione quadratica, avendo fissato il costo totale
dell’indagine L’:
103
CAPITOLO 2
Η V ( θ~ ) ⎤ ⎫
⎧⎪ Ω
⎡
~
h a ,b α ⎪
Min ⎨ ϕα ⎢V0 ( a ,bθα ) +
⎥⎬ ,
nh
nh ⎪
⎢
⎥⎦ ⎪⎭
h =1
⎩α =1 ⎣
∑
∑
dove (0 < ϕα < 1) sono costanti fisse, essendo
(4.25)
Ω
∑ ϕα =1.
α =1
La (4.25) viene minimizzata definendo un valore di nh pari a
~
coch nh
=n
ϕα Vh (a,bθα )
Lh
H
∑
l =1
~
ϕα Vl (a,bθα )
Ll
.
(4.26)
L’approccio proposto da Cochran è raramente usato nelle usato nelle
indagini su larga scala, in quanto risulta piuttosto complessa la definizione
delle costanti ϕα .
104
LA COSTRUZIONE DI
STIME CAMPIONARIE
MEDIANTE L’USO DI
VARIABILI AUSILIARIE*
3.1 Introduzione
Nella presente capitolo vengono descritte le principali caratteristiche statistiche e informatiche di un metodo di stima che consente la costruzione di
stime campionarie, basate sulla teoria dello stimatore di regressione generalizzata. Tali stime sono caratterizzate da buone proprietà statistiche e
operative che si possono sintetizzare nei seguenti punti:
• flessibilità e facilità operativa. Le stime dei parametri di interesse vengono, infatti, ottenute ponderando ciascuna unità inclusa nel campione con
un peso (detto anche coefficiente di riporto all’universo) che dal punto di
vista logico può essere visto come il numero delle unità della popolazione oggetto di studio rappresentate dall’unità osservata nell’indagine;
• efficienza. Le stime prodotte sono in genere contraddistinte da una variabilità di campionamento minore rispetto a quella ottenibile da metodi di
stima più tradizionali;
• coerenza dell’informazione diffusa. Le stime campionarie possono, infatti,
riprodurre la struttura della popolazione di interesse nota da fonti esterne.
La restante parte del documento è organizzata nel modo di seguito descritto.
Il par. 2. è finalizzato ad illustrare la teoria statistica sottostante lo stimatore
di regressione generalizzato; il par. 3. è dedicato a illustrare il software generalizzato, implementato sul pacchetto SPSS, per l’applicazione di metodi di
stima lineare ad una qualsiasi banca dati.
3.2
Teoria statistica dello stimatore di regressione generalizzato
3.2.1 Lo stimatore di regressione generalizzato
una popolazione finita U costituita da N elementi,
U = {1,..., k ,..., N } . Dalla popolazione U viene selezionato un campione s,
Si
*
consideri
Di Marco Centra, Piero Demetrio Falorsi.
105
CAPITOLO 3
di n unità, mediante un disegno di campionamento che assegna al campione
s la probabilità p(s) di essere selezionato.
Si indichino con
∑
=∑
πk =
π kl
s⊃k
p (s )
s ⊃ ( k ,l )
p (s )
la probabilità di inclusione dell’unità k e la probabilità di inclusione della coppia di unità (k,l).
Sia y la variabile di interesse, la cui misurazione sull’elemento k viene denotata con y k .
L’obiettivo è quello di stimare il totale della variabile di interesse
Y=
∑
U
yk .
Sia
(
x k = x1k ,..., x pk ,...x Pk
)'
il vettore di P variabili ausiliarie riferito all’unità k.
Si supponga inoltre che, per ciascun elemento di s si possa osservare la
coppia ( y k , x k ) .
Si assuma infine che il totale delle variabili ausiliarie
X=
∑U x k = (∑U x1k ,..., ∑U x pk ,..., ∑U xPk )
'
sia conosciuto in base a una fonte censuaria o amministrativa.
Si cerca uno stimatore di Y che faccia un uso efficiente dell’informazione
ausiliaria sopra riportata. Uno stimatore che risponde alle caratteristiche
suddette è lo stimatore di regressione generalizzata
~
ˆ +
YREG = X' B
dove
ak =
106
1
πk
∑ a (y
s
k
k
ˆ
− x'k B
)
(1)
LA COSTRUZIONE DI STIME CAMPIONARIE
è il peso base, e il vettore B̂ è ottenuto come soluzione, sulla base dei dati
campionari, delle equazioni normali
⎛⎜
⎝
∑a
s
k
ˆ =
x k x'k c k ⎞⎟ B
⎠
∑a
s
x k y k ck
k
(2)
essendo c k definito in base alla struttura di varianza del modello di regressione lineare sottostante lo stimatore di regressione generalizzata. Tale modello indicato con ξ è basato sulle seguenti ipotesi
y k = x'k β + ε k
E ξ (ε k ) = 0 ,
per k ∈ U .
Vξ (ε k ) = c k σ 2
,
Cξ (ε k , ε l ) = c k σ 2
(3)
(∀ k ≠ l )
avendo indicato con E ξ (⋅) , Vξ (⋅) , Cξ (⋅) gli operatori di valore atteso,
varianza e di covarianza sotto il modello ipotizzato.
Il legame tra il modello (3) e lo stimatore (1) può essere esplicitato nel modo
seguente: se le coppie ( y k , x k ) fossero osservabili per tutti gli N elementi
della popolazione U, allora si potrebbe ottenere una stima di regressione
generalizzata della relazione lineare tra la y e la x risolvendo il sistema di
equazioni normali basato sui dati censuari
⎛⎜
⎝
∑U x k x'k
c k ⎞⎟ B =
⎠
∑U x k yk
ck .
(4)
Tuttavia il vettore B non può essere calcolato poiché le coppie
( yk ,x k )
possono essere osservate solo sul campione. Pertanto, si sostituisce la (4)
con le corrispondenti equazioni normali (2) che permettono di ottenere la
stima B̂ base ai dati campionari. Ciò inoltre permette il calcolo dei residui
campionari
e~k = y k − x 'k Bˆ
(5)
coinvolti nella (1).
Un’importante proprietà da porre in luce è quella che (Särndal et al., 1992),
~
sotto condizioni piuttosto generali, lo stimatore YREG risulta uno stimatore
consistente del parametro d’interesse Y, qualsiasi sia la combinazione dei
valori del vettore della popolazione finita y1 ,..., y k ,..., y N , ossia che
(
)
~
lim E p YREG = Y
n→ N
107
CAPITOLO 3
dove E p (⋅) indica il valore atteso rispetto al disegno di campionamento
utilizzato.
La consistenza non dipende, comunque, dalla veridicità del modello (3), in
tal senso si può affermare che l’approccio utilizzato per l’inferenza resta
valido anche nel caso il modello (3) non risulti adeguato a descrivere la
relazione esistente tra la variabile d’interesse e le variabili ausiliarie, si tratta
quindi di un approccio in cui l’inferenza è assistita dal modello adottato,
piuttosto che di un approccio in cui l’inferenza è basata interamente sul
modello ipotizzato.
3.2.2 Espressioni alternative dello stimatore
Per meglio comprendere le proprietà dello stimatore (1) è utile fare
riferimento a tre espressioni alternative dello stesso. La prima di queste è
data da
(
)
~
ˆ 'B
ˆ
YREG = Ŷ + X − X
(6)
in cui
Ŷ =
∑a
s
k
yk
,
ˆ =
X
∑a
s
k
x'k
costituiscono le stime dirette o di Horvitz Thompson (1952) di Y e X, e il terˆ 'B
ˆ costituisce un aggiustamento di regressione dello stimamine X − X
tore diretto. Una seconda espressione può essere sostituendo ottenuta nella
(
)
(5), il vettore B̂ con la sua espressione esplicita definita da
ˆ = ⎛⎜
B
⎝
∑
a k x k x'k c k ⎞⎟
s
⎠
−1
) ∑ s ak x k x'k
(
~
ˆ ' ⎛⎜
YREG = Ŷ + X − X
⎝
(
∑
=
∑
⎡
ˆ ' ⎛⎜
ak y k ⎢1 + X − X
s
⎝
⎣⎢
=
∑ s ak g k yk
essendo
108
ck ⎞⎟
⎠
) ∑ s ak x k x'k
ˆ ' ⎛⎜
ak y k + X − X
s
⎝
=
∑ s ak x k yk
(
c k , si ottiene quindi
−1
x k ak ck =
ck ⎞⎟
⎠
) ∑ s ak x k x'k
−1
ck ⎞⎟
⎠
x k ak ck =
−1
⎤
x k a k ck ⎥ =
⎦⎥
(7)
LA COSTRUZIONE DI STIME CAMPIONARIE
⎡
ˆ ' ⎛⎜
g k = ⎢1 + X − X
⎝
⎣⎢
) ∑ s ak x k x'k
(
ck ⎞⎟
⎠
−1
⎤
x k ak ck ⎥ .
⎦⎥
(8)
Le espressioni (7) e (8) mostrano che per ottenere la stima del totale Y si
devono utilizzare dei pesi finali
(k ∈ s)
wk = a k g k
(9)
ottenuti come prodotto del peso base, a k , per un fattore correttivo, g k ,che
dipende dal modello (3).
3.3
Stimatore di regressione generalizzata come caso particolare
dello stimatore di calibrazione
Un’importante proprietà dello stimatore di regressione generalizzata è quella
della calibrazione, ossia che le stime campionarie delle variabili ausiliarie
corrispondono ai valori noti degli stessi; infatti, partendo dalle espressioni (7)
ed (8) si ha:
~
YREG =
∑ s ak g k x 'k =
⎡
ˆ )' ⎛⎜
= ∑ ak ⎢1 + (X − X
a x x'
s
⎝ ∑s k k k
⎢⎣
( ) ∑ s ak x k x'k
ˆ ' + (X − X
ˆ )' = X' .
=X
ˆ ' + X−X
ˆ ' ⎛⎜
=X
⎝
c k ⎞⎟
⎠
−1
ck ⎞⎟
⎠
−1
⎤
x k ak ck ⎥ x'k =
⎥⎦
∑ s x k x'k
ck =
La proprietà, appena illustrata, mostra che lo stimatore di regressione generalizzata può essere visto come un caso particolare dello stimatore di
calibrazione, ossia una classe di stimatori del tipo
~
Y=
∑ s wk
yk ,
in cui i pesi finali wk sono ottenuti come soluzione del seguente problema di
minimo vincolato finalizzato ad individuare dei pesi finali wk che risultino il
meno distante possibile dai pesi base ak e che al contempo consentano di
rispettare la condizione di calibrazione, ossia che le stime campionarie delle
variabili ausiliarie corrispondono ai valori noti degli stessi:
109
CAPITOLO 3
(∑s ck D(ak , wk ))
⎧Min
⎪ wk
⎨
w
⎪
⎩ s k
∑
xk = X
,
(10)
dove D(ak , wk ) 1 definisce una funzione generale di distanza tra il peso
base e il peso finale.
Nel caso in cui la funzione di distanza adottata sia quella Euclidea, espressa
da
D(ak , wk ) =
1 (ak g k - ak )2
,
2
ak
(11)
si ottiene lo stimatore di regressione generalizzata. Per dimostrare tale
asserzione basta osservare che la soluzione analitica del sistema (10), in cui
la funzione di distanza è espressa dalla (11) si ottiene si ottiene risolvendo il
sistema lineare in n+P equazioni in n+P incognite
2(ak − wk )
⎧ δL
= λ 'x k
⎪⎪δ w = −
ak
k
⎨δ L
⎪
w x =X
=
s k k
⎪⎩ δ λ
k = 1,...., n
∑
,
(12)
ottenuto ponendo pari a zero le derivate prime del Lagrangiano
L=
∑ s ck
(wk - ak )2 − λ ' (
ak
∑ s wk x k − ∑U x k )
dove λ denota il vettore colonna (P-dimensionale) dei coefficienti di
Lagrange.
Si consideri la k-esima (k = 1,…,n) tra le prime n equazioni del sistema (12);
dopo semplici passaggi si ottiene:
⎛
⎞
1
x 'k λ ⎟⎟ .
wk = a k ⎜⎜1 +
⎝ 2 ck
⎠
(13)
Premoltiplicando entrambi i membri della (13) per x k e sommando su s, si
ottiene
∑s xk wk = ∑s
⎛
⎞
1
x k x'k λ ⎟⎟ =
ak ⎜⎜1 +
⎝ 2 ck
⎠
1 Nel lavoro di Ballin et al. (2000) vengono elencate le distanze comunemente usate nella
definizione dello stimatore di Calibrazione.
110
LA COSTRUZIONE DI STIME CAMPIONARIE
ˆ =
=X−X
⎛
= λ = 2⎜⎜
⎝
1
2
∑s
∑s
ak
ak
1
x k x'k λ =
ck
⎞
1
x k x'k ⎟⎟
ck
⎠
−1
(X − Xˆ ).
(14)
Sostituendo la forma esplicita del vettore λ definita dalla (14) nella (13) si
ottiene la medesima espressione del peso finale del peso finale dello
stimatore di regressione generalizzata, definita dalle espressioni (8) e (9).
3.4 Concetti sottostanti lo stimatore di regressione generalizzato
Una definizione più precisa dello stimatore di regressione generalizzata
passa attraverso l’introduzione di tre concetti che specificano ulteriormente
la relazione della variabile d’interesse con il relativo modello di regressione
(3). Questi sono:
•
il gruppo di riferimento del modello;
•
il livello del modello;
•
il tipo di modello.
3.4.1 Gruppo di riferimento del modello
Data una partizione completa della popolazione U, {U1, …, Ud, …, UD }, si
definisce il generico gruppo di riferimento del modello Ud, un sottoinsieme (o
sottopopolazione) in cui,
ƒ sono noti i totali di una o più variabili ausiliarie non essendo necessario
che l’insieme delle variabili ausiliarie sia lo stesso per ciascuna sottopopolazione.
ƒ il campione sd appartenente al gruppo di riferimento d, definito come s d = s ∩ U d , deve essere sempre costituito da un numero di unità
maggiore del numero di totali noti.
Valendo le precedenti condizioni è possibile definire un modello separato
per le unità di ciascun gruppo. Rispetto al modello (3), in cui il gruppo di riferimento è l’intero universo U, si costruisce, quindi, un modello di regressione
per ciascun sottoinsieme Ud, espresso da
y k = x ′dk β d + ε k ,
per
k ∈Ud
(15)
in cui valgono le ipotesi del modello (3) ed avendo denotato con x dk il
vettore dei valori assunti, dall’unità k, sulle variabili ausiliarie utilizzate per la
costruzione del modello, nella sottopopolazione Ud.
Il vettore β d viene stimato come
−1
⎛
x dk x′dk ⎞
x y
ˆ
⎟⎟
ak
ak dk k .
B d = ⎜⎜
sd
ck ⎠
ck
⎝ sd
∑
∑
111
CAPITOLO 3
Lo stimatore di regressione generalizzata basato su una suddivisione
dell’universo in gruppi di riferimento è dato da,
D
~
YREG =
a g y ,
sd k k k
d =1
nel quale per
−1
∑∑
⎞
⎛
x dk x′dk ⎟
'⎜
ˆ
g k = 1 + (X d − X d ) ⎜
⎜ k ∈s π k ck ⎟⎟
⎠
⎝ d
∑
in cui
Xd =
∑U d x dk
,
X̂ d =
x dk
ck
∑ sd ak x dk .
Con lo stimatore appena illustrato, la stima del residuo
~
ˆ
ek = yk − x'dk B
d
(15.b)
ε k è data da:
(15.c)
3.4.2 Livello del modello
Il livello del modello fa riferimento al tipo di unità usato nella formulazione del
modello (3).
Si dice che un modello è riferito alle unità elementari se, come nel caso della
(3), le quantità relative fanno riferimento alle unità elementari coinvolte nel
campionamento e i totali noti sono relativi a gruppi di unità elementari.
Per i disegni di campionamento di unità elementari a uno stadio semplice
(ad esempio campionamento stratificato di unità elementari) si possono
definire unicamente modelli a livello di unità elementari.
Per disegni di campionamento in cui le unità finali di campionamento
costituiscono cluster di unità elementari2, il modello può essere formulato sia
a livello di cluster, sia a livello di unità elementari.
Per i disegni di campionamento a più stadi possono essere adottati differenti
livelli di modello, ciascuno dei quali relativo a uno specifico stadio del
campionamento. Nel caso che il modello sia formulato a livello di unità elementari, il vettore X di totali noti è un vettore di totali riferiti a gruppi di unità
elementari; nel caso che il modello sia formulato a livello di cluster il vettore
X di totali noti è un vettore di totali riferiti a gruppi di cluster.
Per illustrare tale aspetto, si definisca con U I = {1,K, i,K, N I }l’universo
dei cluster, e si indichi con
2 Ad esempio, nel caso delle indagini sulle famiglie in cui la famiglia costituisce l’unità finale di
campionamento (cluster) ed in cui vengono rilevati tutti i componenti – unità elementari – della
famiglia medesima.
112
LA COSTRUZIONE DI STIME CAMPIONARIE
YIi =
∑k∈i yk
e
∑k∈i x k
X Ii =
il totale della variabile di interesse e del vettore delle variabili ausiliarie per il
generico cluster i.
Si supponga che da U I venga selezionato un campione s I , di nI unità,
mediante un disegno di campionamento che assegna al campione s I la
probabilità p( s I ) di essere selezionato.
Si indichino con
π Ii =
∑ sI ⊃ i
π Iij =
p (s I )
∑ sI ⊃ (i, j ) p(sI )
la probabilità di inclusione del cluster i e la probabilità di inclusione della
coppia di cluster (i,j).
Si può quindi definire il seguente modello di regressione
YIi = X ′Ii β I + ε Ii ,
in cui: β I
ξI
(i=1...,NI)
(16)
= ( βI1 ,..., β Ip ,..., βIP ) ' denota il vettore dei P coefficienti di re-
gressione incogniti;
ε i è una variabile casuale per la quale il valore atteso, la
varianza e la covarianza sotto il modello
ξI
sono definiti rispettivamente da:
Eξ I (ε Ii ) = 0 , Varξ I (ε Ii ) = cIiσ I2 , Covξ (ε Ii , ε Ij ) = 0
I
(∀ i ≠ j ) ;
(17)
essendo le cIi (per i ∈ U I ) delle costanti note.
Lo stimatore di regressione definito a livello di cluster assume, dunque, la
seguente espressione:
~
YREG =
∑i∈sI aIi g Ii YIi = ∑i∈sI aIi g Ii ∑ k∈i yk
(18)
in cui
aIi =
1
π Ii
113
CAPITOLO 3
denota il peso base e
⎛
⎜
X X′
'
ˆ
g Ii = 1 + ( X I − X I ) ⎜
aIi Ii Ii
cIi
⎜ i∈s
⎝ I
∑
⎞
⎟
⎟
⎟
⎠
−1
X Ii
cIi
(19)
è il fattore correttivo del peso base; avendo inoltre indicato con
X I = ∑U X Ii
I
ˆ =∑ X a
X
I
Ii Ii
s
I
il vettore di totali noti riferiti all’universo dei cluster e la corrispondente stima
di Horvitz Thompson.
Con lo stimatore appena illustrato, la stima del residuo ε k , a livello di unità
elementare è data da:
~
ˆ .
ek = yk − x'k B
I
(19.b)
La stima dei residui a livello di cluster è ottenuta come somma dei residui
delle unità elementari facenti parte del cluster.
Espressioni analoghe alla (18) e alla (19) si ottengono quando la popolazione U I è partizionata in U I1 ,K,U Id ,K,U ID gruppi di riferimento. In
tale caso si può ipotizzare di definire la relazione che lega la variabile oggetto d’indagine e le variabili ausiliarie come
YIi = X ′Idi β Id + ε i
∀ (i ∈U Id
)
in cui X Idi è il vettore dei totali calcolati sul cluster i delle variabili ausiliarie
utilizzate per la costruzione del modello nella sottopopolazione U Id .
Lo stimatore di regressione si può, pertanto, formulare attraverso la relazione
~
YREG =
D
D
∑ ∑i∈sId aIi g Ii YIi = ∑ ∑i∈sId aIi g Ii ∑k∈i yk
d =1
(20)
d =1
in cui
sId = sI ∩ U Id ;
114
(21)
LA COSTRUZIONE DI STIME CAMPIONARIE
⎛
ˆ ) ' ⎜ ∑ a X Ii X ′Ii
g Ii = 1 + ( X Id − X
Id ⎜
Ii
cIi
⎝ i∈sId
⎞
⎟
⎟
⎠
−1
X Ii
c Ii
(22)
è il fattore correttivo calcolato a livello di cluster, essendo
X Id = ∑U X Ii
Id
ˆ =∑ X a
X
Id
Ii Ii
s
Id
Con lo stimatore appena illustrato, la stima del residuo
ε k , a livello di unità
elementare è data da:
ˆ .
e~k = y k − x 'k B
Id
(22.b)
La stima dei residui a livello di cluster è ottenuta come somma dei residui
delle unità elementari facenti parte del cluster.
Si evidenzia che un modello a livello di unità elementare corrisponde ad uno
stimatore che attribuisce un peso finale diverso per tutte le unità elementari
appartenenti ad una medesima unità finale di campionamento; viceversa, un
modello a livello di cluster di unità elementari corrisponde ad uno stimatore
che attribuisce un peso finale uguale per tutte le unità elementari
appartenenti ad una medesima unità finale di campionamento.
In alcune situazioni particolari, quindi, l’adozione di un modello a livello di
cluster (ad esempio, a livello di famiglia) comporta che il peso finale di tutti
gli elementi dello stesso cluster risulti uguale. In tal modo è possibile risolvere i problemi di coerenza interna (vedi Ballin et al. 2000) che potrebbero
essere ingenerati nel caso in cui l’indagine debba produrre stima sia a livello
di cluster che a livello di unità elementari
Infine, si ricorda che mentre, per impostare un modello a livello di unità elementare non vi sono vincoli sul tipo di disegno campionario adottato, per definire nel software un modello di regressione a livello di cluster è necessario
aver utilizzato un disegno in cui le unità finali di campionamento sono dei
grappoli.
3.4.3 Tipo di modello
La scelta delle variabili ausiliarie e del parametro ck determina il tipo di
modello sottostante allo stimatore di regressione generalizzata.
In particolare, la specificazione del vettore x k e ck , associata con la definizione del livello e del gruppo di riferimento, conducono a noti stimatori che
possono essere derivati, anche, al di fuori della teoria degli stimatori di calibrazione. Nello schema seguente (mutuata da Pagliuca, 2002), relativamente a campioni di unità elementari, si descrive il legame esistente tra
alcuni degli stimatori più usati in letteratura e la classe degli stimatori di cali115
CAPITOLO 3
brazione. Nello schema il vettore delle variabili ausiliaria, corrisponde a uno
scalare, indicato con xk o xdk a seconda che si faccia riferimento ai
modelli di regressione (3) o (15).
Schema n. 3 - Casi particolari dello stimatore di calibrazione per campioni di unità
elementari
Stimatore
Gruppi di
riferimento
del modello
Tipo di modello
Valori
assunti
Valori
da
assunti
da
xk
o
xdk
HorvitzThompson
Hàjek
Totale
popolazione
Totale
popolazione
ck
Fattore
correttivo
Forma dello
stimatore
gk
πk
πk
1
Ŷ
1
1
N / N̂
Ŷ
N
N̂
X / X̂
Ŷ
X
X̂
Rapporto
semplice
Totale
popolazione
xk
xk
Rapporto
separato
Ciascun
gruppo
coincide con
uno strato
(d≡h)
xdk
xdk
H Yˆ
h
∑ Xˆ
X h / X̂ h
h =1
h= indice di
strato
Rapporto
combinato
Totale
popolazione
Ciascun
gruppo d è
Rapporto
costruito
combinato
come
per sottopo- aggregazione
polazioni
di strati
xk
xk
X / ∑h X̂ h
xdk
xdk
X d / ∑h∈d Xˆ h
h
Xh
∑h Ŷh X
∑h X̂ h
∑h∈d Yˆh
∑
ˆ
d =1 ∑ h∈d X h
D
Xd
segue schema
116
LA COSTRUZIONE DI STIME CAMPIONARIE
Schema n. 3 segue
Stimatore
Tipo di modello
Valori
assunti
Valori
da
assunti
da
xk
Gruppi di
riferimento
del modello
o
xdk
Rapporto
poststratificato*
Rapporto
poststratificato
separato**
Ciascun
gruppo
coincide con
un post-strato
(d≡a)†
Ciascun
gruppo
coincide con
una
combinazione
tra post-strato
e strato
(d≡a∩h)
Ciascun
Rapporto
gruppo
postcoincide con
stratificato
un post-strato
combinato**
(d≡a)
ck
Fattore
correttivo
Forma dello
stimatore
gk
xdk
xdk
ˆ
a X / aX
xdk
xdk
ˆ
a X h / aX h
xdk
xdk
ˆ
a X h / ∑h a X h
A
ˆ
aY
∑ ˆ aX
X
a =1 a
A H
∑∑
ˆ
aYh
a =1 h =1 a
a
Xˆ h
Xh
∑h aYˆh X
ˆ a
a =1 ∑h a X h
A
∑
*Utilizzato con un disegno semplice; ** utilizzato con disegno stratificato; † Il generico poststrato è indicato con a (a=1, ...., A).
3.5
Stima della varianza di campionamento e criterio di scelta delle
variabili ausiliarie
~
Uno stimatore della varianza di campionamento dello stimatore YREG caratterizzato da buone proprietà in ambito condizionale e non condizionale
(Särndal et al. 1989; Kott, 1990) è dato da
π kl − π k π l
(23)
(a k g k e~k )(al g l e~l ).
π kl
dove i fattori correttivi g k e i residui ~
ek dipendono dalle scelte relative ai
(
)
~ ~
V YREG = ∑k∈s
∑
l∈s
gruppi di riferimento del modello e del livello del modello.
Per il modello a livello di unità elementari, i fattori correttivi e i residui sono
espressi in modo alternativo dalle espressioni:
• (8) e (5), se si utilizza un unico gruppo di riferimento del modello, che
coincide con l’intera popolazione
• (15.b) e (15.c), se si utilizzano D gruppi di riferimento del modello.
117
CAPITOLO 3
Per il modello a livello di cluster, utilizzabile per i disegni in cui si campionano cluster interi di unità elementari, i fattori correttivi e i residui sono
espressi in modo alternativo dalle espressioni:
• (19) e (19.b), se si utilizza un unico gruppo di riferimento del modello,
che coincide con l’intera popolazione
• (22) e (22.b), se si utilizzano D gruppi di riferimento del modello.
Al fine di valutare l’efficienza di una strategia di stima proposta è utile porre a
raffronto la varianza (23) con quella dello stimatore diretto (che non utilizza
l’informazione ausiliaria disponibile), definendo un indice di efficienza del
tipo
(
~ ~
V YREG
deff stim =
ˆ Ŷ
V
in cui
()
V̂ Yˆ = ∑k∈s
()
∑
l∈s
)
(24)
π kl − π k π l
(ak y k )(al yl ) .
π kl
(25)
Un confronto tra le due espressioni della varianza mette in luce che la differenza essenziale tra la (23) e la (25) dipende dal fatto che la varianza lo
stimatore di regressione generalizzato si basa sul prodotto dei residui ~
ek
per i fattori correttivi g k, mentre la varianza dello stimatore diretto si basa sui
valori originari, y k , della variabile d’interesse; conseguentemente, con
sufficiente grado di generalità si possono evidenziare i seguenti aspetti:
• lo stimatore di regressione generalizzata è tanto più efficiente, rispetto
allo stimatore diretto, quanto più il modello (3) è predittivo, ossia quanto
più i residui ~
ek sono prossimi allo zero. Nel caso limite in cui tutti i residui sono nulli, risulta pari a zero anche la varianza di campionamento;
• i correttori g k possono introdurre un fattore varianza aggiuntivo nella
varianza di campionamento, qualora essi risultino molto variabili (Kish,
1965). Tale variabilità dei pesi correttivi può essere introdotta dal fatto di
considerare troppe variabili ausiliarie rispetto alle dimensioni del
campione.
In base quanto appena illustrato, il criterio di scelta delle variabili ausiliarie
da considerare nella specificazione del modello (3) dovrebbe essere guidato
da una logica di parsimonia e, considerando solo una logica basata sull’efficienza, una specifica variabile ausiliaria dovrebbe essere presa in considerazione nella costruzione dello stimatore di regressione unicamente nel caso
in cui la riduzione di varianza connessa al potere predittivo del modello (3)
sia superiore all’incremento di varianza dovuto all’aumento della variabilità
dei pesi campionari. In tal senso si propone una procedura per l’individuazione delle variabili ausiliarie, di tipo step-wise, articolata nei seguenti passi:
1) si individua, mediante un giudizio soggettivo, la variabile più importante,
rispetto agli obiettivi conoscitivi dell’indagine;
2) si effettua un’analisi statistica finalizzata a ordinare l’insieme delle variabili ausiliarie rispetto al potere predittivo che ciascuna di esse ha sulla
118
LA COSTRUZIONE DI STIME CAMPIONARIE
variabile di interesse, considerando come variabile dipendente quella individuata al passo precedente e come variabili esplicative tutto l’insieme
delle variabili ausiliarie disponibili. A tale scopo si può ricorrere a
tecniche di regressione non parametrica (Breiman et al., 1967) o anche
tecniche di regressione di tipo step-wise;
3) si costruisce lo stimatore di regressione generalizzato, considerando
unicamente la variabile più influente e si determinano le varianze (23) e
(25), calcolando quindi l’indicatore di efficienza (24);
4) si costruisce quindi lo stimatore di regressione generalizzato, considerando le due variabili più influenti e si determina il nuovo indicatore di
efficienza. Qualora tale indicatore sia inferiore a quello calcolato al punto
(3), anche la seconda variabile viene presa in considerazione nella
costruzione della strategia di stima;
5) si ripete il passo (4) considerando le variabili ausiliarie in ordine di influenza decrescente. Si termina questa iterazione, allorché l’introduzione
di una nuova variabile produce un valore dell’indicatore di efficienza
superiore a quello ottenuto nel passo precedente.
3.6
Stimatore di regressione generalizzata sotto diversi disegni di
campionamento
Nel presente paragrafo sono presentate le espressioni dello stimatore di re~
~ ~
gressione YREG , e il relativo stimatore della varianza, V YREG , per disegni di campionamento di particolare rilevanza applicativa.
(
)
3.6.1 Campionamento casuale semplice senza reimmissione
Le probabilità di inclusione semplici e congiunte nel caso del campionamento casuale semplice senza reimmissione sono definite da:
n
⎧
⎪π k = N
π kl = ⎨
n n −1
⎪
⎩ N N −1
per k = l
per k ≠ l
(26)
Lo stimatore di regressione è espresso da
N
~
YREG =
n
n
∑ yk g k
k =1
dove i fattori correttivi g k vengono espressi dalla (8), se si utilizza un unico
gruppo di riferimento del modello, che coincide con l’intera popolazione
mentre vengono definiti dalla (15.b), se si utilizzano D gruppi di riferimento
del modello.
Sostituendo la (26) nella (24), si ottiene lo stimatore della varianza:
119
CAPITOLO 3
2
⎞
1
N (N − n ) 1
~ ~
⎟
⎜
~
~
V YREG =
g k ek −
g k ek ⎟
⎜
n
n −1
n
⎟
⎜
k =1⎝
k =1
⎠
(27)
dove residui ~
e vengono espressi dalla (5), se si utilizza un unico gruppo di
(
n ⎛
∑
)
n
∑
k
riferimento del modello, mentre vengono definiti dalla (15.c), se si utilizzano
D gruppi di riferimento del modello.
3.6.2 Campionamento stratificato
Sia U una popolazione suddivisa in H strati e si indichi con: h (h=1, …, H)
l’indice del generico strato costituito da Nh unità, dove
∑h N h = N ; k (k=1,
…, Nh) l’indice della generica unità finale di campionamento appartenente
allo strato h. Il parametro da stimare si può in questo caso esprimere con
H Nh
Y = ∑ ∑ y hk ,
h =1k =1
dove y hk rappresenta il valore assunto dalla variabile d’interesse sull’unità
elementare k inclusa nello strato h.
Si supponga di aver estratto da U, attraverso un disegno casuale stratificato,
un campione s, in cui per ciascuno strato h la selezione delle nh unità
( h nh = n) sia stata effettuata con reimmissione e probabilità uguali. In
tale contesto le probabilità di inclusione sono definite da:
∑
⎧
nh
⎪π k =
Nh
⎪
⎪⎪ n n − 1
π kl = ⎨ h h
⎪ Nh Nh −1
⎪ nh nh'
⎪
⎪⎩ N h N h'
per (k = l ) ∈ s h
per (k ≠ l ), (k ,l ) ∈ s h
(28)
per (k ∈ s h ), (l ∈ s h' ) , h ≠ h'
e lo stimatore di regressione generalizzata per il totale Y si può scrivere
come
H
N
~
YREG = ∑ h
h =1 nh
120
nh
∑y
k =1
hk
g hk
LA COSTRUZIONE DI STIME CAMPIONARIE
in cui: chk rappresenta il fattore di eteroschedasticità connesso all’unità hk ;
il termine N h nh rappresenta il coefficiente diretto dell’unità k appartenente
allo strato h e dove i fattori correttivi g hk vengono espressi dalla (8), se si
utilizza un unico gruppo di riferimento del modello, che coincide con l’intera
popolazione mentre vengono definiti dalla (15.b), se si utilizzano D gruppi di
riferimento del modello.
Sostituendo la (28) nella (24), quest’ultima assume la ben nota forma:
nh ⎛
⎞
⎜
⎟
N h ( N h − nh ) 1
1
~ ~
~
~
−
V YREG =
g
e
g
e
hk hk
hk hk ⎟
⎜
nh
nh − 1
nh
⎜
⎟
h =1
k =1⎝
k =1
⎠
(
)
H
∑
∑
nh
2
∑
ehk vengono espressi dalla (5), se si utilizza un unico gruppo di
dove residui ~
riferimento del modello, mentre vengono definiti dalla (15.c), se si utilizzano
D gruppi di riferimento del modello.
3.6.3 Campionamento stratificato a grappoli
Si definisca con U I l’universo di riferimento dei grappoli (già precedentemente) suddiviso in H strati e in relazione al generico strato h si indichi
con: i (i=1, …, Nh) l’indice della generico grappolo di unità elementari; k (k=1,
…, Mhi) l’indice della generica unità elementare appartenente al grappolo i
dello strato h. Inoltre, si denoti sinteticamente con (hik) la generica unità
elementare k inclusa nel grappolo i dello strato h. In questo caso il
parametro si può rappresentare come
H
N h M hi
Y = ∑∑∑ yhik
h =1 i =1 k =1
dove
,
y hik è il valore della variabile d’interesse osservato sull’unità
elementare (hik).
Sia sI un campione di nI grappoli ottenuto attraverso un disegno casuale
stratificato, in cui per ciascuno strato si estraggono senza reimmissione e
probabilità variabili nh grappoli essendo π hik la probabilità d’inclusione
costante per tutte le unità elementari appartenenti al grappolo i dello strato
h, e pari alla probabilità di inclusione π hi dello stesso grappolo i.
Nel campionamento a grappoli la definizione dello stimatore di regressione
generalizzata varia a seconda del livello del modello utilizzato. La scelta del
livello influisce sulla forma dello stimatore nella definizione del fattore
correttivo.
In generale lo stimatore è espresso come
121
CAPITOLO 3
H nh
1
~
YREG = ∑∑
h =1 i =1
π hi
M hi
∑y
hik
g hik ,
(29)
k =1
in cui per il modello a livello di unità elementari, ghik è dato alternativamente
dalla:
• (8), se si utilizza un unico gruppo di riferimento del modello, che coincide
con l’intera popolazione
• (15.b), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello.
Per il modello a livello di cluster si ha che ghik è dato dalla
• (19), se si utilizza un unico gruppo di riferimento del modello, che
coincide con l’intera popolazione
• (22), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello.
Essendo per questo disegno di campionamento molto complessa la determinazione delle probabilità congiunte di selezione tra due cluster appartenenti al medesimo strato (Brewer, 1983), in genere si ricorre a una forma
approssimata per il calcolo della varianza basata sull’ipotesi che nell’ambito
di ciascuno strato la selezione sia stata effettuata con reimmissione (Verma
et al. 1980):
(
)
H
~
var YREG = ∑
h =1
nh
nh
2
(
e~hi − e~hi ) ,
∑
nh − 1 i=1
(30)
essendo
~
ehi =
M hi
∑ π hik
k =1
1 ~
ehik g hik
,
1
~
ehi =
nh
nh
∑ ~ehi
i =1
dove i residui sono espressi a seconda del livello del modello. Per il modello
ehik è dato alternativamente dalla:
a livello di unità elementari, ~
•
•
(5), se si utilizza un unico gruppo di riferimento del modello, che coincide
con l’intera popolazione
(15.c), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello.
Per il modello a livello di cluster si ha che ~
ehik è dato dalla
•
•
(19.b), se si utilizza un unico gruppo di riferimento del modello, che
coincide con l’intera popolazione
(22.b), se si utilizzano D (d=1,…,D) gruppi di riferimento del modello.
3.7 Software per l’applicazione di metodi di stima lineare
Il software permette l’applicazione della soluzione del sistema di stima ad un
qualunque data-set di dati individuali. Il programma è stato scritto in linguaggio SPSS.
122
LA COSTRUZIONE DI STIME CAMPIONARIE
Il programma necessita di due data-set in input: il primo relativo alla base di
dati individuali a cui imporre i totali noti; il secondo relativo ai totali noti. La
procedura restituisce un data-set di dati individuali identico a quello utilizzato
a monte del processo, con l’aggiunta della variabile relativa al correttore del
peso base.
Il data-set dei dati individuali ha una struttura unità-variabili e può contenere
un numero qualsiasi di variabili, tra le quali quelle selezionate per l’applicazione del metodo di stima lineare, vale a dire le variabili i cui totali coincideranno, al termine dell’intera procedura, con i totali noti. La base dati deve
contenere l’informazione sugli eventuali domini sui quali sono stratificati i
totali, una variabile che permetta l’identificazione dei record e il peso base.
Le variabili obiettivo devono essere ovviamente numeriche, tuttavia è possibile utilizzare anche variabili categoriali applicando una procedura di dicotomizzazione delle modalità: in tal caso i totali imposti coincidono con le
frequenze osservate in ciascun dominio.
Si osservi che nel caso si utilizzi una variabile categoriale dicotomizzata la
matrice binaria contiene una variabile ridondante: nell’esempio ciascuna
delle variabili occupato, in cerca di occupazione, inattivo, contiene un valore
binario corrispondente alla condizione dell’individuo; dal momento che la
condizione è esaustiva (ogni individuo deve presentare almeno una condizione occupazionale) la somma per riga è ovviamente pari a 1, ne segue
che la matrice contiene una colonna pari ad una combinazione lineare delle
altre. Questa caratteristica può generare problemi nell’algoritmo della procedura, che prevede l’inversione delle matrici: in tali casi la procedura applica
un metodo di inversione generalizzato di matrici, in grado di funzionare
anche su matrici con elementi non indipendenti.
Di seguito è riportato un esempio della struttura del database a cui imporre i
totali noti sulle sole variabili obiettivo.
Il data-set dei totali noti contiene i valori che la procedura imporrà al data-set
dei dati individuali sulle variabili corrispondenti; anche in questo caso il dataset deve contenere una variabile identificativa dell’eventuale dominio di stratificazione, coerente con quella utilizzata per i dati individuali.
L’algoritmo opera calcolando per ciascun dominio il vettore dei totali osservati dal data-set dei dati individuali; estrae il vettore dei totali noti per il dominio corrispondente dal data-set dei totali noti e applica la soluzione ottenendo un vettore di correttori del peso base il cui ordine coincide con il numero
di individuo del dominio.
Una volta applicata la procedura a tutti i domini si ottiene un vettore di ordine
pari al numero di individui della base di dati individuali, che applicato come
fattore moltiplicativo al peso base, permette ai dati individuali di riprodurre la
distribuzione nei domini di ciascuna delle variabili obiettivo.
Il programma effettua una analisi approfondita del correttore, calcolando
parametri e forma della distribuzione, fornendo all’utente la possibilità di
valutare i risultati della procedura.
123
CAPITOLO 3
Variabili obiettivo
Dominio=
Genere
x Area
Maschio-Nord
Femmina-Nord
Maschio-Centro
Femmina-Sud
Maschio-Sud
………………..
………………..
………………..
………………..
Femmina-Sud
Peso
base
a1
a2
a3
a4
a5
…
…
ai
…
an
In
Id
Reddito
Occ.
di occ.
Inat-
Var
Var
Var
tivo
1
2
3
Individuo 1
Individuo 2
Individuo 3
Individuo 4
Individuo 5
…………
…………
Individuo i
…………
Individuo n
Variabile
numerica
Dominio=Genere x Area
cerca
Altre variabili
Reddito
Occupato
Variabile
categoriale
dicotomizzata
In cerca
Inattivo
di occ.
Maschio-Nord
Maschio-Centro
Maschio-Sud
Femmina-Nord
Femmina-Centro
Femmina-Sud
Il correttore del peso base ottenuto non è necessariamente positivo: non
essendo accettabili peso nulli o negativi il programma effettua una analisi
preventiva del campo di variazione del correttore, individuando i valori negativi e, successivamente propone una soluzione al problema attribuendo ai
correttori negativi il valore medio del correttore nel dominio. Se la soluzione
proposta si discosta sensibilmente da quella ottimale è consigliabile rinunciare alla procedura o rimodularla selezionando variabili obiettivo differenti.
124
IL TRATTAMENTO DELLE
MANCATE RISPOSTE
TOTALI NELLE INDAGINI
COMPLESSE*
4.1 Introduzione
I dati raccolti mediante indagini statistiche, sia censuarie che campionarie,
presentano spesso, per una serie di ragioni, un’alta percentuale di mancate
risposte (MR). Trascurare il problema del trattamento delle MR, diffondendo
basi di dati con informazioni mancanti o incomplete, potrebbe introdurre forti
distorsioni nella stima di parametri rilevanti ai fini dell’analisi statistica.
Mentre per gli utenti finali dei dati di un’indagine statistica può risultare difficile risolvere in maniera soddisfacente il problema della integrazione delle
informazioni mancanti, di solito l’ente che ha la responsabilità della raccolta
e della diffusione dei dati stessi può disporre sia di maggiori conoscenze sui
motivi della non risposta che di informazioni ausiliarie, non di pubblico
dominio, che consentono un adeguato trattamento delle MR.
Storicamente, i metodi per il trattamento delle MR sono stati sviluppati nel
contesto delle indagini socio-demografiche sulle famiglie e con riferimento
principalmente a variabili di tipo qualitativo e solo nell’ultimo decennio sono
stati estesi all’ambito delle indagini economiche e alle variabili di tipo quantitativo. In particolare, i dati economici possono presentare delle caratteristiche che rendono, per certi aspetti, critico il trattamento dei dati mancanti.
Ad esempio, la distribuzione di importanti variabili d’indagine può essere
asimmetrica, per cui ignorare anche poche osservazioni, basando le analisi
solo sulle unità osservate, potrebbe introdurre una forte distorsione sulle
stime, dal momento che i rispondenti (e i non rispondenti) raramente costituiscono un sottoinsieme casuale dell’intero campione. Le MR sono distinte
in vari modi a seconda delle finalità dell’analisi. Con riferimento alle strategie
messe in atto per la ricostruzione delle informazioni mancanti, occorre distinguere tra MR parziali e totali. Nelle indagini campionarie, in presenza di MR
*
Di Marco Ballin, Piero Demetrio Falorsi, Stefano Falorsi e Alessandro Pallara.
125
CAPITOLO 4
totali, si ricorre di solito a varie tecniche di riponderazione delle unità rispondenti al fine di tenere conto anche delle unità non rispondenti, mentre generalmente le MR parziali sono controllate mediante l’imputazione dei valori
mancanti. Per una panoramica generale sulle metodologie e le tecniche per
il trattamento delle MR si veda, tra gli altri, Madow et al. (1983), Kalton e
Kaspryzk (1986), Little e Rubin (1987).
In questo lavoro l’attenzione sarà posta essenzialmente sul problema della
MR totale nel contesto delle indagini campionarie sulle famiglie e sulle
imprese condotte nell’ambito della statistica ufficiale. Come sarà discusso
nel par. 4.2, questo tema può essere approfondito sotto vari aspetti quali: (i)
le cause, (ii) gli effetti, (iii) i metodi per la prevenzione, (iv) il trattamento statistico successivo alla fase di raccolta dei dati, (v) la documentazione degli
effetti delle MR sulla qualità dell’indagine. Ciascuno di questi aspetti è molto
ampio e potrebbe essere l’oggetto di uno specifico articolo. In questo lavoro
l’attenzione sarà limitata ad alcune specifiche problematiche che risultano
particolarmente rilevanti nel contesto delle indagini complesse condotte
nell’ambito della statistica ufficiale. In particolare nel par. 4.3 sarà approfondito il tema della correzione delle MR attraverso la costruzione dei pesi
campionari; nel par. 4.4 saranno dati brevi cenni al trattamento delle MR
nelle indagini condotte nell’ambito della statistica ufficiale, sia quelle sulle
imprese, che quelle sulle famiglie.
4.2
Diversi aspetti connessi al problema delle mancate risposte
4.2.1 Premessa
Una fondamentale caratteristica del disegno di campionamento probabilistico è di assegnare a ciascuna unità della popolazione oggetto
d’indagine una probabilità di inclusione maggiore di zero definita sulla base
di una data procedura di selezione delle unità. Se le probabilità di inclusione
sono note per tutte le unità della popolazione è possibile ottenere uno stimatore corretto Yˆ del totale, Y, della generica variabile y oggetto di indagine.
Se, inoltre, sono note e maggiori di zero le probabilità di inclusione congiunte per tutte le coppie di unità appartenenti alla popolazione, il disegno è
detto misurabile1, in quanto è possibile ottenere una stima approssimativamente non distorta dell’errore di campionamento di Yˆ . L’errore campionario è, però, solamente una delle parti dell’errore che influenza le stime.
Infatti, nella pratica delle indagini campionarie su larga scala di natura sociodemografica ed economica non sono, in genere, pienamente soddisfatte le
seguenti condizioni: i) coincidenza tra la popolazione di riferimento e la base
di campionamento; ii) coincidenza tra la procedura di selezione casuale
effettivamente impiegata con lo schema di selezione teorico, in base al
1 Tra i disegni di campionamento non misurabili comunemente impiegati si ricordano i disegni
probabilistici stratificati ad uno o più stadi con selezione di una sola unità campionaria o cluster
di unità per ciascuno strato.
126
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
quale vengono definite le probabilità di inclusione delle unità; iii) coincidenza
tra campione selezionato e campione osservato; iv) coincidenza tra valore
osservato e valore vero per ciascuna variabile oggetto di indagine; v) assenza di errori nel processo di trattamento dei dati.
Tutte le situazioni di allontanamento da queste condizioni introducono qualche forma di errore non campionario, che è in genere di difficile misurazione
e costituisce un serio ostacolo nella valutazione della qualità dell’inferenza.
L’allontanamento dalle condizioni i) e iii), in particolare, produce errori di
mancata osservazione che possono essere di due tipi:
• sottocopertura, nel caso di incompletezza della base campionaria,
ovvero alcune unità della popolazione non possono essere identificate
ed intervistate;
• mancata risposta, che deriva dalla mancata osservazione delle variabili
di interesse per alcune unità del campione selezionato.
La mancata risposta può, a sua volta, essere:
(a) mancata risposta totale, nel caso in cui non sia osservata nessuna delle
variabili di interesse;
(b) mancata risposta parziale, nel caso in cui non vengano raccolte le
informazioni per alcune delle variabili oggetto d’indagine.
4.2.2 Cause ed effetti delle mancate risposte
In letteratura esistono diverse definizioni di mancata risposta e diversi modi
per misurare il fenomeno (Cochran, 1977; Kendall, Buckland e Kish, 1965;
Dalenius, 1983; Hidiroglou, Drew e Gray, 1993). In accordo con le definizioni
proposte in questi lavori è possibile classificare le principali cause della mancata risposta in (a) mancato contatto, (b) rifiuto a rispondere (c) impossibilità
a rispondere.
Tra i motivi di mancato contatto, si ricordano:
• irreperibilità di alcune unità selezionate nel campione, dovuta, ad
esempio, ad assenza nel periodo di svolgimento dell’indagine o ad inadeguatezza dei metodi di ricerca delle unità da intervistare (tracking);
• imperfezioni della lista, dovute, ad esempio, a ritardi nell’aggiornamento
della stessa o ad errori negli indirizzi o nei numeri di telefono.
Tra le principali motivazioni di rifiuto alla risposta vi sono:
• costi di partecipazione eccessivi, sia propriamente monetari (ad esempio
le informazioni devono essere richieste al proprio commercialista), sia di
altra natura (ad esempio i tempi di partecipazione all’indagine sono troppo lunghi o l’orario di svolgimento dell’indagine è poco indicato per
quell’unità);
• paura di violazione della propria privacy, dovuta, ad esempio, alla natura
dell’argomento investigato o alla paura dell’uso delle informazioni fornite
a fini extra statistici (ad esempio controlli fiscali);
• mancanza di motivazioni, causata, ad esempio, da un rifiuto a priori
dell’indagine statistica come strumento per la raccolta di informazioni.
Infine, tra le cause più comuni dell’impossibilità o incapacità di risposta si
127
CAPITOLO 4
ricordano la malattia dell’intervistato e la non conoscenza dell’argomento per
quanto riguarda le indagini sulle famiglie o il tipo di contabilità adottato nel
caso di indagini sulle imprese.
Gli effetti del fenomeno della mancata risposta sono sostanzialmente tre:
aumento dei costi di rilevazione, aumento della varianza campionaria ed
introduzione di una componente distorsiva nelle stime.
Facendo riferimento ai disegni di campionamento di tipo complesso comunemente adottati nelle indagini ISTAT, l’aumento della varianza è dovuto a due
fattori: riduzione delle numerosità campionarie teoriche definite ex ante, negli
strati e negli stadi, nella fase di progettazione del disegno; aumento della
variabilità dei coefficienti di riporto dovuti ai metodi di ponderazione dei dati.
La distorsione è certamente il più grave degli effetti della mancata risposta;
per spiegare in che modo si determina è possibile ricorrere a due approcci.
Il primo approccio, (Cochran 1977, pag. 361), assume che la mancata risposta sia il risultato di un meccanismo deterministico; ovvero assume che
la popolazione possa essere suddivisa in due strati: quello dei rispondenti e
quello dei non rispondenti; relativamente a questo approccio si ricorda il
lavoro di Falorsi et al. (1992) che estende i risultati di Cochran al caso dei
campioni complessi adottati nelle indagini ISTAT.
Il secondo approccio, al contrario, assume che la mancata risposta sia il
risultato di un meccanismo aleatorio, in base al quale ciascuna unità ha una
sua probabilità di risposta. Nel primo approccio la distorsione dipende dalle
differenze esistenti, nelle caratteristiche oggetto di indagine, tra lo strato dei
rispondenti (osservato con il campione) e quello dei non rispondenti. Nel
secondo approccio, invece, la distorsione è dovuta all’ignoranza da parte del
ricercatore delle probabilità di risposta associate a ciascuna unità del
campione selezionato.
È opportuno notare che, mentre l’aumento di varianza è in generale misurabile, l’impatto della distorsione sulle stime è, invece, di difficile valutazione
in entrambi gli approcci; infatti, con il primo sarebbe necessaria l’osservazione di un campione estratto dalla popolazione dei non rispondenti, mentre
con il secondo è richiesta la conoscenza del modello stocastico che genera
la non risposta.
4.2.3 Strumenti per la riduzione della distorsione
Gli effetti negativi della mancata risposta possono essere attenuati sia nella
fase di progettazione dell’indagine sia, a posteriori, nella fase di costruzione
delle stime, trattando opportunamente i dati rilevati sui soli rispondenti.
In entrambe le fasi gioca un ruolo cruciale l’identificazione delle cause delle
MR, per almeno due motivi. Il primo è che ciascuna tipologia di mancata
risposta presuppone un trattamento differente (ad esempio l’irreperibilità –
che potrebbe essere causata dall’uscita dell’unità dal campo di osservazione
– va trattata in modo differente dal rifiuto a rispondere); il secondo motivo è
connesso al fatto che, identificando correttamente le MR, è possibile proget128
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
tare future indagini in modo da ottenere più alti tassi di risposta; se ad
esempio, sono molto alti i tassi di mancata risposta per incapacità a rispondere, potrebbe essere necessario rivedere il questionario dell’indagine in
modo da renderlo più comprensibile. Naturalmente, per una corretta identificazione è necessario progettare la fase di rilevazione sul campo in modo da
raccogliere tutte le informazioni utili in tal senso.
Gli strumenti che si sono dimostrati efficaci nella fase di progettazione
dell’indagine sono:
• il ricorso a strategie di prevenzione della mancata risposta;
• l’uso di disegni di rilevazione che prevedono un ritorno sulle unità non
rispondenti.
Gli strumenti utilizzabili nella fase di trattamento dei dati per la costruzione
delle stime campionarie sono:
• la modificazione dei pesi campionari dei rispondenti;
• l’imputazione delle MR.
4.2.3.1 Prevenzione della mancata risposta
L’obiettivo della prevenzione del rifiuto a rispondere, può essere raggiunto
impiegando congiuntamente tutte le tecniche in grado di limitare la pressione
statistica sulle unità. Gli strumenti e i metodi disponibili per ottenere questo
risultato possono essere distinti tra (cfr. de Vries, Keller, Willeboordse,
1996):
(i) strumenti e metodi che riducono la pressione complessiva esercitata
dall’Istituto di statistica;
(ii) strumenti e metodi che riducono la pressione dovuta a ciascuna
indagine.
Tra gli strumenti atti a ridurre la pressione statistica complessiva, in particolare con riferimento alle indagini sulle imprese, è importante menzionare:
• l’armonizzazione delle definizioni adottate di popolazione oggetto d’indagine;
• l’impiego di metodi di selezione coordinata dei campioni;
• il preavviso, all’inizio dell’anno, di tutte le indagini in cui ciascuna unità
verrà coinvolta;
• il coordinamento temporale delle fasi di somministrazione dei questionari
delle diverse indagini;
• l’uso di dati amministrativi.
Tra gli strumenti atti a ridurre la pressione statistica della singola indagine
vanno annoverati:
• l’uso di strategie campionarie basate su disegni di campionamento ottimi
che facciano un uso intensivo di variabili ausiliarie;
• l’adozione di definizioni di unità statistica tali che facciano riconoscere
ciascuno elemento della popolazione come un elemento rilevante del
fenomeno indagato;
• l’adozione di concetti e definizioni coerenti con quelli comunemente
129
CAPITOLO 4
adottati dalle unità intervistate; l’adozione di questionari personalizzati
(con, ad esempio, prestampati i dati raccolti con precedenti indagini sulla
stessa unità);
• il ritorno di informazioni utili e facilmente accessibili alle unità
rispondenti;
• il ricorso alla rilevazione elettronica dei dati (EDC e EDI).
Nel contesto delle indagini sulle famiglie, il tema della riduzione della pressione statistica risulta meno rilevante ai fini della prevenzione del rifiuto a
rispondere; sembrano invece più importanti altri aspetti quali ad esempio, la
garanzia della riservatezza, la predisposizione di questionari di facile
comprensione, la formazione dei rilevatori.
4.2.3.2 Disegni di rilevazione che prevedono un ritorno sulle unità non
rispondenti
Tra le strategie d’indagine che mirano ad attenuare le conseguenze delle
MR nella fase di rilevazione si ricordano quelle che prevedono la conduzione
di un indagine sui non rispondenti, l’effettuazione dei solleciti alla risposta2,
la sostituzione delle unità non rispondenti.
La conduzione di una indagine suppletiva sul campione dei non rispondenti
permette l’eliminazione della distorsione causata dalla mancata risposta, a
condizione che: (a) non vi sia, nel corso dell’indagine suppletiva, caduta
campionaria per mancata risposta; (b) sia stata correttamente individuata nel
campione la popolazione dei non rispondenti. La procedura per l’effettuazione di questa seconda fase dell’indagine prevede (Särndal et al., 1992,
cap. 15): (i) l’individuazione delle unità campionarie appartenenti alla popolazione dei non rispondenti; (ii) la selezione di un campione casuale tra
queste unità; (iii) la rilevazione dei dati con tecniche differenti da quelle usate nella prima fase dell’indagine, in modo da garantire l’assenza di caduta
campionaria; (iv) l’adozione di uno stimatore, in cui il sottocampione delle
unità rilevate nell’indagine suppletiva rappresenti anche la rimanente parte
(non indagata) dei non rispondenti.
L’indagine suppletiva sui non rispondenti non deve essere confusa con la
tecnica della sostituzione delle unità non rispondenti che mira esclusivamente a far coincidere le dimensioni del campione selezionato e del campione osservato e quindi mira ad una sostanziale uguaglianza tra le varianze
attese definite in fase progettuale e quelle ottenute al termine della rilevazione (Zannella, 1983). Quest’ultima tecnica, pur avendo avuto una larga applicazione in passato (ad esempio nell’indagine sulle forze di lavoro), viene
impiegata sempre più raramente poiché, in molte occasioni, gli indubbi vantaggi organizzativi che essa presenta rispetto alla effettuazione di una indagine suppletiva, non sono sufficienti a compensare i problemi che può
2 Relativamente ai solleciti è interessante l’esperienza dell’indagine Long Form del
Censimento Intermedio dell’Industria e dei Servizi dell’ISTAT, illustrata in Ballin, Brancato et al.
(2000).
130
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
causare. Tra questi si ricordano (Vehovar, 1999): l’introduzione di ulteriori
fattori distorsivi; l’aumento nel corso del tempo del tasso di mancata risposta
e l’introduzione di elementi non casuali nel processo di selezione del
campione.
4.2.3.3 Trattamento dei dati per tenere conto della mancata risposta
In tale fase, successivamente alla raccolta dei dati (e quindi all’evidenziarsi
del fenomeno della mancata risposta), si cerca di trattare le informazioni
sulle unità campionarie rispondenti in modo da correggere almeno in parte
gli effetti distorsivi nelle stime finali introdotti dalle MR. Due sono i metodi tradizionalmente riportati in letteratura (cfr., ad esempio, Little, 1986): il metodo
della modificazione dei pesi campionari dei rispondenti – che sarà trattato
diffusamente in questo lavoro - e il metodo dell’imputazione – che essendo
utilizzato principalmente nel trattamento delle MR parziali non sarà approfondito in questa sede. I due metodi, che utilizzano entrambi il principio di
fare rappresentare le unità non rispondenti dalle unità rispondenti conducono a soluzioni equivalenti tranne nel caso di stime per sottoclassi (Little,
1986).
4.2.4 Documentazione
Nella fase di presentazione dei risultati dell’indagine dovrebbe essere buona
norma pubblicare, insieme agli errori di campionamento, anche alcune misure degli errori non campionari. Relativamente alle MR tali misure possono
assumere un duplice aspetto:
• indici descrittivi della qualità del processo. Alcuni dei più importanti indici
di questo tipo sono presentati in Hidiroglou et al. (1993). Nel contesto
delle indagini ISTAT è disponibile il Sistema Informativo di Documentazione dell’Indagine (SIDI) che fornisce un ambiente in cui alcuni degli indici suddetti sono calcolati in modo standardizzato (Signore et al.,1998);
• indici che misurano la distorsione – un esempio in tal senso sono gli indici di slippage riportati in Gambino et al. (1998). Gli indici in oggetto
sono costruiti ponendo a confronto i valori conosciuti di alcuni parametri
della popolazione con le corrispondenti stime ottenute con i pesi base, il
cui significato verrà illustrato nel paragrafo che segue.
4.3
Trattamento delle mancate risposte mediante la costruzione di
pesi campionari
4.3.1 Premessa
Al fine di chiarire gli argomenti successivamente illustrati è utile introdurre la
seguente simbologia. Si indichi con U la popolazione oggetto d’indagine di
numerosità N e si supponga che da essa sia stato selezionato il campione s
– di dimensione n –, mediante un disegno di campionamento che assegna,
131
CAPITOLO 4
alla generica unità k, la probabilità π k di essere inclusa nel campione s; si
indichiamo inoltre con s r (con s r ⊆ s ) il campione – di dimensione nr –
delle unità rispondenti. Con riferimento all’unità k-esima di U, si denoti, infine
yk,
il
valore
della
variabile
y
oggetto
d’indagine;
con:
x k = ( x1k ,.., x pk ,..., x Pk )′ , un vettore di P variabili ausiliarie
x = (x1 ,.., x p ,..., x P )′ –esplicative del fenomeno della mancata risposta –
di cui si conosce il valore per tutte le unità di U o, alternativamente di s.
Il totale della variabile y oggetto d’indagine può essere espresso come:
Y=
∑ yk .
(1)
k∈U
Nella maggior parte delle indagini campionarie su larga scala, per la
costruzione di stime campionarie del totale Y, vengono usualmente impiegati
pesi costruiti in modo da (Rizzo et al., 1996): (i) tenere conto delle differenti
probabilità di inclusione delle unità selezionate nel campione; (ii) correggere,
almeno parzialmente, per le MR totali; (iii) garantire che le distribuzioni
campionarie pesate per certe variabili ausiliarie siano conformi alle distribuzioni note per le stesse variabili (tentando in tal modo di compensare per
la non copertura e di migliorare la precisione delle stime campionarie). Di
solito il valore di tali variabili ausiliarie è noto solo in forma aggregata e non
per le singole unità della popolazione.
Un’espressione generale della stima del totale Y è
Yˆ = ∑ y k wk .
(2)
k∈sr
Conformemente ai tre obiettivi precedenti, il peso wk assegnato alla k-esima
unità rispondente viene spesso definito come prodotto di tre fattori
wk = d k γ 1k γ 2 k
(3)
dove si è indicato con: d k = (1/ π k ), il peso base, espresso come reciproco
γ 1k , il fattore correttivo per
distorsione indotta dalla MR); γ 2 k
della probabilità di inclusione;
la MR (adeguato
cioè, a attenuare la
il fattore di post-
stratificazione (atto a garantire che le distribuzioni campionarie pesate per
certe variabili ausiliarie siano conformi alle distribuzioni note per le variabili
stesse.
Come vedremo successivamente, in molti contesti di indagine, tuttavia, le
fasi di correzione della mancata risposta e di post-stratificazione sono
sviluppate in modo congiunto; per cui il peso finale viene determinato, calco132
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
lando un unico fattore correttivo,
γk ,
atto a tenere conto di entrambi gli
aspetti succitati, in tal caso si ha
wk = d k γ k .
(3.a)
Per semplificare la notazione, nel seguito del lavoro, in generale, il fattore
correttivo per la MR sarà indicato semplicemente come γ k .
La base teorica dell’introduzione di un fattore correttivo atto a correggere il
peso base di ciascuna unità rispondente per tenere conto delle MR totali è
quella del campionamento in due fasi, in cui:
• nella prima fase si selezionano le unità del campione, s, mediante il disegno di campionamento prescelto, che assegna alle unità della popolazione le probabilità di inclusione
π k = Pr (k ∈ s )
•
per
(k ∈U ) ;
nella seconda fase, in base ad un meccanismo aleatorio ignoto, le unità
del campione s vengono suddivise in due sottoinsiemi: quello dei rispondenti e quello dei non rispondenti; detto meccanismo aleatorio può essere sintetizzato assegnando a ciascuna unità del campione la
probabilità di risposta
θ k = Pr(k ∈ sr | s) ,
che rappresenta la probabilità di inclusione nella seconda fase del
campionamento.
Da quanto detto risulta evidente che, in base alla teoria del campionamento
in due fasi, la conoscenza delle probabilità di risposta per ciascuna delle
unità rispondenti, consentirebbe di ottenere una stima corretta del totale Y,
come
Yˆ =
∑ yk
d k θ k−1 ,
(4)
k ∈s r
essendo in questo caso
γ k = θ k−1 .
Tuttavia, poiché in generale non sono note le probabilità
θk
ma unicamente
θˆk , definita in base all’assunzione di un particolare modello
di risposta, le stime che si ottengono sostituendo nella (4) al posto di θ k il
una loro stima
suo valore stimato,
θˆk , sono generalmente distorte.
Per quanto riguarda la costruzione dei fattori correttivi,
γ k = θˆk−1 ,
nelle
indagini ISTAT, così come nella pratica delle indagini campionarie su larga
scala condotte dagli Istituti nazionali di statistica, vengono adottati due
133
CAPITOLO 4
approcci distinti:
• il primo adotta una modellizzazione esplicita delle probabilità di risposta,
e ipotizza l’esistenza di un legame funzionale tra le probabilità di risposta θ k e un insieme di variabili ausiliarie x k (per k ∈ s) disponibili sia
per il campione dei rispondenti che per quello dei non rispondenti;
il secondo, che adotta una modellizazione implicita delle probabilità di
risposta, si basa sull’utilizzazione degli stimatori di ponderazione
vincolata (Deville e Sarndäl, 1992 e Falorsi e Rinaldelli, 1999) in cui le
distribuzioni di variabili ausiliarie stimate sul campione dei rispondenti
sono vincolate ad essere uguali alle corrispondenti distribuzioni stimate
sul campione di prima fase (oppure calcolate sull’intera popolazione).
Come sarà illustrato successivamente, anche in quest’ultimo approccio i
fattori correttivi, possono essere visti come una stima – ottenuta
assumendo particolari modelli di risposta – del reciproco delle probabilità
di risposta.
Questa sezione è dedicata a descrivere gli approcci più consolidati in letteratura e nella pratica corrente delle indagini campionarie per il trattamento
delle MR; non sono riportati alcuni lavori più recenti, come quello Kott (2006)
che tratta in modo congiunto il problema della sottocopertura e il problema
della MR e gli interessanti lavori di Montanari e Ranalli (2006 e 2005) che
trattano la mancate risposta mediante il ricorso a tecniche di calibrazione
semiparametrica. In particolare, il seguito di questa sezione è articolato nel
modo seguente: il par. 4.3.2 descrive la costruzione degli stimatori sotto una
modellizzazione esplicita della MR; il par. 4.3.3 introduce la modellizzazione
implicita; nel par. 4.3.4 viene riportata una forma piuttosto generale di stima
della varianza; il par. 4.3.5 è dedicato all’approfondimento delle condizioni
mediante i quali gli stimatori proposti possono ridurre la distorsione; il par.
4.3.6 discute i criteri che devono essere seguiti per selezionare
l’informazione ausiliaria alla base della costruzione degli stimatori.
•
4.3.2 Modellizzazione esplicita
Nelle applicazioni concrete viene in genere adottata una delle tre seguenti
ipotesi sul meccanismo probabilistico di generazione delle MR:
A. la probabilità di risposta è costante per tutte le unità del campione;
B. la probabilità di risposta è variabile ed è differente per ciascuna unità del
campione;
C. la probabilità di risposta è costante all’interno di specifici sottoinsiemi di
unità.
A. Probabilità di risposta costante
Il caso più semplice di modellizzazione esplicita è quello in cui si ipotizza
una probabilità di risposta costante per tutte le unità della popolazione:
Pr (k ∈ sr | s ) = θ k = θ
in cui si assume inoltre che:
134
(con
θ > 0)
(5.a)
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
Pr((k , l ) ∈ sr | s ) = θ k θl = θ 2 ( k ≠ l ) .
(5.b)
Tale modello ipotizza un meccanismo di risposta del tipo Missing Completely
at Random, (MCAR), Little e Rubin, 1976). Secondo tale meccanismo
(Bethlem, 1999) la probabilità di non osservare un valore della variabile y è
indipendente dal valore della y così come dal valore delle variabili ausiliarie;
in tal modo il campione dei rispondenti sr costituisce un sottoinsieme casuale di s. Se il modello MCAR è vero, la probabilità θ , può essere stimata
in modi alternativi:
ˆ = nr
n
(6.a)
ˆ = k∈sr
1/ π k
(6.b)
[ 6. a ] θ
∑1 / π k
[ 6.b ]θ
∑
∑1 / π k
k∈s
ˆ = k∈s r
N
[ 6. c ] θ
.
(6.c)
Ciascuna delle stime succitate conduce alla definizione di:
•
un corrispondente correttore del peso base
[b ] γ k
•
(b= 6.a, 6.b, 6.c)
un peso finale
[ b ] wk
•
~
= [b ]θ −1
= d k [b ]γ k
(b= 6.a, 6.b, 6.c)
una specifica forma di stimatore
ˆ=
[ b ]Y
∑ yk d k
k ∈s r
[ b ]γ k
=
∑ yk
k ∈s r
[ b ] wk
(b= 6.a, 6.b, 6.c).
Come si nota, il correttore, il peso finale e lo stimatore, derivanti da una specifica stima della probabilità, sono denotati con lo stessa cifra, riportata tra
parentesi quadre, nel pedice a sinistra. Nel caso appena esaminato, la cifra
corrisponde al numero della formula di calcolo della probabilità di risposta; in
generale, la cifra corrisponderà al numero della prima formula del testo che
riporta una tra le seguenti entità: la probabilità di risposta, il correttore, il
peso finale e lo stimatore.
Si noti che utilizzando la stima della probabilità di risposta riportata nella
(6.c), si arriva alla definizione del ben noto stimatore rapporto:
135
CAPITOLO 4
ˆ=
[ 6.c ]Y
∑k∈sr yk
∑ yk / π k
dk
[ 6.c ]γ k
=
k ∈s r
∑1 / π k
N.
k ∈s r
Valendo la condizione MCAR, ciascuno degli stimatori ( [ 6.a ]Yˆ , [ 6.b ]Yˆ , [ 6.c ]Yˆ )
sopra introdotti producono una stima approssimativamente non distorta di Y
(cfr. Sarndal et al., 1992, pp. 576-577). Tale stima differisce da una
situazione di risposta completa solo per il fatto che si basa sull’insieme di
rispondenti sr e non sull’intero campione s.
Il modello di risposta ipotizzato appare però poco realistico; ed è utile valutare la distorsione degli stimatori
ˆ,
[ 6.a ]Y
ˆ,
[ 6.b ]Y
ˆ per differenti distribu-
[ 6.c ]Y
zioni delle risposte, ipotizzando, ad esempio una probabilità di risposta variabile per ciascuna unità del campione, pur assumendo sempre indipendenza
tra le risposte. In questo caso si può mostrare (cfr. Särndal et al., 1992, pag.
577) che la distorsione e la distorsione relativa di degli stimatori in parola
dipendono dalla correlazione nella popolazione tra la variabile di studio y e la
probabilità di risposta θ. La distorsione relativa è tanto maggiore quanto
maggiore è tale correlazione, in altre parole quanto più ci si allontana da un
meccanismo di (mancata) risposta ignorabile verso uno non ignorabile (Little
e Rubin, 1987).
B. Probabilità di risposta variabile e differente per ciascuna unità del
campione
Secondo questa ipotesi si suppone che le probabilità di risposta, θ k , siano
diverse per tutte le unità appartenenti al campione s. Per arrivare a una stima delle probabilità in oggetto si adotta un metodo noto in letteratura come
response propensity scoring (Rosenbaum e Rubin, 1983; Little, 1986),
basato su una procedura articolata come segue.
In primo luogo, si sceglie una forma funzionale g (β′ x k ) atta a predire le
probabilità di risposta come valore atteso, sotto uno specifico modello, della
variabile indicatrice r (pari a uno se l’unità k è rispondente e pari a zero
altrimenti)
Pr (k ∈ sr | s ) = θ k = Pr (rk = 1) = g (β′ x k )
(7)
in cui β è un vettore P dimensionale di parametri incogniti.
Nel contesto in esame, possono essere scelte come forme funzionali quelle
definite dai modelli logit e probit, espresse rispettivamente da:
g (β ′ x k ) =
136
1
1 + exp(β′ x )
(8.a)
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
g (β′ x k ) =
1
.
1 + β′ x
(8.b)
Una volta determinata una stima, β̂ , del vettore β , è quindi possibile predire per ogni unità k di s, la probabilità di risposta θˆk come
ˆ = g (βˆ ′ x ) .
k
[ 9 ]θ k
(9)
Il correttore per MR è quindi ottenuto come
[9] γ k
= [9 ]θˆk−1 = [ g (βˆ ′ x k )]−1 ,
definendo lo stimatore del totale
ˆ=
[9 ]Y
∑ yk
k∈s r
dk
[ 9 ]γ k
=
∑ yk
d k [ g (βˆ ′ x k )] −1 .
k∈s r
Nella terminologia introdotta da Little e Rubin (1976), il modello di risposta,
sopra delineato è del tipo Missing at Random, (MAR); esso ipotizza che la
probabilità di risposta sia indipendente dalla y, ma dipenda dal vettore x
(Bethlem, 1999). Lo stimatore
ˆ viene comunque raramente usato nella
[9 ]Y
pratica delle indagini concrete in quanto:
•
le stime
ˆ = g (βˆ ′ x ) sono spesso instabili, soggette ad alta variak
[ 9 ]θ k
bilità;
•
•
si possono facilmente generare valori della probabilità [ g (βˆ ′ x k )]
prossimi a zero;
come conseguenza del punto precedente, potrebbero essere definiti dei
ˆ ′ x )]−1 con valori troppo elevati il che potrebbe
correttori [ 9 ] γ k = [ g (β
k
causare la generazione di stime con valori anomali.
C. Probabilità di risposta variabile nell’ambito di specifici gruppi
Una strategia di stima spesso adottata nella pratica delle indagini campionarie che cerca di superare gli inconvenienti sopra delineati (relativamente
agli approcci A e B), si basa sulla assunzione di una probabilità di risposta
costante per sottoinsiemi di unità rispondenti.
Sotto questa ipotesi, il campione s è suddiviso in Hs gruppi omogenei, detti
anche celle di ponderazione. La generica cella di ponderazione, denotata
con s h (h=1,....., Hs), contiene nh unità di cui nhr rispondenti, essendo
137
CAPITOLO 4
Hs
Hs
h =1
h =1
∑ nh = n e ∑ nhr = nr ; qualora le celle di ponderazione siano definite
mediante variabili ausiliarie conosciute per la popolazione U, è anche
possibile determinare, una partizione di U nelle Hs celle di ponderazione,
denotando con U h (h=1,....., Hs) la cella di ponderazione h-esima di dimensione N h . Vale il seguente modello
Pr(k ∈ sr | s ) = θ sh > 0
per ogni k∈ s h
(10.a)
Pr((k , l ) ∈ sr | s) = Pr(k ∈ sr | s) Pr(l ∈ sr | s) per ogni k≠l, (k , l ) ∈s. (10.b)
Dato s, tutte le unità in s h hanno la stessa probabilità di risposta e differenti
gruppi hanno probabilità diverse; il meccanismo di risposta è indipendente.
Il modello (10) ipotizza un meccanismo MAR quando prende in considerazione l’intero campione s; nell’ambito della generica cella di ponderazione s h si ipotizza l’esistenza di un meccanismo MCAR. Se il modello
MAR, definito dalla (10) è vero, le probabilità
θ sh , possono essere stimate
alternativamente come
ˆ
[11. a ]θ s h
n
= hr
nh
ˆ =
[11.b ]θ sh
(11.a)
∑1 / π k
k∈shr
∑1 / π k
.
(11.b)
k∈sh
Nel caso siano note le dimensioni N h delle celle di ponderazione, la probabilità θ s può essere anche stimata da
h
ˆ
[11.c ]θ s h
∑1 / π k
=
k ∈shr
Nh
.
(11.c)
Coerentemente con ciò, sono definibili tre correttori del peso base e tre
stimatori del totale Y,espressi rispettivamente da:
ˆ −1 (k∈ s ),
(b=11.a, 11.b, 11.c),
h
[ b ] γ k = [ b ]θ s
h
ˆ
[ b ]Y =
Hs
∑ ∑
h =1 k∈shr
138
yk d k
[ b ]γ k
(b=11.a, 11.b, 11.c).
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
Si noti che utilizzando l’espressione (11.c) si definisce il ben noto stimatore
del rapporto-poststratificato:
ˆ=
[11. c ] Y
Hs
∑ ∑
yk d k
[11. c ]γ k
=
h =1 k∈shr
Hs
∑ yk / π k
∑ ∑hr 1 / π k
h =1
k ∈s
Nh .
k∈shr
Il modello di risposta, introdotto nelle espressioni (10) permette di risolvere i
problemi derivanti dall’uso dello stimatore
ˆ (alta variabilità dalle stime
[ 9 ]Y
delle probabilità di risposta e/o generazione di stime con valori anomali);
inoltre, esso può portare ad una significativa riduzione della distorsione
dovuta alla non risposta rispetto al modello (5) di partenza (che ipotizzava
una probabilità di risposta costante su tutta la popolazione).
In Kalton e Maligalig (1991), viene dimostrato che la distorsione approssimata dei tre stimatori sopra introdotti ( [11,a ] Yˆ ,
ˆ e
[11,b ] Y
ˆ ) è funzione
[11,c ] Y
delle covarianze per cella tra la probabilità di risposta e la variabile
d’interesse
B( Yˆ ) = Y − E(
[b ]
ˆ
[b] Y ) =
Hs
∑ θ −1 ∑ ( yk − Yh ) (θk − θh )
h =1
k ∈s hr
(b=11.a, 11.b, 11.c)
essendo
Yh =
1
Nh
∑
k∈U h
yk
,
θh =
1
Nh
∑
k∈U h
θk
,
avendo indicato con E(.) il valore atteso nell’universo dei campioni. Come
vedremo successivamente nel par. 4.3.6, la precedente relazione costituisce
un’espressione particolare di una forma generale che caratterizza la
distorsione di questo tipo di stimatori.
Per quanto riguarda la scelta della particolare forma di stimatore da adottare
si nota che i tre stimatori sono equivalenti dal punto di vista della riduzione
della distorsione. Di conseguenza lo stimatore da prescegliere dovrebbe es-
ˆ presenta in genere variabilità minore degli altri due stimatori ( [11.a ]Yˆ e [11.b ] Yˆ ) in quanto esso
sere quello a varianza minima. Lo stimatore,
[11. c ] Y
sfrutta la conoscenza, a livello di popolazione delle variabili ausiliarie; il che
permette di conoscere con certezza la dimensione, N h , per ciascun delle
celle di ponderazione; mentre negli altri stimatori tale quantità viene stimata.
In alcune situazioni, tuttavia, può essere, comunque, preferibile adottare gli
stimatori
ˆe
[11.a ] Y
ˆ , in luogo dello stimatore
[11.b ] Y
ˆ . Ciò è vero
[11.c ] Y
139
CAPITOLO 4
soprattutto quando è disponibile solo per il campione s (e non per la popolazione U) qualche variabile ausiliaria fortemente esplicativa del meccanismo della mancata risposta. Questo è, ad esempio, il caso illustrato da
Ballin, Brancato et al. (2000) con riferimento all’indagine Long Form del
Censimento Intermedio dell’Industria e Servizi; un altro esempio si ha nelle
indagini di tipo longitudinale quando si osserva una mancata risposta di una
unità che ha partecipato all’indagine in occasioni precedenti.
Il problema più rilevante ai fini della riduzione della distorsione è quello di
riuscire a definire in modo efficace le celle di ponderazione; a questo aspetto
sarà dedicato il successivo par. 4.3.2.1.
4.3.2.1 Definizione delle celle di ponderazione
Per la definizione delle celle di ponderazione si possono adottare
metodologie alternative:
• scelta a priori sulla base della conoscenza del fenomeno;
• tecniche basate su modelli logit o probit;
• tecniche non parametriche (Niyonsenga, 1994; Giommi,1987), tra cui
assumono particolare rilevanza quelle basate sugli alberi di regressione
(Rizzo, Kalton, e Brick, 1996).
4.3.2.2 Scelta a priori
Il metodo della scelta a priori è quello maggiormente adottato nella pratica
delle indagini della statistica ufficiale. Di solito, le celle di ponderazione sono
formate in base al giudizio soggettivo del responsabile dell’indagine che
cerca di raggruppare le unità secondo variabili strutturali importanti rispetto
al fenomeno indagato.
Volendo adottare in modo rigoroso tale approccio, occorre analizzare le
distribuzioni del campione s – tra rispondenti e non rispondenti – in celle
definite dall’incrocio delle modalità delle variabili strutturali, cercando di
determinare le celle di ponderazione in modo che:
• in ciascuna cella sh (h=1,…, H s ) si realizzino numerosità campionarie,
nh e nhr adeguate a garantire stime sufficientemente affidabili delle
probabilità
•
θ sh ;
le proporzioni di rispondenti in celle differenti siano significativamente
differenti tra loro.
Il metodo suesposto risulta particolarmente indicato nel caso in cui per
spiegare il fenomeno della mancata risposta siano disponibili solo poche
variabili ausiliarie e non vi è, quindi, la possibilità di modellizzare la mancata
risposta in modo adeguato. Questo è, ad esempio, il caso delle indagini di
tipo telefonico, dove si dispone unicamente di informazioni sulla localizzazione geografica dei rispondenti e dei non rispondenti.
Nelle indagini sulle famiglie le celle sono in genere formate dall’incrocio di
variabili di tipo (i) demografico (il sesso, la classe di età, o il numero di
140
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
componenti della famiglia); (ii) geografico (la regione, o ad esempio il tipo di
comune).
Nelle indagini sulle imprese le celle sono formate in base a variabili di archivio di tipo economico – strutturale (come la classificazione dell’attività
economica secondo la classificazione NACE o la dimensione definita, nella
maggior parte dei casi in funzione del numero di addetti dell’impresa) o di
tipo geografico.
4.3.2.3 Tecniche basate su modelli logit o probit
Il primo passo per la costruzione delle celle di ponderazione è quello di
predire – come definito dall’espressione (9) – la probabilità di risposta
ˆ = g (βˆ ′ x )
k
[ 9 ]θ k
per ciascuna unità di s (o, alternativamente di U).
Successivamente, le celle di ponderazione possono essere costruite
utilizzando metodologie alternative.
La prima tecnica, cfr. Eltinge e Yansaneh (1997), si rifà alla teoria della stratificazione ottima (Cochran 1977, pp. 127-134) e determina le celle di ponderazione suddividendo il campione s (o la popolazione U) mediante la tecnica
degli uguali quantili delle probabilità predette
ˆ . In base a tale metodo
[ 9 ]θ k
ogni cella di ponderazione contiene un numero uguale di quantili della distribuzione delle probabilità di risposta. Indicando rispettivamente con
i valori estremali del generico percentile (con
della distribuzione
ˆ ( k ∈ s ), appartengono alla generica cella di
tutte le unità per le quali risulta θˆα < [ 9 ]θˆk ≤ θˆβ .
delle probabilità predette
ponderazione, sh,
θˆα < θˆβ )
θˆα e θˆβ
[ 9 ]θ k
Disponendo di un buon insieme di regressori, x, di solito la maggior parte
della riduzione della distorsione dovuta alla mancata risposta si ottiene
formando un numero relativamente piccolo di celle di ponderazione (5 o 6),
cfr. Eltinge e Yansaneh (1997). Se il meccanismo di risposta ha però una
forte dipendenza da una variabile esplicativa che non risulta disponibile per
la regressione, non si riesce a diminuire la distorsione, qualunque sia il
numero delle celle di ponderazione preso in considerazione. Un interessante
applicazione di questo metodo nel contesto delle indagini ISTAT sulle
imprese viene riportato nel lavoro di Ballin, Brancato et al. (2000).
Una variante di questa tecnica viene presentata nel lavoro di Little (1986) in
cui si propone di regredire la variabile d’interesse y (rilevata sui rispondenti)
sulle variabili ausiliarie x e di formare le celle di ponderazione con la tecnica
degli uguali quantili dei valori ŷk predetti mediante la regressione. Tale
tecnica viene raramente adottata nelle indagini essenzialmente per due
ragioni: (i) le indagini sono in genere di tipo multiobbiettivo e risulta quindi
141
CAPITOLO 4
difficile scegliere un’unica variabile y d’interesse; (ii) spesso la mancata
risposta è informativa nel senso che essa può essere legata alla variabile
d’interesse, per cui può risultare non corretto formare celle di ponderazione
in base ai valori ŷ k predetti sulle informazioni dei soli rispondenti.
Altri metodi di formazione delle celle di ponderazione che si rifanno alla
tecnica del response propensity scoring sono riportate nel lavoro di Rizzo,
Kalton e Brick (1996). Secondo tali proposte, la prima operazione da
intraprendere è quella di individuare un sottoinsieme di variabili ausiliarie di
tipo qualitativo che risultino essere dei predittori sufficientemente esplicativi
del meccanismo di mancata risposta; tale individuazione viene effettuata
utilizzando tecniche sviluppate nell’ambito dei modelli lineari generalizzati;
utili indicazioni in tal senso sono riportate nel documento tecnico Eurostat
(1995) relativo all’indagine Panel Comunitaria. Il secondo passo della procedura consiste nella stima delle probabilità di risposta sulla base di un modello logistico senza interazioni in cui le variabili esplicative sono quelle selezionate al passo precedente.
Avendo completato i due passi appena illustrati si possono adottare
soluzioni differenti per la definizione dei fattori correttivi per le MR:
• un primo metodo, indicato come metodo logistico predetto, assegna ai
rispondenti di ciascuna delle celle definite dall’incrocio delle variabili
esplicative, un correttore per mancata risposta, dato dal reciproco della
probabilità di risposta predetta in base al modello logistico;
• un secondo metodo, indicato come metodo logistico misto definisce un
fattore correttivo in modo differente in ciascuna delle celle definite
dall’incrocio delle variabili esplicative. Nelle celle in cui siano presenti un
numero di unità campionarie rispondenti superiore ad una determinata
soglia (in genere 30) il fattore correttivo viene ottenuto come reciproco
del tasso di risposta osservato nella singola cella; nelle rimanenti celle il
fattore correttivo è dato dal reciproco della probabilità di risposta
predetta in base al modello logistico;
• il terzo metodo, indicato come metodo logistico collassato, non fa uso
delle probabilità predette in quanto il fattore correttivo è dato dal tasso di
risposta osservato nella cella (definite dall’incrocio delle variabili
esplicative) a cui appartiene l’unità rispondente, purché la cella contenga
un numero di unità campionarie rispondenti superiore ad una
determinata soglia; le celle con numerosità inferiore vengono aggregate
(i) unendo classi che presentano valori vicini delle probabilità di risposta
predette e (ii) aggregando le modalità delle variabili meno esplicative.
Tale metodo è analogo a quello impiegato nell’indagine Survey on
Income Partecipation Program (SIPP) condotta negli Stati Uniti.
Nel lavoro di De Vitiis et al. (2000), sviluppato nel contesto delle indagini
ISTAT sulle famiglie di tipo longitudinale, viene presentata una applicazione
dei tre metodi appena illustrati.
142
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
4.3.2.4 Tecniche basate su modelli di regressione non parametrica
La scelta della partizione che individua le celle di ponderazione s h (h=1,…,
H s ) viene effettuata utilizzando i metodi di segmentazione binaria (Breiman
et al., 1984). La partizione è ottenuta attraverso una sequenza di
suddivisioni binarie sulle variabili ausiliarie x che prendono la forma di
condizioni lineari sui livelli di una o più variabili ausiliarie, disponibili per tutte
le unità del campione s. Il processo di segmentazione genera sottoinsiemi
distinti e di crescente omogeneità interna, con riferimento ad una misura di
distanza definita sulla variabile d’interesse rk .
I sottoinsiemi generati dal processo di segmentazione sono denominati
come nodi. All’inizio della procedura tutto il campione s costituisce il nodo
iniziale o nodo padre da cui parte il processo di suddivisione. In ciascun
passo di segmentazione, un nodo padre, s p , viene scisso in due nodi figli,
s p1 e s p 2 , di dimensione rispettivamente pari a n s p1 e n s p 2 ; la suddivisione in parola è realizzata scegliendo, tra tutte le possibili partizioni in due
sottoinsiemi di s p (definibili in base ai valori delle variabili ausiliarie), quella
che, in base ad una opportuna metrica, genera
(i) la maggiore distanza dei valori medi della variabile risposta nei due nodi
figli
rs p1 =
1
n s p1
∑ rk ;
k ∈s p1
rs p 2 =
1
ns p1
∑ rk ;
k ∈s p 2
(ii) la maggiore omogeneità, rispetto alla distribuzione della variabile rk ,
nell’ambito di ciascun nodo figlio.
Quando un nodo figlio non è ulteriormente suddiviso, esso costituisce un
nodo finale. Le H s celle di ponderazione coincidono con l’insieme dei nodi
finali individuati dal processo di segmentazione.
Il metodo in parola è realizzato da appositi software – come ad esempio il
software CART o la procedura C&RT di SPSS – che consentono di
controllare in vario modo il processo di segmentazione. Un’opzione standard
consente di imporre il vincolo che il numero di unità in un nodo figlio sia
superiore ad una determinata soglia (in genere 50 o 30). Questo vincolo è
molto importante, in quanto la probabilità di risposta viene stimata sui nodi
finali; se questi fossero caratterizzati da una numerosità troppo esigua, le
stime della probabilità di risposta risulterebbero poco attendibili. È previsto
anche un processo di pruning volto a identificare la partizione in nodi finali
caratterizzata da: (i) un numero minimo di nodi finali; (ii) un alto potere
esplicativo rispetto alla distribuzione della variabile target (nel caso in esame
data da rk ).
143
CAPITOLO 4
4.3.3 Modellizzazione implicita
Lo stimatore di ponderazione vincolata è il metodo di stima generalmente
usato per calcolare le stime campionarie nelle indagini condotte nell’ambito
della statistica ufficiale. Tale metodo è adatto anche a correggere, almeno
parzialmente, le distorsioni causate dalla presenza di MR. Esso può essere
applicato in modo differente a seconda che l’informazione ausiliaria sia
disponibile solo per il campione teorico o per l’intera popolazione.
4.3.3.1 Informazione ausiliaria disponibile per l’intera popolazione
Lo stimatore di ponderazione vincolata, costituisce una classe generale di
stimatori, che possono essere rappresentati nella forma
∑ yk [12]wk
ˆ=
[12 ] Y
(12)
k∈sr
dove
[12 ] wk
, che rappresenta il peso finale associato alla unità k-esima, può
essere espresso come
[12 ] wk
= dk
[12 ]γ k
essendo [12 ] γ k determinato come soluzione del seguente problema di
minimo vincolato
⎧
⎧
⎫
⎪ Min ⎪⎨ ∑ ck D(d k [12]γ k , d k )⎪⎬
⎪ [12 ] γ k ⎪⎩k∈sr
⎪⎭
.
⎨
⎪
⎪ ∑ d k [12]γ k x k = ∑ x k
k∈U
⎩k∈sr
ck è una costante nota (generalmente connessa
alla dimensione dell’unità k-esima) e D (d k [12 ]γ k , d k ) è una generica funNel precedente sistema
zione di distanza tra il peso diretto e il peso finale. La famiglia degli stimatori
di ponderazione vincolata contiene come casi particolari gli stimatori più noti
tra cui: Horvitz-Thompson, rapporto, rapporto post-stratificato, ratio-raking e
regressione generalizzata. Ad esempio, lo stimatore rapporto si ottiene
d k [12 ]γ k - d k 2
γ
,
c
=
x
e
=
;
D
d
d
ponendo k
k [12 ] k k
pk
dk
(
) (
in tale contesto, il correttore del peso diretto è dato da
[12] γ k
144
=
∑ x pk ∑ x pk dk .
k∈U
k∈sr
)
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
Nello schema seguente sono riportate le funzioni di distanza più frequentemente usate nella pratica delle indagini campionarie. Per semplificare
la notazione, nello schema il correttore di calibrazione sarà indicato
semplicemente come γ k e non come [12 ] γ k .
Schema n. 4 - Principali funzioni di distanza impiegate per la determinazione dei
correttori dei pesi diretti
Denominazione
Espressione
Lineare
(d kγ k - d k )2
(
⎧d γ -d
⎨ k k k
⎩∞
Lineare
Troncata(*)
)
dk
2
d
k
se L < γ k < M
altrimenti
d k γ k ln(γ k ) − d k γ k + d k
Logaritmica
⎧
⎛ M −γ k ⎞
⎛γ − L⎞
⎪(γ k − L) ln⎜ k
⎟ se L < γ k < M
⎟ + (M − γ k )ln⎜
⎨
1
−
L
⎝ M −1 ⎠
⎠
⎝
⎪⎩∞
altrimenti
Logaritmica
Troncata (*)
dk
(γ k − 1)2
2γ k
Chi quadrato
Modificato
Minima
− d k ln(γ k ) + d k γ k − d k
Entropia
2d k
Hellinger
(
)2
γ k −1
(*) L ed M sono due costanti tali che L<1<M.
É utile rilevare quanto segue.
• La distanza lineare conduce a definire il classico stimatore di
regressione generalizzata, in cui il correttore è definito in forma esplicita
come
[12 ] γ k
= 1 + [12]λ′ x k
dove
′
⎞
⎛
⎟
⎜
[12 ] λ ′ = X − ∑ d k x k
⎟
⎜
k∈sr
⎠
⎝
−1
⎞
⎛
1
⎜
d k x k x′k ⎟ .
∑
⎟
⎜ k∈s ck
⎠
⎝ r
L’uso di tale distanza può dar luogo a pesi finali negativi, che in alcune
situazioni potrebbero essere non accettabili, ad esempio nel caso in cui le
variabili di interesse possano assumere solo valori positivi.
• le distanze logaritmica, chi-quadrato modificato, minima entropia ed
Hellinger conducono a pesi finali positivi;
• la distanza logaritmica può dar luogo a pesi finali molto elevati;
145
CAPITOLO 4
•
il generico peso finale ottenuto da ciascuna delle due distanze troncate
è sempre compreso nell’intervallo (d k L, d k M ) , potendo risultare anche
negativo se L è minore di zero; ovviamente con L maggiore di zero, i
pesi finali assumono sempre valori positivi.
Come vedremo successivamente, dal punto di vista teorico le distanze che
risultano più interessanti per il trattamento delle MR sono la distanza
logaritmica e la distanza lineare.
4.3.3.2 Informazione ausiliaria disponibile solo per il campione
Nel caso in cui l’informazione ausiliaria sia disponibile solo per il campione s,
lo stimatore di ponderazione vincolata può essere rappresentato nella forma
ˆ=
[13] Y
∑ yk d k [13]γ k = ∑ yk [13]wk
k∈sr
(13)
k∈sr
in cui il correttore del peso diretto
[13] γ k
viene determinato come soluzione
del seguente problema di minimo vincolato
⎧
⎧
⎫
⎪
⎪ Min ⎪⎨
ck D (d k [13]γ k , d k )⎬
⎪⎪ [13] γ k ⎪
⎪⎭
⎩k∈s r
⎨
⎪
d k [13]γ k x k =
xk dk
⎪
⎪⎩k∈sr
k ∈s
∑
∑
∑
4.3.3.3 Informazione ausiliaria disponibile in parte per il campione e in parte
per l’intera popolazione
In Särndal e Lundström (2005) viene proposto una stimatore di calibrazione
che tiene conto di tutta l’informazione ausiliaria disponibile sia a livello di
intera popolazione che unicamente per il campione teorico s.
A livello di singola unità k, si denoti con:
*
• x k un vettore di variabili ausiliarie di cui si conosce il totale
X * = ∑ x *k nella popolazione U ;
k ∈U
x ok un vettore di variabili ausiliarie di cui si conosce la stima di HorvitzThompson costruita sul campione s
•
ˆo =
X
∑ xok d k .
k∈s
Gli stimatori di calibrazione, introdotti in precedenza possono essere ricavati
nelle due seguenti situazioni informative:
146
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
InfoU-
è la situazione in cui si conosce solo il vettore di variabili ausiliarie
x*k ; lo stimatore di calibrazione assume la forma già definita
nell’espressione (12);
corrisponde al caso in cui sono disponibili solo le variabili ausiliarie
InfoSxok ; lo stimatore di calibrazione assume la forma già riportata
nell’espressione (13).
Il caso più generale, denotato come InfoUS, trattato nel lavoro sopraccitato,
è caratterizzato nel modo seguente
• a livello della generica unità k del campione s è disponibile un vettore
⎛ x* ⎞
x k di variabili ausiliarie definito come x k = ⎜ ok ⎟
⎜x ⎟
⎝ k⎠
• il vettore dei totale noti X è determinato come segue
⎛
x*k ⎞⎟
⎜
⎛ X * ⎞ ⎜ k∈U
⎟
X =⎜ o⎟=⎜
⎟.
⎟
⎜X
⎝ ˆ ⎠ ⎜ x ok d k ⎟
⎜
⎟
⎝ k∈s
⎠
∑
∑
Lo stimatore è definito come
ˆ=
[14 ] Y
∑ yk d k
[14 ]γ k
k∈s r
dove
[14 ] wk
= dk
[14 ]γ k
=
∑ yk
[14 ] wk
(14)
k ∈sr
, essendo i fattori correttivi,
[14 ] γ k
, calcolati
risolvendo il seguente problema di minimo vincolato
⎧
⎧
⎫
⎪ Min ⎪⎨ ∑ ck D(d k [14]γ k , d k )⎪⎬
⎪ [14 ] γ k ⎪⎩k∈sr
⎪⎭
.
⎨
⎛ x*k ⎞ ⎛ X* ⎞
⎪
⎜ ⎟ ⎜ ⎟
⎪ ∑ d k [14]γ k ⎜ xo ⎟ = ⎜ X
ˆo⎟
⎝ k⎠ ⎝ ⎠
⎩k∈sr
In Särndal e Lundström (2005) si propone di utilizzare la distanza lineare e
un peso ck pari a 1, viene quindi definita la forma esplicita del correttore
come (formula 6.9, in Särndal e Lundström, 2005)
[14 ] γ k
= 1 + [14 ]λ ′ x k
in cui
147
CAPITOLO 4
⎛
⎞
⎜
d k x k ⎟⎟
[14 ] λ ′ = ⎜ X −
⎜
⎟
k ∈s r
⎝
⎠
′
∑
⎛
⎞
⎜
d k x k x ′k ⎟⎟
⎜⎜
⎟
⎝ k∈sr
⎠
−1
∑
.
Sempre nello stesso volume (formula 7.14) viene definita anche la seguente
forma di stimatore di calibrazione, basato sull’uso di variabili strumentali
ˆ=
[15] Y
∑ yk d ak
[15]γ k
=
k ∈s r
∑ yk
[15] wk
= d ak
[15]γ k
(15)
k ∈s r
in cui
[15] γ k
= 1 + [15]λ′ z k ,
[15] wk
essendo
′
⎛
⎞
⎜
⎟
[15] λ ′ = X − ∑ d ak x k
⎜
⎟
k∈sr
⎝
⎠
⎛
⎞
⎜
⎟
′
d
z
x
ak k
k
⎜ k∑
⎟
⎝ ∈sr
⎠
−1
denotando inoltre con d ak un peso ( d ak ≥ 1 ) da assegnare all’unità kesima e con z k un vettore di P variabili strumentali.
Lo stimatore
ˆ rappresenta una forma piuttosto generale, mediante la
[15] Y
quale possono essere derivati molti degli stimatori utilizzati nel contesto di
MR, attraverso un’opportuna specificazione di alcuni elementi dello stimatore
stesso; in particolare: il peso d ak e i vettori x k , z k e X. Ad esempio, il
classico stimatore di regressione generalizzata
[12 ] Ŷ
, basato sull’uso della
distanza lineare, può essere ottenuto ponendo:
d ak = d k , x k = x *k , z k = (1 / ck ) x *k , X = X* .
È interessante notare che la forma dello stimatore
ˆ consente di definire
[15] Y
anche stimatori sviluppati sotto approcci inferenziali differenti da quello degli
stimatori assistiti da modello, considerati nel presente lavoro.
148
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
Schema n. 5 - Definizioni di particolari stimatori per MR mediante specificazioni degli
elementi caratterizzanti lo stimatore [15] Yˆ
Elementi caratterizzanti lo stimatore [15] Yˆ
Stimatore
dak
xk
[ 6. a ] Y
dak = dk
x k = x*k = π k
zk = 1
ˆ
dak = dk
x k = x ok = 1
zk = 1
ˆ
[ 6. b ] Y
zk
X
X = X* =
X = Xo =
x k = x *k = 1
zk = 1
X=X =
[11. a ] Y
dak = dk
x k = x ok = π k δ k
z k = 1P
X = Xo =
ˆ
dak = dk
x k = xok = δ k
z k = 1P
X = Xo =
dak = dk
x k = x*k
z k = 1P
X = X* =
dak = dk
x k = x*k
zk =
1 *
xk
ck
X = X*
dak = dk
x k = x ok
zk =
1 o
xk
ck
ˆo
X=X
ˆ
[11.b ] Y
ˆ
[11. c ] Y
ˆ
[12 ] Y
Distanza
Lineare
ˆ
[13] Y
Distanza
Lineare
ˆ
[14 ] Y
Distanza
Lineare
ˆ
[16 ] Y
= δk
dak = dk
⎛ x* ⎞
x k = ⎜ ok ⎟
⎜x ⎟
⎝ k⎠
1
zk =
ck
dak = 1
x k = x *k
zk =
∑1 / π k = N̂ s
k∈s
*
dak = dk
ˆ
[ 6. c ] Y
∑π k = n
k ∈U
∑1 = N
k∈U
∑π k / π k = n
k∈s
∑ δk / π k = Nˆ s
k ∈s
∑ δk = N
k∈U
⎛ x*k ⎞
⎜ ⎟
⎜ xo ⎟
⎝ k⎠
1 *
xk
ck
∑
⎛
x*k ⎞⎟
⎜
⎛ X * ⎞ ⎜ k ∈U
⎟
X =⎜ o⎟ =⎜
⎟
⎜X
⎟
ˆ
⎝
⎠ ⎜ x ok d k ⎟
⎜
⎟
⎝ k ∈s
⎠
∑
X = X*
Si consideri, ad esempio Lo stimatore introdotto sotto l’approccio predittivo
(Valliant, 2000) e che fonda l’inferenza unicamente sul modello di
superpopolazione che lega la variabile d’interesse y e il vettore delle variabili
ausiliarie x. Esso può essere espresso nella forma:
ˆ = Y + Yˆ
sr
U − sr =
[16 ] Y
∑ yk d ak
k∈sr
[16 ]γ k
=
∑ yk
[16 ] wk
(16)
k∈sr
149
CAPITOLO 4
essendo
−1
⎞
⎛
1
1
x k )′ ⎜⎜
x k x ′k ⎟⎟
x k yk
Ysr = ∑ yk , YˆU − sr = ( X −
c
c
⎟
⎜
k
k
k∈sr
k∈sr
⎠ k∈sr
⎝ k∈sr
′
−1
⎛
⎞ ⎛
⎞
1
1
⎜
x k ⎟⎟ ⎜⎜
x k x ′k ⎟⎟
x k , [16 ] wk = d ak [16 ]γ k
[16 ] γ k = 1 + ⎜ X −
ck
ck
⎜
⎟
⎜
⎟
k ∈s r ⎠ ⎝ k ∈s r
⎝
⎠
∑
∑
Lo stimatore
∑
∑
∑
ˆ può essere ricondotto allo stimatore
[16 ]Y
ˆ ponendo
[15] Y
d ak = 1 , x k = x*k , z k = (1 / ck ) x *k , X = X* .
Nello schema n. 5 viene mostrato come è possibile arrivare alla definizione
di particolari stimatori per MR mediante specificazioni degli elementi
caratterizzanti lo stimatore
ˆ.
[15] Y
Come si desume anche dallo schema, l’unico stimatore, tra quelli sopra
introdotti, che non può essere ricavato a partire da
ˆ è lo stimatore
[15] Y
ˆ
[9]Y
che, peraltro, trova scarsa applicazione nelle indagini concrete. Nello
schema si è indicato con 1 P un vettore colonna di P valori pari a 1 e si sono
n , δ k , N̂ s e N, definiti rispettivamente come
n = ( n1 ,..., nh ,..., n H s )′ , δ k = (δ1k ,..., δ hk ,..., δ H s k )′ , N̂ s =
δk d k ,
introdotti i simboli
∑
k∈s
N = ( N1 ,..., N h ,..., N H s )′ , essendo δ hk una variabile indicatrice, pari a 1
se k ∈ sh e pari a 0 altrimenti.
4.3.4 Stima della varianza
In questo paragrafo è riportata la stima della varianza dello stimatore
ˆ.
[15] Y
Come si è visto, tale stimatore costituisce una forma generale a cui possono
essere ricondotti molti degli stimatori adottabili in caso di mancate risposte.
Nella trattazione si farà riferimento a quanto riportato nel cap. 4 del libro di
Särndal e Lundström (2005) prima citato.
Una stima asintoticamente corretta della varianza dello stimatore
ˆ , in
[15] Y
dak = dk , è data da
cui
Vˆ ([15]Yˆ ) = VˆSAM + VˆNR
150
(17)
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
dove VˆSAM è la varianza dovuta al campionamento, mentre VˆNR è la
varianza dovuta al processo generatore delle mancate risposte. I due
addendi in parola sono espressi rispettivamente da
VˆSAM =
∑ ∑ (dk dl − dkl )([15]γ k eˆk* ) ([15]γ l eˆl* ) +
l∈sr k∈sr
−
∑ d k ( d k − 1) [15]γ k ([15]γ k − 1) (eˆk* )2
(17.a)
∑ [15]γ k ([15]γ k − 1) (dk eˆk )2
(17.b)
k ∈s r
VˆNR =
k∈sr
in cui
( )
'
eˆk* = yk − x*k Bˆ * ;
( )
( )
ˆ = y − x* ' B
ˆ * − x o ' Bˆ o
eˆk = yk − x ′k B
k
k
k
⎞
ˆ*⎞ ⎛
⎛B
⎟
ˆB = ⎜ ⎟ = ⎜
dak [15]γ k zk x′k ⎟
o
⎜
⎜⎜ B
⎟
ˆ ⎟ ⎜
⎟
⎝ ⎠ ⎝ k∈sr
⎠
∑
−1
⎛
⎞
⎜
⎟
dak [15]γ k zk yk ⎟ .
⎜⎜
⎟
⎝ k∈sr
⎠
∑
La formula (17) può apparire piuttosto complessa; tuttavia, per alcune
strategie di campionamento largamente usate possono essere derivate
espressioni facili ed intuitive del calcolo della varianza. Si consideri ad
esempio la seguente situazione, caratterizzante larga parte delle indagini
sulle imprese.
• Il disegno di campionamento adottato è del tipo stratificato. Dalla
popolazione del generico strato U h (h=1,…,H) si seleziona senza
reimmissione e a probabilità uguali il campione sh di dimensione nh .
•
Le celle di ponderazione coincidono con gli strati, per cui si ha H s = H .
Nella cella di ponderazione sh si registrano nhr unità rispondenti.
•
Si adotta lo stimatore
ˆ.
[11. c ] Y
Nel contesto appena descritto si ha:
π k = nh N h
[15] γ k
;
= nh nhr ;
x k = x*k = z k =δ k = (δ1k ,..., δ hk ,..., δ Hk )′ ,
151
CAPITOLO 4
essendo
eˆk*
δ hk una variabile indicatrice pari a 1 se k ∈ sh e pari a 0 altrimenti ;
n
1 hr
= eˆk = y k −
yl .
nhr l =1
∑
Utilizzando le approssimazioni nh nh − 1 ≈ 1 e nhr nhr − 1 ≈ 1 , nel caso in
esame si ha
VˆSAM ≈
H
⎛ 1
1 ⎞
∑ N h2 ⎜⎜⎝ nh − N h ⎟⎟⎠ Shr2
h =1
VˆNR ≈
H
⎛ 1
1 ⎞
∑ N h2 ⎜⎜⎝ nhr − nh ⎟⎟⎠ Shr2
h =1
Vˆ ([15]Yˆ ) = VˆSAM + VˆNR =
H
⎛ 1
1 ⎞
∑ N h2 ⎜⎜⎝ nhr − N h ⎟⎟⎠ Shr2 ,
h =1
essendo
4.3.5
nhr ⎛
2
n
1 hr ⎞⎟
2
⎜
S hr =
yk −
yl .
⎟
nhr − 1 ⎜
nhr
k =1⎝
l =1 ⎠
1
∑
∑
Approfondimento delle condizioni che
distorsione dello stimatore di calibrazione
determinano
la
4.3.5.1 Espressione generale della distorsione
Se l’insieme dei rispondenti è sufficientemente grande, la distorsione dello
stimatore
ˆ con d = d =1/ π può essere approssimata da (Sarndäl e
ak
k
k
[15]Y
Lundström, 2005, cap. 9):
(
)
B ([15]Yˆ ) = E E θ ([15] Yˆ | s ) − Y ≈ −
∑ (1 − θk ) eθ k
dove Eθ ([15] Yˆ | s ) , denota il valore atteso di
dell’insieme osservato nel campione sr , essendo
eθ k = yk − x ′k BθU
in cui
152
(18)
k∈U
ˆ , dato s, al variare
[15]Y
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
BθU
⎛
⎞
= ⎜ θk zk x′k ⎟
⎜
⎟
⎝ k∈U
⎠
∑
−1
∑θk zk yk .
k∈U
Dall’esame dell’espressione (18) si notano due importanti caratteristiche
sulla natura della distorsione dello stimatore di calibrazione:
• la distorsione non dipende dal disegno di campionamento adottato
nell’indagine, ma unicamente dalla scelta delle variabili ausiliarie e dalle
probabilità di risposta individuali;
• si evidenzia la necessità di individuare un vettore x di variabili ausiliarie
che abbia la capacità di ridurre la distorsione. Il vettore deve essere noto
almeno a livello di campione teorico s. Il fatto di conoscere il vettore a
livello di intera popolazione U non modifica la distorsione ma ha effetto
unicamente sulla variabilità. In altri termini, nell’ottica di ridurre la
distorsione le situazioni informative InfoU e InfoS (vedi par. 4.3.3.3)
risultano equivalenti.
Per illustrare alcune successive considerazioni sulla relazione (18) è
opportuno considerare i risultati di seguito riportati.
Risultato 1
∑ eθ k in generale non è pari a zero. Essa è pari a 0,
La somma dei residui
k∈U
solo se la probabilità di risposta è costante ( θ k = θ , k=1,…,N) e il vettore
z k contiene una variabile z pk identicamente uguale a 1. Considerando le
equazioni normali della regressione si ha infatti
∑θk zk x′k BθU − ∑θk zk
k∈U
k∈U
yk = 0P
in cui 0 P denota un vettore colonna P-dimensionale i cui termini sono tutti
pari a 0.
Dalla precedente espressione deriva il seguente sistema di equazioni
∑θk zk ( yk − x′k BθU ) = ∑θk zk eθ k = 0P ,
k∈U
k∈U
la cui generica equazione è data da
∑θk z pk eθ k = 0
(p=1,…,P).
(18.a)
k∈U
Nel caso in cui probabilità di risposta è costante
θk = θ
, (k=1,…,N) e z pk è
identicamente uguale a 1, la (18.a) diventa
153
CAPITOLO 4
∑θk z pk eθ k = ∑
k∈U
eθ k = 0 .
k∈U
Risultato 2
Nel caso in cui sia μ′ z k = 1 (per ciascun k ∈ U ), dove μ è un vettore conforme a z k comune per tutte le unità della popolazione, si hanno tre
espressioni alternative della distorsione:
B ([15]Yˆ ) = −
∑ eθ k ,
(19.a)
k∈U
B ([15]Yˆ ) =
∑ x′ ( B
k
U
k∈U
B ([15]Yˆ ) =
− BθU ) ,
(19.b)
∑ x′k BeθU ,
(19.c)
k∈U
essendo
⎛
⎞
BU = ⎜⎜ ∑ z k x′k ⎟⎟
⎝ k∈U
⎠
−1
∑ zk
k∈U
yk ; BeθU
⎛
⎞
= ⎜⎜ ∑θk z k x′k ⎟⎟
⎝ k∈U
⎠
−1
∑θk zk ek
k∈U
in cui
ek = yk − x′k BU .
Di seguito viene riportata la dimostrazione dell’espressione (19.a); le due
espressioni alternative (19.b e 19.c) si possono ricavare in modo analogo.
Valendo la relazione μ′ z k = 1 , la distorsione può essere espressa come
B ([15]Yˆ ) = −
∑ eθ k + ∑θk eθ k =
k∈U
=−
essendo
∑ eθ k + μ′ ∑ z kθ k eθ k = − ∑ eθ k ,
k∈U
μ′ ∑ z kθ k eθ k = 0 .
k∈U
Si ha infatti
154
k∈U
k∈U
k∈U
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
−1
⎡⎛
⎤
⎞
⎢
⎜
⎟
∑zkθk eθ k = μ′ ∑ zkθk yk − ∑zkθk x′k ⎢⎜ ∑θk zk x′k ⎟ ∑θk zk yk ⎥⎥ =
k∈U
k∈U
k∈U
⎠ k∈U
⎣⎝ k∈U
⎦
= ∑ z kθ k yk − ∑ θ k z k yk = 0 .
k∈U
k∈U
La condizione μ′ z k = 1 viene rispettata da molti stimatori che hanno un
rilevante sviluppo applicativo, ad esempio per lo stimatore di poststratificazione
ˆ , si ha
[11. c ] Y
1′P x k = 1′P δ k = 1 ;
di conseguenza il vettore
μ′ è pari a 1′P .
4.3.5.2. Condizioni che garantiscono l’assenza di distorsione
Dall’esame dell’espressione (18) si possono enucleare una serie di condizioni che garantiscono l’assenza di distorsione.
Condizione 1
La distorsione dello stimatore
costanti
θk ≈ θ
ˆ è nulla quando le probabilità θ sono
k
[15] Y
(k ∈ U ); si ha infatti
B ([15]Yˆ ) ≈ − (1 − θ ) ∑ eθ k ≈ 0 .
k∈U
Infatti, in base a quanto dimostrato nel risultato 1, in modelli di regressione
che prevedono l’intercetta, la somma
∑ eθ k
è pari a zero nel caso in cui
k∈U
θk ≈ θ .
Condizione 2
Nel caso in cui sia μ′ z k = 1 (per ciascun k ∈ U ), la distorsione dello
stimatore
ˆ è nulla quando le probabilità θ sono costanti; si ha infatti, in
k
[15] Y
base alla relazione (19.a)
B ([15]Yˆ ) = −
∑ eθ k
k∈U
In base a quanto dimostrato nel risultato 1, in modelli di regressione che
prevedono l’intercetta, la somma
∑ eθ k
è pari a zero nel caso in cui
k∈U
155
CAPITOLO 4
θk ≈ θ .
Condizione 3
La distorsione è quasi nulla nel caso in cui, per ciascun k ∈ U , sia
φk =
1
= 1 + μ′ z k ,
θk
dove φk =
(20)
1
è anche detto parametro di influenza.
θk
Dalla precedente relazione si ha
1 − θ k = θ k μ′ z k .
Inserendo, questo risultato nell’espressione (18) si ottiene
B ([15]Yˆ ) = − ∑ (1 − θ k ) eθ k =
k∈U
=−
∑ (θ k μ′ z k ) eθ k =
k∈U
−1
⎤
⎡
⎛
⎞
= − μ′ ⎢ ∑ θ k z k yk + ∑ θ k z k x′k ⎜ ∑ θ k z k x′k ⎟ ∑ θ k z k yk ⎥ = 0 .
⎜
⎟
⎥
⎢k∈U
k∈U
⎝ k∈U
⎠ k∈U
⎦
⎣
Condizione 4
La distorsione è quasi nulla nel caso in cui, per ciascun k ∈ U , sia valido il
seguente modello lineare
y k = β′ x k ,
dove β denota un vettore di P parametri di regressione.
4.3.5.3
Caso dello stimatore di calibrazione
Si consideri lo stimatore
logaritmica
(
D dk
[12]γ k
ˆ con distanza non lineare
[12 ] Y
ˆ e si supponga di avere adottato la distanza
[12 ] Y
)
, d k = d k γ k ln (γ k ) − d k γ k + d k . Allo scopo di
semplificare la trattazione matematica dell’argomento si fa riferimento al
caso, di particolare interesse nelle applicazioni pratiche, in cui ck=1 e in cui i
totali di riferimento sono costituiti dalle frequenze assolute di una tabella
doppia in cui la prima variabile x1 ha A modalità distinte e la seconda
variabile x2 ha B modalità distinte. Nel seguito si indica con: Uab e con sr,ab le
156
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
unità della popolazione e del campione dei rispondenti appartenenti alla
cella individuata dalla modalità a (a=1,…,A) della prima variabile e dalla
modalità b (b=1,…,B) della seconda variabile. Nel caso in questione xk è un
vettore colonna contenente A+B valori
xk
= (δ1., k ,..., δ a., k ,..., δ A., k ,..., δ.1, k ,..., δ.b, k ,..., δ.B, k )'
dove: δ a., k è una variabile dicotomica che ha valore pari a 1 se l’unità kesima assume la modalità a della variabile x1 e valore pari a 0 altrimenti;
δ .b, k è una variabile dicotomica che ha valore pari a 1 se l’unità k-esima
assume la modalità b della variabile x2 e valore pari a 0 altrimenti.
Mediante alcuni passaggi algebrici, si riesce a dimostrare che nel caso in
questione per tutte le unità appartenenti alla cella (ab) il correttore del peso
base è pari al prodotto di due fattori (Binder, 1988) che possono essere visti
come un effetto riga e un effetto colonna
[12 ] γ k
= μˆ a μˆ b
(per k ∈ s r ,ab ).
(21)
Sostituendo la (21) nella (12), si ottiene che lo stimatore del totale Y può
essere espresso come
A
ˆ
[12 ] Y = ∑
B
∑ ∑ yk dk μˆ a μˆb .
(22)
a =1 b =1 k∈sr , ab
Seguendo Binder e Theberge(1988), si può dimostrare che la (12) è una
stima consistentemente corretta del totale Y qualora:
• tutte le unità appartenenti alla generica cella (ab) abbiano una
probabilità di risposta costante pari a θ ab ;
•
θ ab sia
μ a e μb
definito in base all’espressione
indicano
rispettivamente di
i
valori
attesi
θ ab =
( μa μb ) −1 ,
nell’universo
dei
dove
campioni
μˆ a e μˆb .
Qualora le due precedenti condizioni non siano soddisfatte, la distorsione
dello stimatore (21) è definita da (Kalton e Maligalig, 1991)
A
B ([12]Yˆ ) = ∑
∑ (N ab ( μa μb ) −1 − N ab )(Yab − Ya. − Yb. + Y / N )
B
(23)
a =1 b =1
dove N ab indica il numero di unità della popolazione nella cella (ab), in cui
157
CAPITOLO 4
Yab =
1
∑ yk ;
N ab k∈U
ab
B
Ya. = ∑
b =1
A
N ab
N ab
Yab ; Y.b = ∑
Yab ;
N a.
a =1 N .b
essendo
B
N a. = ∑ N ab ;
b =1
A
N .b = ∑ N ab .
a =1
La (23) diventa un utile guida operativa per la formazione delle celle di ponderazione; infatti, al fine di annullare la distorsione, è necessario definire
sulle due variabili ausiliarie ( A × B ) celle di ponderazione che approssimino
quanto più possibile la condizione Yab
− Ya. − Yb. + Y / N = 0 .
4.3.6 Criteri di scelta della strategia di stima
Nessuno degli stimatori precedentemente considerati risulta essere quello
ottimale in tutte le situazioni di MR. Pertanto, nei casi concreti, per effettuare
la scelta della migliore strategia di stima è necessario condurre una
complessa operazione di analisi dei dati mirata alla valutazione delle
prestazioni di ciascun specifico stimatore.
I criteri suggeriti (cfr. Eltinge e Yansaneh, 1997; Rizzo, Kalton e Brick, 1996)
per la scelta dello stimatore fanno riferimento:
(i) alla variabilità di una particolare forma di stimatore;
(ii) alla capacità dello stimatore di ridurre la distorsione.
4.3.6.1 Criterio di variabilità
Per quanto riguarda la scelta del particolare metodo di stima basata sul
criterio della variabilità, si ricorda la ben nota relazione di Kish (1992) in cui
l’effetto sulla variabilità delle stime derivante dall’uso di una particolare forma
di stimatore viene posto uguale a (1+CV2) dove CV è il coefficiente di
variazione dei pesi finali. Di conseguenza, a parità di distorsione, andrebbe
preferito uno stimatore in cui è minimizzata la variabilità dei pesi. Si riportano
inoltre alcune considerazioni che possono guidare nella scelta del vettore
delle variabili ausiliarie x. Un criterio generale è quello di evitare variabili
ausiliarie che potrebbero causare valori troppo alti dei correttori [15] γ k , con
la conseguente produzione di pesi finali wk anomali, che potrebbero avere
impatto negativo nella variabilità dello stimatore. Ciò può essere dovuto ad
una serie di ragioni. La prima ragione è che vi può essere la collinearità (o
quasi collinearità) tra le variabili x; sarebbe quindi opportuno eliminare le
variabili ausiliarie ridondanti, ad esempio mediante una tecnica backward.
Un altro problema può essere ingenerato dall’inclusione nel vettore x k di
una variabile continua x pk con distribuzione notevolmente asimmetrica;
158
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
valori elevati di x pk possono causare la produzione di valori anomali dei
correttori
[15] γ k
. Il problema può essere evidenziato attraverso un’ispezione
grafica in cui i correttori sono rappresentati sull’asse delle ordinate e le
variabili x pk sull’asse delle ascisse. Una tecnica prudente è quella di non
utilizzare direttamente una variabile continua, nel processo di ponderazione,
ma usare una sua trasformata suddivisa in classi.
Un ultimo criterio da adottare è quello della numerosità minima per cella. Se
coerentemente a quanto sopra illustrato, le variabili ausiliarie costituiscono
tutte modalità di variabili qualitative (o di trasformate in classi di variabili
quantitative), i gruppi determinati dai differenti profili delle variabili suddette
dovrebbero assicurare una numerosità minima di unità rispondenti, in genere
superiore a 30.
4.3.6.2 Criterio di riduzione della distorsione
Per quanto riguarda la scelta dello stimatore basata sul criterio di riduzione
della distorsione, il primo aspetto da prendere in considerazione è il risultato
illustrato nel par. 4.3.5.1 che, nell’ottica di ridurre la distorsione, le situazioni
informative InfoU e InfoS (vedi par. 4.3.3.3) risultano equivalenti. È quindi
essenziale individuare un buon insieme di predittori x che abbiano una
buona capacità di riduzione della distorsione. A tale scopo può essere utile
condurre un’analisi di sensitività, volta ad analizzare le stime dei parametri
d’interesse ottenute in corrispondenza di diversi stimatori. Se i valori di dette
stime risultano essere molto prossimi tra di loro, la scelta ricade
naturalmente sullo stimatore che minimizza la variabilità campionaria. È
necessario, invece, approfondire l’analisi qualora i valori stimati fossero
notevolmente differenti. Esempi di analisi in tal senso, con riferimento alle
indagini ISTAT, sono riportati nel lavoro di Ballin, Brancato et al. (2000) in
cui la distorsione è stimata prendendo come riferimento una variabile
ausiliaria non utilizzata per la correzione della mancata risposta e nel lavoro
di De Vitiis et al. (2000) in cui le stime d’interesse sono poste a confronto
con stime prodotte da altre indagini.
Qui di seguito sono riportati alcuni principi che debbono guidare nella scelta
delle variabili ausiliarie; i primi tre principi sono mutuati da quanto descritto in
Sarndäl e Lundström (2005, p. 110).
Principi che devono guidare la scelta delle variabili ausiliarie
Principio 1
Il vettore delle variabili ausiliarie dovrebbe spiegare la distribuzione dei
parametri di influenza φk = 1 / θk . Questo principio trova la sua razionalità
nella condizione 3, atta a garantire la non distorsione, illustrata nel par.
4.3.5.2.
159
CAPITOLO 4
Principio 2
Il vettore delle variabili ausiliarie dovrebbe spiegare le principali variabili di
analisi. Questo principio trova la sua razionalità nella condizione 4 del par.
4.3.5.2.
Principio 3
Il vettore delle variabili ausiliarie dovrebbe permettere di identificare i principali domini oggetto di studio. Questo principio trova la sua razionalità nel
fatto che le indagini su larga scala, debbono produrre stime riferite non solo
al totale della popolazione ma anche per i principali domini di studio.
Principio 4
Qualora, in accordo a quanto illustrato nel par. 4.3.6.1, le variabili ausiliarie
costituiscano tutte modalità di variabili qualitative, i gruppi determinati dai
differenti profili delle variabili ausiliarie dovrebbero individuare sottoinsiemi di
unità aventi una medesima probabilità di risposta. Questo principio trova la
sua razionalità nelle condizioni 1 e 2 del par. 4.3.5.2. ed è coerente con le
tecniche di correzione della mancata risposta basate sulle celle di ponderazione.
Tecniche ed indicatori utili all’individuazione delle variabili ausiliarie
Nonostante i principi sopra definiti possano offrire un utile ausilio
nell’individuazione delle variabili ausiliarie, nelle situazioni concrete la grande disponibilità di informazioni ausiliarie e la possibilità di combinarle in
differenti modi induce un’oggettiva difficoltà nell’individuazione concreta del
vettore x in specifici contesti di indagine. Riportiamo qui di seguito alcuni indicatori o regole operative che possano guidare la scelta delle variabili
ausiliarie.
Indicatore per il principio 1
Per chiarezza di notazione, nel seguito si indicheranno con
x e [α ] z due
particolari insiemi di variabili ausiliarie, denotando con [α ] x k e [α ] z k i
[α ]
corrispondenti valori riferiti all’unità k.
La maggiore difficoltà operativa all’applicazione della condizione 3 del par.
4.3.5.2. è quella che i valori dei parametri di influenza φk non sono
= 1 + μ′ z k non è verificabile sui dati
osservati. Si ricercano quindi dei valori proxi di φk , denotati con φ̂k , tali che
(i) i valori φ̂k siano linearmente connessi al vettore z k osservato per le
specifiche realizzazioni degli insiemi s e sr ,
conosciuti; per cui la condizione φk
160
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
(ii) i valori φ̂k assicurino una corretta calibrazione del vettore x k
nell’inferenza da sr a s. I valori φ̂k devono quindi riflettere la relazione
esistente tra l’insieme dei rispondenti sr e il campione teorico s.
Per una data scelta dei vettori [ α ] x k e [ α ] z k , i punti (i) ed (ii) precedenti
portano a definire le condizioni φˆ k
∑ [ α]x k d k
φˆ k =
k ∈s r
= 1 + [ α ] λ ′ zk e
∑ [ α] x k d k
,
k ∈s
da cui discende
⎛
φˆk = [α]γ k = 1 + ⎜ ∑dk
⎜ k∈s
⎝
′
⎞
⎟
[α]xk − ∑dk [α]xk
⎟
k∈sr
⎠
⎛
⎜ d
k
⎜ k∑
s
∈
⎝ r
⎞
⎟
[α]zk [α]x′k
⎟
⎠
−1
[α]zk .
Dato i vettori [ α ] x k e [ α ] z k , l’indicatore proposto da Sarndäl e Lundström
(2005, pag. 118) è il seguente
[ α ] IND1 =
1
∑ dk
k ∈s r
∑ d k ([ α] γ k − [ α] γ ) 2 ,
k ∈s r
in cui
[α ]
γ=
1
∑ dk
k∈sr
∑
k∈sr
[α ]
γ k dk .
Più il valore dell’indicatore sale, più il vettore
[α] x
mostra una buona
capacità di predire i valori incogniti 1 / θ k . La razionalità di questa
affermazione risiede nel fatto che più varia
[ α ] IND1 ,
più le variabili
ausiliarie prescelte riflettono le differenze individuali dei parametri di
influenza delle singole unità e quindi lo stimatore lo stimatore di calibrazione
corrispondente dovrebbe essere ben protetto dalla distorsione.
Naturalmente, nelle situazioni concrete, l’indicatore
[ α ] IND1
può essere
fatto crescere in modo artificialmente alto. Una buona regola operativa è
quella di seguire quanto esposto nel par. 4.3.6.1, limitandosi quindi ad
esaminare solo quei vettori [ α ] x che rispondano a criteri di parsimonia.
161
CAPITOLO 4
Indicatore per il principio 2
L’indicatore proposto si basa sul principio del coefficiente di determinazione.
IND 2 y = 1 −
[α ]
∑d
k
[α ]
k∈sr
∑d
k∈sr
k
γ k ( y k − α yˆ k ) 2
[α ]
[ ]
γ k ( y k − α Yˆ ) 2
[ ]
essendo
⎛
ˆ k = [ α ]x ′k ⎜ ∑ d k [ α ] γ k
[ α] y
⎜ k ∈s
⎝ r
∑ d k [α] γ k yk
k ∈s r
ˆ
.
[ α]Y =
∑ d k [α] γ k
⎞
⎟
[ α ] z k [ α ] x ′k
⎟
⎠
−1
∑ dk
k ∈s r
[ α] γ k [ α] z k
yk
k ∈s r
L’indicatore varia nell’intervallo [0,1]. Più è vicino ad 1 migliore è la capacità
delle variabili ausiliarie [ α ] x di spiegare la specifica variabile di interesse y.
Esso può avere un valore comparativamente alto per alcune variabili di
interesse ma non per le altre. L’utilizzo di questo indicatore implica quindi
l’individuazione del sottoinsieme delle variabili di interesse ritenute più
importanti (su cui calcolare l’indicatore) e la definizione di un ordinamento
delle variabili suddette che rifletta l’importanza delle variabili rispetto agli
obiettivi conoscitivi della specifica indagine.
Regola operativa per il principio 3
Il principio 3 si sostanzia nel fatto che il vettore delle variabili ausiliarie
dovrebbe includere le variabili indicatrici di appartenenza ai domini
dell’indagine.
Per il principio di parsimonia dovrebbero essere considerati solo quei domini
relativamente ai quali si sono osservate almeno 30 unità nel campione dei
rispondenti.
Regola operativa per il principio 4
Le regole operative per il principio 4 sono state illustrate nel par. 4.3.2.1.
dedicato alla costruzione delle celle di ponderazione. Una volta che le celle
di ponderazione siano state costruite con una del tecniche, illustrate nel
paragrafo in parola, il vettore x k dovrebbe includere le variabili indicatrici di
appartenenza alle celle suddette.
162
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
4.4
Brevi cenni all’esperienza delle indagini condotte nell’ambito
della statistica ufficiale
4.4.1 Premessa
Il trattamento delle MR nelle indagini condotte nell’ambito della statistica ufficiale costituisce un quadro in forte evoluzione, con una notevole eterogeneità di soluzioni.
Un primo fattore che spiega tale eterogeneità è costituito dai differenti contesti di indagine (famiglie ed imprese) e dalle informazioni ausiliarie disponibili
che richiedono soluzioni differenti.
Un secondo fattore è costituito dalle storia delle singole indagini; sicuramente le indagini progettate più recentemente incorporano nel processo di stima
un trattamento delle MR più raffinato di quello delle indagini che storicamente sono state progettate prima.
Dal punto di vista della scelta dei metodi si usano, in generale, gli stimatori
con classi di ponderazione stabilite a priori oppure gli stimatori di ponderazione vincolata. Gli stimatori che usano una modellizzazione esplicita delle
MR mediante modelli logit o probit sono stati analizzati soprattutto in lavori di
ricerca e trovano scarsa applicazione nella pratica delle indagini. Sono,
comunque, da sottolineare i seguenti aspetti:
• le ricerche svolte hanno evidenziato che, per quanto riguarda la
riduzione della distorsione, a parità di variabili ausiliarie utilizzate gli
stimatori basati sui modelli logit o probit conducono a risultati molto simili
a quelli assicurati dagli stimatori di ponderazione vincolata, richiedendo,
peraltro, un lavoro metodologico notevolmente più complesso;
• gli stimatori di ponderazione vincolata sono in genere caratterizzati da
una variabilità minore di quella di altri stimatori;
• i modelli di tipo logit risultano peraltro molto utili, per la definizione delle
variabili ausiliarie di cui tenere conto nella fase di correzione delle MR
per quanto attiene (i) la selezione delle variabili esplicative; (ii)
l’eventuale suddivisione in classi delle stesse.
Come conseguenza dei punti sopra citati, nella pratica delle indagini ISTAT
si adotta in genere una metodologia per il trattamento delle MR totali
articolata nei seguenti passi:
• mediante modelli logit si studia il legame esistente tra le variabili
ausiliarie disponibili e il fenomeno della mancata risposta totale al fine di
individuare le variabili maggiormente esplicative del fenomeno;
• si utilizzano le variabili individuate al passo precedente per la
costruzione dello stimatore di ponderazione vincolata.
4.4.2 Indagini sulle famiglie
Le indagini sulle famiglie hanno una lunga tradizione nella storia dell’Istituto.
Le principali indagini di questo tipo vengono condotte mediante intervista
diretta e il fenomeno delle MR risulta piuttosto limitato, con tassi di mancata
risposta compresi tra il 15% e il 5%.
163
CAPITOLO 4
L’indagine più antica è quelle sulle forze di lavoro. In tale indagine si è
utilizzato fino a gennaio 1999 una forma di stimatore post-stratificato in cui
(Falorsi e Falorsi, 1994):
• le classi di ponderazione sono definite a priori suddividendo la
popolazione per regione, sesso e classi di età quinquennali;
• ciascun componente di una data famiglia rispondente ha un correttore
differente a seconda del sesso e della classe di età;
• i totali Nh sono determinati sulla base delle statistiche di fonte anagrafica.
A partire da aprile 1999, lo stimatore appena descritto è stato modificato per
ottenere stime coerenti per famiglie ed individui; a tal fine si è introdotto uno
stimatore di ponderazione vincolata con le medesime classi di ponderazione
dello stimatore post-stratificato, in cui però (i) viene definito un medesimo
correttore per tutti i componenti di ciascuna famiglia intervistata e (ii) si tiene
conto di alcuni totali noti (su sesso e classi di età) definiti a livello provinciale.
Nell’indagine Multiscopo - aspetti della vita quotidiana, che ha una tradizione
più recente, le stime oggetto d’indagine sono calcolate con uno stimatore di
ponderazione vincolata in cui (Russo et al. 1993):
• i totali noti sono di fonte anagrafica e sono costituiti da: (i) i totali della
popolazione per sesso e classi di età; (ii) i totali della popolazione per
sesso secondo la tipologia di comune (comuni metropolitani, altri comuni
suddivisi in classi dimensionali in base alla popolazione residente);
• tutti i componenti di una famiglia presentano il medesimo peso finale
(potendo così ottenere senza problemi stime per individui e per
famiglie).
La rilevazione sui Consumi delle Famiglie, recentemente ristrutturata, prevede la sostituzione delle famiglie non rispondenti e utilizza uno stimatore di
ponderazione vincolata in cui come totali di riferimento si utilizza la distribuzione regionale per sesso e classi di età di fonte anagrafica.
Negli ultimi anni sono state condotte, nell’ambito dell’indagine Multiscopo,
alcune rilevazioni di tipo telefonico. In particolare tali indagini sono: l’indagine telefonica sulla sicurezza del cittadino condotta nel 1997 e l’indagine telefonica sulla domanda turistica in Italia condotta correntemente dall’ISTAT
con cadenza trimestrale. Per la prima delle indagini sopra menzionate, in cui
veniva selezionato un componente casuale all’interno di ciascuna famiglia
campione, si è utilizzato un complesso meccanismo di sostituzione all’interno della famiglia, basato su una operazione di continuo monitoraggio che
teneva sotto controllo le dimensioni campionarie per definite sottopopolazioni di individui che in tali indagini risultano in genere affette da sottocopertura (Falorsi et al., 1999); invece per la sostituzione delle famiglie in entrambe le indagini si sono adottati criteri di sostituzione legati alla vicinanza geografica delle unità. In entrambe le indagini, le stime campionarie sono ottenute con uno stimatore analogo a quello utilizzato nell’indagine Multiscopo aspetti della vita quotidiana, che assicura inoltre che la distribuzione delle
famiglie per numero di componenti coincida con quella stimata con l’indagine
annuale della Multiscopo; questo vincolo viene introdotto perché nelle
164
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
indagini telefoniche risultano notevolmente sottorappresentate le famiglie
con pochi componenti.
4.4.3 Indagini sulle imprese
Dall’inizio degli anni 90 l’Istituto ha iniziato a condurre le indagini sulle
imprese utilizzando disegni di campionamento rigorosamente probabilistici.
Ciò è stato reso possibile anche dalla disponibilità, dopo l’effettuazione del
Censimento Intermedio delle Industria e Servizi, della prima versione
dell’Archivio Statistico delle Imprese Attive (ASIA), che viene aggiornato
annualmente mediante l’integrazione e l’armonizzazione di diversi archivi
amministrativi3. Tale archivio viene utilizzato come lista per l’estrazione dei
campioni di tutte le indagini condotte dall’Istituto e fornisce inoltre informazioni ausiliarie utili alla costruzione delle stime e alla correzione delle MR.
Le indagini sulle imprese, che si basano di solito su una tecnica di
rilevazione postale, soffrono di elevati tassi di mancata risposta, alcune volte
superiori al 50%. Nel passato le indagini prevedevano solamente solleciti
postali (da uno a tre solleciti secondo l’indagine) effettuati a “pioggia” su tutte
le imprese del campione; negli ultimi anni, tuttavia, si è cercato di elevare i
tassi di risposta prevedendo, per alcune indagini, differenti tecniche di
rilevazione (solleciti telefonici, rilevatori sul campo ed anche uso di
informazioni di fonte amministrativa) dedicate all’acquisizione di informazioni
sui soli non rispondenti; è molto importante a tale proposito l’esperienza
condotta nelle indagini Short-Form e Long-Form del Censimento Intermedio
(cfr. Ballin, Pallara et al., 2000)
Per la correzione delle MR si usa lo stimatore di ponderazione vincolata
facendo uso di:
• variabili disponibili sulla versione dell’archivio ASIA da cui è stato
selezionato il campione; in genere si usano variabili di tipo (i) economico
(si adottano, a seconda dell’indagine, diversi livelli della classificazione
dell’attività economica secondo la classificazione NACE); (ii)
dimensionale (di solito definita in termini di addetti); (iii) geografico (la
regione o la ripartizione della sede d’impresa);
• variabili che descrivono la tecnica di rilevazione utilizzata per la singola
unità (ad esempio si utilizza una variabile indicatrice, che indica se
l’unità è stata interessata o meno al sollecito telefonico).
Le stime finali sono infine prodotte calcolando un fattore di post-stratificazione, in grado di correggere anche per la sottocopertura, utilizzando le
informazioni disponibili sulla versione più aggiornata di ASIA. A tal fine viene
utilizzato uno stimatore di ponderazione vincolata del tipo (11), dove il peso
diretto viene sostituito con quello corretto per il fattore di mancata risposta
precedentemente calcolato.
3 L’adozione di un unico archivio ha permesso tra l’altro una maggior coerenza tra le
definizioni di universo adottate tra le diverse indagini, limitando in questo modo l’inclusione delle
stesse imprese in universi che per definizione dovevano risultare disgiunti.
165
CAPITOLO 4
Sono da citare infine gli investimenti che l’ISTAT sta effettuando per minimizzare la pressione statistica sulle imprese e che, sulla base delle esperienze
effettuate da altri Istituti Nazionali di Statistica, avranno certamente una
ricaduta positiva sul tasso di partecipazione alle indagini. A tal fine l’Istituto
ha avviato alcuni progetti strategici per l’uso dei dati amministrativi, mirati ad
integrare (o sostituire) le informazioni raccolte con alcune indagini, e per la
limitazione della sovrapposizione dei campioni relativi alle diverse indagini
(Ballin, Casciano e Righi, 2000)4. Tra i progetti per l’uso di dati amministrativi
hanno particolare rilevanza quello relativo all’uso di dati INPS per la
produzione di statistiche correnti su occupazione e retribuzioni (Falorsi et al.,
2000) e quello relativo all’uso dei dati di bilancio sulle società di capitale per
l’integrazione delle informazioni raccolte mediante le indagini sui conti
economici delle imprese.
4.4.4 Indagini sulle aziende agricole
In questo paragrafo si illustra con un certo dettaglio il caso dell’indagine sulla
Struttura e Produzione delle Aziende agricole (SPA), in cui le MR vengono
ben documentate e trattate con un notevole grado di approfondimento.
Per ridurre gli errori dovuti alla mancata risposta (totale e parziale) da parte
dei rispondenti dell’indagine SPA, in fase di progettazione dell’indagine vengono esaminate assieme ai responsabili degli uffici di statistica e degli assessorati all’agricoltura coinvolti nella rilevazione, le problematiche che caratterizzano normalmente una rilevazione di questo tipo e le misure necessarie (specifica formazione dei rilevatori e sensibilizzazione nei riguardi dei
conduttori di azienda agricola) per aumentare il grado di collaborazione dei
rispondenti. Inoltre, prima dell’avvio della rilevazione i conduttori dell’azienda
agricola vengono informati dell’indagine mediante l’invio di una lettera di
preavviso. Allo scopo di migliorare la qualità del dato raccolto la collaborazione tra Regioni, Province autonome ed ISTAT inizia fin dalla fase di definizione dei contenuti, di scelte delle metodologie connesse alla rappresentatività dei risultati, e prosegue con lo sviluppo del questionario d’azienda e la
stesura del libretto di istruzione.
Nel corso della rilevazione, a garanzia della qualità dei dati, viene usualmente fornito un costante ed adeguato supporto di assistenza alla rete di
rilevazione durante tutta la fase di raccolta e revisione dei dati; risolvendo
molti casi di non corretta interpretazione dei quesiti e stimolando alla collaborazione anche coloro che presentano scarso interesse per l’indagine
(fornendo chiarimenti sulla utilità dell’indagine per la collettività e per il privato, nonché sul ruolo dell’azienda agricola per l’economia locale). Inoltre,
per agevolare i contatti con le aziende campione viene inviato a ciascuna regione prima dell’avvio delle operazioni di rilevazione, l’esito delle principali
4 Le indagini sulla quale è avvenuta l’estrazione del campione con tecniche di selezione
coordinata sono: “Struttura del costo del lavoro”, “Prodcom”, “Prodcom settore tessile”,
“Prodcom settore chimico” “Indagine sui conti economici delle piccole e medie imprese”.
166
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
indagini svolte dall’ISTAT (ad esempio nel caso dell’indagine sulla struttura
vengono rinviati i principali risultati della precedente indagine) e gli aggiornamenti anagrafici registrati sulle aziende del campione selezionato.
Per descrivere le problematiche relative al processo di mancata risposta è
opportuno fare riferimento alla figura successiva.
In questo vengono definite le unità risolte, ovvero di unità per le quale è
stato possibile accertare l’eleggibilità nel campo di osservazione dell’indagine, in quest’indagine. Poiché tale l’accertamento può avvenire solo attraverso l’aggiornamento di alcune variabili effettuato nel corso dell’intervista ne
consegue che vi è una corrispondenza biunivoca tra il concetto di unità
risolta e quello di unità rispondente, e tra i concetti di unità non risolta e unità
non rispondente. Poiché non è disponibile alcun aggiornamento sulla struttura della popolazione successiva al 2000, l’indagine può essere rappresentata come una rilevazione in due fasi.
Lo scopo della prima fase è quello di stimare la dimensione e la struttura
dell’universo mentre lo scopo della seconda fase è stimare i parametri d’interesse con riferimento alla popolazione stimata nella prima fase. Conseguentemente, le unità che dichiarano di aver cessato la propria attività,
avendo fornito tutta l’informazione utile ad un loro impiego nella successiva
fase di elaborazione vengono classificate come unità rispondenti. Nella
seconda fase dell’indagine, tali unità vengono successivamente classificate
come unità non eleggibili. All’interno di ciascuna cella del grafo sono riportati
la dizione e i codici dei quesiti 2 e 3 (p. 2 del questionario) con cui viene
classificata ciascuna unità del campione. Fa eccezione la cella (C.4) delle
unità non risolte per altro motivo. Queste sono generalmente unità per le
quali non è disponibile alcuna informazione registrata su supporto digitale o
per le quali non vi è stato nemmeno un tentativo di intervista da parte del
rilevatore.
Negli schemi 6 e 7 sono riportati per ciascuna regione e a livello nazionale i
seguenti indicatori e l’analisi della loro composizione:
• tasso di risposta nella prima fase dell’indagine: (B)/(A), nella figura 5
• tasso di mancata risposta nella prima fase dell’indagine: (C)/(A)
• tasso di eleggibilità alla seconda fase dell’indagine: (D)/B)
• tasso di non eleggibilità alla seconda fase dell’indagine: (E)/(B).
Per correggere gli effetti distorsivi sulle stime del fenomeno della mancata
risposta totale – complessivamente misurata dall’indicatore (C)/(A) – i pesi
campionari sono stati corretti con l’inverso del tasso di risposta in ciascuno
strato.
Nello schema n. 8 utilizzando alcune variabili presenti nella lista di selezione,
pertanto disponibili sia per i rispondenti che per i non rispondenti, è riportato
il confronto tra le stime ottenute nell’ipotesi che tutte le unità campionarie
avessero risposto e le stime degli stessi aggregati ottenute utilizzando i soli
rispondenti ed il peso campionario corretto secondo il criterio appena illustrato.
167
CAPITOLO 4
Figura n. 5 - Grafo per la classificazione delle unità campionarie
(A) :T otale Unità
(campione+nuove)
(B) Unità Risolte
(unità rispondenti)
(C) Unità Non Risolte
(non rispondenti)
(B.1):
unità non più esistenti
(C.1):
assenza del conduttore
-
(B.2):
unità attive
(C.2):
Rifiuto -
(B.3):
unità
temporaneamente
inattive
(C.3)
Indirizzo errato
(C.4): altri motivi
(nessun codice)
(D)
Unità attive
(unità eleggibili)
(D.1)
Unità attive anche
al censimento
(D.2)
Nuove aziende
(D.3)
Unità
temporaneamente
inattive
168
(E)
Unità Non esistenti
(unità non eleggibili)
(E.1)
T erreni destinati ad usi
non agricoli
(E.4)
Assorbita
(E.2)
T erreni abbandonati
(E.5)
Fusa
(E.3)
Cessata attività
zootecnica
(E.6)
Smembrata
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
Schema n. 6 - Tasso di risposta e sua composizione (prima fase)
Regioni e
Totale
Province
unità
autonome
(A)
Totale
Unità
nuove
(A1)
Totale
unità
rispondenti
(B)
Tas-
Composizione
so di
del tasso di risposta
risposta di
prima
fase:
(B)/
Non più
Attive
esistenti
(B.2)/
(B.1)/(B)
(B)
Temporaneamente
inattive
(B.3)/(B)
(A)
Italia
55030
537
51188
0,94
0,12
0,88
0,00
Piemonte
3700
21
3460
0,91
0,09
0,91
0,00
0,01
V. d’Aosta
430
2
393
0,99
0,08
0,91
Lombardia
5300
79
5247
0,94
0,02
0,97
0,01
Bolzano
700
3
655
0,97
0,05
0,95
0,00
Trento
700
0
681
0,97
0,07
0,91
0,02
Veneto
4000
47
3897
0,94
0,13
0,85
0,02
Friuli V.G.
1300
6
1218
0,92
0,13
0,86
0,01
Liguria
1350
3
1245
0,99
0,10
0,90
0,00
Emilia R.
3250
26
3221
0,95
0,09
0,88
0,02
Toscana
3000
55
2845
0,98
0,05
0,94
0,01
Umbria
1500
13
1468
0,99
0,05
0,92
0,02
Marche
1350
10
1337
0,88
0,07
0,92
0,01
Lazio
3850
0
3385
0,99
0,06
0,94
0,01
Abruzzo
1350
9
1330
0,99
0,08
0,92
0,00
Molise
1250
8
1237
0,92
0,09
0,88
0,02
Campania
3300
37
3052
0,88
0,03
0,96
0,00
Puglia
6700
72
5902
0,91
0,04
0,96
0,01
Basilicata
1100
15
1000
0,90
0,04
0,94
0,02
Calabria
3000
19
2689
0,83
0,05
0,94
0,01
Sicilia
5150
71
4281
0,96
0,06
0,92
0,01
Sardegna
2750
41
2645
0,94
0,12
0,88
0,00
Schema n. 7 - Tasso di mancata risposta e sua composizione (prima fase)
Regioni e
Province
autonome
Italia
Piemonte
Totale unità
non
rispondenti
(C)
Tasso di
Composizione del tasso
mancata
di mancata risposta
risposta di
prima fase:
(C)/(A)
Assenza
Rifiuto
(C.1)/(C)
(C.2)/(C)
indirizzo
errato
(C.3)/(C)
4379
261
0,08
0,07
0,41
0,56
0,16
0,17
0,24
0,11
V. d’Aosta
39
0,09
0,41
0,41
0,15
Lombardia
132
0,02
0,34
0,35
0,17
segue schema
169
CAPITOLO 4
Schema n. 7 segue
Totale unità
Regioni e
non
Province
rispondenti
autonome
(C)
Tasso di
Composizione del tasso
mancata
di mancata risposta
risposta di
prima fase:
(C)/(A)
0,07
0,03
indirizzo
Assenza
Rifiuto
(C.1)/(C)
(C.2)/(C)
0,77
0,63
0,21
0,32
errato
(C.3)/(C)
Bolzano
Trento
48
19
0,00
0,05
Veneto
150
0,04
0,45
0,38
0,15
Friuli V.G.
88
0,07
0,23
0,23
0,16
Liguria
108
0,08
0,09
0,05
0,14
Emilia R.
55
0,02
0,42
0,35
0,22
Toscana
210
0,07
0,54
0,09
0,36
Umbria
45
0,03
0,56
0,20
0,09
Marche
23
0,02
0,65
0,22
0,09
Lazio
465
0,12
0,31
0,14
0,27
Abruzzo
29
0,02
0,69
0,10
0,07
Molise
21
0,02
0,43
0,00
0,00
Campania
285
0,09
0,22
0,15
0,27
Puglia
870
0,13
0,36
0,18
0,25
Basilicata
115
0,10
0,14
0,01
0,06
Calabria
330
0,11
0,55
0,14
0,26
Sicilia
940
0,18
0,50
0,07
0,33
Sardegna
146
0,05
0,33
0,38
0,25
Schema n. 8 - Effetto della correzione dei pesi per l’attenuazione dell’effetto della
mancata risposta totale. Confronto tra stime effettuate con tutto il campione e stime
effettuate con i soli rispondenti
Regioni e
Province
autonome
Italia
Superficie agricola
Unità di dimensione
utilizzata (SAU)
economica (UDE)
(000 ha)
(000)
Campione
Solo
Campione
Solo
Unità di Bovino Adulto
(UBA) (000)
Campione
Manodopera
extrafamiliare
(ULA)
Solo
Campione
Solo
Completo rispondenti Completo rispondenti Completo rispondenti Completo rispondenti
13.216
13.479
19.611
20.031
11.654
11.772
219.059
223.250
1.062
1.098
1.354
1.381
1.193
1.215
4.555
4.224
V. d’Aosta
74
76
29
29
33
33
327
345
Lombardia
1.059
1.066
2.474
2.495
2.870
2.887
14.920
15.016
3.250
Piemonte
Bolzano
262
263
383
381
140
140
3.238
Trento
140
138
281
282
62
62
2.050
2.017
Veneto
858
856
1.805
1.811
1.783
1.777
10.903
10.888
Friuli V.G.
238
248
432
451
284
289
2.753
3.057
61
67
280
328
24
26
1.453
1.709
Liguria
segue schema
170
IL TRATTAMENTO DELLE MANCATE RISPOSTE TOTALI
Schema n. 8 segue
Superficie agricola
Unità di dimensione
Regioni e
utilizzata (SAU)
economica (UDE)
Province
(000 ha)
(000)
autonome Campione
Solo
Campione
Solo
Unità di Bovino Adulto
(UBA) (000)
Campione
Manodopera
extrafamiliare
(ULA)
Solo
Campione
Solo
Completo rispondenti Completo rispondenti Completo rispondenti Completo rispondenti
Emilia R,
1.100
1.104
2.258
2.266
1.413
1.420
17.093
17.187
Toscana
885
874
1.061
1.055
308
297
15.588
15.742
Umbria
358
359
329
326
263
206
5.304
5.373
Marche
478
479
490
491
265
264
3.245
3.266
Lazio
700
714
935
981
424
437
7.054
7.264
Abruzzo
422
428
455
461
203
204
3.228
3.261
Molise
211
212
189
190
142
143
1.452
1.453
Campania
583
602
1.343
1.395
549
585
19.522
19.874
42.809
Puglia
1.317
1.384
2.003
2.111
249
280
40.272
Basilicata
548
608
424
461
154
173
5.145
5.371
Calabria
560
571
855
859
192
198
23.451
23.495
Sicilia
1.270
1.303
1.541
1.580
408
430
31.174
31.153
Sardegna
1.031
1.029
692
698
696
704
6334
6.496
171
RIFERIMENTI BIBLIOGRAFICI
RIFERIMENTI BIBLIOGRAFICI
BALLIN M., FALORSI P.D., RUSSO A. (2000), “Condizioni di coerenza e metodi
di stima per le indagini campionarie sulle imprese”, Rivista di Statistica
Ufficiale, n. 2/2000, ISTAT, pp. 31-52
BALLIN M., CASCIANO M.C. E RIGHI P. (2000), “Nota metodologica per
l’indagine sui conti economici delle piccole e medie imprese 1998”,
Documento interno ISTAT
BALLIN M., PALLARA A., SCEPI G. E SUCCI R. (2000), “Alcuni risultati sulla
qualità dell’archivio ASIA ottenuti dall’indagine Short Form del
censimento dell’industria e dei servizi”, Atti del convegno SIS, Verso i
censimenti del 2000, Udine 2-4 giugno 1999
BALLIN M., BRANCATO G., FALORSI P.D., CAPPONI T., RUBINO A. E VICARI P.
(2000), Le strategie adottate per la prevenzione ed il trattamento delle
mancate risposte totali nell’indagine Long Form, Atti delle giornate di
studio ISTAT-SIEDS, La qualità dell’informazione statistica, Roma, 6-7
aprile 2000
BANKIER M.D. (1988), “Power Allocation: Determining Sample Sizes for
Subnational Areas”, The American Statistician, 42. pp.174-177
BINDER D.A. E THEBERGE A. (1988), Estimating the variance of raking-ratio
estimators, The Canadian Journal of Statistics, 16, pp.47-55
BETHEL, J. (1989), “Sample Allocation in Multivariate Survey”, Survey
Methodology, 15, pp.47-57
BREIMAN L., FRIEDMAN J.H., OLSHEN R.A. E STONE C.J. (1984), Classification
and Regression Trees, Wadsworth International, Belmont, CA
BREWER K.R.V., HANIF M. (1983), Sampling with Unequal Probabilities,
Springer-Verlag, New-York
CHANG T. E KOTT P.S. (2006), “Using calibration weighting to adjust for
nonresponse or coverage errors under a plausible model”, Technical
report, available at Http://www.nass.usda.gov/research/reports/cal_
paper8.pdf
CHATTERJEE S. (1972), “A study of optimum in multivariate multipurpose
surveys”, Skand. Akt. 55, 73-80
COCHRAN W.G. (1977), Sampling Techniques, J. Wiley, New York
173
RIFERIMENTI BIBLIOGRAFICI
CHROMY J. (1987), “Design Optimisation with Multiple Objectives”,
Proceedings of the Survey Research Methods Section, American
Statistical Association, pp.194-199
DAVIES P., SMITH P. (2001), Model Quality Report in Business Statistics, vol.
1. Theory and Methods for Quality evaluation, EUROSTAT
DAYAL S. (1985), “Allocation of Sample Using Values of Auxiliary
Characteristics”, Journal of Statistics Planning and Inference, 11,
pp.321-328
DALENIUS T. (1983), “Some reflections on the problem of missing data”, in
Madow W.G. e Olkin I. (eds.), Incomplete Data in Sample Surveys, vol.
3, pp. 411-413, Academic Press, New York
DE VITIIS C., FALORSI P.D., FALORSI S. E RUSSO A. (2000), “Aggiustamenti per
mancate risposte: un confronto di alcuni metodi, Società Italiana di
Statistica”, XL Riunione Scientifica, Firenze 26-28 aprile 2000, pp. 447450
DEVILLE J.C., SÄRNDAL C.E. (1992), “Calibration Estimators in Survey
Sampling”, Journal of the American Statistical Association, vol. 87, pp.
367-382
DE VRIES W., KELLER W. E WILLEBOORDSE A. (1996), “Reducing the response
burden: some developments in the Netherlands”, International Statistical
Review, 64, 2, pp.199-213
ELTINGE J.E. E YANSANEH I.S. (1997), “Diagnostics for formation of
nonresponse adjustment cells, with an application to income
nonresponse in the U.S. consumer expenditure survey”, Survey
Methodology, 23, 1, pp.33-40
ESTEVAO V., HIDIROGLOU M.A. E SARNDAL C.E. (1995), “Methodological
Principles for a Generalized Estimation System at Statistics Canada”,
Journal of Official Statistics, 11, (2), pp.181-204
EUROSTAT (1995), “Longitudinal weighting”, Doc.PAN 51/95, working group
European community household panel
FALORSI P.D., FALORSI S. E RUSSO A. (1992), “La mancata risposta totale nei
campioni complessi: un applicazione all’indagine campionaria sui
consumi sulle famiglie”, Rapporto di ricerca n. 23 CON.PRI.,
Dipartimento di Scienze Statistiche “Paolo Fortunati”, Università degli
Studi di Bologna
FALORSI S. E FALORSI P.D. (1994), “Indagine sulle forze di lavoro: descrizione
della procedura di stima attualmente utilizzata ed analisi di metodi di
stima alternativi”, Quaderni di Ricerca, ISTAT, n. 4/1994
FALORSI P.D., FALORSI S. (1998), “The Italian generalized estimation
package: some experimental results for estimation on households
surveys with different non response mechanism”, Quaderni di Ricerca,
ISTAT, n. 4, pp.63-94
FALORSI P.D, BALLIN M. E SCEPI G. (1998), “Un software Generalizzato per le
indagini sulle imprese”, Statistica Applicata, 2
174
RIFERIMENTI BIBLIOGRAFICI
FALORSI S. E RINALDELLI C. (1999), “Un software generalizzato per il calcolo
delle stime e d egli errori di campionamento”, Statistica Applicata, Italian
Journal of Applied Statistics, 10, (2), pp. 217-234
FALORSI S., PAGLIUCA D., SCEPI G. (1999), Generalised Software for
Sampling Errors – GSSE”, Proceedings of the Seminar on Exchange of
Technology and Know-How (ETK 99), held in Prague, Czech Republic
on the 13-15 October 1999, pp. 169-175
FALORSI P.D., FALORSI S., PALLARA A. E RUSSO A. (2000), “Un metodo di
stima per piccole sottopopolazioni di imprese basato sull’uso di archivi
amministrativi”, Atti del convegno SIS, Verso i censimenti del 2000,
Udine 2-4 giugno 1999
GAMBINO J.G., SINGH M.P., DUFOUR J., KENNEDY B. E LINDEYER J. (1998),
“Methodology of the Canadian Labour Force Survey”. Statistics Canada,
Occasional paper no. 71-526-XPB
GIOMMI A. (1987), “Nonparametric methods for estimating individual
response probabilities”, Survey Methodology, 13, pp. 127-134
GODFREY J., ROSHWALB A. E WRIGHT R. (1984), “Model Based Stratification in
Inventory Cost Estimation”, Journal of Business and Economic Statistics,
2, pp.1-9
HANSEN M. H., HURWITZ W. N., MADOW W.G. (1953), Sample Survey
Methods and Theory, vol. 2, Wiley J., New York
HIDIROGLOU M.A., LATOUCHE M., AMSTRONG B. E GOSSEN M. (1995),
“Improving Survey Information Using Administrative Records: The Case
of the Canadian Employment Survey”, Annual Research Conference,
U.S. Department of Commerce
HIDIROGLOU M.A., DREW J.D. E GRAY B.G. (1993), “A framework for
measuring and reducing nonresponse in surveys”, Survey Methodology,
19, 1, pp.81-94
HORVITZ D.G., THOMPSON D.J. (1952), “A Generalization of Sampling without
Replacement from Finite Universe”, Journal of the American Statistical
Association, vol. 47, pp. 663-685
ISAKI C.T., FULLER W.A. (1982), “Survey Design under Regression
Superpopulation Model”, Journal of American Statistical Association, 66,
411-414. ,77, pp.89-96
KALTON G., KASPRYZK D. (1986), “The treatment of missing survey data”,
Survey Methodology, 12, pp.1-17
KALTON G., MALIGALIG D.S. (1991), “A comparison of methods of weighting
adjustment for nonresponse”, Proceedings of the Section on Survey
Research methods, American Statistical Association, pp. 409 428
KISH L. (1965), Survey Sampling, Wiley J., New York
KISH L. (1992), “Weighting for unequal Pi”, Journal of Official Statistics, 8, (2),
pp. 183-200
KOTT P.S. (1990), “Estimating the Conditional Variance of a Design
Consistent Regression Estimator”, Journal of Statistical Planning and
Inference, 24, 287-289
175
RIFERIMENTI BIBLIOGRAFICI
LITTLE R.J.A. (1986), “Survey nonresponse adjustment for estimates of
means”, International Statistical Review, 54, pp. 139-157
LITTLE R.J.A. E RUBIN D.B. (1987), “Statistical Analysis with Missing Data”,
John Wiley & Sons, Inc, New York
MADOW W.G., OLKIN I. E RUBIN D.B. (1983), Incomplete Data in Sample
Surveys. (voll. 1-3), Academic Press, New York
MERGERSON J.W. (1988), “Allocations requiring 100% Sampling in Some
Strata”, NASS Staff Report Number number SSB-88-10, Washington,
DC, National Agricultural Statistical Service
MONTANARI G.E. E RANALLI M.G. (2005), “Nonparametric model calibration
estimation in survey sampling”, Journal of the American Statistical
Association, 100, 1429-1442
PAGLIUCA D. (2002), GENESEES v 1.0 (GENEralised software for Sampling
Errors Estimation in Surveys) Manuale Utente e aspetti metodologici,
ISTAT
NIYONSENGA T. (1994), “Nonparametric estimation of response probabilities
in sampling theory”, Survey Metodology, 20, 2, pp.177-184
RIZZO L., KALTON G. E BRICK M.J. (1996), “A comparison of some weighting
adjustment methods for panel nonresponse”, Survey Methodology, 22,
1, pp.43-53
SÄRNDAL C.E., SWENSSON B. AND WRETMAN J. (1989), The weighted residual
technique for estimating the variance of the general regression estimator
of the finite population total, Biometrika, vol. 76, n. 3, pp. 527-537
SÄRNDAL C.E., SWENSONN B., WRETMAN J. (1992), Model Assisted Survey
Sampling, Springer-Verlag New York
SÄRNDAL C.E., LUNDSTRÖM S. (2005), Estimation in Surveys with
Nonresponse, Springer-Verlag New York
STUART A.(1986), “A simple presentation of optimum sampling results”,
Journal of Royal Statistical Society, B16, 239-241
SIGMAN R.S., MONSOUR N. (1995), “Selecting Samples from List Frames of
Business, in Business Survey Methods, Wiley J., New York
SIGNORE M., BRANCATO G. E D’ANGIOLINI G. (1998), ”Building up the quality
profile of ISTAT surveys”, Proceedings of the Joint IASS/IAOS
Conference: “Statistics for Economic and Social Development,
Aguascalientes, Mexico
SINGH A.C., MOHL C.A. (1996), “Understanding CalibrationEstimators in
Survey Sampling”, Survey Methodology, vol. 22, n. 2, pp. 107-115
ROSENBAUM P.R. E RUBIN D.B. (1983), The central role of the propensity
score in observational studies for causal effect”, Biometrika, 70, pp. 4155
RUSSO A., FALORSI S. E FALORSI P.D. (1993), Strategia di campionamento e
attendibilità delle stime, in Indagine Multiscopo sulle Famiglie, Istituto
Nazionale di Statistica, vol. 1, pp. 33-66, Roma
VEHOVAR V. (1999), “Field substitution and unit nonresponse”, Journal of
Official Statistics, 15, (2), pp.335-350
176
RIFERIMENTI BIBLIOGRAFICI
VERMA V., SCOTT C. E O’MUIRCHEARTAIGH C. (1980), “Sample Designs and
Sampling Errors of the Word Fertility Survey”, Journal of the Royal
Statistical Society A, vol. 143, Part. 4, pp. 431-473
WOLTER K. M. (1985), Introduction to variance estimation. Springer-Verlag,
New York
WOODRUFF R.S. (1971), “A Simple Method for Approximating the Variance of
a Complicated Estimate”, Journal of the American Statistical
Association, vol. 66, n. 334, pp. 411-414
ZANNELLA F. (1983), “L’analisi delle sostituzioni nell’indagine ISTAT sulle
condizioni di salute della popolazione”, Atti del Convegno della Società
Italiana di Statistica, Trieste 21-23 aprile, 1983, pp. 581-604
177
Temi & Strumenti - Studi e ricerche
Isfol, Sviluppo locale. Prima analisi e compendium dei programmi nelle regioni dell’obiettivo 1, Roma, Isfol, 2004 (Temi&Strumenti. Studi e ricerche; 1)
Isfol, Mobilità e trasparenza delle competenze acquisite: l’esperienza Europass
Formazione in Italia, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 2)
Isfol, Il Fondo Sociale Europeo 2000-2006. Quadro Comunitario di sostegno Ob.
3. Valutazione intermedia. 1° e 2° Parte, Roma, Isfol, 2005 (Temi&Strumenti.
Studi e ricerche; 3)
Isfol, Percorsi di orientamento. Indagine nazionale sulle buone pratiche, Roma,
Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 4)
Isfol, Tra orientamento e auto-orientamento, tra formazione e auto-formazione, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 5)
Isfol, La qualità del lavoro, Roma, Isfol, 2005 (Temi&Strumenti. Studi e ricerche; 6)
Isfol, Passo alla Pratica. Una pratica Isfol di consulenza orientativa, Roma, Isfol,
2005 (Temi&Strumenti. Studi e ricerche; 7)
Isfol, Investire nella progettualità delle associazioni di promozione sociale.
Compendium progetti legge 383/2000 triennio 2002-2004, Roma, Isfol, 2006
(Temi&Strumenti. Studi e ricerche; 8)
Isfol, Pensare al futuro. Una pratica di orientamento in gruppo, Roma, Isfol, 2005
(Temi&Strumenti. Studi e ricerche; 9)
Isfol, Accogliere e integrare. Esperienze Equal in tema di immigrazione, Roma,
Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 10)
Isfol, Consulenza alla persona e counseling: ambiti di intervento, approcci, ruolo e competenze del counselor, Roma, Isfol, 2006 (Temi&Strumenti. Studi e
ricerche; 11)
Isfol, Istruzione e formazione professionale: verso la costruzione di nuovi scenari e nuove competenze per gli operatori del sistema, Roma, Isfol, 2006
(Temi&Strumenti. Studi e ricerche; 12)
Isfol, L’accompagnamento al successo formativo. Strategie e modelli operativi dei
centri per l’impiego, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 13)
Isfol, Bilanci pubblici ed equità di genere, Roma, Isfol, 2006 (Temi&Strumenti.
Studi e ricerche; 14)
Isfol, Atlante comparato sui Servizi per l’impiego nell’Unione europea ampliata, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 15)
Isfol, Bi.dicomp. Un percorso ISFOL di Bilancio di Competenze, Roma, Isfol, 2006
(Temi&Strumenti. Studi e ricerche; 16)
Isfol, Le dimensioni del coping e dell’attribuzione causale nell’orientamento: due
strumenti ISFOL, Roma, Isfol, 2006 (Temi&Strumenti. Studi e ricerche; 17)
Isfol, Verso il lavoro. Organizzazione e funzionamento dei servizi pubblici per
i cittadini e le imprese nel mercato del lavoro. Monitoraggio 2004, Roma,
Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 18)
Isfol, Standard delle competenze nell’Istruzione e Formazione Tecnica Superiore.
Percorsi metodologici e di sperimentazione, Roma, Isfol, 2007
(Temi&Strumenti. Studi e ricerche; 19)
Isfol, Esperienze di validazione dell’apprendimento non formale e informale in
Italia e in Europa, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 20)
Isfol, Il Libretto Formativo del Cittadino, Roma, Isfol, 2007 (Temi&Strumenti. Studi
e ricerche; 21)
Isfol, Valutare gli interventi per l’occupabilità: le misure di inserimento al lavoro, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 22)
Isfol, Orientare l’Orientamento, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 23)
Isfol, Dall’analisi della domanda alla valutazione della consulenza di orientamento: Val.ori, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 24)
Isfol, Dialoghi sull’orientamento. Dalle esperienze ai modelli, Roma, Isfol,
2007 (Temi&Strumenti. Studi e ricerche; 25)
Isfol, Fondo nazionale per il diritto al lavoro dei disabili. Monitoraggio 2004,
Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 26)
Isfol, Formazione, istruzione e lavoro. Valutazione delle politiche sostenute dal
Fondo sociale europeo 2000-2006 nell’Italia del Centro-Nord, Roma, Isfol,
2007 (Temi&Strumenti. Studi e ricerche; 27)
Isfol, Conciliazione vita/lavoro: un traguardo possibile. L’esperienza di Equal,
Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 28)
Isfol, Volontariato e pianificazione sociale di zona: la partecipazione. Indagine pilota sul volontariato, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 29)
Isfol, La mobilità costretta. La mobilità geografica dei giovani italiani: caratteristiche e prospettive delle Regioni del Mezzogiorno, Roma, Isfol, 2007
(Temi&Strumenti. Studi e ricerche; 30)
Isfol, Il ruolo delle città della governance multilivello delle politiche occupazionali, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 31)
Isfol, Terza Relazione al Parlamento sullo Stato di Attuazione della Legge
12/3/99 N.68, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 32)
Isfol, Il Label europeo uno strumento per la promozione e la valorizzazione dell’insegnamento e dell’apprendimento linguistico. L’esperienza in Italia nell’ambito della formazione professionale, Roma, Isfol, 2007 (Temi&Strumenti.
Studi e ricerche; 33)
Isfol, Nuove tecnologie e promozione sociale, Roma, Isfol, 2007 (Temi&Strumenti.
Studi e ricerche; 34)
Isfol, Sviluppo sostenibile e processi di partecipazione. Figure professionali per
la gestione dei conflitti socio-ambientali, Roma, Isfol, 2007 (Temi&Strumenti.
Studi e ricerche; 35)
Isfol, Nomenclatura e classificazione delle unità professionali, Roma, Isfol, 2007
(Temi&Strumenti. Studi e ricerche; 36)
Isfol, Dinamiche di intervento in un contesto open-learnig, Roma, Isfol, 2007
(Temi&Strumenti. Studi e ricerche; 37)
Isfol, Strategie di campionamento per il monitoraggio e la valutazione delle politiche, Roma, Isfol, 2007 (Temi&Strumenti. Studi e ricerche; 38)
Temi & Strumenti - Percorsi
Isfol, Orientarsi tra tempi di lavoro e tempi di vita, Roma, Isfol, 2006
(Temi&Strumenti. Percorsi; 1)
Isfol, A scuola mi oriento, Roma, Isfol, 2006 (Temi&Strumenti. Percorsi; 2)
Isfol, Funzioni, competenze e profili formativi, Roma, Isfol, 2006 (Temi&Strumenti.
Percorsi; 3)
Isfol, Associa si racconta, Roma, Isfol, 2007 (Temi&Strumenti. Percorsi; 4)
Isfol, Alla ricerca delle mie competenze. Una guida per orientarsi tra servizi e
pratiche di bilancio, Roma, Isfol, 2007 (Temi&Strumenti. Percorsi; 5)
Isfol, Prossima fermata: imparare a scegliere. Guida per orientarsi, Roma, Isfol,
2007 (Temi&Strumenti. Percorsi; 6)
Isfol, Le parole dell’orientamento: un puzzle da comporre, Roma, Isfol, 2007
(Temi&Strumenti. Percorsi; 7)
I.G.E.R. srl
viale C.T. Odescalchi, 67/A
00147 Roma
Finito di stampare dicembre 2007