Istituto di statistica e matematica - dipartimento studi aziendali e

A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Una seconda esperienza di stima diretta dei redditi familiari in aree comunali
meridionali. La provincia di Taranto
Claudio Quintano - Donato Lucev
I PARTE
INTRODUZIONE
Questa sezione ha per oggetto alcune spigolature su problemi e soluzioni di portata metodologica e
pratica circa la rilevazione diretta, cioè tramite intervista, dei redditi familiari nella provincia di
Taranto, in riferimento all’anno 1984.
L’indagine è frutto della collaborazione tra l’Istituto di Statistica e Matematica dell’Istituto
Universitario Navale, il Dipartimento di Matematica e Statistica dell’Università degli Studi di
Napoli ed il Centro Documentazione e Studi dell’Italsider di Taranto.
La ricerca segue un’altra, dello stesso genere, condotta nella provincia di Caserta1, in seguito
sinteticamente citata «esperienza Caserta», ambedue relative ad un filone investigativo in cui non
sono vigenti metodologie codificate, ma sono presenti processi di sperimentazione che giustificano
gli aggiustamenti da un’esperienza all’altra, tutte accomunate dalla presenza di vincoli di bilancio di
una portata tale da influire pesantemente sul disegno campionario, particolarmente su un carattere
essenziale qual è la numerosità dei casi rilevati.
La seconda «esperienza» di stima dei redditi su microaree, come la prima, è stata condotta su una
provincia del Mezzogiorno continentale.
Nella scelta della provincia di Taranto è venuto meno solo uno dei tre criteri applicati nella fase di
scelta dell’area di studio precedente: la prossimità alla sede di ricerca napoletana. Sono stati
confermati, invece, gli altri due che risultano più importanti:
a) la rilevanza dell’area per la posizione che occupa nella costellazione dei «localismi»
meridionali2;
b) la determinante esistenza di una struttura, in loco, che fosse capace di adempiere, ad un buon
livello di professionalità, alla fase delicata delle interviste3.
1
C. QUINTANO, «I redditi familiari nella provincia di Caserta», in G. MARBACH (a cura di), I redditi dei comuni
italiani nel 1981, Quaderni del Banco di Santo Spirito, 2° volume, UTET, Torino, 1983.
2
La scelta di Caserta fu operata escludendo le altre province campane: « La provincia di Napoli ha, infatti, una
dimensione demografica che la rende inidonea a stime campionarie riferibili al dettaglio comunale mediante indagini di
dimensioni non eccessive; le aree di Benevento, Avellino e Salerno, comprendono zone che si inerpicano sulle
montagne, presentano eterogeneità ragguardevoli nelle singole subaree e problemi operativi ed organizzativi, assenti,
invece, nel Casertano. La zona di Caserta, inoltre, si caratterizza per le modalità di evoluzione che individuano un
"modello di sviluppo" meritevole di osservazione anche per i risultati non soltanto economici: progressiva
autosufficienza della zona, con eliminazione della perdita migratoria e pace sociale. In definitiva, l’area è per alcuni
versi emblematica di un’eventuale e più generale analisi delle trasformazioni all’interno del Mezzogiorno... » cfr. C.
QUINTANO, I redditi familiari nella provincia di Caserta, cit., pp. 106 e 107. La rilevanza dell’area di Taranto è,
invece, di tipo diverso, legata, cioè, alla particolare struttura produttiva e demografica della provincia, influenzata dalla
presenza del colosso Italsider. Evidentemente è stato condotto uno studio preliminare dedicato alla rilevanza della «
esperienza Taranto » condensato in C. QUINTANO e L. ESPOSITO, « Lo sviluppo extragricolo ed il pendolarismo in
provincia di Taranto», in Rassegna Economica, n. 5, 1986
3
Il centro di Documentazione e Studi dell’Italsider - Taranto; nell’esperienza di Caserta, la Camera di Commercio.
1
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
TAGLIO URBANO E TERRITORIALE DELL’INDAGINE
Le due «esperienze» di stima diretta dei redditi, condotte su base comunale, investono, ciascuna,
due livelli di approccio diversi che influenzano le scelte metodologiche: il livello urbano e quello
territoriale.
La prospettiva urbana riguarda le città demograficamente importanti come i capoluoghi, la cui realtà
è da tagliuzzare in funzione di omogeneità del novero dei «quartieri» o di altre aree suburbane,
quanto più possibile diversificate sotto il profilo socioeconomico, per ridurre la numerosità
campionaria complessiva.
Il taglio territoriale della ricerca, invece, riguarda gli «altri comuni» per i quali si pongono problemi
di creazione di «clusters» di unità territoriali, funzione di omogeneità socioeconomica, ai quali
riferire un numero adeguatamente alto di interviste campionarie.
La prospettiva territoriale, quindi, investe una scelta metodologica cruciale che è quella di
rinunciare a campionamenti legati ad universi comunali; in quest’ultima ipotesi il costo, in termini
di numerosità campionaria, sarebbe altissimo in quanto sarebbe necessario assicurare una soglia
minima di interviste per i comuni di scarso peso demografico. La creazione di gruppi di comuni,
invece, consente di fruire di tassi di campionamento accettabili, per poi attribuire i relativi redditi
medi che, a parità di altre condizioni, possono essere considerati attendibili, al livello comunale
sottostante.
Tale scelta metodologica implica che il risparmio di numerosità campionaria si paghi oltre che in
termini di assenza di corrispondenza diretta tra campioni ed universi su base comunale, anche in
termini di appiattimento dei redditi medi familiari comunali all’interno dei gruppi di comuni
omogenei. L’intensità di questo danno, attribuibile alle limitate risorse finanziarie, può essere
attutita, però, grazie ad un’adeguata procedura di clusterizzazione, cioè di stratificazione ai fini
campionari, atta a ridurre al massimo le eterogeneità interne ai gruppi di comuni.
Tenuto conto, da una parte, della distinzione tra i due livelli, urbano e territoriale, e, dall’altra, delle
finalità di avere stime a livello comunale, vale quanto segue:
a) la stima del reddito familiare dell’universo «città di Taranto» si colloca alla fine di un processo
inferenziale che è di sintesi delle stime dei redditi medi familiari nei quartieri;
b) come i quartieri costituiscono gli strati elementari a livello urbano così i clusters omogenei di
comuni costituiscono gli strati a livello territoriale; la procedura inferenziale di sintesi, quindi, porta
alla stima del reddito medio familiare dell’universo «altri comuni».
Si configurano, così, due universi, «Taranto città» ed «altri comuni» ai cui livelli ha senso valutare
la qualità delle stime.
D’altra parte, proprio in una realtà come quella relativa all’« esperienza Taranto» (ciò vale anche
per l’«esperienza Caserta») nella quale il capoluogo assorbe più del 40% delle famiglie della
provincia intera è necessario che esso abbia un trattamento privilegiato rispetto agli altri comuni e
venga trattato come un universo a sé stante.
Si crea automaticamente una gerarchia di qualità tra i risultati per cui l’attendibilità è maggiore se ci
si riferisce a Taranto città ed all’insieme degli «altri comuni» e minore nei singoli comuni ove,
come si è detto, vengono riportati i redditi medi dei clusters di appartenenza.
2
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Va osservato, però, a sostegno della bontà della scelta metodologica, che la numerosità campionaria
complessiva dell’universo degli «altri comuni» in base alle risultanze dell’indagine pilota è ben il
doppio di quella ottenuta per l’universo del capoluogo e che la allocazione negli strati-clusters non
ha portato ad esigue numerosità.
DESCRIZIONE SINTETICA DELL’ «ESPERIENZA TARANTO»
Prima di passare alla trattazione di alcune soluzioni metodologico - pratiche relative all’indagine è
opportuno operarne una descrizione sintetica riferendosi alle sue caratteristiche, in ordine a tre punti
essenziali: a) disegno di campionamento; b) metodologia di rilevazione; c) qualità dei dati raccolti.
a) Disegno di campionamento
1) Metodo. Campione stratificato delle famiglie residenti nella provincia divise in due universi a sé
stanti: il capoluogo e gli «altri comuni» della provincia.
2) Criteri di stratificazione. Per l’universo «Taranto città»: gli undici quartieri che costituiscono
zone omogenee; per l’universo «altri comuni»: sei gruppi di comuni ottenuti mediante una tecnica
di analisi di cluster gerarchica sulla base di variabili reddituali fiscali.
3) Liste della popolazione. Registri anagrafici in cui i fogli di famiglie sono ordinati per «area di
circolazione » nella quale, per ipotesi, le famiglie sono omogenee dal punto di vista
socioeconomico.
4) Selezione delle unità campione. Procedura di estrazione sistematica nelle anagrafi. È stato
estratto anche un campione di riserva pari ad un terzo di quello base.
S) Numerosità campionaria. Fissata onde attendere un errore campionario massimo del 5% del
reddito totale α = 0,05 sulla base di indagini pilota: 206 questionari per Taranto e 401 per il resto
della provincia.
6) Frazione di campionamento. È del 2,9 per mille a Taranto e del 4 per mille nel resto della
provincia, variabile da strato a strato.
7) Stime ed errori campionari. Stime ed errori relativi alla variabile reddito calcolati per il
campionamento stratificato. Estensione alla proporzione nella ipotesi di campionamento semplice.
b) Rilevazione
1) Ente rilevatore. Istituto Universitario Navale - Italsider.
2) Modalità di rilevazione. Eseguita da intervistatori sulla base di un questionario. La visita è stata
preceduta da una lettera dell’Istituto di Statistica dell’Istituto Universitario Navale con la quale si
spiegavano le finalità scientifiche dell’indagine.
3) Modelli di rilevazione. Modello di rilevazione del tipo di quello adottato dalla Banca d’Italia,
notevolmente snellito.
3
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
4) Addestramento dei rilevatori. Rilevatori con notevole esperienza professionale; sono stati
addestrati sulle problematiche specifiche presso il Centro di Documentazione e Studi dell’Italsider.
S) Epoca di rilevazione. Marzo - Maggio 1985; riferimento, anno 1984.
6) Controllo dell’avvenuta rilevazione, codifica, perforazione. Riunioni giornaliere con gli
intervistatori per dirimere dubbi, per decidere sulle sostituzioni delle interviste e per analizzare la
coerenza interna delle risposte.
e) Qualità dei dati raccolti
1) Mancate interviste. Sostituzione delle famiglie che non rispondono con altre tratte da un
campionamento di riserva. 5% alla presentazione del questionario ed un 2% di quelli che l’hanno
trattenuto.
2) Mancate risposte. Ridotte al minimo per l’intervento propositivo diretto dall’intervistatore.
3) Errori di risposta. Controllo dell’errore di risposta effettuato in termini di compatibilità interna.
Anche il rilevatore fornisce una sua valutazione per classi di reddito.
4) Errori di codifica e trascrizione. Praticamente nulli.
5) Tecniche di imputazione e correzione. Non applicate.
IL PROBLEMA CRUCIALE DELLA NUMEROSITÀ CAMPIONARIA
La determinazione della numerosità del collettivo parziale è uno dei più importanti problemi da
risolvere tra tutti quelli che sono relativi al disegno campionario, inteso sia come piano di
campionamento - la metodologia usata per scegliere il campione della popolazione -, sia come
l’insieme delle procedure di stima - gli algoritmi e le formule usate per ottenere le stime dei valori
della popolazione dai dati campionari e per valutarne l’attendibilità.
Tale soluzione si trova ad un crocevia su cui confluiscono, ad un tempo, quanto meno esigenze di
attendibilità e validità delle stime ed il rispetto dei vincoli di tempo e di bilancio.
Il primo passo da compiere nel determinare l’ampiezza, campionaria è quello di fissare il livello di
attendibilità dei risultati.
È noto che più grande è il campione maggiore è l’affidabilità delle stime. La validità complessiva
non è legata strettamente, però, alla dimensione campionaria ma anche ad altri aspetti (e tra essi il
più importante è il tipo di campionamento -semplice, stratificato, ecc. -) che fanno, capo
logicamente ad un processo più comprensivo di misurazione. In altre parole, il miglioramento della
validità richiede il miglioramento nel processo di misurazione che non significa necessariamente
ritocco della numerosità campionaria.
È noto che il campione stratificato (ché è adottato nelle «esperienze» di Taranto e di Caserta) è più
efficiente di quello semplice; ne deriva che, fissati i margini di errore fra reddito medio effettivo e
quello campionario, si possono avere risparmi di risorse, in termini di numero di interviste,
imputabili alla stratificazione.
4
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Se si determina, viceversa, la numerosità ipotizzando un campionamento casuale semplice
allocando poi i questionari, in misura proporzionale od ottimale, negli strati (omogenei al loro
interno e disomogenei tra loro) si registrano guadagni in termini di maggiore attendibilità della
stima.
La formula della numerosità in ipotesi di campionamento casuale semplice riferita alla stima di una
media è la seguente:
n=
Vˆy2 za2 / 2
[1]
e2
ove:
n è la numerosità campionaria;
Vˆy2 è la stima del coefficiente di variazione dei redditi;
zα/2 è la deviazione standard, assunta la distribuzione dei redditi
normale; è fissata dal ricercatore4;
ε è l’errore relativo massimo consentito, anch’esso fissato dal ricercatore: y (reddito
medio campionario) non differirà da µ (reddito medio effettivo, incognito), per più di ε, al livello di
probabilità fissato 1 – α.
Pr ob{[ y - m / m ] < e } = 1 - a
Quest’ultima può essere anche formulata in:
Pr ob{[ y - m ] < em } = 1 - a
da cui si evince che y non differirà da µ in valore assoluto, per più di εµ, praticamente ε y , ove ε y
è noto come «errore ammesso» al livello 1-α.
A parte i fattori ε e za/2, fissati dal ricercatore, è necessario disporre dell’informazione relativa a
Vˆy od alle sue componenti, derivanti da indagini precedenti o, in mancanza, da indagini similari.
La misura del livello e della variabilità dei redditi è ottenibile anche con un’indagine pilota ad hoc.
Essa ha il vantaggio di fornire informazioni più centrate, adeguate, temporalmente e spazialmente,
all’oggetto della ricerca, anche se non di ottima qualità, considerato che esse si basano su una
numerosità ridotta. Non è detto, cioè, che l’obiettivo di ottenere stime affidabili della varianza
venga sempre raggiunto; il punto è vedere che cosa il ricercatore riesce ad ipotizzare in assenza di
questo strumento diretto ricorrendo, come si è detto, alle altre fonti e, se non sono disponibili, quale
sia la validità, a confronto, di una congettura, dal costo praticamente nullo, a cui pure in alcuni casi
si ricorre.
4
Valgono, quindi, le usuali corrispondenze tra zα/2, intervallo di confidenza e probabilità dell’errore.
zα/2
Intervallo di confidenza
Probabilità dell’errore
1,645
1,96
2,326
2,576
90%
95%
98%
99%
10%
5%
2%
1%
5
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Sembra ragionevole, allora, che il ricercatore prima di decidere se attivare un’indagine pilota o
meno raccolga e vagli criticamente tutte le informazioni possibili traducendole in numerosità
campionarie per potersi raccordare anche con l’altro elemento essenziale per prendere una giusta
decisione che è il costo dell’operazione.
D’altra parte, è difficile che le informazioni pregresse si riferiscano allo stesso tempo ed al
medesimo livello di aggregazione territoriale. Nella fattispecie, ad esempio, è da ben considerare il
grado di utilità dell’informazione sulla media e sulla deviazione standard riferite a livello nazionale,
fonte Banca d’Italia, per un’esperienza dagli ambiti territoriali ristretti, per la cui conduzione si
richiedono, peraltro, differenziate informazioni per le due diverse realtà del capoluogo e degli «altri
comuni».
Quale che sia la via seguita la stima della variabilità è soggetta ad errore. L’intervallo entro il quale
esso oscilla comporta l’esistenza di un vero e proprio intervallo della numerosità campionaria nel
quale il ricercatore, in realtà, va ad operare la propria scelta; in questo senso
6
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
7
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
I valori del prospetto indicano, in corrispondenza dei fattori ε e zα/2 i coefficienti di variazione della
variabile media campionaria Vµ, stimata da V y che costituiscono, come si vede dalla [3], l’unità di
misura con la quale va letto il coefficiente di variazione della variabile reddito ottenuto da
informazione esogena.
I dati del prospetto danno informazioni di attendibilità connessa con quelli corrispondenti della
numerosità esposti nel prospetto relativo alla formula [2] .
La [3] mostra come la numerosità campionaria sia direttamente proporzionale alla variabilità del
fenomeno reddito ed inversamente proporzionale all’attendibilità della stima reddito medio espressa
dal coefficiente di variazione della stessa.
Poiché per 1’«esperienza Taranto» si è deciso di fissare ε = 0,05 e z = 1,96, come si evince dai
prospetti che seguono la [2] e la [3] l’ordine di grandezza della numerosità è di 1537 questionari
(per Vˆy = 1) in corrispondenza di un coefficiente di variazione della stima reddito medio del 2,55%.
La numerosità va ridotta se si pone Vˆy = 0,709 che è il coefficiente di variazione dei redditi
deducibile dall’indagine Banca d’Italia 1983.
Quest’ultima informazione è l’unico dato di variabilità derivante da un’indagine più affine a quella
di cui si discute e nel contempo più recente, visto che, per il 1984, la Banca d’Italia, come si evince
dal prospetto seguente, non ha pubblicato alcun indice di attendibilità della stima.
INFORMAZIONI DERIVANTI DALL’INDAGINE BANCA D’ITALIA
Anni
Reddito familiare medio
Errore standard*
(migliaia di lire)
(migliaia di lire)
1
1980
12.856
408 **
19811
13.815
155 **
19821
17.611
184 **
2
1983
20.222
227
19843
22.247
n.d
(*) Si ricorre alla «finzione» del campionamento casuale semplice.
(**) Viene pubblicata la semidimensione all’intervallo di confidenza al 99%; il dato sovrastante è
ottenuto dividendo tale semidimensione per la deviazione standard.
L’utilizzo di Vˆy dell’indagine Banca d’Italia ai fini del computo della numerosità campionaria
sconta, ovviamente, il limite di riferirsi a livello nazionale ed alla procedura del campionamento
semplice.
Tale stima si ottiene tenendo conto che la numerosità di questionari Banca d’Italia è di 4000; infatti,
partendo da y = 20.222.000 e ŝ y = 227.000 si ha sˆ y = 227.000 4.000 = 14.356.615 da cui
1
BANCA D’ITALIA, Boll. statistico, n. 3-4, 1983. L’indagine campionaria, ecc. Nota metodologica, p. 327
BANCA D’ITALIA, Boll. statistico, n. 3-4, 1984. I bilanci delle famiglie italiane nell’anno 1983, p. 275.
3
BANCA D’ITALIA, Boll. statistico, n. 3-4 1985. I bilanci delle famiglie italiane nell’anno 1984, p. 411
2
8
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
14.356.615
Vˆy = sˆ y / y =
= 0,709;
20.222.000
in corrispondenza, gli intervalli di confidenza, al 95%, della variabile reddito medio campionario e
della variabile reddito di una singola famiglia.
Pr { y Î (20.222.000 ± 1,96*227.000)} = 0,95
Pr {y Î (20.222.000 ± 1,96*14.356.615)} = 0,95
Fruendo dell’informazione Banca d’Italia, una valutazione della numerosità per 1’«esperienza
Taranto» per zα/2= 1,96 ed ε= 0,05 e, presumibilmente, per l’intera provincia è la seguente:
2
2
1,96 ö
æ
æzö
n = Vˆy2 ç ÷ = ç 0,709
÷ @ 800
0,05 ø
èe ø
è
Il prospetto che segue riporta alcune ipotesi di numerosità campionaria sulla base della variabilità
dei redditi Banca d’Italia 1983, in corrispondenza dell’errore standard delle stime e l’errore
ammesso per intervalli di confidenza del 95%.
Tra un rigo e l’altro in parentesi, vengono indicate le operazioni di raccordo fra i dati delle varie
ipotesi fruendo di noti legami5.
Numerosità
n
Errore standard
ŝ y
Errore ammesso
1,96 s y = e y
4000
( ¸ 5)
800
( ¸ 2)
400
( ¸ 2)
200
227.000
(x 5 )
507.000
(x 2 )
717.000
(x 2 )
1.014.000
2,22% di 20.222.000
5% di 20.222.000
7% di 20.222.000
10% di 20.222.000
La numerosità di 400 e di 200 questionari comportano, rispetto ai casi di maggiore dimensione
campionaria, una dilatazione degli errori standard delle stime e dell’errore ammesso; infatti
quest’ultimo è espresso in termini del 7% e del 10% della media, nell’ordine contro il 5% prefissato
nell’ipotesi di 800 ed il 2,2% nel caso (Banca d’Italia) di 4000 questionari.
Sono stati previsti questi due livelli dimensionali in quanto corrispondenti alla numerosità
effettivamente impiegata nell’indagine, funzione, come si vedrà, della struttura di variabilità propria
dei due universi dell’«esperienza Taranto», (nell’ordine, gli «altri comuni» ed il capoluogo),
derivante dal sondaggio pilota. Dato il livello fiduciale del 95%, il confronto tra l’errore relativo
delle stime nella ipotesi di valutazione autonoma della struttura di variabilità, fissato al 5% per
ambedue gli universi, e gli errori su citati del 10% e del 7%, nell’ordine, legati all’adozione dei
parametri Banca d’Italia, configura, ferme le altre condizioni, un sicuro guadagno di efficienza.
5
L. KISH, Survey Sampling, Wiley, p. 258.
9
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
D’altro canto, per un universo del tipo della provincia di Taranto intera, si è anche visto che
assumendo la variabilità dell’indagine Banca d’Italia, ai livelli di z = 1,96 ed α= 5%, si può
associare una numerosità pari a 800 questionari; dividendo, invece, la provincia nei due universi e
operando due sondaggi preliminari distinti ai medesimi livelli fiduciali di prima si ha, come si vede
negli schemi operativi, una numerosità di 206 e di 401 interviste nell’ordine.
Accanto al guadagno di efficienza in termini di errore ammesso si registra quello della riduzione di
numerosità campionaria complessiva ottenendo nel contempo due stime «mirate» che rispondono
alla opportunità riconosciuta, in generale, e soprattutto nella realtà tarantina, di stralciare il
capoluogo dal contesto provinciale.
I prospetti operativi che seguono riguardano il calcolo della numerosità e della sua allocazione non
proporzionale negli strati.
La [1] è trasformata in
2
n = za / 2
ove
s' 1
= za2 / 2
x2 e 2
n
Nk
N
è la dimensione del campione;
la numerosità del k-esimo degli r strati;
è la numerosità dell’universo;
zα/2
è la deviazione standard;
ε
s' 2k
å
Nk
sk '2
1
N
2
x
e2
è l’«errore relativo ammesso»;
è la stima non distorta di s k2 ottenuta sulla base dei risultati del sondaggio preliminare
mk N k - 1 2
sk ;
mk - 1 N k
mk è il numero degli elementi prelevati per il sondaggio dal k-esimo strato;
s k2 la loro varianza.
s ' 2k =
Evidentemente quello della numerosità che è uno dei problemi non semplici da risolvere nella
pratica delle rilevazioni campionarie in generale, accentua le sue connotazioni di difficoltà se
bisogna operare, per la prima volta, valutazioni di variabili su microaree, in quanto risulta non
sempre facile il raccordo con sperimentazioni condotte su realtà più vaste caratterizzate da diversa
struttura di variabilità e da diversa impostazione metodologica.
INDAGINE PILOTA
Al fine di determinare l’ampiezza del campione, sia nel capoluogo che negli «altri comuni» , è stata
impostata un’indagine pilota. Sono state scelte alcune variabili del questionario, tutte su base annua
e per famiglia:
10
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
- il reddito da lavoro
- il reddito da capitale-impresa
- il reddito da trasferimenti
- i redditi figurativi
che compongono il reddito complessivo familiare.
Le interviste, presso le famiglie estratte, sono state effettuate, in genere, nel tardo pomeriggio dei
giorni feriali al fine di poter contattare il maggior numero possibile di percettori di entrate dell’unità
familiare. Esse si sono concluse con una sola visita: il questionario del sondaggio preliminare,
quindi, non è stato lasciato presso gli intervistati a differenza del questionario della indagine vera e
propria che è stato, invece, ritirato successivamente dopo aver annotato una prima
11
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
risposta sul reddito familiare complessivo da considerarsi «provvisoria» rispetto alla
«determinazione definitiva».
Per il sondaggio è stato utilizzato un tasso di campionamento del 2‰, con un minimo di 10 famiglie
per strato, complessivamente 162, per il capoluogo, e 200, per gli «altri comuni». Estratte dallo
stesso «frame» utilizzato per l’indagine vera e propria, esse sono state scelte, tramite le tavole dei
numeri casuali, da un elenco base, uno per ciascuno strato (quartieri nel comune di Taranto, e
clusters di comuni omogenei nel resto della provincia costituenti un’unica «anagrafe» ideale di zone
non necessariamente contigue); i questionari attribuiti ai clusters di comuni sono stati riferiti alle
singole unità amministrative in proporzione della numerosità delle famiglie che sono state prescelte
mediante estrazione sistematica, in modo ché le aree di circolazione più importanti fossero
maggiormente rappresentate nel campione.
Si è tenuto conto delle possibili sostituzioni per mancate interviste, costituendo un elenco di
«riserva» pari ad un terzo di quello base.
STRATIFICAZIONE DEL TERRITORIO COMUNALE DI TARANTO
La storia e la composizione attuale delle città capoluogo segnalano varietà di insediamenti e di
situazioni socioeconomiche i cui tratti salienti, di varia natura, emergono anche dai risultati
campionari.
12
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Come per la formazione dei gruppi omogenei a livello territoriale dei comuni extracapoluogo, così
anche per la formazione di gruppi di aree di circolazione (vie, piazze, ecc.) si richiederebbe il
ricorso ad indicatori analitici di stratificazione da esaminare, congiuntamente, con tecniche di
«cluster analysis» proprio per caratterizzare aree omogenee urbane che rispondano al requisito
essenziale di avere circoscrizioni-strati massimamente omogenee all’interno delle zone suburbane e
massimamente diversificate tra di loro. Tali informazioni, dato il riferimento spaziale delle unità da
aggregare, vie, piazze, ecc., non sono disponibili.
Nell’«esperienza Taranto», il Centro di Documentazione e Studi dell’Italsider è stato chiamato a
valutare se le undici circoscrizioni suburbane, già esistenti, tenessero conto dei requisiti che
presiedono ad una valida clusterizzazione, nella fattispecie di tipo empirico che discriminasse, sotto
il profilo socioeconomico, in modo netto, zona da zona.
13
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
14
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
L’accettazione della zonizzazione preesistente ha trovato il suo supporto giustificativo in
un’accurata descrizione socioeconomica dei quartieri redatta da L. Pierri in un apposito studio6.
Nell’«esperienza Caserta», in assenza di circoscrizioni amministrative, vennero individuate nove
aree da un gruppo di lavoro diretto dal Responsabile dei Servizi Demografici dell’anagrafe, per
ciascuna delle quali vennero descritti gli elementi caratterizzanti e quantificati i dati di «frame»; ad
esempio il numero di famiglie fu computato sommando i dati relativi ad ogni area di circolazione
facente parte dell’area omogenea.
STRATIFICAZIONE DEL TERRITORIO DEGLI ALTRI COMUNI
Una scelta coerente da prendere in sede di stima di redditi comunali sarebbe, evidentemente, quella
di procedere ad inferenze a livello comunale.
Tale obiettivo avrebbe richiesto, come si è già avuto modo di osservare, una consistente numerosità
campionaria anche per i comuni di piccola dimensione demografica e, quindi, un notevole
incremento di costi.
Soltanto per Taranto città si è raggiunto l’obiettivo di ottenere «informazioni» valide per l’ambito
comunale dopo aver opportunamente stratificato il territorio in subaree, mentre per i restanti comuni
della provincia si è proceduto ad aggregazioni in zone omogenee senza vincolo di contiguità
territoriale. Per la realizzazione di tali sottouniversi è stata seguita la stessa logica delle procedure di
campionamento per la ripartizione delle unità dell’universo in strati omogenei allo scopo di ridurre
la numerosità campionaria a parità di errore standard della stima.
È stato volutamente evitato, però, di ricorrere ad omogeneità stabilite empiricamente e/o frutto di
preesistenti esperienze, qualcuna basata sul concetto di produzione del reddito e non sul
«comportamento reddituale»; sono state utilizzate, perciò, tecniche di classificazione automatica.
LA SCELTA DELLE VARIABILI
È noto che, in generale, il carattere oggetto di studio costituisce il miglior criterio di riferimento per
la formazione delle classi. Molto spesso le informazioni che lo riguardano non sono disponibili ed è
necessario, quindi, riferirsi ad un fenomeno correlato con quello oggetto di indagine.
Nella fattispecie, il fenomeno su cui si vuole indagare è il reddito destinato alle utilizzazioni finali.
Sono stati scelti due set di variabili al fine di confrontarne il risultato di aggregazione:
1) reddito da lavoro dipendente, per qualifica, prodotto nell’anno 1983 e dichiarato ai fini fiscali nel
1984, nei comuni di residenza dei percettori di reddito; trattandosi di reddito da lavoro dipendente
l’evasione fiscale è minore di quella che caratterizza le altre fonti di reddito (d’impresa, da capitale,
autonomo, ecc.) anch’esse disponibili, ma non utilizzate in questo lavoro;
2) popolazione residente, consumi di energia elettrica per usi domestici, numero di autovetture
immatricolate, spese telefoniche della utenza privata.
6
L. PIERRI, Le undici circoscrizioni della città di Taranto. Breve descrizione socioeconomica, Quaderni del Centro
Documentazione e Studi della Nuova Italsider di Taranto, Taranto, 1987.
15
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
D’altra parte, proprio il riferimento ad una gamma non completa di tipi di redditi (in funzione dei
quali si operò per Caserta) ha richiesto che l’esercizio di aggregazione fosse ripetuto con un altro
insieme di variabili, di fonte non fiscale, legati comunque alle utilizzazioni finali dei redditi. La
scelta è caduta sulle serie utilizzate da G. Marbach per la determinazione delle variabili artificiali
esplicative nel modello di regressione multipla atto a disaggregare il reddito disponibile provinciale
19837.
I gruppi omogenei ottenuti con i due diversi set di variabili non sono dissimili, se si eccettua
qualche transmigrazione (riguardante, cioè, un paio di comuni).
LA SCELTA DEL METODO DI CLASSIFICAZIONE
Il ricorso ad un metodo di classificazione automatica richiede anzitutto una scelta tra metodi
gerarchici e metodi non gerarchici8.
L’utilizzazione di questi ultimi presenta l’inconveniente di dover stabilire a priori il numero delle
classi da considerare; i metodi gerarchici presentano, invece, il vantaggio di poter fissare a
posteriori tale numero.
Per questa analisi si è preferito utilizzare il metodo gerarchico ascendente9. L’algoritmo considera
all’inizio ogni oggetto da classificare come una classe costituita da un singolo elemento e prosegue
aggregando le due classi più «vicine» le quali sono costituite da uno o più oggetti, ottenendo così
una nuova classe; si continua in modo analogo fino a comprendere tutti gli oggetti.
Gli oggetti da classificare sono codificati con un numero progressivo da 1 a n; le classi formate
successivamente sono individuate tramite un «nodo» espresso da un numero progressivo, a partire
da n + 1 a 2 n- 1.
Alla formazione della generica classe associata al nodo i-esimo contribuiscono due classi,
individuate da a(i) e b(i) che si aggregano proprio in corrispondenza del nodo i-esimo. L’algoritmo
del metodo è basato sulla massimizzazione dell’inerzia di una partizione. Così come per la
devianza, l’inerzia totale della tabella alla base della classificazione può essere scomposta in due
parti: l’inerzia intraclasse e l’inerzia interclasse. È ovvio che a livelli di inerzia intraclasse zero,
sono da prendere in considerazione tutti gli oggetti e ciascuno di essi costituisce una classe a sé
stante (geometricamente ciascun punto coincide con il suo centro di gravità); in tal caso l’inerzia
interclasse assorbe interamente quella totale.
Nelle fasi successive di aggregazione in classe, il livello di inerzia intraclasse aumenta fino a
coincidere con l’inerzia totale quando tutti gli oggetti sono compresi in un’unica classe; tra questi
due casi estremi si collocano i diversi valori dell’inerzia intraclasse in relazione a ciascun nodo
della gerarchia.
Il punto finale del procedimento di classificazione automatica è sintetizzato nel cosiddetto
dendrogramma o albero della classificazione gerarchica, nel quale le maggiori o minori similarità
tra gli oggetti raggruppati in classi sono graduate in relazione al livello di inerzia intraclasse.
7
G. MARBACH, I redditi dei comuni italiani nel 1983, Quaderni del Banco di Santo Spirito, n. 3, UTET, Torino, 1986.
M. RIZZI, Analisi dei gruppi (cluster analysis), 2a ed., La Goliardica, Roma, 1981.
9
P. BENZECRI, L’analyse des données, Tome 1 e 2, Dunod, Paris, 1976 e M. JAMBU, Mathematical relations
between hierarchical classification and factor analysis, Multidimensional data analysis, vol. 1, Dubrovnik, 1981.
16
8
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
In presenza di una tabella in cui le variabili e/o gli oggetti sono numerosi, si giustifica il ricorso a
tecniche di analisi multivariata quali
17
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
18
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
l’analisi delle corrispondenze10 che permettono di rappresentare, con la minima perdita di
informazione, la struttura fondamentale del fenomeno con riferimento non già alle variabili
originarie bensì a variabili incorrelate delle prime.
Il metodo dell’analisi delle corrispondenze consiste nel trasformare le relazioni analitiche tra le
diverse grandezze in relazioni geometriche di uno spazio pluridimensionale, rappresentabile
mediante proiezioni sui piani coordinati. È possibile, così, individuare le nuove variabili associate
agli assi strutturali, e, contemporaneamente, stabilire le relazioni che intercorrono tra le variabili
originarie ed il ruolo che le medesime hanno nella determinazione dei raggruppamenti di
osservazioni.
Per tali motivi, il metodo di classificazione gerarchico è stato applicato alla tabella delle coordinate
fattoriali ottenuta tramite analisi delle corrispondenze11.
In genere, ci si limita a considerare i primi due assi fattoriali, per avere la possibilità di effettuare un
collegamento tra i risultati della classificazione ed il piano, individuato dai suddetti assi, ottenuto
dall’analisi.
10
Per il metodo dell’analisi fattoriale delle corrispondenze si vedono L. LEBART e J.P. FENELON, Informatique et
statistique appliquées, Dunod, Paris, 1976.
11
M. JaMsu, Quelques calculs utiles à 1’inteìpretation conjointe d’une classification ascendente hiérarchique et d’une
analyse des correspondences, Pubblication du Laboratoire de Statistiqué, Université P. e M. Curie, Paris, 1975
19
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
LA FORMAZIONE DEI CLUSTERS (STRATI) DI COMUNI
Facendo riferimento, per brevità, alla sola tabella dei dati che contiene gli ammontari dei redditi
fiscali dichiarati (in ciascun comune della provincia di Taranto) distinti per qualifica, (applicazione
dell’analisi fattoriale delle corrispondenze, come si vede nella fig. 2, comporta che le incidenze dei
primi due autovalori (40,5% e 30,6%) complessivamente forniscano un’informazione pari a circa il
70% di quella relativa alla tabella iniziale.
DETERMINAZIONE DEL NUMERO DEI CLUSTERS
La determinazione del numero delle classi è un’operazione molto delicata tra quelle previste da
questa analisi. In genere, un aiuto alla scelta del livello di inerzia, cui riferire il numero di classi,
proviene dall’istogramma che riporta gli insiemi di comuni così come sono venuti a raggrupparsi
formando l’albero dei clusters. Si sceglie, cioè, un livello d’inerzia in corrispondenza del quale il
numero degli insiemi comuni e la loro composizione abbia un adeguato significato in termini di
coerenza e di congruità derivante da un attento studio delle realtà locali. Questo giudizio ha portato
alla scelta di un livello di inerzia 255, individuando, così, sei gruppi di comuni.
NUMERO DELLE UNITÀ DA ESTRARRE IN CIASCUN CLUSTER
Nella «esperienza Caserta», alla fine della procedura di clusterizzazione, ottenuti, cioè, il numero e
la composizione dei gruppi omogenei di comuni da considerarsi come strato nella tecnica,
campionaria, si è proceduto a determinare le numerosità delle unità campione, relative ai gruppi
stessi. allocando il numero di questionari fissato a priori, secondo i vincoli di bilancio, in base ai
valore di inerzia intraclasse registrati in ciascuno di essi; in tal modo, il numero dei questionari è
maggiore laddove è minore omogeneità nei gruppi di comuni.
Nella «esperienza Taranto» la clusterizzazione è stata utilizzata solo per determinare i gruppi di
comuni omogenei da considerare come strato nella procedura di campionamento stratificato, mentre
l’allocazione delle interviste è stata operata seguendo la variabilità dei redditi familiari, stimata con
un apposito sondaggio preliminare e non derivata dall’uso delle costanti di variabilità (inerzia)
connesse con il metodo di clusterizzazione dei comuni.
La modificazione metodologica tra le due «esperienze» ha due sostanziali motivazioni:
1) la necessità di ottenere una distribuzione di questionari «non distorta» dall’«effetto
aggregazione».
La procedura di formazione dei gruppi riguarda i comuni (come unità elementari) e non le famiglie
alle quali vanno distribuiti i questionari. Infatti, le inerzie sono indici di variabilità calcolati su dati
comunali, mentre le stime delle varianze dei redditi, ipotizzate o realmente calcolate con sondaggi
preliminari, che presiedono alla determinazione della numerosità campionaria, prima, ed
all’allocazione (non proporzionale) poi, sono calcolati su campioni di famiglie. Un’allocazione di
interviste destinate ad unità familiari sulla base di indici di variabilità stimati su unità-aree comunali
comporta, evidentemente; un riferimento eterogeneo.
2) la necessità di applicare un tasso di campionamento adeguato alla reale variabilità dei
comportamenti reddituali locali, in un contesto di sole 27 unità territoriali da raggruppare, qual è
l’universo degli «altri comuni».
20
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Nella «esperienza Caserta», i comuni extracapoluogo erano ben 103 dislocati, peraltro, su
molteplici direttrici di omogeneità, anche se ben stagliate (zona a ridosso dell’area metropolitana di
Napoli, zone montuose del Matese, litorale turistico, pianura immediatamente interna ad agricoltura
intensiva).
Considerato che le stime dei redditi familiari medi dei gruppi di unità territoriali vanno riportate alle
famiglie dei comuni facenti parte, decidendo di destinare, a priori, a Caserta, un migliaio di
interviste (contro le 401 di Taranto derivati dalla operazione del sondaggio pilota), si volle dare
un’adeguata importanza al fattore numerosità dei comuni, assicurando, nel contempo, stime
sufficientemente attendibili a livello di microaree.
D’altra parte, lo storno al capitolo «campione» delle risorse dedicabili al capitolo «sondaggio
preliminare» (un sondaggio può costare fino al 60% del costo di un’intervista completa), consentì, a
Caserta, che il bilancio fosse compatibile con l’esigenza di portare la numerosità campionaria alla
soglia del migliaio. In definitiva, tale livello (non-necessariamente raggiungibile utilizzando le
informazioni del sondaggio preliminare, in quanto la relazione analitica che presiede al calcolo della
numerosità campionaria non tiene conto, né della numerosità. delle famiglie, né della numerosità
dei comuni che formano i cluster - strati), veniva richiesto dall’esigenza di assicurare una
consistente dimensione campionaria che facesse fronte ad un universo «altri comuni» diviso, è vero,
in chiare omogeneità, ma articolato in una miriade di comuni. L’innesto dell’operazione di
sondaggio preliminare, tra la fase dell’ individuazione delle omogeneità territoriali e la
distribuzione dei questionari negli strati in sintesi, segna, nell’«esperienza Taranto», il duplice
vantaggio di affrancare la procedura dalla distorsione dovuta all’«effetto aggregazione» e di
determinare la numerosità delle famiglie secondo procedure adeguatamente legate alle scelte del
ricercatore, circa l’attendibilità delle stime; tali opzioni (livello fiduciale ed errore ammesso),
quindi, si configurano, nell’«esperienza Taranto», identiche, sia a livello urbano, sia a livello
territoriale.
I vettori di aliquote di composizione, qui di seguito riportati, sintetizzano, per gli strati comunali
degli «altri comuni» della provincia di Taranto, tre diverse ipotesi di allocazione dei questionari, tra
le quali, per le motivazioni addotte, viene scelta la seconda:
ALIQUOTE IN BASE ALLE QUALI SI PUÒ RIPARTIRE NEI GRUPPI («ALTRI COMUNI») DELLA PROVINCIA DI
TARANTO LA NUMEROSITÀ CAMPIONARIA
Allocazione
Gruppi
Allocazione non proporzionale
proporzionale
di
Inerzia intraclasse (*)
Variabilità del sondaggio
Nk/N
comuni
preliminare
( N k / N )s k / å ( N k / N )s k
1
0,1873
0,2174
0,2510
2
0,1312
0,1693
0,1918
3
0,2211
0,2446
0,2506
4
0,0909
0,1122
0,0914
5
0,1866
0,1443
0,1121
6
0,1829
0,1122
0,0531
(*) della procedura di clusterizzazione gerarchica applicata sulle unità comunali per derivare le
omogeneità territoriali.
21
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
PROCEDURA DI REDAZIONE DELLA LISTA DELLE FAMIGLIE
La popolazione di riferimento è stata la popolazione residente al netto delle convivenze.
Determinata la numerosità campionaria, sono state interessate, per la redazione della lista base e
della lista di riserva delle famiglie, tutte le anagrafi comunali nella loro composizione all’ 1 gennaio
1984.
Essendo stata espletata l’indagine nel marzo-maggio 1985, su redditi riferiti, temporalmente,
all’anno 1984, i problemi di ricostruzione del «frame», al primo gennaio 1984, sono stati risolti con
una certa approssimazione, non predisponendo, cioè, direttamente la lista materiale delle famiglie a
quella data, ma adottando l’accorgimento di eliminare dalle estrazioni campionarie operate quelle
che facevano parte dell’anagrafe solamente dall’inizio dell’anno: si sono avuti tre casi su seicento
interviste.
L’approssimazione è derivata, poi, dal fatto che il «frame» difettava delle famiglie che avendo
fruito di reddito 1984, si sono cancellate dall’anagrafe (ad esempio, per trasferimento, per
cessazione della famiglia, ecc.) nel periodo che va dalla fine del 1984 al febbraio-marzo 1985. In
ogni caso, hanno fatto parte del «frame» le famiglie che sono entrate nell’anagrafe durante l’anno
1984.
È noto che secondo la legge sull’anagrafe le famiglie, oltre ad essere ordinate alfabeticamente
devono essere ordinate anche per «area di circolazione». Seguendo, cioè, la lista delle aree di
circolazione, sia nei quartieri, per Taranto, sia nell’«ideale» anagrafe che consolida quelle degli altri
comuni della provincia, i fogli di famiglia sono risultati divisi in gruppi; ognuno corrispondente ad
uno strato, avendo mantenuto in tutti i gruppi l’ordine originario dell’anagrafe.
Da ogni 1000 fogli se ne sono estratti tanti quanti ne ha assegnato il doppio del «per mille» relativo
allo strato, arrotondando il risultato ottenuto all’unità immediatamente superiore ed in maniera da
equiripartirli. Ad esempio, per il Quartiere Borgo, il rapporto nklNk x 1000, ha dato 2,71‰;
raddoppiando ed arrotondando, è risultato 5 il numero dei fogli di famiglia da estrarre per ogni
1000: si è scelto il 200-esimo, i1 400-esimo, il 600-esimo, ecc., fino ad esaurire tutti i fogli
anagrafici.
Per ogni 4 famiglie nell’ordine sorteggiate, le prime tre sono andate a formare l’elenco base, da cui
sono state scelte, casualmente, col rapporto di 2/3, o poco meno, se si è operato il summenzionato
arrotondamento, quelle che sono state rilevate; la quarta è andata a formare l’elenco suppletivo
(elenchi relativi allo strato).
Questo metodo di scelta sistematica, essendo i fogli anagrafici ordinati per area di circolazione,
assicura la ripartizione delle famiglie estratte proporzionale alla popolosità delle aree medesime,
che, come tali, sono considerate unità (intermedie) che raggruppano famiglie omogenee negli strati.
La scelta sistematica delle unità pone dei problemi12 dei quali si citano solo quelli di maggiore
rilevanza pratica.
Non sarebbe possibile, infatti, passare dalla varianza delle osservazioni di un particolare campione
alla varianza della media campionaria, nel caso di estrazioni sistematiche; così come avviene,
invece, con una procedura di estrazione tipica del campione casuale semplice, in quanto, nella
prima circostanza, le medie campionarie che vengono confrontate con la media generale, la stima
della media dell’universo, dipendono dal numero casuale scelto per la partenza della procedura di
campionamento. Può ritenersi frequente, però, l’assunzione che il campionamento casuale
sistematico sia equivalente a quello casuale semplice ipotizzando che la lista dalla quale sono
estratti gli elementi campionari sia fornita dalla determinazione di una variabile dall’ordinamento
casuale.
12
Cfr. il cap. IV di L. KisH, Survey, ecc., op. cit.
22
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Una seconda esperienza di stima diretta dei redditi familiari in aree comunali
meridionali. La provincia di Taranto
Claudio Quintano - Donato Lucev
II PARTE
Dalla teoria si sa che per la varianza della media campionaria vale la relazione:
var( y ) =
s2
[1 + d x (n - 1)]
n
ove
n=N/K
e dx =
2åiK å nJ ål < J ( y iJ - y )( y il - y )
nk (n - 1)s y2
;
δx è il coefficiente di correlazione intraclasse; N è l’ampiezza della popolazione; n è l’ampiezza
campionaria; k il passo; yiJ è lo j-esimo elemento estratto dall’i-esimo gruppo; yil è un altro
elemento derivante dallo stesso gruppo (l ≠j ).
Si può facilmente dimostrare che la var ( y ) è più grande (quindi δx è positivo) quando la periodicità
dell’intervallo di estrazione coincide con la periodicità dei dati, se c’è. Questa situazione è in
corrispondenza di un set di determinazioni delle variabili che sono poco discoste nell’ambito del
gruppo del passo di campionamento e più o meno fortemente discoste se le determinazioni
provengono da campioni diversi: da qui un alto coefficiente di correlazione intraclasse (esso indica
la omogeneità degli elementi rispetto alla variabile da misurare) ed un’alta varianza della «stima
media». Al contrario δx è negativo se la lista è ordinata monotonicamente.
Tra questi due casi estremi v’è:
1) il caso della varianza derivante da lista non ordinata, in cui δx è debole (positivo o negativo);
2) il caso della varianza derivata da campionamento casuale semplice.
estrazione sistematica
da lista con periodicità
estrazione sistematica
da lista non ordinata
var ( y ) alta
estrazione con campione
causale semplice
estrazione sistematica da
lista ordinata monotonicamente
var ( y ) bassa
1
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Facendo riferimento alla fattispecie, non sembra che vi sia periodicità nei dati reddituali via via che,
per così dire, si scorre il «frame», anzi nella misura in cui le aree di circolazione si susseguono l’un
l’altra in ordine di livello socioeconomico si potrebbe beneficiare, per l’ordinamento monotonico,
dell’effetto riduzione della varianza.
Concludere che l’estrazione sistematica, dato l’ordinamento dei fogli di famiglia non produca
significativi effetti modificativi della variabilità, rispetto al campionamento semplice, od anche
rispetto al campionamento sistematico con ordine casuale della lista, significa, forse, attestarsi
addirittura su posizioni prudenziali.
Bisogna dire, in definitiva, che le liste che comunque non sono in ordine casuale portano le varianze
delle stime ad essere approssimate per difetto o per eccesso; nella fattispecie, l’organizzazione del
«frame» sembra escludere valori approssimati per eccesso che hanno un effetto meno auspicabile
sulle stime.
Per completezza, va detto, però, che esiste un tipo di campionamento sistematico ripetuto che dà
stime corrette delle varianze della stima delle «medie», delle «proporzioni» e dei «totali»,
qualunque sia l’ordine degli elementi e la periodicità della lista dalla quale è estratto il campione.
Quest’ultimo tipo di campionamento, ovviamente, porta anch’esso a risultati simili a quelli che
derivano dal campionamento su lista con ordine casuale: esso presenta il vantaggio che l’errore
standard può essere stimato direttamente dai dati ma ha lo svantaggio di dover scorrere la lista più
volte nella determinazione del campione, mentre nel campionamento sistematico semplice viene
individuato scorrendola una sola volta.
STIME DELLA MEDIA DEI REDDITI FAMILIARI
Portata a termine la procedura fin qui descritta, alternando grandi linee e dettagli circa le esigenze
metodologiche e pratiche, affacciatesi nel corso della sperimentazione, sono state computate le
stime dei redditi medi familiari dei due universi riferentesi al 1984:
- Taranto capoluogo
23.267.000
(pro-capite: 6.825.000)
- «altri comuni»
19.993.000
(pro-capite: 5.922.000)
- intera provincia
21.353.000
(pro-capite: 6.299.000)
Tali determinazioni esprimono una sintesi dei redditi medi familiari di strato relativi, cioè, alle
circoscrizioni della città di Taranto ed ai gruppi omogenei formanti gli «altri comuni», ponderati,
ovviamente, con il vettore delle aliquote di struttura dell’universo.
2
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
REDDITO MEDIO FAMILIARE NEGLI STRATI DELLA CITTÀ DI TARANTO E DEGLI «ALTRI COMUNI» DELLA
PROVINCIA, 1984
STRATI
REDDITO MEDIO FAMILIARE
(in .000 lire)
Quartieri della città di Taranto
- Statte
- Paolo VI - Agro Nord
- Tamburi - Croce
- Isola - Porta Napoli
- Borgo
- Italia - Monte Granaro
- Tre Carrare - Battisti
- Solito Corvisea
- Salinella
- Talsano
- S. Vito - Lama - Carelli
23.514
17.883
18.920
17.885
22.453
27.383
22.739
25.440
20.561
23.725
30.218
Gruppi di comuni omogenei (*)
- Primo
- Secondo
- Terzo
- Quarto
- Quinto
- Sesto
18.007
22.996
20.574
17.789
21.273
18.957
(*) Il primo gruppo comprende: Avetrana, Mareggio, Saga, Manduria; il secondo: S. Giorgio Jonico, Roccaforzata,
Castellaneta, Pulsano, Leporano; il terzo: Grottaglia, Martina Franca; il quarto: Monteparano, Mottola, Totticella, S.
Mariano; il quinto: Crispiano, Carosino, Palagiano, Lizzano, Monteiasi, Palagianello, Montemesola, Faggiano,
Fragagnano; il sesto: Ginosa, Laterza e Massafra.
Sintetizzati i dati di strato, per Taranto, e riportati quelli di gruppo ai comuni che ne fanno parte, si
sono ottenute le seguenti stime:
3
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
STIME DEI REDDITI FAMILIARI MEDI E COMPLESSIVI DEI COMUNI DELLA PROVINCIA DI TARANTO, 1984
CITTÀ
Taranto
Primo gruppo
- Avetrana
- Maruggio
- Sava
- Manduria
Secondo gruppo
- S. Giorgio Jonico
- Roccaforzata
- Castellaneta
- Pulsano
- Leporano
Terzo gruppo
- Grottaglie
Martina Franca
Quarto gruppo
- Monteparano
- Mottola
- Torricella
- S. Marzano
Quinto gruppo
- Crispiano
- Carosino
- Palagiano
- Lizzano _
- Monteiasi
- Palagianello
- Montemesola
- Faggiano
- Fragagnano
Sesto gruppo
- Ginosa
- Laterza
- Massafra
Totale provincia ~
Famiglie
al 1° gennaio
1984
71.319
18.807
2.456
1.604
5.080
9.667
13.168
3.915
548
4.710
2.808
1.187
22.193
8.842
13.351
9.122
686
4.822
1.177
2.437
18.735
3.406
1.608
3.900
2.620
1.480
1.886
1.236
980
1.549
18.364
6.034
4.020
8.310
171.708
Reddito
medio familiare
(migl.)
23.267
18.007
22.996
20.574
17.789
21.273
18.957
Reddito
complessivo
(miliar.)
1.659,379
338,657
44,225
28,883
91,476
174,073
302,811
90,029
12,602
108,311
64,573
27,296
456,599
181,915
274,684
162,271
12,203
85,778
20,938
43,352
398,550
73,945
34,207
82,965
55,735
31,484
40,121
26,293
20,848
32,952
348,126
164,386
76,207
157,533
3.666,393
4
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
CONTROLLO DEI CAMPIONI
La procedura di controllo, qui di seguito adottata, è tipica dei comparti strettamente sperimentali;
essa, pertanto, dovrebbe riguardare dati dei quali siano rispettate le condizioni richieste
dall’applicazione dei test e, tra queste, senza dubbio la più importante è quella della normalità.
È noto che nel comparto delle fenomeniche economiche esse sono difficilmente riproducibili, o, se
ipotizzate, si tratta di assunzioni che hanno deboli fondamenta alle quali, nella fattispecie, si
aggiunge la non elevata numerosità dei casi.
La procedura di controllo, pur con le limitazioni di efficacia suddette; può essere però utile per
mettere insieme elementi informativi da collegare con altri spesso anche essi poco consistenti se
presi singolarmente. Purtroppo nel settore della stima campionaria dei redditi, meno che mai per le
microaree, il ricercatore non ha la soddisfazione di cimentarsi con il suo esperimento disponendo,
preventivamente, di itinerari codificati di controllo, percorsi i quali dichiara le risultanze
soddisfacenti o meno.
Ai test, agli indici di variabilità delle stime è necessario associare la dichiarazione delle
metodologie seguite, l’esposizione delle difficoltà, le modalità del loro superamento o
contenimento, il richiamo ed il collegamento ad indagini similari o ad informazioni dello stesso
genere provenienti da altra fonte.
Il controllo si configura, quindi, come un processo complesso nel quale gli indicatori di bontà e di
attendibilità che affiorano in modo più o meno stagliato, non sono i soli. In questo senso può
ritenersi che tutta la sezione metodologica di un «survey report» sia dedicata al controllo.
Nella fattispecie, in questo paragrafo, è stato fatto uso più semplicemente del test t sulle medie e del
test F sulle varianze derivanti dai collettivi parziali: sondaggio pilota e campione vero e proprio.
Evidentemente si richiede che tra le costanti caratteristiche dell’uno e dell’altro non vi siano
divergenze sistematiche tali da comportare una dichiarazione di provenienza da universi differenti:
È necessario, infatti, che le due strutture campionarie, la prima che è strumentale in quanto consente
di fissare la numerosità della seconda e la seconda stessa che è quella portante, siano strette da seri
legami.
D’altra parte, la verifica è operata sui dati come se provenissero da un campionamento semplice e
non stratificato, non disponendo la letteratura, sembra, di adeguati strumenti metodologici al
riguardo.
5
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
6
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
7
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Le divergenze ammissibili risultano abbastanza sensibili alla bassa numerosità campionaria che
afferisce negli strati; con questa chiave di lettura, risultano, perciò, più attendibili i risultati negli
strati dell’universo degli «altri comuni» rispetto a quelli cittadini.
GRADO DI ATTENDIBILITÀ DELLE STIME
La natura campionaria della rilevazione richiama immediatamente il problema della valutazione del
grado di attendibilità delle stime che sono influenzate, però, anche da altre cause, sinteticamente
definite non campionarie.
Gli statistici, ovviamente, dedicano molta attenzione alle prime anche se, si è avuto modo di
osservare, le quantificazioni di attendibilità richiedono dati che rispettino ipotesi teoriche di
andamento difficilmente riscontrabile in pratica.
La questione delle cause di imprecisione di tipo non campionario, invece, viene risolta spesso in
ambiti descrittivi, in quanto è assente una struttura modellizzata di cui fruisce l’analisi degli errori
campionari, e soprattutto perché è assente una «cultura» che abbia attivato ricerche nella direzione
che attiene agli aspetti della «gestione dell’indagine» come le mancate interviste, le mancate
risposte, effetto intervistatore, ecc.
Rimandando questi ultimi aspetti, qui si procede a valutare sia l’attendibilità delle stime della
variabile media dei redditi, sia l’attendibilità delle proporzioni da riferire, sempre, a caratteri
reddituali.
a) Attendibilità della stima «media dei redditi familiari»
Per i due universi considerati in questa ricerca sono stati calcolati gli errori standard delle stime
«media dei redditi». Si ,è applicata la formula13.
sˆ ystrat
é
= êå N k2 s ky2 / n k
êë
( )(
æ N k - nk
çç
è Nk
)
ö ù
÷÷ / N ú
ø úû
1/ 2
valida per il campionamento stratificato qualunque sia il tipo di allocazione e quindi anche per
quello ottimale (non proporzionale) qui adottato.
Taranto capoluogo:
sˆ ystrat . = 989.994
«altri comuni»:
sˆ ystrat . = 627.772
da cui, nell’ordine, i relativi intervalli di confidenza
Pr { y Î (23.267.000 ± 1,96 * 989.994) } = 0,95
Pr { y Î (19.993 .000 ± 1,96 * 627.772) } = 0,95
Utilizzando le medesime informazioni campionarie, nella ipotesi di attribuzione proporzionale, la
formula14
13
La 3.3.2 di pag. 81 in L. KtsK, Survey sampling ecc., op. cit.
8
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
éN -n
ù
sˆ ystrat . prop. = ê 2 (å N K )( s ky2 / n)ú
ë N
û
1/ 2
dà gli errori per
Taranto capoluogo:
sˆ ystrat . prop. = 1.027.866
«altri comuni»
sˆ ystrat . prop. = 639.838
da cui, nell’ordine, i relativi intervalli di confidenza
Pr { y Î (23.267.000 ± 1,96 * 1.027.866) } = 0,95
Pr { y Î (19.993 .000 ± 1,96 * 639.838) } = 0,95
Nell’«esperienza Taranto», a giudicare dagli errori standard della stima, l’allocazione non
proporzionale delle unità campionarie non apporterebbe «guadagni» sensibili di attendibilità del
reddito medio.
Un altro riferimento importante è dato dalla ipotesi in cui il campione sia casuale semplice; si tratta,
ovviamente, di adattare, allo scopo, le informazioni campionarie ricavate per la procedura del
campionamento stratificato. A questo proposito si possono seguire due ipotesi.
1) La prima utilizza la considerazione che il campionamento stratificato con attribuzione
proporzionale approssima la stima dell’errore standard degli elementi «entro» gli strati
sˆ ystrat . prop.
éN -n
ù
= ê 2 (å N K )( s ky2 / n)ú
ë N
û
1/ 2
é 2
æ N - n öù
/ n)ç
@ ê(s wy
÷ú
è N øû
ë
1/ 2
Essa è simile all’errore standard della media nel campione casuale semplice
sˆ ycasuale semplice
é
æ N - n öù
= ê s y2 / n ç
÷ú
è N - 1 øû
ë
(
)
1/ 2
La differenza sta nel fatto che nel campionamento stratificato (allocazione proporzionale) la
2
varianza della popolazione (s y2 / n) è sostituita da (s wy
) che è una media ponderata delle varianze
dei redditi elementari entro ciascuno strato.
Ciò implica che la tecnica del campionamento stratificato con allocazione proporzionale dà una
stima della media ad errore più basso di quello ottenuto con il campionamento semplice dato che
2
s wy
< s y2 .
Utilizzando la scissione nota nell’analisi della varianza si ha la relazione
14
La 3.4.2 di pag. 84 in L. KISH, Survey sampling ecc., op. cit.
9
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
sˆ y2casualesemplice = s y2strat. prop. + sˆ b2y
2
sˆ wy
da cui
ŝ b2y =
å N k ( y k - y) 2
K
N
(varianza tra le medie degli strati).
Si può ottenere, così, l’errore standard della media nella ipotesi di campionamento semplice, come
si vede dal seguente prospetto riepilogativo:
Ipotesi 1) - Errori campionari per tipo ed universo indicati (in .000 lire)
Errore standard
della stima
Universo
Taranto capoluogo
1.027,866
«altri comuni»
639,838
ŝ ytra le medie
3.154,468
1.714,682
ŝ ycasuale semplice
3.317,158
1.829,530
sˆ ystrat . proporz .
2) L’altra ipotesi, che porta ad una seconda stima dell’errore standard della media campionaria nel
caso di campionamento semplice, è derivabile dalla stratificazione di gruppi di diversa dimensione
nel «cluster sampling»15.
La procedura, che segue nella prima parte la precedente, ha come punto cruciale la ponderazione
dei redditi medi di strato y k (per il calcolo sia della media, sia della varianza generale) con un
vettore di pesi che è dato dai reciproci della probabilità di selezione dell’i-esimo elemento nello
strato.
Siano tali pesi
wk = {Pr[selezione dell ' i - esimo elemento nello strato K ]} = N k / n k ;
-1
1/ 2
æ åwk ( yk - y)2 ö
÷
sˆ ytralemedie = ç
ç (åwk ) -1 ÷
ø
è
con
y=
åwk yk
å(wk ) -1
Il seguente prospetto riepiloga, come il precedente, gli errori:
15
Cfr. L. KisH, Survey sampling ecc., op. cit., pag. 192.
10
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Ipotesi 2) - Errori campionari per tipo ed universo indicati (in .000 lire)
Errore standard
della stima
Universo
Taranto capoluogo
1.027,866
«altri comuni»
639,838
sˆ ytra le medie
3.512,195
1.635,680
ŝ ycasuale semplice
3.659,511
1.755,517
sˆ ystrat . proporz .
b) Attendibilità della stima delle proporzioni riferite a caratteri reddituali
La. tavola che segue riporta, nella ipotesi che si tratti di campionamento semplice, ed al livello
fiduciale del 95%, gli errori relativi alle proporzioni che riguardano i caratteri reddituali in
corrispondenza delle numerosità campionarie, 200 e 400, inerenti ai due collettivi di Taranto e degli
«altri comuni». Essi evidentemente approssimano per eccesso gli errori che si registrano nell’ipotesi
di campionamento stratificato, qui. condivisa.
È inutile dire poi che tali margini di errore delle stime reddituali non possono essere estesi alle altre
stime delle caratteristiche della popolazione investigate dal questionario e meno che mai alle
sottopopolazioni (ad esempio: le frequenze di una classe di reddito).
Attendibilità di proporzioni riferite a caratteri reddituali.
Errore massimo della stima di una proporzione
(caso del campionamento casuale semplice)
livello fiduciale del 95%)
Proporzione di unità avente
una determinata caratteristica
0,05 a 0,95
0,10 a 0,90
0,15 a 0,85
0,20 a 0,80
0,25 a 0,75
0,30 a 0,70
0,35 a 0,65
0,40 a 0,60
0,45 a 0,55
0,50
n=200
per Taranto città
0,0302
0,0416
0,0495
0,0554
0,0600
0,0635
0,0661
0,0679
0,0689
0,0693
n=400
per gli «altri comuni»
0,0214
0,0294
0,0350
0,0392
0,0424
0,0449
0,0467
0,0480
0,0488
0,0490
QUESTIONARIO
Il tipo di questionario qui di seguito riportato risponde alla esigenza di agevolare l’attivazione della
complessa procedura di ottenimento delle risposte riducendo, per questa via, il tasso dei rifiuti; esso
indica all’intervistatore ed all’intervistato insieme, le vie di « ricostruzione » dei redditi familiari,
passando per la determinazione dei rivoli elementari di entrate a livello di singoli percettori.
È stato scartato, quindi, lo strumento del questionario unico che aggrega le informazioni di tutti i
titolari di entrata e di tutti i rivoli di reddito su un unico supporto proprio perché risulta difficile
all’intervistato, senza una traccia che ripercorra gli itinerari di formazione dei redditi, stimarli
adeguatamente.
11
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
12
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
CONDUZIONE DELLE INTERVISTE
Il questionario è stato depositato presso la famiglia per una settimana, previa registrazione, a parte,
di una prima quantificazione del reddito nella misura dichiarata dal consegnatario o, in ogni caso,
una valutazione dell’intervistatore sulla classe reddituale familiare di appartenenza sulla base delle
«esteriorità»: fino a 5 milioni; 5-10; 10-15; 15-20; 20-25; 25-30; 30-35; 35-40; oltre 40 milioni.
Solo il 5% delle famiglie da intervistare, solo il 10% a Taranto, ha insistito a non accettare il
questionario; in questo caso, l’intervistatore ha sostituito la famiglia facendo ricorso all’elenco di
riserva. Un altro 2% al momento dell’intervista-ritiro del questionario si è rifiutato assolutamente di
rispondere o di consegnare il modulo; anche in questo caso sono state operate sostituzioni
utilizzando gli elenchi di riserva.
13
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
L’intervista-ritiro del modulo è la fase cruciale dell’indagine. Non sempre il questionario è stato
compilato in tutte le sue parti. Se l’incompletezza delle informazioni non ha riguardato variabili
chiave dell’indagine, si è proceduto ad una ricostruzione in base alla parte compilata del
questionario.
In questa materia se non fossero usati tutti gli accorgimenti possibili le mancate risposte alle
variabili cruciali sarebbero elevatissime. Bisogna premettere che le famiglie da intervistare erano
state informate, con lettera, sugli scopi dell’indagine, in particolare, sul fatto che ad essa era
connessa una sperimentazione di metodologie di rilevazione (da parte di un’istituzione
universitaria) ed effettuata tramite l’Italsider che sul territorio tarantino è notissima per aver
mostrato, in varie occasioni, molta sensibilità alla conoscenza ed alla soluzione dei problemi
socioeconomici. Evidentemente veniva assicurato il completo anonimato delle informazioni
raccolte, nonché il loro uso riservato. Si tratta di accorgimenti ai quali, generalmente, si attribuisce
una buona efficacia.
Da qui si sono prospettati due comportamenti tipici estremi:
- Essere neutrali, registrare le risposte (o le non risposte) così come vengono enunciate quasi si
trattasse di fenomeno fisico la, cui misurazione (strumentale) è affetta solo da errori gaussiani;
questo atteggiamento dell’intervistatore verrebbe frainteso dagli intervistati e senza entrare nel
merito dei livelli di entrate dichiarate si registrerebbero forti tassi di mancate interviste e di mancate
risposte.
Va detto che l’effetto distorsivo delle mancate risposte non va eliminato aumentando la numerosità,
come sembrerebbe; ma dipende, oltre che dalla proporzione dei non rispondenti, dalla differenza tra
le medie dei rispondenti e dei potenziali non rispondenti. Ora, poiché la categoria prevalente dei
rispondenti è data dai percettori di reddito fisso che, tra l’altro, sono coloro che sono disposti a dare
anche informazioni più veritiere, mentre coloro che non tendono a rispondere sono gli altri tipi di
percettori, il riporto delle medie dei rispondenti alla totalità porta sicuramente a risultati fuorvianti.
- Interagire con gli intervistati, ponendo elementi di dubbio sulle dichiarazioni dei singoli rivoli dei
flussi reddituali, ad esempio facendo appello all’evidenza di stridenti contrasti, richiamandosi a
parametri di situazioni similari, ecc.; si giunge, in questo caso, a dichiarazioni di entrate il cui grado
di veridicità e, quindi, di distorsione è legato alle risultanze dell’applicazione delle capacità
investigative dell’intervistatore.
Bisogna decidere, allora, a quale dei due poli bisogna tendere: scegliere, cioè, la prevalenza degli
effetti distorsivi delle soluzioni approssimative di imputazione per le mancate risposte,
presumibilmente elevate nel primo caso, o la prevalenza degli effetti distorsivi dovuti all’ingerenza
dell’intervistatore, nel secondo caso.
Si esclude di imputare ai non rispondenti i tipici medi dei rispondenti (è una soluzione ISTAT per
l’attuale indagine del prodotto lordo); questo metodo, tipo «hot deck», nella fattispecie, andrebbe
applicato in un contesto di unità relativamente "poco numerose (quante sono, cioè, in genere, quelle
delle indagini su microaree), finemente allocate in strati e che non consentono di selezionare
risposte tipiche da assurgere, cioè, a valori aventi la caratteristica di colmare i «missing data».
Proprio perché l’«esperienza Taranto» è stata la prima, non sono ricorsi gli estremi di utilizzare il
metodo «cold deck» che si basa sull’uso di indagini precedenti dalle quali si stimano i valori
integrativi delle non risposte. Né si è potuto pensare all’applicazione di tecniche regressive, per gli
stessi motivi per cui non si applicano metodi di tipo « hot deck».
14
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Nel caso di Taranto, al problema di ottenere questionari quanto più pieni e veritieri possibile, è stata
data la soluzione sperimentale della «conduzione attiva dell’intervista» da parte di personale
adeguatamente addestrato.
Si tenga presente, poi, che la non rispondenza può essere trattata, si legge nella letteratura
specializzata, anche da «subjective regression» per cui i «missing data» sono forniti da
«experienced analysts»; altre volte si procede ad un «adjustment» degli «statistical weights» dei
rispondenti, nella fattispecie, dando, ad esempio, più peso ai redditieri alti.
Era stato programmato un aggiustamento dei dati, a certi livelli di aggregazione sulla base delle
informazioni provenienti dagli intervistatori ai, quali era stata richiesta, anche una doppia
valutazione delle entrate familiari, prima e dopo l’intervista. La prima valutazione
dell’intervistatore, in base .alla quale la famiglia veniva inclusa in una determinata classe di reddito;
non sempre ha combaciato con il risultato dell’intervista. Sono state registrate circa metà
valutazioni per difetto e metà per. eccesso, le prime riguardanti anche due classi di reddito più
basso. La stima finale dell’intervistatore non è stata sempre apposta in quanto egli stesso ha
contribuito; con stimoli e discussioni, in qualche modo, al processo di. valutazione. Quando v’è
stata, essa ha espresso una proposta di reddito più alto.
Solo in dieci casi v’è stata una .doppia intervista di medesime famiglie, fatte da intervistatori diversi
a diverse persone della famiglia che hanno avuto i1 ruolo di sintetizzare le entrate proprie e degli
altri; i casi sono pochi, per cui i risultati che mostrano una certa coerenza tra le valutazioni non
consentono di rigettare l’ipotesi che l’intervistatore possa contribuire a distorcere le risposte con il
proprio giudizio.
Sempre in linea di ipotesi, il reddito personale del rilevatore ed il suo standard di vita giocano un
certo ruolo nella stima dei redditi altrui, soprattutto di quelli che più si discostano in una direzione o
nell’altra da quello proprio; ovviamente la stessa osservazione vale per la differenza di accuratezzafra un rispondente diretto ed un rispondente indiretto .
Il confronto tra la media dei redditi derivante dall’indagine pilota e da quella vera e propria (che
interessa, ovviamente, un set di famiglie diverse) presenta due risvolti che riguardano questo
argomento.
Da 20 il reddito medio passa a 23 milioni, a Taranto, da circa 18 a 20 nel resto della provincia. A
parte l’influenza del diverso tipo di campionamento seguito (semplice e stratificato), la presenza di
un questionano nell’indagine articolato lungo i due assi dimensionali dei tipi di reddito. e dei
percettori rispetto alla informazione puntuale richiesta, nell’indagine pilota, ha dato la possibilità di
un maggiore approfondimento che ha portato ad una maggiore valutazione, grosso modo, del 15%
in media.
Anche le differenziazioni della variabilità tra indagine pilota ed indagine vera e propria, di cui si è
riferito e che hanno visto una varianza più elevata, nel secondo caso, possono essere interpretate
come una derivazione della diversa formulazione del questionario e del diverso impegno
dell’intervistatore.
Il lavoro degli intervistatori è stato coordinato dallo staff del PIN e del Centro di Documentazione e
Studi dell’ITALSIDER (sotto la direzione del dott. L. Pierri), strutture che avevano all’attivo
esperienze di indagini e studi sulla realtà sociale del tarantino. È noto, infatti, che l’ITALSIDER è
molto attenta alla evoluzione socioeconomica della zona, in quanto anche attore di interventi
concreti sul territorio, come, per esempio, la costruzione di case per i propri lavoratori.
Il gruppo degli intervistatori (10 persone) ha avuto un apposito addestramento per l’indagine ed ha
dato conto del lavoro, quotidianamente, presso l’ITALSIDER.
Nella relazione conclusiva dell’ITALSIDER, compilata nell’agosto 1985, si legge a proposito delle
interviste rifiutate: «non si sono avuti particolari problemi, oltre quelli accennati, nell’accettazione
delle interviste da parte delle famiglie ed è stato rispettato il piano di campionamento. Per Taranto
15
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte
A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof.
Claudio Quintano
Borgo abbiamo avuto notevoli difficoltà di accettazione, soprattutto da parte di commercianti e
professionisti. È mia opinione - scrive il dotti Pierri - che il rifiuto sia dovuto anche ad incapacità di
rapporto da parte dell’intervistatore incaricato».
Nel paragrafo «qualità del lavoro» si dichiara: «il gruppo di intervistatori, al di là del problema
Borgo è risultato molto affidabile e capace. Credo che uno dei motivi principali della riuscita del
lavoro in questo tipo di rilevazione sia stato l’elemento femminile, infatti i dieci intervistatori hanno
lavorato nel seguente modo:
- 6 divisi in tre coppie maschi-femmine;
- 2 donne separatamente;
- 2 maschi separatamente.
Sia le coppie che le donne singole hanno fatto un buon lavoro. Viceversa, dei due maschi che hanno
operato singolarmente, uno si è ritirato dopo tre interviste e l’altro ha avuto problemi di accettazione
nel quartiere Borgo»
A parte la bravura dei rilevatori un’indagine sul reddito richiede principalmente, come ebbe ad
osservare il compianto Muttarini, la collaborazione piena dell’intervistato. Collaborazione che può
essere ottenuta sia dando piena assicurazione sugli scopi scientifici della ricerca e sull’anonimità
della stessa e, in secondo luogo, fornendo tutti i mezzi ed i chiarimenti necessari ad una corretta e
completa indicazione dei redditi percepiti a qualsiasi titolo. Su questo punto non si sa in quale
misura, però, si riesce sempre ad ottenere gli effetti desiderati.
16
Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La
provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte