A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto Claudio Quintano - Donato Lucev I PARTE INTRODUZIONE Questa sezione ha per oggetto alcune spigolature su problemi e soluzioni di portata metodologica e pratica circa la rilevazione diretta, cioè tramite intervista, dei redditi familiari nella provincia di Taranto, in riferimento all’anno 1984. L’indagine è frutto della collaborazione tra l’Istituto di Statistica e Matematica dell’Istituto Universitario Navale, il Dipartimento di Matematica e Statistica dell’Università degli Studi di Napoli ed il Centro Documentazione e Studi dell’Italsider di Taranto. La ricerca segue un’altra, dello stesso genere, condotta nella provincia di Caserta1, in seguito sinteticamente citata «esperienza Caserta», ambedue relative ad un filone investigativo in cui non sono vigenti metodologie codificate, ma sono presenti processi di sperimentazione che giustificano gli aggiustamenti da un’esperienza all’altra, tutte accomunate dalla presenza di vincoli di bilancio di una portata tale da influire pesantemente sul disegno campionario, particolarmente su un carattere essenziale qual è la numerosità dei casi rilevati. La seconda «esperienza» di stima dei redditi su microaree, come la prima, è stata condotta su una provincia del Mezzogiorno continentale. Nella scelta della provincia di Taranto è venuto meno solo uno dei tre criteri applicati nella fase di scelta dell’area di studio precedente: la prossimità alla sede di ricerca napoletana. Sono stati confermati, invece, gli altri due che risultano più importanti: a) la rilevanza dell’area per la posizione che occupa nella costellazione dei «localismi» meridionali2; b) la determinante esistenza di una struttura, in loco, che fosse capace di adempiere, ad un buon livello di professionalità, alla fase delicata delle interviste3. 1 C. QUINTANO, «I redditi familiari nella provincia di Caserta», in G. MARBACH (a cura di), I redditi dei comuni italiani nel 1981, Quaderni del Banco di Santo Spirito, 2° volume, UTET, Torino, 1983. 2 La scelta di Caserta fu operata escludendo le altre province campane: « La provincia di Napoli ha, infatti, una dimensione demografica che la rende inidonea a stime campionarie riferibili al dettaglio comunale mediante indagini di dimensioni non eccessive; le aree di Benevento, Avellino e Salerno, comprendono zone che si inerpicano sulle montagne, presentano eterogeneità ragguardevoli nelle singole subaree e problemi operativi ed organizzativi, assenti, invece, nel Casertano. La zona di Caserta, inoltre, si caratterizza per le modalità di evoluzione che individuano un "modello di sviluppo" meritevole di osservazione anche per i risultati non soltanto economici: progressiva autosufficienza della zona, con eliminazione della perdita migratoria e pace sociale. In definitiva, l’area è per alcuni versi emblematica di un’eventuale e più generale analisi delle trasformazioni all’interno del Mezzogiorno... » cfr. C. QUINTANO, I redditi familiari nella provincia di Caserta, cit., pp. 106 e 107. La rilevanza dell’area di Taranto è, invece, di tipo diverso, legata, cioè, alla particolare struttura produttiva e demografica della provincia, influenzata dalla presenza del colosso Italsider. Evidentemente è stato condotto uno studio preliminare dedicato alla rilevanza della « esperienza Taranto » condensato in C. QUINTANO e L. ESPOSITO, « Lo sviluppo extragricolo ed il pendolarismo in provincia di Taranto», in Rassegna Economica, n. 5, 1986 3 Il centro di Documentazione e Studi dell’Italsider - Taranto; nell’esperienza di Caserta, la Camera di Commercio. 1 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano TAGLIO URBANO E TERRITORIALE DELL’INDAGINE Le due «esperienze» di stima diretta dei redditi, condotte su base comunale, investono, ciascuna, due livelli di approccio diversi che influenzano le scelte metodologiche: il livello urbano e quello territoriale. La prospettiva urbana riguarda le città demograficamente importanti come i capoluoghi, la cui realtà è da tagliuzzare in funzione di omogeneità del novero dei «quartieri» o di altre aree suburbane, quanto più possibile diversificate sotto il profilo socioeconomico, per ridurre la numerosità campionaria complessiva. Il taglio territoriale della ricerca, invece, riguarda gli «altri comuni» per i quali si pongono problemi di creazione di «clusters» di unità territoriali, funzione di omogeneità socioeconomica, ai quali riferire un numero adeguatamente alto di interviste campionarie. La prospettiva territoriale, quindi, investe una scelta metodologica cruciale che è quella di rinunciare a campionamenti legati ad universi comunali; in quest’ultima ipotesi il costo, in termini di numerosità campionaria, sarebbe altissimo in quanto sarebbe necessario assicurare una soglia minima di interviste per i comuni di scarso peso demografico. La creazione di gruppi di comuni, invece, consente di fruire di tassi di campionamento accettabili, per poi attribuire i relativi redditi medi che, a parità di altre condizioni, possono essere considerati attendibili, al livello comunale sottostante. Tale scelta metodologica implica che il risparmio di numerosità campionaria si paghi oltre che in termini di assenza di corrispondenza diretta tra campioni ed universi su base comunale, anche in termini di appiattimento dei redditi medi familiari comunali all’interno dei gruppi di comuni omogenei. L’intensità di questo danno, attribuibile alle limitate risorse finanziarie, può essere attutita, però, grazie ad un’adeguata procedura di clusterizzazione, cioè di stratificazione ai fini campionari, atta a ridurre al massimo le eterogeneità interne ai gruppi di comuni. Tenuto conto, da una parte, della distinzione tra i due livelli, urbano e territoriale, e, dall’altra, delle finalità di avere stime a livello comunale, vale quanto segue: a) la stima del reddito familiare dell’universo «città di Taranto» si colloca alla fine di un processo inferenziale che è di sintesi delle stime dei redditi medi familiari nei quartieri; b) come i quartieri costituiscono gli strati elementari a livello urbano così i clusters omogenei di comuni costituiscono gli strati a livello territoriale; la procedura inferenziale di sintesi, quindi, porta alla stima del reddito medio familiare dell’universo «altri comuni». Si configurano, così, due universi, «Taranto città» ed «altri comuni» ai cui livelli ha senso valutare la qualità delle stime. D’altra parte, proprio in una realtà come quella relativa all’« esperienza Taranto» (ciò vale anche per l’«esperienza Caserta») nella quale il capoluogo assorbe più del 40% delle famiglie della provincia intera è necessario che esso abbia un trattamento privilegiato rispetto agli altri comuni e venga trattato come un universo a sé stante. Si crea automaticamente una gerarchia di qualità tra i risultati per cui l’attendibilità è maggiore se ci si riferisce a Taranto città ed all’insieme degli «altri comuni» e minore nei singoli comuni ove, come si è detto, vengono riportati i redditi medi dei clusters di appartenenza. 2 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Va osservato, però, a sostegno della bontà della scelta metodologica, che la numerosità campionaria complessiva dell’universo degli «altri comuni» in base alle risultanze dell’indagine pilota è ben il doppio di quella ottenuta per l’universo del capoluogo e che la allocazione negli strati-clusters non ha portato ad esigue numerosità. DESCRIZIONE SINTETICA DELL’ «ESPERIENZA TARANTO» Prima di passare alla trattazione di alcune soluzioni metodologico - pratiche relative all’indagine è opportuno operarne una descrizione sintetica riferendosi alle sue caratteristiche, in ordine a tre punti essenziali: a) disegno di campionamento; b) metodologia di rilevazione; c) qualità dei dati raccolti. a) Disegno di campionamento 1) Metodo. Campione stratificato delle famiglie residenti nella provincia divise in due universi a sé stanti: il capoluogo e gli «altri comuni» della provincia. 2) Criteri di stratificazione. Per l’universo «Taranto città»: gli undici quartieri che costituiscono zone omogenee; per l’universo «altri comuni»: sei gruppi di comuni ottenuti mediante una tecnica di analisi di cluster gerarchica sulla base di variabili reddituali fiscali. 3) Liste della popolazione. Registri anagrafici in cui i fogli di famiglie sono ordinati per «area di circolazione » nella quale, per ipotesi, le famiglie sono omogenee dal punto di vista socioeconomico. 4) Selezione delle unità campione. Procedura di estrazione sistematica nelle anagrafi. È stato estratto anche un campione di riserva pari ad un terzo di quello base. S) Numerosità campionaria. Fissata onde attendere un errore campionario massimo del 5% del reddito totale α = 0,05 sulla base di indagini pilota: 206 questionari per Taranto e 401 per il resto della provincia. 6) Frazione di campionamento. È del 2,9 per mille a Taranto e del 4 per mille nel resto della provincia, variabile da strato a strato. 7) Stime ed errori campionari. Stime ed errori relativi alla variabile reddito calcolati per il campionamento stratificato. Estensione alla proporzione nella ipotesi di campionamento semplice. b) Rilevazione 1) Ente rilevatore. Istituto Universitario Navale - Italsider. 2) Modalità di rilevazione. Eseguita da intervistatori sulla base di un questionario. La visita è stata preceduta da una lettera dell’Istituto di Statistica dell’Istituto Universitario Navale con la quale si spiegavano le finalità scientifiche dell’indagine. 3) Modelli di rilevazione. Modello di rilevazione del tipo di quello adottato dalla Banca d’Italia, notevolmente snellito. 3 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 4) Addestramento dei rilevatori. Rilevatori con notevole esperienza professionale; sono stati addestrati sulle problematiche specifiche presso il Centro di Documentazione e Studi dell’Italsider. S) Epoca di rilevazione. Marzo - Maggio 1985; riferimento, anno 1984. 6) Controllo dell’avvenuta rilevazione, codifica, perforazione. Riunioni giornaliere con gli intervistatori per dirimere dubbi, per decidere sulle sostituzioni delle interviste e per analizzare la coerenza interna delle risposte. e) Qualità dei dati raccolti 1) Mancate interviste. Sostituzione delle famiglie che non rispondono con altre tratte da un campionamento di riserva. 5% alla presentazione del questionario ed un 2% di quelli che l’hanno trattenuto. 2) Mancate risposte. Ridotte al minimo per l’intervento propositivo diretto dall’intervistatore. 3) Errori di risposta. Controllo dell’errore di risposta effettuato in termini di compatibilità interna. Anche il rilevatore fornisce una sua valutazione per classi di reddito. 4) Errori di codifica e trascrizione. Praticamente nulli. 5) Tecniche di imputazione e correzione. Non applicate. IL PROBLEMA CRUCIALE DELLA NUMEROSITÀ CAMPIONARIA La determinazione della numerosità del collettivo parziale è uno dei più importanti problemi da risolvere tra tutti quelli che sono relativi al disegno campionario, inteso sia come piano di campionamento - la metodologia usata per scegliere il campione della popolazione -, sia come l’insieme delle procedure di stima - gli algoritmi e le formule usate per ottenere le stime dei valori della popolazione dai dati campionari e per valutarne l’attendibilità. Tale soluzione si trova ad un crocevia su cui confluiscono, ad un tempo, quanto meno esigenze di attendibilità e validità delle stime ed il rispetto dei vincoli di tempo e di bilancio. Il primo passo da compiere nel determinare l’ampiezza, campionaria è quello di fissare il livello di attendibilità dei risultati. È noto che più grande è il campione maggiore è l’affidabilità delle stime. La validità complessiva non è legata strettamente, però, alla dimensione campionaria ma anche ad altri aspetti (e tra essi il più importante è il tipo di campionamento -semplice, stratificato, ecc. -) che fanno, capo logicamente ad un processo più comprensivo di misurazione. In altre parole, il miglioramento della validità richiede il miglioramento nel processo di misurazione che non significa necessariamente ritocco della numerosità campionaria. È noto che il campione stratificato (ché è adottato nelle «esperienze» di Taranto e di Caserta) è più efficiente di quello semplice; ne deriva che, fissati i margini di errore fra reddito medio effettivo e quello campionario, si possono avere risparmi di risorse, in termini di numero di interviste, imputabili alla stratificazione. 4 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Se si determina, viceversa, la numerosità ipotizzando un campionamento casuale semplice allocando poi i questionari, in misura proporzionale od ottimale, negli strati (omogenei al loro interno e disomogenei tra loro) si registrano guadagni in termini di maggiore attendibilità della stima. La formula della numerosità in ipotesi di campionamento casuale semplice riferita alla stima di una media è la seguente: n= Vˆy2 za2 / 2 [1] e2 ove: n è la numerosità campionaria; Vˆy2 è la stima del coefficiente di variazione dei redditi; zα/2 è la deviazione standard, assunta la distribuzione dei redditi normale; è fissata dal ricercatore4; ε è l’errore relativo massimo consentito, anch’esso fissato dal ricercatore: y (reddito medio campionario) non differirà da µ (reddito medio effettivo, incognito), per più di ε, al livello di probabilità fissato 1 – α. Pr ob{[ y - m / m ] < e } = 1 - a Quest’ultima può essere anche formulata in: Pr ob{[ y - m ] < em } = 1 - a da cui si evince che y non differirà da µ in valore assoluto, per più di εµ, praticamente ε y , ove ε y è noto come «errore ammesso» al livello 1-α. A parte i fattori ε e za/2, fissati dal ricercatore, è necessario disporre dell’informazione relativa a Vˆy od alle sue componenti, derivanti da indagini precedenti o, in mancanza, da indagini similari. La misura del livello e della variabilità dei redditi è ottenibile anche con un’indagine pilota ad hoc. Essa ha il vantaggio di fornire informazioni più centrate, adeguate, temporalmente e spazialmente, all’oggetto della ricerca, anche se non di ottima qualità, considerato che esse si basano su una numerosità ridotta. Non è detto, cioè, che l’obiettivo di ottenere stime affidabili della varianza venga sempre raggiunto; il punto è vedere che cosa il ricercatore riesce ad ipotizzare in assenza di questo strumento diretto ricorrendo, come si è detto, alle altre fonti e, se non sono disponibili, quale sia la validità, a confronto, di una congettura, dal costo praticamente nullo, a cui pure in alcuni casi si ricorre. 4 Valgono, quindi, le usuali corrispondenze tra zα/2, intervallo di confidenza e probabilità dell’errore. zα/2 Intervallo di confidenza Probabilità dell’errore 1,645 1,96 2,326 2,576 90% 95% 98% 99% 10% 5% 2% 1% 5 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Sembra ragionevole, allora, che il ricercatore prima di decidere se attivare un’indagine pilota o meno raccolga e vagli criticamente tutte le informazioni possibili traducendole in numerosità campionarie per potersi raccordare anche con l’altro elemento essenziale per prendere una giusta decisione che è il costo dell’operazione. D’altra parte, è difficile che le informazioni pregresse si riferiscano allo stesso tempo ed al medesimo livello di aggregazione territoriale. Nella fattispecie, ad esempio, è da ben considerare il grado di utilità dell’informazione sulla media e sulla deviazione standard riferite a livello nazionale, fonte Banca d’Italia, per un’esperienza dagli ambiti territoriali ristretti, per la cui conduzione si richiedono, peraltro, differenziate informazioni per le due diverse realtà del capoluogo e degli «altri comuni». Quale che sia la via seguita la stima della variabilità è soggetta ad errore. L’intervallo entro il quale esso oscilla comporta l’esistenza di un vero e proprio intervallo della numerosità campionaria nel quale il ricercatore, in realtà, va ad operare la propria scelta; in questo senso 6 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 7 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano I valori del prospetto indicano, in corrispondenza dei fattori ε e zα/2 i coefficienti di variazione della variabile media campionaria Vµ, stimata da V y che costituiscono, come si vede dalla [3], l’unità di misura con la quale va letto il coefficiente di variazione della variabile reddito ottenuto da informazione esogena. I dati del prospetto danno informazioni di attendibilità connessa con quelli corrispondenti della numerosità esposti nel prospetto relativo alla formula [2] . La [3] mostra come la numerosità campionaria sia direttamente proporzionale alla variabilità del fenomeno reddito ed inversamente proporzionale all’attendibilità della stima reddito medio espressa dal coefficiente di variazione della stessa. Poiché per 1’«esperienza Taranto» si è deciso di fissare ε = 0,05 e z = 1,96, come si evince dai prospetti che seguono la [2] e la [3] l’ordine di grandezza della numerosità è di 1537 questionari (per Vˆy = 1) in corrispondenza di un coefficiente di variazione della stima reddito medio del 2,55%. La numerosità va ridotta se si pone Vˆy = 0,709 che è il coefficiente di variazione dei redditi deducibile dall’indagine Banca d’Italia 1983. Quest’ultima informazione è l’unico dato di variabilità derivante da un’indagine più affine a quella di cui si discute e nel contempo più recente, visto che, per il 1984, la Banca d’Italia, come si evince dal prospetto seguente, non ha pubblicato alcun indice di attendibilità della stima. INFORMAZIONI DERIVANTI DALL’INDAGINE BANCA D’ITALIA Anni Reddito familiare medio Errore standard* (migliaia di lire) (migliaia di lire) 1 1980 12.856 408 ** 19811 13.815 155 ** 19821 17.611 184 ** 2 1983 20.222 227 19843 22.247 n.d (*) Si ricorre alla «finzione» del campionamento casuale semplice. (**) Viene pubblicata la semidimensione all’intervallo di confidenza al 99%; il dato sovrastante è ottenuto dividendo tale semidimensione per la deviazione standard. L’utilizzo di Vˆy dell’indagine Banca d’Italia ai fini del computo della numerosità campionaria sconta, ovviamente, il limite di riferirsi a livello nazionale ed alla procedura del campionamento semplice. Tale stima si ottiene tenendo conto che la numerosità di questionari Banca d’Italia è di 4000; infatti, partendo da y = 20.222.000 e ŝ y = 227.000 si ha sˆ y = 227.000 4.000 = 14.356.615 da cui 1 BANCA D’ITALIA, Boll. statistico, n. 3-4, 1983. L’indagine campionaria, ecc. Nota metodologica, p. 327 BANCA D’ITALIA, Boll. statistico, n. 3-4, 1984. I bilanci delle famiglie italiane nell’anno 1983, p. 275. 3 BANCA D’ITALIA, Boll. statistico, n. 3-4 1985. I bilanci delle famiglie italiane nell’anno 1984, p. 411 2 8 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 14.356.615 Vˆy = sˆ y / y = = 0,709; 20.222.000 in corrispondenza, gli intervalli di confidenza, al 95%, della variabile reddito medio campionario e della variabile reddito di una singola famiglia. Pr { y Î (20.222.000 ± 1,96*227.000)} = 0,95 Pr {y Î (20.222.000 ± 1,96*14.356.615)} = 0,95 Fruendo dell’informazione Banca d’Italia, una valutazione della numerosità per 1’«esperienza Taranto» per zα/2= 1,96 ed ε= 0,05 e, presumibilmente, per l’intera provincia è la seguente: 2 2 1,96 ö æ æzö n = Vˆy2 ç ÷ = ç 0,709 ÷ @ 800 0,05 ø èe ø è Il prospetto che segue riporta alcune ipotesi di numerosità campionaria sulla base della variabilità dei redditi Banca d’Italia 1983, in corrispondenza dell’errore standard delle stime e l’errore ammesso per intervalli di confidenza del 95%. Tra un rigo e l’altro in parentesi, vengono indicate le operazioni di raccordo fra i dati delle varie ipotesi fruendo di noti legami5. Numerosità n Errore standard ŝ y Errore ammesso 1,96 s y = e y 4000 ( ¸ 5) 800 ( ¸ 2) 400 ( ¸ 2) 200 227.000 (x 5 ) 507.000 (x 2 ) 717.000 (x 2 ) 1.014.000 2,22% di 20.222.000 5% di 20.222.000 7% di 20.222.000 10% di 20.222.000 La numerosità di 400 e di 200 questionari comportano, rispetto ai casi di maggiore dimensione campionaria, una dilatazione degli errori standard delle stime e dell’errore ammesso; infatti quest’ultimo è espresso in termini del 7% e del 10% della media, nell’ordine contro il 5% prefissato nell’ipotesi di 800 ed il 2,2% nel caso (Banca d’Italia) di 4000 questionari. Sono stati previsti questi due livelli dimensionali in quanto corrispondenti alla numerosità effettivamente impiegata nell’indagine, funzione, come si vedrà, della struttura di variabilità propria dei due universi dell’«esperienza Taranto», (nell’ordine, gli «altri comuni» ed il capoluogo), derivante dal sondaggio pilota. Dato il livello fiduciale del 95%, il confronto tra l’errore relativo delle stime nella ipotesi di valutazione autonoma della struttura di variabilità, fissato al 5% per ambedue gli universi, e gli errori su citati del 10% e del 7%, nell’ordine, legati all’adozione dei parametri Banca d’Italia, configura, ferme le altre condizioni, un sicuro guadagno di efficienza. 5 L. KISH, Survey Sampling, Wiley, p. 258. 9 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano D’altro canto, per un universo del tipo della provincia di Taranto intera, si è anche visto che assumendo la variabilità dell’indagine Banca d’Italia, ai livelli di z = 1,96 ed α= 5%, si può associare una numerosità pari a 800 questionari; dividendo, invece, la provincia nei due universi e operando due sondaggi preliminari distinti ai medesimi livelli fiduciali di prima si ha, come si vede negli schemi operativi, una numerosità di 206 e di 401 interviste nell’ordine. Accanto al guadagno di efficienza in termini di errore ammesso si registra quello della riduzione di numerosità campionaria complessiva ottenendo nel contempo due stime «mirate» che rispondono alla opportunità riconosciuta, in generale, e soprattutto nella realtà tarantina, di stralciare il capoluogo dal contesto provinciale. I prospetti operativi che seguono riguardano il calcolo della numerosità e della sua allocazione non proporzionale negli strati. La [1] è trasformata in 2 n = za / 2 ove s' 1 = za2 / 2 x2 e 2 n Nk N è la dimensione del campione; la numerosità del k-esimo degli r strati; è la numerosità dell’universo; zα/2 è la deviazione standard; ε s' 2k å Nk sk '2 1 N 2 x e2 è l’«errore relativo ammesso»; è la stima non distorta di s k2 ottenuta sulla base dei risultati del sondaggio preliminare mk N k - 1 2 sk ; mk - 1 N k mk è il numero degli elementi prelevati per il sondaggio dal k-esimo strato; s k2 la loro varianza. s ' 2k = Evidentemente quello della numerosità che è uno dei problemi non semplici da risolvere nella pratica delle rilevazioni campionarie in generale, accentua le sue connotazioni di difficoltà se bisogna operare, per la prima volta, valutazioni di variabili su microaree, in quanto risulta non sempre facile il raccordo con sperimentazioni condotte su realtà più vaste caratterizzate da diversa struttura di variabilità e da diversa impostazione metodologica. INDAGINE PILOTA Al fine di determinare l’ampiezza del campione, sia nel capoluogo che negli «altri comuni» , è stata impostata un’indagine pilota. Sono state scelte alcune variabili del questionario, tutte su base annua e per famiglia: 10 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano - il reddito da lavoro - il reddito da capitale-impresa - il reddito da trasferimenti - i redditi figurativi che compongono il reddito complessivo familiare. Le interviste, presso le famiglie estratte, sono state effettuate, in genere, nel tardo pomeriggio dei giorni feriali al fine di poter contattare il maggior numero possibile di percettori di entrate dell’unità familiare. Esse si sono concluse con una sola visita: il questionario del sondaggio preliminare, quindi, non è stato lasciato presso gli intervistati a differenza del questionario della indagine vera e propria che è stato, invece, ritirato successivamente dopo aver annotato una prima 11 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano risposta sul reddito familiare complessivo da considerarsi «provvisoria» rispetto alla «determinazione definitiva». Per il sondaggio è stato utilizzato un tasso di campionamento del 2‰, con un minimo di 10 famiglie per strato, complessivamente 162, per il capoluogo, e 200, per gli «altri comuni». Estratte dallo stesso «frame» utilizzato per l’indagine vera e propria, esse sono state scelte, tramite le tavole dei numeri casuali, da un elenco base, uno per ciascuno strato (quartieri nel comune di Taranto, e clusters di comuni omogenei nel resto della provincia costituenti un’unica «anagrafe» ideale di zone non necessariamente contigue); i questionari attribuiti ai clusters di comuni sono stati riferiti alle singole unità amministrative in proporzione della numerosità delle famiglie che sono state prescelte mediante estrazione sistematica, in modo ché le aree di circolazione più importanti fossero maggiormente rappresentate nel campione. Si è tenuto conto delle possibili sostituzioni per mancate interviste, costituendo un elenco di «riserva» pari ad un terzo di quello base. STRATIFICAZIONE DEL TERRITORIO COMUNALE DI TARANTO La storia e la composizione attuale delle città capoluogo segnalano varietà di insediamenti e di situazioni socioeconomiche i cui tratti salienti, di varia natura, emergono anche dai risultati campionari. 12 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Come per la formazione dei gruppi omogenei a livello territoriale dei comuni extracapoluogo, così anche per la formazione di gruppi di aree di circolazione (vie, piazze, ecc.) si richiederebbe il ricorso ad indicatori analitici di stratificazione da esaminare, congiuntamente, con tecniche di «cluster analysis» proprio per caratterizzare aree omogenee urbane che rispondano al requisito essenziale di avere circoscrizioni-strati massimamente omogenee all’interno delle zone suburbane e massimamente diversificate tra di loro. Tali informazioni, dato il riferimento spaziale delle unità da aggregare, vie, piazze, ecc., non sono disponibili. Nell’«esperienza Taranto», il Centro di Documentazione e Studi dell’Italsider è stato chiamato a valutare se le undici circoscrizioni suburbane, già esistenti, tenessero conto dei requisiti che presiedono ad una valida clusterizzazione, nella fattispecie di tipo empirico che discriminasse, sotto il profilo socioeconomico, in modo netto, zona da zona. 13 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 14 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano L’accettazione della zonizzazione preesistente ha trovato il suo supporto giustificativo in un’accurata descrizione socioeconomica dei quartieri redatta da L. Pierri in un apposito studio6. Nell’«esperienza Caserta», in assenza di circoscrizioni amministrative, vennero individuate nove aree da un gruppo di lavoro diretto dal Responsabile dei Servizi Demografici dell’anagrafe, per ciascuna delle quali vennero descritti gli elementi caratterizzanti e quantificati i dati di «frame»; ad esempio il numero di famiglie fu computato sommando i dati relativi ad ogni area di circolazione facente parte dell’area omogenea. STRATIFICAZIONE DEL TERRITORIO DEGLI ALTRI COMUNI Una scelta coerente da prendere in sede di stima di redditi comunali sarebbe, evidentemente, quella di procedere ad inferenze a livello comunale. Tale obiettivo avrebbe richiesto, come si è già avuto modo di osservare, una consistente numerosità campionaria anche per i comuni di piccola dimensione demografica e, quindi, un notevole incremento di costi. Soltanto per Taranto città si è raggiunto l’obiettivo di ottenere «informazioni» valide per l’ambito comunale dopo aver opportunamente stratificato il territorio in subaree, mentre per i restanti comuni della provincia si è proceduto ad aggregazioni in zone omogenee senza vincolo di contiguità territoriale. Per la realizzazione di tali sottouniversi è stata seguita la stessa logica delle procedure di campionamento per la ripartizione delle unità dell’universo in strati omogenei allo scopo di ridurre la numerosità campionaria a parità di errore standard della stima. È stato volutamente evitato, però, di ricorrere ad omogeneità stabilite empiricamente e/o frutto di preesistenti esperienze, qualcuna basata sul concetto di produzione del reddito e non sul «comportamento reddituale»; sono state utilizzate, perciò, tecniche di classificazione automatica. LA SCELTA DELLE VARIABILI È noto che, in generale, il carattere oggetto di studio costituisce il miglior criterio di riferimento per la formazione delle classi. Molto spesso le informazioni che lo riguardano non sono disponibili ed è necessario, quindi, riferirsi ad un fenomeno correlato con quello oggetto di indagine. Nella fattispecie, il fenomeno su cui si vuole indagare è il reddito destinato alle utilizzazioni finali. Sono stati scelti due set di variabili al fine di confrontarne il risultato di aggregazione: 1) reddito da lavoro dipendente, per qualifica, prodotto nell’anno 1983 e dichiarato ai fini fiscali nel 1984, nei comuni di residenza dei percettori di reddito; trattandosi di reddito da lavoro dipendente l’evasione fiscale è minore di quella che caratterizza le altre fonti di reddito (d’impresa, da capitale, autonomo, ecc.) anch’esse disponibili, ma non utilizzate in questo lavoro; 2) popolazione residente, consumi di energia elettrica per usi domestici, numero di autovetture immatricolate, spese telefoniche della utenza privata. 6 L. PIERRI, Le undici circoscrizioni della città di Taranto. Breve descrizione socioeconomica, Quaderni del Centro Documentazione e Studi della Nuova Italsider di Taranto, Taranto, 1987. 15 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano D’altra parte, proprio il riferimento ad una gamma non completa di tipi di redditi (in funzione dei quali si operò per Caserta) ha richiesto che l’esercizio di aggregazione fosse ripetuto con un altro insieme di variabili, di fonte non fiscale, legati comunque alle utilizzazioni finali dei redditi. La scelta è caduta sulle serie utilizzate da G. Marbach per la determinazione delle variabili artificiali esplicative nel modello di regressione multipla atto a disaggregare il reddito disponibile provinciale 19837. I gruppi omogenei ottenuti con i due diversi set di variabili non sono dissimili, se si eccettua qualche transmigrazione (riguardante, cioè, un paio di comuni). LA SCELTA DEL METODO DI CLASSIFICAZIONE Il ricorso ad un metodo di classificazione automatica richiede anzitutto una scelta tra metodi gerarchici e metodi non gerarchici8. L’utilizzazione di questi ultimi presenta l’inconveniente di dover stabilire a priori il numero delle classi da considerare; i metodi gerarchici presentano, invece, il vantaggio di poter fissare a posteriori tale numero. Per questa analisi si è preferito utilizzare il metodo gerarchico ascendente9. L’algoritmo considera all’inizio ogni oggetto da classificare come una classe costituita da un singolo elemento e prosegue aggregando le due classi più «vicine» le quali sono costituite da uno o più oggetti, ottenendo così una nuova classe; si continua in modo analogo fino a comprendere tutti gli oggetti. Gli oggetti da classificare sono codificati con un numero progressivo da 1 a n; le classi formate successivamente sono individuate tramite un «nodo» espresso da un numero progressivo, a partire da n + 1 a 2 n- 1. Alla formazione della generica classe associata al nodo i-esimo contribuiscono due classi, individuate da a(i) e b(i) che si aggregano proprio in corrispondenza del nodo i-esimo. L’algoritmo del metodo è basato sulla massimizzazione dell’inerzia di una partizione. Così come per la devianza, l’inerzia totale della tabella alla base della classificazione può essere scomposta in due parti: l’inerzia intraclasse e l’inerzia interclasse. È ovvio che a livelli di inerzia intraclasse zero, sono da prendere in considerazione tutti gli oggetti e ciascuno di essi costituisce una classe a sé stante (geometricamente ciascun punto coincide con il suo centro di gravità); in tal caso l’inerzia interclasse assorbe interamente quella totale. Nelle fasi successive di aggregazione in classe, il livello di inerzia intraclasse aumenta fino a coincidere con l’inerzia totale quando tutti gli oggetti sono compresi in un’unica classe; tra questi due casi estremi si collocano i diversi valori dell’inerzia intraclasse in relazione a ciascun nodo della gerarchia. Il punto finale del procedimento di classificazione automatica è sintetizzato nel cosiddetto dendrogramma o albero della classificazione gerarchica, nel quale le maggiori o minori similarità tra gli oggetti raggruppati in classi sono graduate in relazione al livello di inerzia intraclasse. 7 G. MARBACH, I redditi dei comuni italiani nel 1983, Quaderni del Banco di Santo Spirito, n. 3, UTET, Torino, 1986. M. RIZZI, Analisi dei gruppi (cluster analysis), 2a ed., La Goliardica, Roma, 1981. 9 P. BENZECRI, L’analyse des données, Tome 1 e 2, Dunod, Paris, 1976 e M. JAMBU, Mathematical relations between hierarchical classification and factor analysis, Multidimensional data analysis, vol. 1, Dubrovnik, 1981. 16 8 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano In presenza di una tabella in cui le variabili e/o gli oggetti sono numerosi, si giustifica il ricorso a tecniche di analisi multivariata quali 17 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 18 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano l’analisi delle corrispondenze10 che permettono di rappresentare, con la minima perdita di informazione, la struttura fondamentale del fenomeno con riferimento non già alle variabili originarie bensì a variabili incorrelate delle prime. Il metodo dell’analisi delle corrispondenze consiste nel trasformare le relazioni analitiche tra le diverse grandezze in relazioni geometriche di uno spazio pluridimensionale, rappresentabile mediante proiezioni sui piani coordinati. È possibile, così, individuare le nuove variabili associate agli assi strutturali, e, contemporaneamente, stabilire le relazioni che intercorrono tra le variabili originarie ed il ruolo che le medesime hanno nella determinazione dei raggruppamenti di osservazioni. Per tali motivi, il metodo di classificazione gerarchico è stato applicato alla tabella delle coordinate fattoriali ottenuta tramite analisi delle corrispondenze11. In genere, ci si limita a considerare i primi due assi fattoriali, per avere la possibilità di effettuare un collegamento tra i risultati della classificazione ed il piano, individuato dai suddetti assi, ottenuto dall’analisi. 10 Per il metodo dell’analisi fattoriale delle corrispondenze si vedono L. LEBART e J.P. FENELON, Informatique et statistique appliquées, Dunod, Paris, 1976. 11 M. JaMsu, Quelques calculs utiles à 1’inteìpretation conjointe d’une classification ascendente hiérarchique et d’une analyse des correspondences, Pubblication du Laboratoire de Statistiqué, Université P. e M. Curie, Paris, 1975 19 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano LA FORMAZIONE DEI CLUSTERS (STRATI) DI COMUNI Facendo riferimento, per brevità, alla sola tabella dei dati che contiene gli ammontari dei redditi fiscali dichiarati (in ciascun comune della provincia di Taranto) distinti per qualifica, (applicazione dell’analisi fattoriale delle corrispondenze, come si vede nella fig. 2, comporta che le incidenze dei primi due autovalori (40,5% e 30,6%) complessivamente forniscano un’informazione pari a circa il 70% di quella relativa alla tabella iniziale. DETERMINAZIONE DEL NUMERO DEI CLUSTERS La determinazione del numero delle classi è un’operazione molto delicata tra quelle previste da questa analisi. In genere, un aiuto alla scelta del livello di inerzia, cui riferire il numero di classi, proviene dall’istogramma che riporta gli insiemi di comuni così come sono venuti a raggrupparsi formando l’albero dei clusters. Si sceglie, cioè, un livello d’inerzia in corrispondenza del quale il numero degli insiemi comuni e la loro composizione abbia un adeguato significato in termini di coerenza e di congruità derivante da un attento studio delle realtà locali. Questo giudizio ha portato alla scelta di un livello di inerzia 255, individuando, così, sei gruppi di comuni. NUMERO DELLE UNITÀ DA ESTRARRE IN CIASCUN CLUSTER Nella «esperienza Caserta», alla fine della procedura di clusterizzazione, ottenuti, cioè, il numero e la composizione dei gruppi omogenei di comuni da considerarsi come strato nella tecnica, campionaria, si è proceduto a determinare le numerosità delle unità campione, relative ai gruppi stessi. allocando il numero di questionari fissato a priori, secondo i vincoli di bilancio, in base ai valore di inerzia intraclasse registrati in ciascuno di essi; in tal modo, il numero dei questionari è maggiore laddove è minore omogeneità nei gruppi di comuni. Nella «esperienza Taranto» la clusterizzazione è stata utilizzata solo per determinare i gruppi di comuni omogenei da considerare come strato nella procedura di campionamento stratificato, mentre l’allocazione delle interviste è stata operata seguendo la variabilità dei redditi familiari, stimata con un apposito sondaggio preliminare e non derivata dall’uso delle costanti di variabilità (inerzia) connesse con il metodo di clusterizzazione dei comuni. La modificazione metodologica tra le due «esperienze» ha due sostanziali motivazioni: 1) la necessità di ottenere una distribuzione di questionari «non distorta» dall’«effetto aggregazione». La procedura di formazione dei gruppi riguarda i comuni (come unità elementari) e non le famiglie alle quali vanno distribuiti i questionari. Infatti, le inerzie sono indici di variabilità calcolati su dati comunali, mentre le stime delle varianze dei redditi, ipotizzate o realmente calcolate con sondaggi preliminari, che presiedono alla determinazione della numerosità campionaria, prima, ed all’allocazione (non proporzionale) poi, sono calcolati su campioni di famiglie. Un’allocazione di interviste destinate ad unità familiari sulla base di indici di variabilità stimati su unità-aree comunali comporta, evidentemente; un riferimento eterogeneo. 2) la necessità di applicare un tasso di campionamento adeguato alla reale variabilità dei comportamenti reddituali locali, in un contesto di sole 27 unità territoriali da raggruppare, qual è l’universo degli «altri comuni». 20 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Nella «esperienza Caserta», i comuni extracapoluogo erano ben 103 dislocati, peraltro, su molteplici direttrici di omogeneità, anche se ben stagliate (zona a ridosso dell’area metropolitana di Napoli, zone montuose del Matese, litorale turistico, pianura immediatamente interna ad agricoltura intensiva). Considerato che le stime dei redditi familiari medi dei gruppi di unità territoriali vanno riportate alle famiglie dei comuni facenti parte, decidendo di destinare, a priori, a Caserta, un migliaio di interviste (contro le 401 di Taranto derivati dalla operazione del sondaggio pilota), si volle dare un’adeguata importanza al fattore numerosità dei comuni, assicurando, nel contempo, stime sufficientemente attendibili a livello di microaree. D’altra parte, lo storno al capitolo «campione» delle risorse dedicabili al capitolo «sondaggio preliminare» (un sondaggio può costare fino al 60% del costo di un’intervista completa), consentì, a Caserta, che il bilancio fosse compatibile con l’esigenza di portare la numerosità campionaria alla soglia del migliaio. In definitiva, tale livello (non-necessariamente raggiungibile utilizzando le informazioni del sondaggio preliminare, in quanto la relazione analitica che presiede al calcolo della numerosità campionaria non tiene conto, né della numerosità. delle famiglie, né della numerosità dei comuni che formano i cluster - strati), veniva richiesto dall’esigenza di assicurare una consistente dimensione campionaria che facesse fronte ad un universo «altri comuni» diviso, è vero, in chiare omogeneità, ma articolato in una miriade di comuni. L’innesto dell’operazione di sondaggio preliminare, tra la fase dell’ individuazione delle omogeneità territoriali e la distribuzione dei questionari negli strati in sintesi, segna, nell’«esperienza Taranto», il duplice vantaggio di affrancare la procedura dalla distorsione dovuta all’«effetto aggregazione» e di determinare la numerosità delle famiglie secondo procedure adeguatamente legate alle scelte del ricercatore, circa l’attendibilità delle stime; tali opzioni (livello fiduciale ed errore ammesso), quindi, si configurano, nell’«esperienza Taranto», identiche, sia a livello urbano, sia a livello territoriale. I vettori di aliquote di composizione, qui di seguito riportati, sintetizzano, per gli strati comunali degli «altri comuni» della provincia di Taranto, tre diverse ipotesi di allocazione dei questionari, tra le quali, per le motivazioni addotte, viene scelta la seconda: ALIQUOTE IN BASE ALLE QUALI SI PUÒ RIPARTIRE NEI GRUPPI («ALTRI COMUNI») DELLA PROVINCIA DI TARANTO LA NUMEROSITÀ CAMPIONARIA Allocazione Gruppi Allocazione non proporzionale proporzionale di Inerzia intraclasse (*) Variabilità del sondaggio Nk/N comuni preliminare ( N k / N )s k / å ( N k / N )s k 1 0,1873 0,2174 0,2510 2 0,1312 0,1693 0,1918 3 0,2211 0,2446 0,2506 4 0,0909 0,1122 0,0914 5 0,1866 0,1443 0,1121 6 0,1829 0,1122 0,0531 (*) della procedura di clusterizzazione gerarchica applicata sulle unità comunali per derivare le omogeneità territoriali. 21 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano PROCEDURA DI REDAZIONE DELLA LISTA DELLE FAMIGLIE La popolazione di riferimento è stata la popolazione residente al netto delle convivenze. Determinata la numerosità campionaria, sono state interessate, per la redazione della lista base e della lista di riserva delle famiglie, tutte le anagrafi comunali nella loro composizione all’ 1 gennaio 1984. Essendo stata espletata l’indagine nel marzo-maggio 1985, su redditi riferiti, temporalmente, all’anno 1984, i problemi di ricostruzione del «frame», al primo gennaio 1984, sono stati risolti con una certa approssimazione, non predisponendo, cioè, direttamente la lista materiale delle famiglie a quella data, ma adottando l’accorgimento di eliminare dalle estrazioni campionarie operate quelle che facevano parte dell’anagrafe solamente dall’inizio dell’anno: si sono avuti tre casi su seicento interviste. L’approssimazione è derivata, poi, dal fatto che il «frame» difettava delle famiglie che avendo fruito di reddito 1984, si sono cancellate dall’anagrafe (ad esempio, per trasferimento, per cessazione della famiglia, ecc.) nel periodo che va dalla fine del 1984 al febbraio-marzo 1985. In ogni caso, hanno fatto parte del «frame» le famiglie che sono entrate nell’anagrafe durante l’anno 1984. È noto che secondo la legge sull’anagrafe le famiglie, oltre ad essere ordinate alfabeticamente devono essere ordinate anche per «area di circolazione». Seguendo, cioè, la lista delle aree di circolazione, sia nei quartieri, per Taranto, sia nell’«ideale» anagrafe che consolida quelle degli altri comuni della provincia, i fogli di famiglia sono risultati divisi in gruppi; ognuno corrispondente ad uno strato, avendo mantenuto in tutti i gruppi l’ordine originario dell’anagrafe. Da ogni 1000 fogli se ne sono estratti tanti quanti ne ha assegnato il doppio del «per mille» relativo allo strato, arrotondando il risultato ottenuto all’unità immediatamente superiore ed in maniera da equiripartirli. Ad esempio, per il Quartiere Borgo, il rapporto nklNk x 1000, ha dato 2,71‰; raddoppiando ed arrotondando, è risultato 5 il numero dei fogli di famiglia da estrarre per ogni 1000: si è scelto il 200-esimo, i1 400-esimo, il 600-esimo, ecc., fino ad esaurire tutti i fogli anagrafici. Per ogni 4 famiglie nell’ordine sorteggiate, le prime tre sono andate a formare l’elenco base, da cui sono state scelte, casualmente, col rapporto di 2/3, o poco meno, se si è operato il summenzionato arrotondamento, quelle che sono state rilevate; la quarta è andata a formare l’elenco suppletivo (elenchi relativi allo strato). Questo metodo di scelta sistematica, essendo i fogli anagrafici ordinati per area di circolazione, assicura la ripartizione delle famiglie estratte proporzionale alla popolosità delle aree medesime, che, come tali, sono considerate unità (intermedie) che raggruppano famiglie omogenee negli strati. La scelta sistematica delle unità pone dei problemi12 dei quali si citano solo quelli di maggiore rilevanza pratica. Non sarebbe possibile, infatti, passare dalla varianza delle osservazioni di un particolare campione alla varianza della media campionaria, nel caso di estrazioni sistematiche; così come avviene, invece, con una procedura di estrazione tipica del campione casuale semplice, in quanto, nella prima circostanza, le medie campionarie che vengono confrontate con la media generale, la stima della media dell’universo, dipendono dal numero casuale scelto per la partenza della procedura di campionamento. Può ritenersi frequente, però, l’assunzione che il campionamento casuale sistematico sia equivalente a quello casuale semplice ipotizzando che la lista dalla quale sono estratti gli elementi campionari sia fornita dalla determinazione di una variabile dall’ordinamento casuale. 12 Cfr. il cap. IV di L. KisH, Survey, ecc., op. cit. 22 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – I parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto Claudio Quintano - Donato Lucev II PARTE Dalla teoria si sa che per la varianza della media campionaria vale la relazione: var( y ) = s2 [1 + d x (n - 1)] n ove n=N/K e dx = 2åiK å nJ ål < J ( y iJ - y )( y il - y ) nk (n - 1)s y2 ; δx è il coefficiente di correlazione intraclasse; N è l’ampiezza della popolazione; n è l’ampiezza campionaria; k il passo; yiJ è lo j-esimo elemento estratto dall’i-esimo gruppo; yil è un altro elemento derivante dallo stesso gruppo (l ≠j ). Si può facilmente dimostrare che la var ( y ) è più grande (quindi δx è positivo) quando la periodicità dell’intervallo di estrazione coincide con la periodicità dei dati, se c’è. Questa situazione è in corrispondenza di un set di determinazioni delle variabili che sono poco discoste nell’ambito del gruppo del passo di campionamento e più o meno fortemente discoste se le determinazioni provengono da campioni diversi: da qui un alto coefficiente di correlazione intraclasse (esso indica la omogeneità degli elementi rispetto alla variabile da misurare) ed un’alta varianza della «stima media». Al contrario δx è negativo se la lista è ordinata monotonicamente. Tra questi due casi estremi v’è: 1) il caso della varianza derivante da lista non ordinata, in cui δx è debole (positivo o negativo); 2) il caso della varianza derivata da campionamento casuale semplice. estrazione sistematica da lista con periodicità estrazione sistematica da lista non ordinata var ( y ) alta estrazione con campione causale semplice estrazione sistematica da lista ordinata monotonicamente var ( y ) bassa 1 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Facendo riferimento alla fattispecie, non sembra che vi sia periodicità nei dati reddituali via via che, per così dire, si scorre il «frame», anzi nella misura in cui le aree di circolazione si susseguono l’un l’altra in ordine di livello socioeconomico si potrebbe beneficiare, per l’ordinamento monotonico, dell’effetto riduzione della varianza. Concludere che l’estrazione sistematica, dato l’ordinamento dei fogli di famiglia non produca significativi effetti modificativi della variabilità, rispetto al campionamento semplice, od anche rispetto al campionamento sistematico con ordine casuale della lista, significa, forse, attestarsi addirittura su posizioni prudenziali. Bisogna dire, in definitiva, che le liste che comunque non sono in ordine casuale portano le varianze delle stime ad essere approssimate per difetto o per eccesso; nella fattispecie, l’organizzazione del «frame» sembra escludere valori approssimati per eccesso che hanno un effetto meno auspicabile sulle stime. Per completezza, va detto, però, che esiste un tipo di campionamento sistematico ripetuto che dà stime corrette delle varianze della stima delle «medie», delle «proporzioni» e dei «totali», qualunque sia l’ordine degli elementi e la periodicità della lista dalla quale è estratto il campione. Quest’ultimo tipo di campionamento, ovviamente, porta anch’esso a risultati simili a quelli che derivano dal campionamento su lista con ordine casuale: esso presenta il vantaggio che l’errore standard può essere stimato direttamente dai dati ma ha lo svantaggio di dover scorrere la lista più volte nella determinazione del campione, mentre nel campionamento sistematico semplice viene individuato scorrendola una sola volta. STIME DELLA MEDIA DEI REDDITI FAMILIARI Portata a termine la procedura fin qui descritta, alternando grandi linee e dettagli circa le esigenze metodologiche e pratiche, affacciatesi nel corso della sperimentazione, sono state computate le stime dei redditi medi familiari dei due universi riferentesi al 1984: - Taranto capoluogo 23.267.000 (pro-capite: 6.825.000) - «altri comuni» 19.993.000 (pro-capite: 5.922.000) - intera provincia 21.353.000 (pro-capite: 6.299.000) Tali determinazioni esprimono una sintesi dei redditi medi familiari di strato relativi, cioè, alle circoscrizioni della città di Taranto ed ai gruppi omogenei formanti gli «altri comuni», ponderati, ovviamente, con il vettore delle aliquote di struttura dell’universo. 2 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano REDDITO MEDIO FAMILIARE NEGLI STRATI DELLA CITTÀ DI TARANTO E DEGLI «ALTRI COMUNI» DELLA PROVINCIA, 1984 STRATI REDDITO MEDIO FAMILIARE (in .000 lire) Quartieri della città di Taranto - Statte - Paolo VI - Agro Nord - Tamburi - Croce - Isola - Porta Napoli - Borgo - Italia - Monte Granaro - Tre Carrare - Battisti - Solito Corvisea - Salinella - Talsano - S. Vito - Lama - Carelli 23.514 17.883 18.920 17.885 22.453 27.383 22.739 25.440 20.561 23.725 30.218 Gruppi di comuni omogenei (*) - Primo - Secondo - Terzo - Quarto - Quinto - Sesto 18.007 22.996 20.574 17.789 21.273 18.957 (*) Il primo gruppo comprende: Avetrana, Mareggio, Saga, Manduria; il secondo: S. Giorgio Jonico, Roccaforzata, Castellaneta, Pulsano, Leporano; il terzo: Grottaglia, Martina Franca; il quarto: Monteparano, Mottola, Totticella, S. Mariano; il quinto: Crispiano, Carosino, Palagiano, Lizzano, Monteiasi, Palagianello, Montemesola, Faggiano, Fragagnano; il sesto: Ginosa, Laterza e Massafra. Sintetizzati i dati di strato, per Taranto, e riportati quelli di gruppo ai comuni che ne fanno parte, si sono ottenute le seguenti stime: 3 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano STIME DEI REDDITI FAMILIARI MEDI E COMPLESSIVI DEI COMUNI DELLA PROVINCIA DI TARANTO, 1984 CITTÀ Taranto Primo gruppo - Avetrana - Maruggio - Sava - Manduria Secondo gruppo - S. Giorgio Jonico - Roccaforzata - Castellaneta - Pulsano - Leporano Terzo gruppo - Grottaglie Martina Franca Quarto gruppo - Monteparano - Mottola - Torricella - S. Marzano Quinto gruppo - Crispiano - Carosino - Palagiano - Lizzano _ - Monteiasi - Palagianello - Montemesola - Faggiano - Fragagnano Sesto gruppo - Ginosa - Laterza - Massafra Totale provincia ~ Famiglie al 1° gennaio 1984 71.319 18.807 2.456 1.604 5.080 9.667 13.168 3.915 548 4.710 2.808 1.187 22.193 8.842 13.351 9.122 686 4.822 1.177 2.437 18.735 3.406 1.608 3.900 2.620 1.480 1.886 1.236 980 1.549 18.364 6.034 4.020 8.310 171.708 Reddito medio familiare (migl.) 23.267 18.007 22.996 20.574 17.789 21.273 18.957 Reddito complessivo (miliar.) 1.659,379 338,657 44,225 28,883 91,476 174,073 302,811 90,029 12,602 108,311 64,573 27,296 456,599 181,915 274,684 162,271 12,203 85,778 20,938 43,352 398,550 73,945 34,207 82,965 55,735 31,484 40,121 26,293 20,848 32,952 348,126 164,386 76,207 157,533 3.666,393 4 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano CONTROLLO DEI CAMPIONI La procedura di controllo, qui di seguito adottata, è tipica dei comparti strettamente sperimentali; essa, pertanto, dovrebbe riguardare dati dei quali siano rispettate le condizioni richieste dall’applicazione dei test e, tra queste, senza dubbio la più importante è quella della normalità. È noto che nel comparto delle fenomeniche economiche esse sono difficilmente riproducibili, o, se ipotizzate, si tratta di assunzioni che hanno deboli fondamenta alle quali, nella fattispecie, si aggiunge la non elevata numerosità dei casi. La procedura di controllo, pur con le limitazioni di efficacia suddette; può essere però utile per mettere insieme elementi informativi da collegare con altri spesso anche essi poco consistenti se presi singolarmente. Purtroppo nel settore della stima campionaria dei redditi, meno che mai per le microaree, il ricercatore non ha la soddisfazione di cimentarsi con il suo esperimento disponendo, preventivamente, di itinerari codificati di controllo, percorsi i quali dichiara le risultanze soddisfacenti o meno. Ai test, agli indici di variabilità delle stime è necessario associare la dichiarazione delle metodologie seguite, l’esposizione delle difficoltà, le modalità del loro superamento o contenimento, il richiamo ed il collegamento ad indagini similari o ad informazioni dello stesso genere provenienti da altra fonte. Il controllo si configura, quindi, come un processo complesso nel quale gli indicatori di bontà e di attendibilità che affiorano in modo più o meno stagliato, non sono i soli. In questo senso può ritenersi che tutta la sezione metodologica di un «survey report» sia dedicata al controllo. Nella fattispecie, in questo paragrafo, è stato fatto uso più semplicemente del test t sulle medie e del test F sulle varianze derivanti dai collettivi parziali: sondaggio pilota e campione vero e proprio. Evidentemente si richiede che tra le costanti caratteristiche dell’uno e dell’altro non vi siano divergenze sistematiche tali da comportare una dichiarazione di provenienza da universi differenti: È necessario, infatti, che le due strutture campionarie, la prima che è strumentale in quanto consente di fissare la numerosità della seconda e la seconda stessa che è quella portante, siano strette da seri legami. D’altra parte, la verifica è operata sui dati come se provenissero da un campionamento semplice e non stratificato, non disponendo la letteratura, sembra, di adeguati strumenti metodologici al riguardo. 5 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 6 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 7 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Le divergenze ammissibili risultano abbastanza sensibili alla bassa numerosità campionaria che afferisce negli strati; con questa chiave di lettura, risultano, perciò, più attendibili i risultati negli strati dell’universo degli «altri comuni» rispetto a quelli cittadini. GRADO DI ATTENDIBILITÀ DELLE STIME La natura campionaria della rilevazione richiama immediatamente il problema della valutazione del grado di attendibilità delle stime che sono influenzate, però, anche da altre cause, sinteticamente definite non campionarie. Gli statistici, ovviamente, dedicano molta attenzione alle prime anche se, si è avuto modo di osservare, le quantificazioni di attendibilità richiedono dati che rispettino ipotesi teoriche di andamento difficilmente riscontrabile in pratica. La questione delle cause di imprecisione di tipo non campionario, invece, viene risolta spesso in ambiti descrittivi, in quanto è assente una struttura modellizzata di cui fruisce l’analisi degli errori campionari, e soprattutto perché è assente una «cultura» che abbia attivato ricerche nella direzione che attiene agli aspetti della «gestione dell’indagine» come le mancate interviste, le mancate risposte, effetto intervistatore, ecc. Rimandando questi ultimi aspetti, qui si procede a valutare sia l’attendibilità delle stime della variabile media dei redditi, sia l’attendibilità delle proporzioni da riferire, sempre, a caratteri reddituali. a) Attendibilità della stima «media dei redditi familiari» Per i due universi considerati in questa ricerca sono stati calcolati gli errori standard delle stime «media dei redditi». Si ,è applicata la formula13. sˆ ystrat é = êå N k2 s ky2 / n k êë ( )( æ N k - nk çç è Nk ) ö ù ÷÷ / N ú ø úû 1/ 2 valida per il campionamento stratificato qualunque sia il tipo di allocazione e quindi anche per quello ottimale (non proporzionale) qui adottato. Taranto capoluogo: sˆ ystrat . = 989.994 «altri comuni»: sˆ ystrat . = 627.772 da cui, nell’ordine, i relativi intervalli di confidenza Pr { y Î (23.267.000 ± 1,96 * 989.994) } = 0,95 Pr { y Î (19.993 .000 ± 1,96 * 627.772) } = 0,95 Utilizzando le medesime informazioni campionarie, nella ipotesi di attribuzione proporzionale, la formula14 13 La 3.3.2 di pag. 81 in L. KtsK, Survey sampling ecc., op. cit. 8 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano éN -n ù sˆ ystrat . prop. = ê 2 (å N K )( s ky2 / n)ú ë N û 1/ 2 dà gli errori per Taranto capoluogo: sˆ ystrat . prop. = 1.027.866 «altri comuni» sˆ ystrat . prop. = 639.838 da cui, nell’ordine, i relativi intervalli di confidenza Pr { y Î (23.267.000 ± 1,96 * 1.027.866) } = 0,95 Pr { y Î (19.993 .000 ± 1,96 * 639.838) } = 0,95 Nell’«esperienza Taranto», a giudicare dagli errori standard della stima, l’allocazione non proporzionale delle unità campionarie non apporterebbe «guadagni» sensibili di attendibilità del reddito medio. Un altro riferimento importante è dato dalla ipotesi in cui il campione sia casuale semplice; si tratta, ovviamente, di adattare, allo scopo, le informazioni campionarie ricavate per la procedura del campionamento stratificato. A questo proposito si possono seguire due ipotesi. 1) La prima utilizza la considerazione che il campionamento stratificato con attribuzione proporzionale approssima la stima dell’errore standard degli elementi «entro» gli strati sˆ ystrat . prop. éN -n ù = ê 2 (å N K )( s ky2 / n)ú ë N û 1/ 2 é 2 æ N - n öù / n)ç @ ê(s wy ÷ú è N øû ë 1/ 2 Essa è simile all’errore standard della media nel campione casuale semplice sˆ ycasuale semplice é æ N - n öù = ê s y2 / n ç ÷ú è N - 1 øû ë ( ) 1/ 2 La differenza sta nel fatto che nel campionamento stratificato (allocazione proporzionale) la 2 varianza della popolazione (s y2 / n) è sostituita da (s wy ) che è una media ponderata delle varianze dei redditi elementari entro ciascuno strato. Ciò implica che la tecnica del campionamento stratificato con allocazione proporzionale dà una stima della media ad errore più basso di quello ottenuto con il campionamento semplice dato che 2 s wy < s y2 . Utilizzando la scissione nota nell’analisi della varianza si ha la relazione 14 La 3.4.2 di pag. 84 in L. KISH, Survey sampling ecc., op. cit. 9 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano sˆ y2casualesemplice = s y2strat. prop. + sˆ b2y 2 sˆ wy da cui ŝ b2y = å N k ( y k - y) 2 K N (varianza tra le medie degli strati). Si può ottenere, così, l’errore standard della media nella ipotesi di campionamento semplice, come si vede dal seguente prospetto riepilogativo: Ipotesi 1) - Errori campionari per tipo ed universo indicati (in .000 lire) Errore standard della stima Universo Taranto capoluogo 1.027,866 «altri comuni» 639,838 ŝ ytra le medie 3.154,468 1.714,682 ŝ ycasuale semplice 3.317,158 1.829,530 sˆ ystrat . proporz . 2) L’altra ipotesi, che porta ad una seconda stima dell’errore standard della media campionaria nel caso di campionamento semplice, è derivabile dalla stratificazione di gruppi di diversa dimensione nel «cluster sampling»15. La procedura, che segue nella prima parte la precedente, ha come punto cruciale la ponderazione dei redditi medi di strato y k (per il calcolo sia della media, sia della varianza generale) con un vettore di pesi che è dato dai reciproci della probabilità di selezione dell’i-esimo elemento nello strato. Siano tali pesi wk = {Pr[selezione dell ' i - esimo elemento nello strato K ]} = N k / n k ; -1 1/ 2 æ åwk ( yk - y)2 ö ÷ sˆ ytralemedie = ç ç (åwk ) -1 ÷ ø è con y= åwk yk å(wk ) -1 Il seguente prospetto riepiloga, come il precedente, gli errori: 15 Cfr. L. KisH, Survey sampling ecc., op. cit., pag. 192. 10 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Ipotesi 2) - Errori campionari per tipo ed universo indicati (in .000 lire) Errore standard della stima Universo Taranto capoluogo 1.027,866 «altri comuni» 639,838 sˆ ytra le medie 3.512,195 1.635,680 ŝ ycasuale semplice 3.659,511 1.755,517 sˆ ystrat . proporz . b) Attendibilità della stima delle proporzioni riferite a caratteri reddituali La. tavola che segue riporta, nella ipotesi che si tratti di campionamento semplice, ed al livello fiduciale del 95%, gli errori relativi alle proporzioni che riguardano i caratteri reddituali in corrispondenza delle numerosità campionarie, 200 e 400, inerenti ai due collettivi di Taranto e degli «altri comuni». Essi evidentemente approssimano per eccesso gli errori che si registrano nell’ipotesi di campionamento stratificato, qui. condivisa. È inutile dire poi che tali margini di errore delle stime reddituali non possono essere estesi alle altre stime delle caratteristiche della popolazione investigate dal questionario e meno che mai alle sottopopolazioni (ad esempio: le frequenze di una classe di reddito). Attendibilità di proporzioni riferite a caratteri reddituali. Errore massimo della stima di una proporzione (caso del campionamento casuale semplice) livello fiduciale del 95%) Proporzione di unità avente una determinata caratteristica 0,05 a 0,95 0,10 a 0,90 0,15 a 0,85 0,20 a 0,80 0,25 a 0,75 0,30 a 0,70 0,35 a 0,65 0,40 a 0,60 0,45 a 0,55 0,50 n=200 per Taranto città 0,0302 0,0416 0,0495 0,0554 0,0600 0,0635 0,0661 0,0679 0,0689 0,0693 n=400 per gli «altri comuni» 0,0214 0,0294 0,0350 0,0392 0,0424 0,0449 0,0467 0,0480 0,0488 0,0490 QUESTIONARIO Il tipo di questionario qui di seguito riportato risponde alla esigenza di agevolare l’attivazione della complessa procedura di ottenimento delle risposte riducendo, per questa via, il tasso dei rifiuti; esso indica all’intervistatore ed all’intervistato insieme, le vie di « ricostruzione » dei redditi familiari, passando per la determinazione dei rivoli elementari di entrate a livello di singoli percettori. È stato scartato, quindi, lo strumento del questionario unico che aggrega le informazioni di tutti i titolari di entrata e di tutti i rivoli di reddito su un unico supporto proprio perché risulta difficile all’intervistato, senza una traccia che ripercorra gli itinerari di formazione dei redditi, stimarli adeguatamente. 11 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano 12 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano CONDUZIONE DELLE INTERVISTE Il questionario è stato depositato presso la famiglia per una settimana, previa registrazione, a parte, di una prima quantificazione del reddito nella misura dichiarata dal consegnatario o, in ogni caso, una valutazione dell’intervistatore sulla classe reddituale familiare di appartenenza sulla base delle «esteriorità»: fino a 5 milioni; 5-10; 10-15; 15-20; 20-25; 25-30; 30-35; 35-40; oltre 40 milioni. Solo il 5% delle famiglie da intervistare, solo il 10% a Taranto, ha insistito a non accettare il questionario; in questo caso, l’intervistatore ha sostituito la famiglia facendo ricorso all’elenco di riserva. Un altro 2% al momento dell’intervista-ritiro del questionario si è rifiutato assolutamente di rispondere o di consegnare il modulo; anche in questo caso sono state operate sostituzioni utilizzando gli elenchi di riserva. 13 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano L’intervista-ritiro del modulo è la fase cruciale dell’indagine. Non sempre il questionario è stato compilato in tutte le sue parti. Se l’incompletezza delle informazioni non ha riguardato variabili chiave dell’indagine, si è proceduto ad una ricostruzione in base alla parte compilata del questionario. In questa materia se non fossero usati tutti gli accorgimenti possibili le mancate risposte alle variabili cruciali sarebbero elevatissime. Bisogna premettere che le famiglie da intervistare erano state informate, con lettera, sugli scopi dell’indagine, in particolare, sul fatto che ad essa era connessa una sperimentazione di metodologie di rilevazione (da parte di un’istituzione universitaria) ed effettuata tramite l’Italsider che sul territorio tarantino è notissima per aver mostrato, in varie occasioni, molta sensibilità alla conoscenza ed alla soluzione dei problemi socioeconomici. Evidentemente veniva assicurato il completo anonimato delle informazioni raccolte, nonché il loro uso riservato. Si tratta di accorgimenti ai quali, generalmente, si attribuisce una buona efficacia. Da qui si sono prospettati due comportamenti tipici estremi: - Essere neutrali, registrare le risposte (o le non risposte) così come vengono enunciate quasi si trattasse di fenomeno fisico la, cui misurazione (strumentale) è affetta solo da errori gaussiani; questo atteggiamento dell’intervistatore verrebbe frainteso dagli intervistati e senza entrare nel merito dei livelli di entrate dichiarate si registrerebbero forti tassi di mancate interviste e di mancate risposte. Va detto che l’effetto distorsivo delle mancate risposte non va eliminato aumentando la numerosità, come sembrerebbe; ma dipende, oltre che dalla proporzione dei non rispondenti, dalla differenza tra le medie dei rispondenti e dei potenziali non rispondenti. Ora, poiché la categoria prevalente dei rispondenti è data dai percettori di reddito fisso che, tra l’altro, sono coloro che sono disposti a dare anche informazioni più veritiere, mentre coloro che non tendono a rispondere sono gli altri tipi di percettori, il riporto delle medie dei rispondenti alla totalità porta sicuramente a risultati fuorvianti. - Interagire con gli intervistati, ponendo elementi di dubbio sulle dichiarazioni dei singoli rivoli dei flussi reddituali, ad esempio facendo appello all’evidenza di stridenti contrasti, richiamandosi a parametri di situazioni similari, ecc.; si giunge, in questo caso, a dichiarazioni di entrate il cui grado di veridicità e, quindi, di distorsione è legato alle risultanze dell’applicazione delle capacità investigative dell’intervistatore. Bisogna decidere, allora, a quale dei due poli bisogna tendere: scegliere, cioè, la prevalenza degli effetti distorsivi delle soluzioni approssimative di imputazione per le mancate risposte, presumibilmente elevate nel primo caso, o la prevalenza degli effetti distorsivi dovuti all’ingerenza dell’intervistatore, nel secondo caso. Si esclude di imputare ai non rispondenti i tipici medi dei rispondenti (è una soluzione ISTAT per l’attuale indagine del prodotto lordo); questo metodo, tipo «hot deck», nella fattispecie, andrebbe applicato in un contesto di unità relativamente "poco numerose (quante sono, cioè, in genere, quelle delle indagini su microaree), finemente allocate in strati e che non consentono di selezionare risposte tipiche da assurgere, cioè, a valori aventi la caratteristica di colmare i «missing data». Proprio perché l’«esperienza Taranto» è stata la prima, non sono ricorsi gli estremi di utilizzare il metodo «cold deck» che si basa sull’uso di indagini precedenti dalle quali si stimano i valori integrativi delle non risposte. Né si è potuto pensare all’applicazione di tecniche regressive, per gli stessi motivi per cui non si applicano metodi di tipo « hot deck». 14 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Nel caso di Taranto, al problema di ottenere questionari quanto più pieni e veritieri possibile, è stata data la soluzione sperimentale della «conduzione attiva dell’intervista» da parte di personale adeguatamente addestrato. Si tenga presente, poi, che la non rispondenza può essere trattata, si legge nella letteratura specializzata, anche da «subjective regression» per cui i «missing data» sono forniti da «experienced analysts»; altre volte si procede ad un «adjustment» degli «statistical weights» dei rispondenti, nella fattispecie, dando, ad esempio, più peso ai redditieri alti. Era stato programmato un aggiustamento dei dati, a certi livelli di aggregazione sulla base delle informazioni provenienti dagli intervistatori ai, quali era stata richiesta, anche una doppia valutazione delle entrate familiari, prima e dopo l’intervista. La prima valutazione dell’intervistatore, in base .alla quale la famiglia veniva inclusa in una determinata classe di reddito; non sempre ha combaciato con il risultato dell’intervista. Sono state registrate circa metà valutazioni per difetto e metà per. eccesso, le prime riguardanti anche due classi di reddito più basso. La stima finale dell’intervistatore non è stata sempre apposta in quanto egli stesso ha contribuito; con stimoli e discussioni, in qualche modo, al processo di. valutazione. Quando v’è stata, essa ha espresso una proposta di reddito più alto. Solo in dieci casi v’è stata una .doppia intervista di medesime famiglie, fatte da intervistatori diversi a diverse persone della famiglia che hanno avuto i1 ruolo di sintetizzare le entrate proprie e degli altri; i casi sono pochi, per cui i risultati che mostrano una certa coerenza tra le valutazioni non consentono di rigettare l’ipotesi che l’intervistatore possa contribuire a distorcere le risposte con il proprio giudizio. Sempre in linea di ipotesi, il reddito personale del rilevatore ed il suo standard di vita giocano un certo ruolo nella stima dei redditi altrui, soprattutto di quelli che più si discostano in una direzione o nell’altra da quello proprio; ovviamente la stessa osservazione vale per la differenza di accuratezzafra un rispondente diretto ed un rispondente indiretto . Il confronto tra la media dei redditi derivante dall’indagine pilota e da quella vera e propria (che interessa, ovviamente, un set di famiglie diverse) presenta due risvolti che riguardano questo argomento. Da 20 il reddito medio passa a 23 milioni, a Taranto, da circa 18 a 20 nel resto della provincia. A parte l’influenza del diverso tipo di campionamento seguito (semplice e stratificato), la presenza di un questionano nell’indagine articolato lungo i due assi dimensionali dei tipi di reddito. e dei percettori rispetto alla informazione puntuale richiesta, nell’indagine pilota, ha dato la possibilità di un maggiore approfondimento che ha portato ad una maggiore valutazione, grosso modo, del 15% in media. Anche le differenziazioni della variabilità tra indagine pilota ed indagine vera e propria, di cui si è riferito e che hanno visto una varianza più elevata, nel secondo caso, possono essere interpretate come una derivazione della diversa formulazione del questionario e del diverso impegno dell’intervistatore. Il lavoro degli intervistatori è stato coordinato dallo staff del PIN e del Centro di Documentazione e Studi dell’ITALSIDER (sotto la direzione del dott. L. Pierri), strutture che avevano all’attivo esperienze di indagini e studi sulla realtà sociale del tarantino. È noto, infatti, che l’ITALSIDER è molto attenta alla evoluzione socioeconomica della zona, in quanto anche attore di interventi concreti sul territorio, come, per esempio, la costruzione di case per i propri lavoratori. Il gruppo degli intervistatori (10 persone) ha avuto un apposito addestramento per l’indagine ed ha dato conto del lavoro, quotidianamente, presso l’ITALSIDER. Nella relazione conclusiva dell’ITALSIDER, compilata nell’agosto 1985, si legge a proposito delle interviste rifiutate: «non si sono avuti particolari problemi, oltre quelli accennati, nell’accettazione delle interviste da parte delle famiglie ed è stato rispettato il piano di campionamento. Per Taranto 15 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte A.A. 2001/02 Materiale didattico integrativo del corso di Statistica Economica (3 CFU, 7-30 gennaio 2002) – Prof. Claudio Quintano Borgo abbiamo avuto notevoli difficoltà di accettazione, soprattutto da parte di commercianti e professionisti. È mia opinione - scrive il dotti Pierri - che il rifiuto sia dovuto anche ad incapacità di rapporto da parte dell’intervistatore incaricato». Nel paragrafo «qualità del lavoro» si dichiara: «il gruppo di intervistatori, al di là del problema Borgo è risultato molto affidabile e capace. Credo che uno dei motivi principali della riuscita del lavoro in questo tipo di rilevazione sia stato l’elemento femminile, infatti i dieci intervistatori hanno lavorato nel seguente modo: - 6 divisi in tre coppie maschi-femmine; - 2 donne separatamente; - 2 maschi separatamente. Sia le coppie che le donne singole hanno fatto un buon lavoro. Viceversa, dei due maschi che hanno operato singolarmente, uno si è ritirato dopo tre interviste e l’altro ha avuto problemi di accettazione nel quartiere Borgo» A parte la bravura dei rilevatori un’indagine sul reddito richiede principalmente, come ebbe ad osservare il compianto Muttarini, la collaborazione piena dell’intervistato. Collaborazione che può essere ottenuta sia dando piena assicurazione sugli scopi scientifici della ricerca e sull’anonimità della stessa e, in secondo luogo, fornendo tutti i mezzi ed i chiarimenti necessari ad una corretta e completa indicazione dei redditi percepiti a qualsiasi titolo. Su questo punto non si sa in quale misura, però, si riesce sempre ad ottenere gli effetti desiderati. 16 Claudio Quintano - Donato Lucev, Una seconda esperienza di stima diretta dei redditi familiari in aree comunali meridionali. La provincia di Taranto, Istituto di Statistica e Matematica, Facoltà di Economia dei Trasporti e del Commercio Internazionale – II parte