CAPITOLO 9: CAMPIONAMENTO CASUALE SEMPLICE E TECNICHE DI CAMPIONAMENTO. Il campionamento casuale semplice è il campionamento probabilistico per eccellenza: ad esso sono, infatti, legati tutti gli altri tipi più complessi di campionamento che hanno l’obiettivo di aumentare la precisione delle stime. Il momento fondamentale è la scelta del disegno campionario: essa sarà supportata da ogni informazione, nota a priori, sulle unità della popolazione (U) considerata. A seconda della qualità o quantità di tali informazioni, sarà possibile applicare disegni semplici o complessi. Va però precisato che raramente viene utilizzato nelle indagini su vasta scala poiché occorrono: elevati costi di rilevazione e lunghi tempi di organizzazione. Essendo il paradigma di riferimento sulla scorta del quale vengono declinati quelli relativi alle forme più complesse di Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale campionamento, la conoscenza dei criteri relativi al campionamento casuale semplice risulta fondamentale per la comprensione di tali tecniche e per la loro corretta elaborazione. Procediamo, quindi, con l’analisi di tali criteri. SELEZIONE CON REINSERIMENTO (detta anche selezione bernoulliana): in esso gli elementi una volta estratti sono reinseriti. Ne consegue, quindi, che la probabilità di estrazione di ogni elemento è costante e pari a 1/N. Consideriamo: (n) = numero di unità estratte = ampiezza del campione (n/N) = frazione di campionamento. Il campione estratto può essere anche maggiore della popolazione da cui è estratto (n>N), SELEZIONE SENZA RIPETIZIONE: in esso un elemento estratto non viene più reinserito. Si esclude in questo modo l’eventualità di selezionare un’unità più volte. Il campione estratto sarà sempre (n<N). Probabilità di selezione di un’unità varia a ogni passo dell’estrazione: 246 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 1. prima estrazione P= 1/N, 2. seconda P= 1/N-1, 3. terza P= 1/N-2. Considerata una popolazione di N elementi e volendo selezionare un campione di n elementi, la probabilità complessiva sarà data da: 1 n!( N n)! ( Nn ) N! Tale formula deriva dall’inverso del coefficiente binomiale che si usa per ricavare il totale delle combinazioni senza ripetizioni. 247 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.1. Tecniche per l’estrazione casuale. Si dice “universo di campioni” un insieme di campioni di una certa ampiezza, la cui numerosità dipenderà: da N, ampiezza della popolazione; da n, dimensione del campione; dal tipo di estrazione (con o senza reimmissione); dalla natura dei campioni. Per natura dei campioni si intende il fatto che i campioni possono essere ordinati o non: - “ordinati” se l’ordine di estrazione è ritenuto fondamentale, cioè che 2 campioni sono considerati diversi quando, pur avendo stessi elementi, differiscono per il loro ordine; - “non ordinati” se l’ordine non è fondamentale e 2 campioni saranno diversi solo se differiscono per qualche elemento. Un Campione si definisce casuale semplice se tutti gli elementi hanno la medesima probabilità di essere estratti. 248 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Perché ciò avvenga, occorre che la selezione segua una procedura meccanica in linea con un modello probabilistico. Possiamo utilizzare il lancio di una moneta (per selezioni a 2 alternative), il lancio di un dado (per selezioni a 6 alternative) o la procedura di estrazione da un’urna (per selezioni a N alternative). Quest’ ultima procedura è però molto onerosa per liste di grandi dimensioni, pertanto si farà ricorso alle tavole dei numeri casuali o aleatori. Esse contengono sequenze di numeri casuali, generate da un computer o trascrivendo i risultati dell’estrazione di lotterie: esse sono, quindi, composte da numeri assolutamente privi di sistematicità, disposti a gruppi secondo righe e colonne. Tra i metodi di generazione, il più semplice è quello dei “quadrati intermedi”: esso consiste nel fornire al computer un numero di quattro cifre, il quale sarà elevato al quadrato e poi presa la parte centrale, ancora di 4 cifre e elevata al quadrato e così via. Unica attenzione da porre è che la sequenza non diventi periodica, generando cioè sempre le stesse cifre. Possiamo fare un esempio prendendo il numero 3236, che al quadrato diverrà 10471696; la parte centrale è 4716, che elevata al quadrato sarà 22240656 e così via. I numeri così 249 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale ottenuti costituiranno una tavola dei numeri casuali da noi generata. Esistono innumerevoli tavole aleatorie redatte, sulla base di diversi criteri, da vari autori: 01 10097 37542 08422 99019 12807 91499 02 32533 04805 68953 02529 99970 14523 03 76520 64894 19645 09376 80157 68479 04 13586 74296 09303 70715 36147 27686 05 34673 24805 23209 38311 64032 46162 06 5486 24037 02560 31165 36653 83554 07 8055 20636 15953 88676 98951 94750 08 0917 10402 34764 74397 16877 89923 09 39292 00822 35080 04436 12171 37089 10 74945 91665 33606 27659 76833 20048 11 88685 99594 65481 80124 69916 09893 12 40200 67348 17674 35635 26803 20505 13 86504 87517 17468 17727 66252 14225 14 58401 64969 50950 08015 29148 68514 15 36766 91826 58047 45318 36936 46427 16 67951 08928 76974 22374 87203 56788 17 9034 93785 73039 21115 76621 96297 18 7693 61368 57186 78253 13990 78822 19 29609 23478 40218 14385 94400 54382 20 11062 34113 16544 53763 56418 14598 250 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 21 66065 31060 85269 63573 73796 83452 22 74717 10805 77602 32135 45753 99634 23 34072 45571 02051 05325 03529 06288 24 76850 82406 65692 47048 64778 98083 25 36697 35303 68665 90553 35808 13746 26 36170 42614 74818 57548 34282 70078 27 65813 86799 73053 28468 60935 18475 28 39885 07439 85247 28709 20344 40610 29 11199 23403 18623 83491 35273 68711 30 29170 09732 88579 25624 88435 77817 Per utilizzare una tavola occorrerà: a) assegnare un numero da 1 a N ad ogni elemento della popolazione; b) stabilire casualmente il punto di partenza, ossia le colonne da cui prendere i numeri casuali (si potrà, ad esempio, individuare la colonna e la riga corrispondente attraverso una data o un altro criterio simile); c) prendere così tutti i numeri minori o uguali a N e scartare tutti gli altri. Prendiamo ora ad esempio una distribuzione di 1000 individui aventi più di 14 anni e suddivisa secondo il loro sesso e secondo il fatto che essi fumino o meno: 251 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale FUMATORI NON FUMATORI Totale MASCHI 162 338 500 FEMMINE 86 414 500 Totale 248 752 1000 Assegniamo a ciascun individuo un numero da 000 a 999. Vogliamo estrarre 30 unità. Dovremo pertanto prendere in considerazione le cifre di 3 colonne consecutive. La scelta del punto di partenza potrà essere, ad esempio, relativa ad una data, in cui si considerano mese e giorno. Prendiamo il 19 febbraio come data di riferimento, (19/02) così la prima cifra considerata quella corrispondente alla 19 a riga e 2 a colonna della tavola 1, ossia la cifra 9. Per assegnare i numeri identificativi a ciascun individuo prendiamo la tavola e suddividiamola in 4 classi diverse, per cui sarà: Schema di assegnazione di numeri casuali alla popolazione di Maschi-Fumatori da 000 a Femmine-Fumatrici da 162 a Maschi-Non Fumatori da 248 a Femmine-Non Fumatrici da 586 a 1000 individui 161 Classe A 247 Classe B 585 Classe C 999 Classe D Dalla tavola il primo numero considerato sarà 960 ed i successivi numeri casuali saranno 106, 606 e così via fino a 252 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 917, riprenderemo così con i numeri formati da altre 3 cifre appartenenti alle colonne 5, 6 e 7, ossia: 737, 304, e così via, sino a 361. Avremo una distribuzione di 30 individui s celti a caso fra i 1000 considerati, ossia: FUMATORI NON FUMATORI Totale MASCHI 5 9 14 FEMMINE 2 14 16 Totale 7 23 30 253 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.2. Il campionamento casuale semplice. I criteri di selezione per un campione casuale semplice sono: con reimmissione e senza. La distinzione di questi criteri ha più valore nella teoria che nella pratica, in quanto quello con reinserimento è spesso citato ma raramente applicato. Motivi – svantaggi: 1) non si utilizzano le informazioni note a priori sulla popolazione sulle caratteristiche distributive delle variabili; 2) non è considerato conveniente per i suoi elevati costi di rilevazione dei dati e per i tempi di organizzazione del lavoro. Vantaggi: 1) evitare le distorsioni provocate da campionamenti non casuali; 2) permettere di stimare gli errori di campionamento. 254 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.3. La numerosità campionaria. Un aspetto fondamentale del campionamento riguarda il numero di unità da introdurre nel campione. Estrarre quante più unità possibili ci porta, però, da un lato ad avere una maggiore credibilità dei risultati dell’indagine e, dall’altro, ad affrontare elevati costi. Dobbiamo tener conto che la numerosità campionaria determina l’attendibilità delle stime, pertanto dovremo puntare ad ottenere una dimensione campionaria ottimale, che consenta il raggiungimento degli obiettivi dell’indagine al minimo costo. Sarà importante disporre di informazioni preliminari, che possono derivare da un sondaggio pilota o da indagini sullo stesso argomento effettuate in precedenza. Consideriamo un campione casuale semplice con reimmissione, la numerosità è data dal rapporto tra la variabilità del fenomeno osservato S y 2 e la varianza della media campionaria Var( y ). Se la media campionaria si distribuisce come una normale, stabilito che la stima cada dentro un 255 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna intervallo di Statistica inferenziale ampiezza desiderata con probabilità predeterminabile, allora possiamo determinare la numerosità campionaria. Dalle tavole della distribuzione normale standardizzata, individuiamo il valore z α/2 che esclude a destra e sinistra dell’intervallo una frequenza pari a α/2, e sia inoltre 2D l’ampiezza dell’intervallo centrato su μ entro il quale, con probabilità (1–α), si desidera che cada la stima. Valori tipici della distribuzione normale standardizzata: α z α/2 0,10 1,65 0,05 1,96 0,01 2,58 0,001 3,29 Il campione dovrà avere dimensione pari a: S y2 z2 / 2 n D2 256 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Facciamo un esempio numerico in cui, si vuole individuare la numerosità di un campione per avere un intervallo di confidenza al 95% di una distribuzione normale con scarto quadratico medio σ = 5,1 e ampiezza dell’intervallo pari a 2D=2 (D=1). Per il nostro intervallo, il valore di z α/2 =1,96, i limiti superiore e x z /2 n inferiore dell’intervallo di confidenza sono , poiché l’ampiezza deve essere pari a 2, possiamo scrivere ( x z / 2 n z /2 n ) ( x z / 2 n ) 2 , ossia: D che, sostituendo, sarà: n z2 / 2 2 D2 1,962 5,12 3,84 26,01 99,9 100 12 Nel caso, invece, della stima di una proporzione in cui si vuole stimare la percentuale di N che possiede una certa qualità, si può dimostrare che la numerosità campionaria, per 257 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale popolazioni sufficientemente grandi nel caso di estrazioni con ripetizioni, è pari a: n z2 / 2 p(1 p) D2 dove p è la proporzione della popolazione che possiede quella qualità. Un esempio numerico può essere fatto nel campo delle ricerche di mercato, per individuare il numero di elementi da comprendere in un campione, per un’indagine ad esempio sulla percentuale di persone che consumano tè. Anche in tal caso possiamo applicare la formula precedente e pertanto sarà necessario valutare la percentuale (p) da un’indagine pilota. Ipotizziamo che sia p=7%=0,07, con un livello di precisione (errore massimo consentito) fissato al 95% e considerando un intervallo la cui ampiezza sia pari a 2D=0,04 (D=0,02). Avremo, quindi, che: n 1,962 0,07(1 0,07) 625 0,02 2 258 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Tuttavia, in generale, fissato il livello di precisione si potrà individuare l’ampiezza massima di n, considerando l’ipotesi più sfavorevole dove p′=0,5, senza ricorrere ad un sondaggio pilota. Applicando, infatti, tale ipotesi all’esempio precedente risulta: max( n) 1,962 0,5 0,5 2.401 0,02 2 In definitiva, sarà, quindi: max(n) z2 / 2 4 D2 Date queste premesse, occorre ora precisare l’importanza di 2 variabili: l’accuratezza statistica il costo dell’indagine. Il ricercatore dovrà, infatti, considerare o uno schema che per un dato costo renda massima la precisione, oppure 259 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale quello che per una data precisione renda minimo il costo tenendo bene a mente che: COSTO TOTALE DELLA RICERCA = COSTI FISSI + COSTI VARIABILI I costi fissi sono indipendenti dall’ampiezza del campione e comprendono i costi di studi e di preparazione dell’indagine. I costi variabili sono direttamente proporzionali al numero di unità statistiche del campione. Possiamo costruire una funzione lineare di costo del tipo: CTot A Bn A = totale dei costi fissi B = costo per ogni unità n = l’ampiezza del campione. Graficamente: 260 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale CT n Tav. 1 I costi variabili B raramente aumentano in maniera proporzionale per ogni unità aggiuntiva. Per questo motivo si introduce il concetto di “costo marginale”, ossia di costo per ogni unità in più; esso di solito diminuisce al crescere di n, fino ad un certo punto per poi tendere ad aumentare. CT n Tav. 2 261 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Sapendo Statistica inferenziale che il costo dell’indagine è funzione dell’ampiezza del campione, possiamo quindi affermare che per ciascun campionamento bisognerà considerare l’errore quadratico medio e la funzione costo in modo da poter confrontare i vari risultati. Il campionamento casuale semplice viene raramente usato per i problemi visti in precedenza. Si ricorre ad altri metodi più complessi i quali utilizzano tutte le informazioni disponibili (proponendo così campioni più efficienti, ne senso che tali campioni contribuiscono ad aumentare la precisione delle stime). Tra questi sono ampiamente applicati: - campionamento stratificato; - campionamento a più stadi; - campionamento sistematico. 262 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.4. Il campionamento stratificato. “Stratificare” una popolazione significa ripartirla in sottopopolazioni. L’operazione di stratificazione consiste nel raggruppare le unità statistiche in strati omogenei, vale a dire strati con caratteri comuni sulla base di informazioni relative ad una popolazione. Estraendo da ogni strato un campione casuale semplice, si darà luogo ad un campionamento casuale stratificato. Si ricorre ad esso quando ci troviamo di fronte ad un universo di elevata ampiezza. Il principio è, infatti, quello di suddividere le N unità di una popolazione in H strati quanto più omogenei possibili rispetto a una certa modalità del carattere considerato che sia in stretta correlazione con la variabile d’indagine, in modo che le unità dei singoli strati abbiano poca variabilità. In tal modo sarà possibile stimare con molta precisione determinate caratteristiche pur non utilizzando campioni di eccessiva ampiezza. Utilizzando la stratificazione si potrà 263 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale ridurre la varianza campionaria senza dover aumentare l’ampiezza del campione. Motivo: esigenze amministrative e organizzative che richiedono una suddivisione geografica (regione o provincia), decentrando e facilitando le operazioni di rilevazione. Trova maggiore applicazione nelle indagini economiche e sociali su vasta scala quando i caratteri della popolazione possono presentare grande variabilità o forte asimmetria. Si possono avere due diversi criteri di stratificazione: prima della selezione; dopo la selezione. 264 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Notazioni simboliche: h Indice di strato i Indice dell’unità Dimensione della subpopolazione nello st rato h Nh N Nh Dimensione della popolazione nh Dimensione del campione nello strato h H h 1 n nh Dimensione complessiva del campione f h =n h /N h Frazione di campionamento relativa allo strato h f=n/N Frazione di campionamento tot ale y Generica variabile oggetto di indagine Y hi Valore della variabile y relativa all’unità i appartenente allo H h 1 strato h Nh Yh Yhi Totale della variabile y relativo alla subpopolazione dello strato i 1 h Y Yh h Nh Media della variabile y relativa alla subpopolazione dello strato Sh2 h 1 (Yhi Yh ) 2 N h 1 i 1 Varianza della variabile y relativa alla subpopolazione dello nh Media della variabile y relativa al campione dello strato h Nh 1 y Yhi nh i 1 sh2 1 n (Yhi Yh )2 nh 1 i 1 h strato h Varianza della variabile y relativa al campione dello strato h 265 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.4.1. La stratificazione preventiva. La stratificazione preventiva presuppone la disponibilità di un insieme di dati di base che contenga i valori delle variabili ausiliarie per ogni unità della popolazione. La popolazione di N unità verrà pertanto divisa in H strati aventi N 1 , N 2 … N H unità tali che N 1 + N 2 + … + N H = N. Estraendo dagli H strati altrettanti campioni, essi saranno indicati con i simboli n1 , n 2 … n H e sarà: n 1 + n 2 + … + n H = n, . La media della popolazione è stimata con la media ponderata delle medie dei singoli strati. Esempio: Supponiamo di voler calcolare la temperatura media estiva in cinque città (popolazione = N=5 unità) di cui 2 sono a clima continentale e 3 sono a clima mediterraneo. I valori delle temperature sono 14 e 16 e 21, 26, 25. Suddividiamo la popolazione in 2 strati secondo il tipo di clima, per cui sarà N 1 =2 (clima continentale) e N 2 =3 clima mediterraneo) 266 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 14 16 15 2 21 26 25 Yh 24 3 Yh 1 2 mentre la media dell’intera popolazione sarà: Y 14 16 21 26 25 20,4 5 Quest’ultima può essere anche ottenuta mediante il calcolo della media aritmetica ponderata delle medie dei due strati con pesi dati dai rapporti: N 1/N=2/5 e N 2/N=3/5, cioè: yst N1 N2 2 3 Yh Yh 15 24 20,4 N N 5 5 1 2 267 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.4.2. La stratificazione proporzionale e non. Per effettuare una stima corretta della media Yst della popolazione dovremo calcolare la media aritmetica ponderata delle H stime y st ottenute dagli strati con pesi dati dai rapporti Nh N , per cui sarà: H Yst N h 1 Yh h N Tale valore non è necessariamente uguale a quello della media del campione y st data da: H yst n h 1 h yh n I pesi sono dati dalle frazioni di campionamento f h nh N . h Nel caso in cui da ogni strato si seleziona un campione la cui percentuale di unità rispecchia quella della popolazione in 268 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale ogni strato, allora si parla di campionamento stratificato proporzionale. Esempio Consideriamo di voler raccogliere l’opinione, su un dato argomento, tra gli studenti di una facoltà, ripartiti nei vari anni di corso estraendo un campione di 200 elementi: ANNO N° COMPOSIZIONE % DIM. CAMPIONARIA I 640 40 80 II 400 25 50 III 240 15 30 IV 192 12 24 V 128 8 16 TOT. 1600 100 200 Avendo stabilito ciò, bisognerà ora soltanto individuare un procedimento aleatorio con cui individuare gli studenti da intervistare. Qualora, invece, le frazioni di campionamento varino da strato a strato, si parlerà allora di campionamento stratificato non proporzionale. Il ricorso a tale campionamento può essere dovuto a: 269 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna a) Statistica inferenziale difficoltà circa l’esecuzione dell’indagine; b) particolari obiettivi che richiedono la selezione di un numero costante di unità dai vari strati che hanno ampiezza diversa. Indichiamo con: n H n Numero di unità per strato La numerosità complessiva del campione fh n Nh La frazione di campionamento dello strato h f Hn N Frazione di campionamento dell’intera popolazione sarà 270 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.4.3 Stratificazione a posteriori. La stratificazione a posteriori presuppone una lista per ogni strato con informazioni sulla modalità del carattere per tutte le unità della popolazione. Tuttavia, tali informazioni potrebbero non essere disponibili o comunque si vogliono evitare i costi per la classificazione e suddivisione in strati. In tal caso, si ricorre alla post-stratificazione che consiste nel definire gli strati solo dopo aver estratto il campione. Il criterio di stratificazione deve essere fortemente correlato con le variabili oggetto di studio ed, inoltre, vi deve essere una distribuzione statistica nota nella popolazione. E’ utilizzata in 2 occasioni, e cioè quando: 1. il carattere di stratificazione non è noto e, quindi, non si può stratificare a priori; 2. l’interesse della stratificazione appare nel corso della indagine, magari dopo aver constatato una correlazione tra un criterio e la variabile d’indagine. 271 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Si può dimostrare come con la stratificazione a posteriori si ottiene una precisione superiore a quella di un campione non stratificato, ma inferiore a quella di un campione stratificato a priori. È importante sottolineare, inoltre, che con tale procedura è possibile correggere la struttura del campione sia da fluttuazioni casuali ma anche da deformazioni sistematiche dovute alle “non risposte” (rifiuti o assenze di intervistati). 272 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.5. Il campionamento a più stadi (o cluster). Il campionamento a più stadi trova ampia applicazione nella pratica. Avere più stadi o più livelli ha lo scopo di voler individuare un campione di unità selezionandole su più livelli. Supponiamo, ad esempio, di voler selezionare un campione di operai. Per farlo, procederemo estraendo: 1) prima un campione di comuni; 2) poi un insieme di imprese da ogni comune estratto; 3) ed, infine, i singoli operai delle imprese individuate. Adottando il gergo tecnico, definiremo i comuni come le unità “di primo stadio”, le imprese come unità “di secondo stadio” e gli operai come unità “di terzo stadio”. L’obiettivo principale del campionamento a più stadi, o cluster, è quello di studiare le “unità elementari” che nel 273 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale nostro caso sono gli operai. Volendo, infatti, analizzare l’intero territorio nazionale, le difficoltà principali sarebbero legate al fatto che le unità considerate sono milioni e cambiano continuamente. Per la massima efficienza nel campionamento a più stadi, i principi cui far riferimento sono opposti a quelli utilizzati nel campionamento stratificato. Nel campionamento a più stadi è, infatti, necessario che: tra le unità elementari appartenenti ad un gruppo vi siano ampie differenze; le differenze tra i gruppi primari siano limitate. Tali requisiti sono, però, spesso difficili da rinvenire dal momento che vi sono molti casi in cui unità appartenenti allo stesso gruppo presentano caratteri comuni. E’ questo, ad esempio, il caso in cui, come molto spesso accade, vi sono quartieri in cui vivono solo i cittadini più abbienti e quartieri in cui, invece, risiedono persone a basso reddito. Da ciò discende che campionamento a più stadi è presente un errore standard elevato rispetto al campionamento stratificato, ma ciò non esclude che esso possa essere efficiente. 274 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Vantaggi: liste delle unità: per ogni stadio sono necessarie le sole liste delle sub-popolazioni contenute nelle unità selezionate al livello superiore. Pertanto esso si presenta utile quando le liste della popolazione da sottoporre ad indagine non sono disponibili o sono costose da reperire. i costi si riducono notevolmente su larga scala perché la rilevazione dei dati è concentrata e si limitano i disagi organizzativi e umani. Svantaggi: complessità della metodologia di stima; rischio che le stime siano inefficienti proprio per il fatto che unità appartenenti ad un insieme tendono spesso ad assomigliarsi. Nell’ambito del campionamento su più stadi si distingue: campionamento a grappoli (in inglese, cluster) e si differenzia dagli altri per il fatto che gli elementi non sono estratti uno per volta, ma per pacchetti o blocchi detti appunto 275 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale “grappoli”: tutti gli elementi ad essi appartenenti entrano a far parte del campione. Accade spesso che i campioni a grappoli siano assolutamente necessari. E’ questo il caso, ad esempio, di indagini relative a liquidi imbottigliati. Volendo, infatti, selezionare un campione di 100 bottiglie da una popolazione costituita da 1.000 casse contenenti ciascuna 25 bottiglie, risulterà molto agevole ricorrere ad un campione a grappoli limitandosi ad aprire solo 4 casse per ottenere un campione composto da 4 grappoli di 25 bottiglie, anziché aprire un gran numero di casse se si utilizza un campione casuale semplice. 276 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.5.1. Selezione di un campione a grappoli. Aspetto fondamentale per un ricercatore, quando decide di formare un campione su più stadi, è quello di effettuare una serie di scelte che riguardano 4 momenti: a) individuare il numero di stadi su cui effettuare la selezione tale che la stratificazione sia efficiente; b) individuare le caratteristiche per stratificare le unità di primo stadio (qualora il ricercatore voglia stratificare); c) stabilire il numero di unità da selezionare nei vari stadi; d) decidere il modo in cui selezionare le unità ai vari stadi. La probabilità da assegnare alle unità di ogni singolo stadio può essere: fissa oppure variabile. 277 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Considerando un’unità di secondo stadio, la probabilità di essere selezionata è data dal prodotto tra la probabilità di selezionare l’unità che la contiene (p i ) e la probabilità di essere a sua volta estratta ( p j i ). Si parla di probabilità congiunta pij pari a: pij pi p j i Per un campione a tre stadi la probabilità congiunta di selezionare l’unità di terzo stadio k è pari a : pijk pi p j i pk ij pij pk ij Esaminiamo ora una selezione a probabilità costante ad ogni stadio in un campionamento a due stadi, utilizzando i seguenti simboli: STADIO POPOLAZIONE CAMPIONE FRAZ. DI CAMPIONAM. 1 A a f1 2 N n f2 avremo che la probabilità di selezione ad ogni stadio è: 278 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale pi a A p ji f detta probabilità costante predeterminata per ogni unità, risulta: p ji f A a Qualora ogni unità di primo stadio ha un’identica dimensione, allora la numerosità del campione è predeterminabile, se invece le unità di primo stadio hanno dimensioni variabili l’estrazione renderà imprevedibile la numerosità finale. 279 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.5.2 Applicazione: l’analisi di un caso reale. Analizziamo di seguito un caso reale. Un gruppo di imprenditori è interessato alla fondazione di un istituto di credito con una serie di filiali sparse nella provincia di Napoli. Decide pertanto di voler effettuare una ricerca nei comuni interessati, in cui sono presenti 500 sportelli bancari, per valutare le quantità di risparmio da queste ultime amministrate (espresse in miliardi di €). Non potendo rilevare tutti i dati , si provvede a raggruppare i comuni in 10 gruppi composti da comuni limitrofi, in modo che in ciascuno di esso vi sia lo stesso numero di sportelli pari a 50. Avremo allora: N 1 =10 gruppi di comuni (unità primarie) N 2 =50 sportelli in ciascun gruppo (unità secondarie) N N1 N 2 10 50 500 numero totale di sportelli. 280 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Volendo effettuare un campionamento a 2 stadi, estraiamo dapprima 5 gruppi di comuni da ciascuno dei quali poi provvederemo ad estrarre a sorte 4 banche. In definitiva avremo: n 1 =5 gruppi di comuni n 2 =4 sportelli per gruppo n n1 n2 5 4 20 sportelli che rappresentano il campione complessivo. Le quantità di risparmio amministrate per ognuna delle 20 banche sono riportate nella seguente tabella: QUANTITA’ DI RISPARMIO AMMINISTRATE DA CIASCUNO SPORTELLO (mld €) GRUPPO MEDIA 1 3 4 2 4 3,25 2 5 4 3 5 4,25 3 3 2 6 4 3,75 4 5 6 3 2 4 5 2 4 4 3 3,25 La media generale sarà: x 18,5 18,5 3,70 n1 5 La varianza tra le medie dei gruppi è: 281 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale (3,25 3,70) 2 (4,25 3,70) 2 (3,75 3,70) 2 (4 3,70) 2 5 ( 3,25 3,70) 2 0,16 5 sm2 Le varianze in ogni gruppo saranno pari a: s12 s22 s32 s42 s52 ( 3 3,25) 2 (4 3,25) 2 ( 2 3,25) 2 ( 4 3,25) 2 4 2 2 (5 4,25) ( 4 4,25) (3 4,25) 2 (5 4,25) 2 4 2 2 ( 3 3,75) (2 3,75) ( 6 3,75) 2 ( 4 3,75) 2 4 2 2 (5 4) (6 4) (3 4) 2 ( 2 4) 2 2,50 4 ( 2 3,25) 2 ( 4 3,25) 2 (4 3,25) 2 (3 3,25) 2 4 0,6875 0,6875 2,1875 0,6875 Il totale è pari a 6,75 per cui la sua media sarà: s12 s22 s32 s42 s52 6,75 s 1,35 5 5 2 Nel nostro caso, essendo un campionamento a 2 stadi, abbiamo 2 varianze da prendere in considerazione. Una stima della varianza delle medie generali, come abbiamo visto in precedenza è pari, a: 282 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale sm2 n s2 n 0,16 5 1,35 (1 1 ) (1 2 ) (1 ) n1 1 N1 n1 (n2 1) N2 51 10 5(4 1) 4 (1 ) 0,1028 50 sx2 pertanto la stima dello scostamento quadratico medio è pari a: sx 0,1028 0,32 Lo scostamento ottenuto è di non piccola entità rispetto alla media generale di 3,70, tuttavia la nostra stima non deve considerarsi del tutto inattendibile. In definitiva, dopo aver verificato l’utilità di un campionamento a più stadi empiricamente, possiamo valutare i vantaggi e gli svantaggi legati a questo tipo di proceura, già precedentemente accennati. I vantaggi sono sostanziali nelle indagini economiche e sociali su vasta scala rispetto ad altri campionamenti casuali, poiché le unità sono localizzate in un’area e permettono così di ridurre costi, tempi e disagi dell’indagine. Gli svantaggi riguardano per lo più, l’alto rischio di stime inefficienti. Pertanto sarà necessario individuare il numero appropriato di stadi, che dipenderà soprattutto da accessibilità e costo delle liste. L’eterogeneità 283 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale degli elementi in ogni unità primaria nel primo stadio è quindi necessaria, e a questa deve affiancarsi l’uniformità tra i gruppi. Tale tipo di campionamento può essere considerato abbastanza efficiente, soprattutto se consideriamo che lo scopo del campionamento su più stadi non è quello di ottenere la massima attendibilità in un campione rispetto alla sua ampiezza, quanto quello di raggiungere il più alto grado di precisione nel valutare le unità elementari. 284 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.6. Il campionamento sistematico. Il campionamento sistematico consiste nel disporre in ordine, numerare le unità di partenza della popolazione e nell’estrarne un certo numero ad intervalli regolari mediante appunto una selezione sistematica. Per effettuarlo, abbiamo bisogno dei seguenti elementi: a) K = passo di campionamento, ossia il salto che si compie nella selezione tra 2 unità K N n . b) N = la popolazione c) n = dimensione campionaria. E’ importante distinguere tra: K intero: essendo N un multiplo esatto di K, allora risulta che n N K . In tal caso basterà individuare un numero casuale r compreso tra 1 e K da cui far partire la selezione. Abbiamo così che (1<r<K) e quindi le unità selezionate saranno r, r+K, r+2K,…,r+(n1)K; 285 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale K non intero: non essendo più la selezione immediata, si potrà approssimare il K per difetto ed in tal caso ci saranno alcune unità verso la fine della lista che saranno automaticamente escluse dalla selezione, mentre si potrà approssimare il K per eccesso ed avere una numerosità campionaria inferiore a quella prestabilita. Tuttavia ci sono alcuni accorgimenti semplici che si possono adottare per dare a tutte le unità della popolazione uguale probabilità di appartenere al campione. Svantaggi Le unità della popolazione possono essere suscettibili di fenomeni di fluttuazione periodica, vale a dire che siano disposte in sequenza ciclica, correndo così il rischio che selezionando con regolarità le unità, si abbia un campione composto da troppe unità che stanno nella stessa posizione del ciclo. In tal rappresentativo caso, di il campione un campione formato sarà ottenuto con meno un campionamento casuale semplice. Il campionamento sistematico sarà quindi assimilabile a quello casuale semplice solo se l’ordine della lista è casuale e l’unità di partenza è individuata in maniera casuale. 286 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Questa tecnica di estrazione è molto intuitiva, non presenta infatti alcun tipo di difficoltà pratica trova largo impiego ad esempio nelle indagini per campione effettuate sui clienti di un supermercato dove non essendo nota la lista si utilizzerà un K intero e si individuano le unità con un sistema meccanico. 287 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.6.1. Fasi per la selezione di un campione. Analizziamo ora le fasi necessarie per la selezione di un campione: a) passo di campionamento, che nel corso di selezione manuale è spesso approssimato a multipli di 5 o di 10; b) numero casuale di partenza, che nelle indagini ripetute nel tempo con selezione manuale sarà r=1 per la prima volta, r=2 nella seconda volta, per semplicità e per evitare di tornare presso unità già visitate. Quando K non è un numero intero si possono considerare due possibilità per risolvere il problema, attraverso: l’integrazione della lista in modo da rendere K un numero intero. In tal caso verranno aggiunte alla lista, B unità dette “bianche” cioè inesistenti finchè K non diventi un numero intero che sarà detto K * . Per cui la lista avrà numerosità N * =N+B ed il passo di campionamento risulta 288 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale N* che è l’approssimazione per eccesso di K. Ad esempio K n * se N=444 e n=15, abbiamo che K 444 non è un numero 15 intero; basterà pertanto aggiungere 6 unità bianche avendo N * =N+B=444+6=450 e K * 450 30 . Se il numero casuale di 15 partenza compreso tra 1 e 30 è minore o uguale a 24 avremo un campione di 15 unità, mentre se r>24 allora il campione sarà composto da 14 unità; la moltiplicazione di K per una potenza di 10 in modo da renderlo un numero intero K * . In tal caso se K N è n un numero con d cifre decimali, si potrà renderlo intero moltiplicandolo per un numero casuale r, con 1≤ r ≤ K(10 d ). Supponendo di voler utilizzare l’esempio numerico fatto al punto precedente, risulta che K 444 29,6 , per cui si ottiene 15 K * =296. Selezioniamo così un numero casuale tra 1 e 296 e assumiamo che sia 155, si identificheranno pertanto le unità 18, 48, 78, 107 e così via, ricavate dalle seguenti formule: 289 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 155 29 18,4 10 155 296 29 48,0 10 155 296 2 29 77,6 10 155 296 3 29 107,2 10 290 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna 9.6.2 Statistica inferenziale Valutazione del campionamento sistematico. Il campionamento sistematico offre, al pari di tutti gli altri, vantaggi e svantaggi. Analizziamo, nel dettaglio, sia gli uni che gli altri. Vantaggi semplicità e dell’efficienza soprattutto quando ci troviamo di fronte ad una lista in cui gli elementi disposti accanto sono più uniformi di quelli lontani tra loro. Analoghe caratteristiche si possono rintracciare nel campionamento stratificato, tuttavia se la popolazione è di grandi dimensioni e non vi sono difficoltà nel metterla in ordine allora la selezione sistematica viene preferita. Un esempio può avere a che fare con una lista di redditi che, dopo averla riordinata secondo l’ampiezza, potrà essere campionata utilizzando una selezione sistematica. Questo ci permetterà di avere una rappresentazione proporzionata di tutte le classi di reddito senza ricorrere alla stratificazione. Tale campionamento inoltre tende ad essere più rappresentativo di 291 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale un campione, di uguale dimensione, ottenuto con procedura casuale semplice, a patto che le unità siano sistemate in modo che quelle vicine abbiano caratteristiche simili. Aspetti economici: un campione sistematico risulterà, in linea generale, meno costoso di un campione casuale semplice avente stessa dimensione. Ciò viene confermato da un’indagine reale: volendo, infatti, selezionare un campione casuale da un lotto di bulloni, col campionamento semplice sarà necessario numerare ciascuna unità per poi selezionarla, mentre col campionamento sistematico basterà far scorrere tutti i bulloni e sceglierne uno ogni K. Tutto ciò sarà possibile con un minor dispendio di risorse economiche e di tempo. Nel campionamento casuale semplice, la dimensione dell’universo deve essere necessariamente nota a priori, cosa invece che con l’estrazione sistematica non è sempre necessaria. Ad esempio, in un’indagine di mercato condotta sui clienti di un supermercato, la dimensione N della popolazione non sarà nota prima dell’inizio dell’indagine, infatti solo a posteriori sarà numerosità della popolazione. 292 possibile determinare la Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.7. Campionamenti non probabilistici. I campionamenti probabilistici presentano una caratteristica comune che risiede nel fatto che ogni unità della popolazione ha una probabilità nota e diversa da 0 di essere inclusa nel campione. Va precisato che potrebbe verificarsi anche la condizione che vi siano delle differenze tra le probabilità di ogni unità, ma in tal caso se ne potrà tener conto attraverso una semplice procedura di ponderazione. Potremo anche trovarci nella condizione in cui non sia possibile conoscere la probabilità di inclusione nel campione di ogni unità, in tal caso si ricorre ad uno dei campionamenti non probabilistici. L’utilizzo di tali tecniche rende però impossibile valutare: - il grado di precisione delle stime; - i rischi di commettere errori. La costruzione di campioni mediante l’uso di tali tecniche ha lo scopo di raffigurare in “piccolo” la popolazione considerata; i campioni così ottenuti sono detti “a scelta ragionata”. Questi campionamenti, seppure prescindono dalla 293 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale casualità, possono essere anche perfettamente rappresentativi in relazione alle informazioni di cui si dispone. In alcuni casi questi tipi di campionamento sono preferibili al campionamento casuale, perché talvolta la selezione dovrà rispondere ad una scelta oculata secondo dei criteri non casuali. La conoscenza del fenomeno e l’ausilio di “esperti” permette dell’intero di ottenere universo; una “fotografia questa sarà formato fortemente ridotto” influenzata dall’angolo visuale e dalla messa a fuoco del problema di colui che opera la scelta ragionata. I risultati pertanto potranno essere attendibili in merito a quegli aspetti del fenomeno ben conosciuti, mentre ci possono essere delle distorsioni qualora gli aspetti inclusi nell’indagine non concordano con quelli conosciuti. Esistono diversi tipi di campionamento a scelta ragionata, tra questi, merita una menzione particolare il campionamento per quote. 294 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.7.1. Il campionamento per quote. Tale campionamento consiste nel selezionare, in base ad alcune variabili strutturali, la popolazione oggetto di studio. Ogni intervistatore dovrà, infatti, individuare un numero prestabilito, detto quota, di individui aventi determinate caratteristiche da sottoporre ad indagine. Da qui deriva appunto il nome di campionamento per quota. Ad esempio, gli individui potranno essere coloro che appartengono a determinate categorie o che rientrano in determinate classi sociali o professionali. Il giudizio del ricercatore giocherà un fattore importante nella selezione: egli sarà, infatti, tentato di intervistare soltanto gli individui che lo colpiscono in maniera positiva. Il ricercatore potrebbe ignorare tutti gli individui difficili da rintracciare e/o quelli che manifestano scarsi segnali di collaborazione. Un campione per quote corre sempre il rischio di essere fortemente influenzato dalla convenienza dell’intervistatore. In altre parole, potremmo quindi dire che il 295 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale campionamento per quote funziona in maniera tale da impedire al caso di agire liberamente. Nonostante ciò tale tecnica trova ampia applicazione soprattutto nelle indagini sull’opinione pubblica, giungendo a risultati soddisfacenti se: l’intervistatore segue le istruzioni impartite; nella popolazione non vi è correlazione tra gli elementi selezionati e le caratteristiche da studiare. Il campionamento per quote equivale, quindi, ad un particolare tipo di campionamento stratificato. Occorre, infatti, dividere la popolazione in strati il più possibile omogenei all’interno e il più possibile eterogenei tra di loro, in cui la selezione degli individui è lasciata all’intervistatore e non al caso. Una volta stabilito il totale degli elementi da campionare si stabilisce per ogni strato una quota proporzionata alla sua consistenza nella popolazione complessiva. In tale campionamento, le variabili più frequentemente usate per classificare gli individui sono: le aree geografiche; il sesso; l’età; 296 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale le classi sociali; le condizioni professionali. I caratteri in base ai quali le interviste sono assegnate all’intervistatore, riguardano ad esempio, l’età del capofamiglia, la sua professione, il numero di componenti la famiglia, ecc; ciò permetterà quindi di determinare le quote marginali. Consideriamo infatti un semplice esempio, relativo ad un’indagine in cui è stabilito il numero di interviste che il ricercatore dovrà ottenere per sesso e per età secondo la seguente tabella: SESSO (quota) ETÀ (quota) MASCHI 25 18-44 25 FEMMINE 30 45-64 20 65 in su 10 Volendo invece individuare le combinazioni sesso-età, dalle variabili interconnesse consideriamo le quote incrociate, le quali stabiliscono le quote per tutti i sottogruppi di individui e da cui sono determinate le quote marginali, così come riportato nella seguente tabella a doppia entrata: 297 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale ETÀ SESSO MASCHI FEMMINE 18-44 10 15 45-64 11 9 65 in su 4 6 Le interviste presentano all’inizio una serie di domandetipo tali da permettere all’intervistatore di collocare il rispondente in uno dei sottogruppi. Ed è proprio per questo motivo che talvolta si incontrano delle difficoltà dovute alla disponibilità di sottoporre un individuo all’intervista, così che un campione per quota potrebbe risultare insufficiente a rappresentare alcuni gruppi. Sarà, ad esempio, difficile condurre un sondaggio con campione quota sulla clientela di un supermercato durante un giorno feriale in un orario lavorativo, perché ci troveremo di fronte donne e per la maggior parte disoccupate; il nostro campione quindi sarà poco rappresentativo. Il ricercatore può scegliere le unità da rilevare purché rispetti le quote assegnate. Vengono spesso inseriti dei vincoli sui criteri di individuazione delle unità; tali accortenze hanno lo scopo di limitare la soggettività della scelta. 298 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Come abbiamo già detto le indagini per quota sono molto utilizzate nel settore delle ricerche pubblicitarie soprattutto, quando le fonti statistiche necessarie per il campionamento casuale mancano oppure quando l’area di studio è poco estesa ed il campione molto ridotto. Il campionamento per quote è utilizzato soprattutto quando urge la conoscenza dell’opinione pubblica riguardo un determinato fenomeno. Uno dei vantaggi principali di tale metodo risiede infatti nella capacità di poter portare a termine un’indagine in breve tempo, dato interessamento il minimo per quegli lavoro preparatorio elementi del e il non campione non reperibili, i quali determinerebbero allungamenti dei tempi dell’indagine. Il metodo per quote si rivolge infatti a quegli elementi facilmente rintracciabili, e nel giro di poco tempo. I costi contenuti dell’indagine rappresentano un altro vantaggio e sono dovuti al fatto che le unità da campionare non sono imposte dalla lista e l’intervistatore può quindi anche concentrare le sue interviste in una limitata area geografica. Inoltre il metodo non richiede una base campionaria, infatti in numerosi casi non si dispone della lista comprendente tutte le unità della popolazione. Tale metodo non presenta grossi inconvenienti quando per l’oggetto di studio non ci troviamo in 299 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale presenza di un forte livello di correlazione tra la scelta di individui arbitraria da parte del ricercatore e l’atteggiamento dei componenti del campione. Se invece tale correlazione si presenta allora ci possiamo trovare di fronte a gravi distorsioni che falseranno i risultati della nostra indagine. Gli svantaggi, tuttavia, gravano molto su tale procedura, infatti, riguardano per lo più la mancanza di una base teorica che non permette di stimare la variabilità del campionamento, ed inoltre il controllo della raccolta dei dati risulta molto più complesso che nelle procedure casuali. Gli errori di rilevazione potrebbero, infatti, non essere individuati determinando un ulteriore rischio occulto. A questo poi c’è da aggiungere il fatto che un campione quota sarà per lo più composto da individui disposti a collaborare, tenendo quindi esclusi gli individui non-rispondenti e ciò finirà per influenzare i risultati dell’indagine. In conclusione si può affermare che i tentativi fatti per valutare l’efficienza di campionamenti per quote, per poterla paragonare all’efficienza emersa da metodi casuali, sono stati poco utili ed insufficienti a fornire risposte esaurienti. 300 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale La misura dell’attendibilità delle stime relativamente al campionamento è proponibile invece solo per i campioni per quota formati secondo criteri para-probabilistici. 301 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.7.2. Altri tipi di campionamento non probabilistico. Nell’ambito dei campionamenti non probabilistici si distinguono oltre al campionamento per quote diversi altri tipi. A nessuno di essi sono ovviamente applicabili le tecniche della statistica induttiva pertanto non sarà proponibile il calcolo della stima della precisione. Ciascuno di essi fa riferimento a metodiche soggettive proprie del ricercatore, che non permettono di validare o confutare le ipotesi della ricerca. Tra i più importanti riconosciamo: il campionamento accidentale: nel quale il ricercatore seleziona le unità oggetto d’indagine senza criteri definiti; pertanto ciò che si perde in accuratezza del campione, lo si recupera in risparmio di tempo e di denaro; il campionamento a valanga 1: esso è composto da più fasi; dopo aver infatti intervistato alcune persone dotate delle caratteristiche richieste, queste identificheranno altri 1 GOODMAN C.A. (1961) “Snowball sampling”, in “Annals of mathematical statistics”. 302 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale soggetti che possono essere successivamente intervistati formando così liste progressivamente più ampie; ripetendo tali fasi si crea un effetto a valanga. Tale campionamento è utilizzato quando si è di fronte a popolazioni rare, ossia popolazioni di individui ad esempio appartenenti ad associazioni esclusive, ideologiche o a sette religiose, che si conosceranno molto bene tra loro; il campionamento per dimensioni: esso consiste nel precisare tutte le dimensioni (variabili) oggetto di studio nella popolazione e verificare poi che per ogni possibile combinazione delle diverse variabili ci sia almeno un caso. Ciò ci permette di non correre il rischio di avere combinazioni non rappresentate anche disponendo di un campione di piccole dimensioni; il campionamento a più stadi: esso si articola nello stesso modo del campionamento casuale su più stadi ma in tal caso la selezione avviene senza seguire criteri probabilistici; il campionamento a elementi rappresentativi: esso consiste nel selezionare all’interno della popolazione gli elementi che il ricercatore ritiene rappresentativi per gli obiettivi della ricerca. 303 Campionamento casuale semplice e tecniche di campionamento Prof. Antonio Perna Campionamenti Statistica inferenziale Procedura di selezione Vantaggi Svantaggi probabilistici Casuale semplice Consiste nell’estrarre le unità - Semplicità di utilizzo. - Elevati costi di rilevazione rispetto ad di una popolazione N, da - Non richiede conoscenze altri schemi di campionamento; inserire nel campio-ne profonde delle - Non è utilizzato per popolazioni molto servendosi di una procedura caratteristiche della ampie; casuale (ad es. generatore di popolazione. - Non sfrutta tutte le caratteristiche note numeri casuali) - Facilità nel calcolare le della popolazione; stime dei parametri ed i - Fornisce stime in genere meno precise relativi errori. dei parametri rispetto ad altri tipi di campioni di pari ampiezza. Stratificato Consiste nel suddividere la - Aumenta la precisione a - La formazione dei gruppi è molto costosa popolazio-ne in strati il più parità di ampiezza del se non si dispone già di informazioni possibile omogenei all’interno campione; sufficienti o di un elenco degli strati. e il più possibile eterogenei tra - E’ conveniente se la di loro. Successivamente si distribuzione del carattere è estrag-gono da ogni gruppo in asimmetrica. modo casuale le singole unità. Campionamento casuale semplice Campionamento casuale semplice e tecniche di campionamento e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Prof. Antonio Perna A più stadi Statistica inferenziale Consiste nel dividere la Basta conoscere solo gli - Le stime possono essere affette da errori popolazione in gruppi tra di elementi che entrano a far medi superiori a quelli relativi ad altri loro omogenei e al loro interno parte del campio-ne; campioni, perché elementi appartenenti ad il più possibile eterogenei. - Se le unità di primo stadio un gruppo tendono a rassomigliarsi; Successivamente con selezione sono di tipo geografico - Le stime dei parametri sono complicate; casuale saranno scelti alcuni allora i costi sono molto - I costi complessivi in casi complessi sono di essi che costi-tuiscono il ridotti. elevati. Consiste nel definire la lista di - Le procedure di estrazione - Se vi è una tendenza lineare nella variabile campio-namento e un passo di sono semplici e rapide; allora il campione è meno efficiente di quello campiona-mento per poi - Le stime sono più precise stratificato ma è più efficiente di quello campione. Sistematico estrarre le n unità campionarie di quelle ottenibili da un (1 ogni K unità della campione casuale semplice. popolazione). 306 casuale. Campionamento casuale semplice Campionamento casuale semplice e tecniche di campionamento e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Prof. Antonio Perna Campionamento non Statistica inferenziale Procedura di selezione Vantaggi Svantaggi probabilistico Per quote Consiste nel dividere la popolazione - Non è richiesta una base - Manca una base in strati il più possibile omogenei campio-naria; teorica; all’interno; successivamente è - Il costo dell’indagine è - E’ complicato il assegnata la selezione degli individui inferiore a quello di indagini controllo della raccolta all’intervistatore secondo un numero probabilisti-che. dei dati. prestabilito (quote). 307 9.8. Il questionario di indagine. Nell’ambito della raccolta di informazioni distinguiamo: le scienze naturali che si basano su metodi di osservazioni proprie le scienze sociali in cui diviene fondamentale il contatto diretto con i singoli individui. Il problema fondamentale sta nel sostituire a dei procedimenti soggettivi un metodo razionale per la raccolta delle informazioni. Viene di solito utilizzata la pratica dell’intervista. Il questionario di indagine è uno strumento di misura, al servizio della ricerca sociale per raccogliere le informazioni sulle variabili, oggetto di indagine, che non si manifestano in comportamenti facilmente osservabili. Il questionario è quindi uno strumento di comunicazione finalizzato a facilitare l’interazione tra il ricercatore, il rilevatore e l’intervistato. Tale strumento é sempre più utilizzato per soddisfare la necessità di informazioni richieste, ad esempio dal mercato circa la volontà degli individui di essere intenzionati o meno all’acquisto di un prodotto. Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Gli intervistatori celano la propria curiosità dietro domande che suonano innocenti ed ottengono risposte poco chiare, inesatte o addirittura deliberatamente false. I motivi sono innumerevoli e possono semplificarsi in 2 tipi di reazioni: la prima che si oppone ad un’inchiesta promossa dalle autorità trova origine in una sorta di diffidenza difensiva nei suoi confronti; la seconda si oppone ad un’indagine privata ed è dovuta al fatto che l’intervistato non riesce a capire i motivi che hanno indotto il ricercatore all’intervista. Si consideri, inoltre, il fatto che vi possono essere domande complicate e ambigue, con termini troppo crudi o giri di parole tali da condannare l’inchiesta all’insuccesso. Possiamo considerare alcuni semplici esempi, come quello di un pensionato che preferirà ostentare in una luce impietosa la propria povertà o un altro che cercherà a tutti i costi di nasconderla. L’intervistatore non è altro che un intermediario. Altro metodo di indagine consiste nell’inviare i questionari per posta, tuttavia si può affermare per esperienza che essi presentano innumerevoli difficoltà. Il campione risulterebbe piccolo, per le difficoltà dovute allo scarso 309 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale interesse di tali questionari e quindi otterremo un campione poco rappresentativo per ottenere delle conclusioni valide. L’efficace progettazione del questionario necessita quindi di una pianificazione delle operazioni da compiere, individuabili in tre fasi: a) definizione degli obiettivi e concettualizzazione; b) redazione del questionario; c) verifica del questionario. Definizione degli obiettivi e concettualizzazione Occorre definire i temi interesse d’indagine tenendo da parte quelli che non hanno un interesse primario, bisognerà quindi preparare una lista delle variabili rispetto ai temi di interesse. Il processo di concettualizzazione porterà a stabilire in modo analitico il contenuto del questionario, attraverso un primo scheletro di domande. Un modello di progettazione concettuale è quello di Entità-Relazione detto modello E/R; esso si avvale delle seguenti strutture di rappresentazione: 1) entità 2) relazione 3) attributo 310 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 4) gerarchia di generalizzazione 5) sottoinsieme Entità rappresenta una classe di oggetti omogenei in una particolare realtà; ogni elemento è detto istanza dell’entità. Relazione rappresenta una classe di fatti omogenei, stabilendo un collegamento logico tra i singoli elementi dell’entità coinvolti nella relazione. Attributo è una caratteristica di un’entità o relazione rilevante nella realtà di interesse. Gerarchia di generalizzazione esprime un legame concettuale tra un’entità detta padre e una o più entità, dette figlie. Sottoinsieme costituisce un caso particolare di una gerarchizzazione tra un’entità padre e una sola entità figlia. Utilizziamo le strutture del modello E/R per individuare i contenuti informativi di un’indagine statistica ”Indagine sulla condizione abitativa in Italia”. La realtà di interesse è la “condizione abitativa”, costituita da situazioni e concetti che saranno rappresentati nello schema concettuale d’indagine. 311 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Il concetto di “abitazione” è il primo che viene alla mente, e che rappresenta un’entità, cioè una classe di oggetti omogenei. Il concetto di abitazione si trascina l’entità “famiglia”, ci sono infatti situazioni che legano i 2 concetti: una famiglia sta in un’abitazione o un’abitazione è occupata da una famiglia. In tal caso vi è una relazione tra le due entità. Le caratteristiche diventano fondamentali per indagare sulla qualità dell’abitare, pertanto nel modello E/R tale esigenza è soddisfatta con la struttura di rappresentazione: Attributi dell’entità abitazione: superficie, anno di costruzione , indirizzo e occupazione. Attributi dell’entità famiglia numero di componenti. Un primo abozzo potrà essere rappresentato, quindi nel seguente modo: 312 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Nu° componenti FAMIGLIA Superficie 1,1 1,N ABITA IN Indirizzo ABITAZIONE Anno di costruzione Introdurremo poi una gerarchia di generalizzazione tra abitazione (entità padre) e abitazione occupata e non occupata (entità figlie). Sarà poi possibile raffinare lo schema introducendo: gerarchia di generalizzazione: vogliamo documentare il ruolo svolto da ogni entità figlia gerarchia di sottoinsieme: una sola entità figlia è degna di interesse . Abbiamo in tal caso utilizzato la strategia di progettazione nota come metodo top-down, caratterizzata da processi di derivazione che permettono di passare da concetti generali a quelli più specifici. 313 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Si può anche procedere in maniera inversa con un metodo per astrazione, cioè da concetti specifici si giunge a quelli generali. Una volta ottenuto lo schema concettuale, dovremo tradurlo in un questionario di rilevazione utilizzando 1. albero delle aree: ha la funzione di individuare le parti omogenee. Nel nostro esempio abbiamo 3 aree: la prima si riferisce alle informazioni sul capofamiglia; la seconda alle informazioni sulle famiglie; la terza alle informazioni sulle abitazioni. Redazione del questionario. Tale fase gioca un ruolo fondamentale per la progettazione del questionario; sarà infatti importante che: - le domande siano predisposte in modo da raggiungere elevati livelli di standardizzazione; - gli errori non dovuti al campionamento, detti errori non campionari, siano ridotti al minimo. 314 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Ogni domanda avrà una funzione specifica nell’indagine, costituendo infatti un’ipotesi di ricerca; pertanto qualsiasi comportamento o azione non prevista potrà essere una fonte di errore tale da falsare l’indagine. Nelle varie fasi dell’indagine partecipano diversi individui e ciascuno di essi potrà determinare degli errori non campionari. Errori dovuti al ricercatore, che potrebbero dipendere dalla mancanza di chiarezza riguardo gli obiettivi dell’indagine, o dall’utilizzo scorretto di tecniche di indagine; Errori dovuti al rilevatore, che possono riguardare distrazioni o imperfezioni circa il questionario e la conduzione dell’intervista; Errori dovuti al rispondente, che potrebbero dipendere da problemi di memoria, mancanza di informazioni o scarso interesse nel dare la risposta; Errori dovuti all’operatore di registrazione, che potrà registrare in modo errato il valore del dato; Errori del supervisore, che è colui il quale controlla le attività sul campo. Il questionario è una fonte potenziale di errori non campionari, e che pertanto per cercare di ridurli al minimo, 315 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale bisognerà approntare nel migliore dei modi la fase di redazione del questionario. a) Collocazione delle domande e loro successione logica Affinché la comprensione del questionario non risulti ambigua è importante che il rispondente riesca ad inquadrare il contesto delle domande. La sequenza degli argomenti affrontati deve essere coerente evitando che si verifichino salti da un tema ad un altro. Regole ricavate dall’esperienza e dall’analisi dei questionari - I quesiti che implicano uno sforzo di memoria andrebbero collocati verso la metà del questionario, dato che all’inizio il rispondente potrebbe essere poco disponibile a tale impegno e che alla fine sia troppo stanco. - I quesiti su temi delicati da affrontare andrebbero invece collocati verso la fine, per sfruttare la maggiore confidenza e disponibilità. - Quando ci sono gruppi di domande specifiche e dettagliate è bene predisporre delle domande-filtro che 316 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale permettono di saltare uno o più quesiti successivi quando si verifichino certe condizioni prestabilite nelle risposte date. Tecniche nella gestione delle domande: - successione a imbuto nella quale si passa da domande generali a domande più particolari per permettere al rispondente di focalizzare l’attenzione sul tema proposto; - la successione ad imbuto rovesciato nella quale invece si antepongono le domande specifiche a quelle più generali; inducendo così l’intervistato a ponderare sulla risposta finale. Il questionario deve risultare coinvolgente per il rispondente, mantenendo vivo il suo interesse. Si parla perciò di lunghezza ottimale di un questionario ed alcuni studiosi ritengono che l’intervista non debba durare più di 45 minuti. b) Formulazione dei quesiti Linguaggio utilizzato nelle domande è un aspetto critico per la riuscita di un questionario, ed anche piccole variazioni di linguaggio possono causare grandi distorsioni. A questo si aggiunge la possibilità che siano date diverse interpretazioni alle domande dovute a differenti condizioni culturali o esperienze personali, tali da influenzare le risposte. 317 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Un esempio in merito può essere visto considerando lo studio di due ricercatori americani; essi presero un campione di famiglie e lo divisero in due sottogruppi casuali, sottoponendo ad essi due domande diverse. Al primo sottogruppo fu posta la seguente domanda: - “Pensa che negli Stati Uniti debbano essere proibiti discorsi pubblici favorevoli al comunismo?” mentre al secondo sottogruppo fu posta la seguente domanda: - “Pensa che negli Stati Uniti debbano essere permessi discorsi pubblici favorevoli al comunismo?”. Sebbene si possa pensare che le due domande debbano avere un significato esattamente opposto (la risposta "si" alla prima domanda corrisponde alla risposta "no" nella secon da) la percentuale di "si" per la prima domanda è stata del 39.3% mentre la percentuale di "no" alla seconda è stata del 56.3% con una differenza, statisticamente significativa, del 17%. Tale differenza può essere attribuita all’importanza del significato dato dai rispondenti ai termini "proibire" e "permettere". E’ inoltre importante che le domande siano formulate in modo da contenere informazioni sufficienti a non risultare 318 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale ambigue e per far si che tutti gli intervistati rispondano alla medesima domanda. Bisogna evitare che gli intervistatori siano costretti ad aggiungere parole per specificare una domanda incompleta. Non bisogna usare un linguaggio dispregiativo o elogiativo oppure troppo complesso. Occorre evitare che i quesiti proposti contengano più domande in una volta sola. Deve essere posta molta attenzione alla scelta del periodo di riferimento della domanda e alla corretta formulazione del quesito. Si ricorre pertanto ad un quesito retrospettivo che ha lo scopo di sollecitare la memoria del rispondente senza influenzarne i ricordi. Perciò è bene: - ridurre il più possibile il periodo di riferimento, inducendo il rispondente a riportare fatti documentati e non solamente mnemonici; - porre una sequenza di domande per collocare temporalmente i ricordi del rispondente; - proporre un buon numero di alternative di risposta per sollecitare la memoria; 319 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale - ricorrere ad un diario in cui trascrivere giorno per giorno le informazioni richieste (tale tecnica è quella utilizzata dall’ISTAT per le indagini sui consumi familiari). Meccanismi psicologici di difesa; essi si attivano in riferimento ad alcuni argomenti che sono psicologicamente difficili da indagare: il consumo di alcool, il reddito, la contraccezione, i comportamenti sessuali, la presenza di portatori di handicap in famiglia. Per questo è necessario che le domande siano formulate nel modo opportuno, per limitare il più possibile il disagio. - utilizzare una serie di domande di approccio; in tal modo l’individuo non si sente condannato socialmente né ha la sensazione di essere solo contro tutti. È il caso ad esempio di alcune donne che si sottopongono ad operazione per non avere più figli. In tal caso l’approccio sarà del tipo: I. “Ha mai sentito parlare di tale metodo?” II. “Si è mai sottoposta a tale operazione?” - premettere osservazioni che informino comportamenti o li giustifichino; ad esempio: I. “Le è stato possibile recarsi a votare?” 320 sui Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna - ricorrere Statistica inferenziale all’autocompilazione per dare maggiore riservatezza all’intervistato; - porre le domande in forma indiretta in modo da contribuire a diminuire l’imbarazzo e indurre così l’intervistato a proiettarsi in una situazione vivendola come propria; ad esempio: I. “Secondo lei di quanto avrebbe bisogno al mese una famiglia composta come la sua e nella stessa condizi one per vivere in questa città, senza lussi, ma senza farsi mancare il necessario?” c) Organizzazione delle risposte Il modo in cui si registra la risposta alla domanda formulata deve essere considerato con la stessa attenzione posta nella predisposizione dei quesiti. Occorre infatti prendere una serie di decisioni circa quanta libertà lasciare all’intervistato, quante risposte accettare ed il loro ordine. Identifichiamo così diversi tipi di struttura per una risposta: - risposte a domande aperte; - risposte a domande strutturate; - domande a risposta multipla; 321 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale - domande gerarchizzate. Le risposte a domande aperte in cui la risposta viene fornite dall’intervistato con parole proprie senza alcun suggerimento. Riportiamo di seguito un esempio: “Dove svolge solitamente i suoi acquisti di abbigliamento?” _______________________________________________ _ Valutiamo ora vantaggi e svantaggi. I vantaggi consistono nel: - non condizionare la risposta; - esplorare situazioni sconosciute; - trattare quesiti delicati che l’intervistato potrà così motivare meglio. Gli svantaggi invece riguardano: - l’eccessivo lavoro di registrazione e l’elevato tempo di codifica; - la difficoltà a scrivere o a concettualizzare da parte degli intervistati; 322 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna - Statistica inferenziale le difficoltà nel non alterare l’interpretazione delle risposte. Tali domande permettono di conoscere le determinazioni delle variabili generate dalle domande e le relative frequenze associate, quindi sono spesso utilizzate nella fase esplorativa dell’indagine nei sondaggi sull’opinione pubblica, perché danno all’intervistato la possibilità di esprimere il proprio punto di vista. Le risposte a domande strutturate prevedono una serie di risposte predefinite tra le quali il rispondente deve scegliere quella che meglio si adatta alla sua situazione. La selezione della gamma di risposte da proporre è il problema maggiore, pertanto si procede ad un’indagine esplorativa con un campione di piccole dimensioni selezionato con metodi non probabilistici. Molte volte però le risposte non coprono tutti i casi possibili ed allora sarà opportuno lasciare una domanda aperta “Altro” per evitare distorsioni nei risultati. Riportiamo di seguito un esempio: “In che tipo di negozio preferisce acquistare i suoi capi di abbigliamento?” 323 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale Negozio specializzato Grande distribuzione Mercato Altro Non ha preferenze I vantaggi di tale tipo di struttura riguardano: - la riduzione dei tempi di codifica e registrazione; - un grosso aiuto al rispondente; - la standardizzazione della domanda. Gli svantaggi invece hanno a che fare con: - le troppe opzioni che concentrano l’attenzione sulle ultime; - le poche opzioni che possono trascurare fatti importanti; - il fatto che il rispondente può rispondere a caso. Per ridurre gli svantaggi delle domande strutturate talvolta si introduce la modalità di risposta "non so", infatti in tal modo gli indecisi evitano una risposta data a caso, ma ciò può indurre il rispondente alla pigrizia. Per questo, nel caso di 324 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale intervista faccia a faccia, è bene associare tecniche di sollecitazione alla risposta da parte dei rilevatori. Le domande a risposta multipla sono domande strutturate che ammettono più di una risposta fra quelle predisposte. Le domande gerarchizzate sono domande strutturate per le quali le opzioni di risposta devono essere ordinate secondo una scala di preferenze. 325 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale 9.8.1. Verifica del questionario. Lo scopo della terza ed ultima fase di progettazione del questionario è quello di provare sperimentalmente l’adeguatezza del questionario. Occorrerà quindi valutare, prima di rilasciare la versione definitiva del questionario, se esso soddisfa le esigenze conoscitive dell’indagine, se sono state omesse domande, se il linguaggio, i riferimenti spaziali e quelli temporali sono adeguati e se è facilmente comprensibile per gli intervistati e semplice da gestire per il rilevatore. Per poter effettuare tutto ciò bisognerà attivare una serie di controlli che si articolano in quattro operazioni, di seguito analizzate: 1) Una revisione d’ufficio, in cui un gruppo di esperti del fenomeno riesamina la bozza del questionario. Inoltre tale bozza, accompagnata da una nota in cui sono riassunti obiettivi dell’indagine e tecniche utilizzate, viene sottoposta allo studio di un team di studiosi interni o esterni all’istituto. Ogni esperto dovrà quindi stilare un commento relativo al questionario 326 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale inserendo suggerimenti e critiche al fine di migliorare la stesura del questionario. 2) Un pre-test, in cui si sottopone a verifica la stesura provvisoria, somministrandola ad un campione ragionato di individui, molto limitato numericamente e il più vario possibile. Gli intervistatori annoteranno quindi una serie di elementi che permetteranno di valutare completezza, chiarezza e gestibilità del questionario. Dopo queste analisi andranno apportate le modifiche, se necessarie, per mettere a punto il questionario. 3) diverse Un test di alternative, che consiste nel verificare versioni del questionario attraverso delle somministrazioni a piccoli campioni indipendenti di individui. In tal modo si sperimentano delle versioni alternative del questionario, che permettono di ricavare e valutare l’effetto differenziale. Lo scopo è quindi quello di guidare nella scelta tra le possibili alternative, che riguarderanno per lo più la scelta del linguaggio, la forma della domanda, la lunghezza dell’intervista, ecc. 4) Un’indagine pilota, che consiste in una versione completa dell’indagine effettuata su un piccolo campione, estratto con metodo casuale, con lo scopo di verificare il grado 327 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale di integrazione tra le fasi dell’indagine e le condizioni i n cui si svolgerà la rilevazione. La tecnica d’indagine sarà la stessa utilizzata nell’indagine effettiva e sarà anche possibile dopo tale operazione effettuare eventuali questionario. 328 ritocchi anche sul Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna 9.8.2. Statistica inferenziale La revisione di domande standardizzate. In una qualsiasi indagine effettuata con metodi probabilistici, per poter svolgere dei controlli di qualità sui risultati o calcolare gli errori campionari, sarà necessario inserire nella struttura del questionario una serie di domande standardizzate. Ipotizzando di effettuare un’indagine sulla famiglia, in tal caso le domande standardizzate riguarderanno: 1. le famiglie sostituite; 2. le modalità di risposta; 3. le caratteristiche dell’intervistatore; 4. le caratteristiche dell’intervista. Per quanto riguarda il primo aspetto, si possono verificare diverse situazioni (ad esempio, famiglie non raggiungibili, indirizzo errato, cambiamento di dimora della famiglia) tali da non permettere che le famiglie estratte siano intervistate. In tal caso l’eliminazione delle famiglie 329 originarie inciderà Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale negativamente sulla qualità dei risultati. Potrebbero tuttavia essere previste delle sostituzioni qualora l’intervistatore disponga di un elenco di base e un elenco suppletivo. Tenendo quindi conto di questa eventualità, occorrerà inserire nella copertina del questionario i seguenti quesiti, che il rilevatore dovrà compilare: Famiglia appartenente all’elenco di base [S] [N] Famiglia appartenente all’elenco sostitutivo [S] [N] Numero identificativo della famiglia ______ Per quanto riguarda il secondo aspetto vi è la possibilità, che vi siano impedimenti di tipo psichico o fisico circa la difficoltà di poter intervistare un individuo della famiglia. Si potrà anche verificare che un componente risponda per sé e p er conto di altri membri in difficoltà dando origine all’" effetto proxy"2. Esso è un errore che si verifica nelle risposte ottenute da rispondenti diversi da quelle designati per la rilevazione. L’obiettivo è quindi quello di avere delle informazioni per effettuare dei controlli a posteriori sulla situazione, evitando 2 To proxy (dall’inglese): agire da procuratore, cioè fare qualcosa per conto di un altro. 330 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale distorsioni nei risultati. L’intervistatore dovrà quindi ricevere una serie di istruzione sul comportamento da tenere nella fase di rilevazione, ad esempio se accettare che un membro possa rispondere per un altro, se esiste un componente della famiglia più adatto a rispondere in sostituzione ad altri, se in caso di assenza di un membro dovrà ritornare presso quella famiglia o la parte relativa del questionario sarà lasciata incompleta e via di seguito. Alla fine di ciascun questionario individuale, l’intervistatore dovrà compilare una serie di quesiti circa ciascun componente, come ad esempio di questo tipo: Il componente al momento dell’intervista era: Presente e ha risposto alla maggior parte dei [S] [N] quesiti Presente e non ha risposta alla maggior parte dei [S] [N] quesiti Presente al momento dell’intervista [S] [N] Il terzo aspetto riguarda la necessità di ridurre gli errori non campionari inerenti alla fase di rilevazione. Lo scopo, infatti, è quello di responsabilizzare e controllare gli intervistatori, pertanto si costruisce un archivio volto ad 331 Campionamento casuale semplice e tecniche di campionamento. Prof. Antonio Perna Statistica inferenziale analizzare la qualità del lavoro svolto dall’intervistatore. Tali controlli lo renderanno più cosciente e scrupoloso. L’ultimo aspetto riguarda le caratteristiche dell’intervista e si propone di formulare una serie di quesiti per ottenere un quadro dettagliato dell’intervista. Si cerca così di sondare le difficoltà incontrate prima e durante l’intervista, le modalità di raccolta dati, i tempi, la durata dell’intervista, la disponibilità familiare, ecc. Tuttavia l’inserimento di troppi quesiti potrebbe appesantire il lavoro creando così un’indagine nell’indagine. Tali dati sono utili soprattutto in fase di pre-test. 332