campionamento casuale semplice

CAPITOLO 9:
CAMPIONAMENTO CASUALE
SEMPLICE E TECNICHE DI
CAMPIONAMENTO.
Il campionamento casuale semplice è il campionamento
probabilistico per eccellenza: ad esso sono, infatti, legati tutti
gli altri tipi più complessi di campionamento che hanno
l’obiettivo di aumentare la precisione delle stime.
Il momento fondamentale è la scelta del disegno
campionario: essa sarà supportata da ogni informazione, nota
a priori, sulle unità della popolazione (U) considerata. A
seconda della qualità o quantità di tali informazioni, sarà
possibile applicare disegni semplici o complessi.
Va però precisato che raramente viene utilizzato nelle
indagini su vasta scala poiché occorrono:
 elevati costi di rilevazione
 e lunghi tempi di organizzazione.
Essendo il paradigma di riferimento sulla scorta del quale
vengono declinati quelli relativi alle forme più complesse di
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
campionamento,
la
conoscenza
dei
criteri
relativi
al
campionamento casuale semplice risulta fondamentale per la
comprensione
di
tali
tecniche
e
per
la
loro
corretta
elaborazione. Procediamo, quindi, con l’analisi di tali criteri.
SELEZIONE CON REINSERIMENTO (detta anche
selezione bernoulliana): in esso gli elementi una volta estratti
sono reinseriti. Ne consegue, quindi, che la probabilità di
estrazione di ogni elemento è costante e pari a 1/N.
Consideriamo:
(n) = numero di unità estratte = ampiezza del campione
(n/N) = frazione di campionamento.
Il campione estratto può essere anche maggiore della
popolazione da cui è estratto (n>N),
SELEZIONE SENZA RIPETIZIONE: in esso un
elemento estratto non viene più reinserito. Si esclude in questo
modo l’eventualità di selezionare un’unità più volte.
Il campione estratto sarà sempre (n<N).
Probabilità di selezione di un’unità varia a ogni passo
dell’estrazione:
246
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
1.
prima estrazione P= 1/N,
2.
seconda P= 1/N-1,
3.
terza P= 1/N-2.
Considerata una popolazione di N elementi e volendo
selezionare un campione di n elementi, la probabilità
complessiva sarà data da:
1
n!( N  n)!

( Nn )
N!
Tale
formula
deriva
dall’inverso
del
coefficiente
binomiale che si usa per ricavare il totale delle combinazioni
senza ripetizioni.
247
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.1. Tecniche per l’estrazione casuale.
Si dice “universo di campioni” un insieme di campioni di
una certa ampiezza, la cui numerosità dipenderà:
 da N, ampiezza della popolazione;
 da n, dimensione del campione;
 dal tipo di estrazione (con o senza reimmissione);
 dalla natura dei campioni.
Per natura dei campioni si intende il fatto che i campioni
possono essere ordinati o non:
-
“ordinati” se l’ordine di estrazione è ritenuto
fondamentale, cioè che 2 campioni sono considerati diversi
quando, pur avendo stessi elementi, differiscono per il loro
ordine;
-
“non ordinati” se l’ordine non è fondamentale e 2
campioni saranno diversi solo se differiscono per qualche
elemento.
Un Campione si definisce casuale semplice se tutti gli
elementi hanno la medesima probabilità di essere estratti.
248
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Perché ciò avvenga, occorre che la selezione segua una
procedura meccanica in linea con un modello probabilistico.
Possiamo utilizzare il lancio di una moneta (per selezioni a 2
alternative), il lancio di un dado (per selezioni a 6 alternative)
o la procedura di estrazione da un’urna (per selezioni a N
alternative). Quest’ ultima procedura è però molto onerosa per
liste di grandi dimensioni, pertanto si farà ricorso alle tavole
dei numeri casuali o aleatori. Esse contengono sequenze di
numeri casuali, generate da un computer o trascrivendo i
risultati dell’estrazione di lotterie: esse sono, quindi, composte
da numeri assolutamente privi di sistematicità, disposti a
gruppi secondo righe e colonne.
Tra i metodi di generazione, il più semplice è quello dei
“quadrati intermedi”: esso consiste nel fornire al computer un
numero di quattro cifre, il quale sarà elevato al quadrato e poi
presa la parte centrale, ancora di 4 cifre e elevata al quadrato e
così via. Unica attenzione da porre è che la sequenza non
diventi periodica, generando cioè sempre le stesse cifre.
Possiamo fare un esempio prendendo il numero 3236, che al
quadrato diverrà 10471696; la parte centrale è 4716, che
elevata al quadrato sarà 22240656 e così via. I numeri così
249
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
ottenuti costituiranno una tavola dei numeri casuali da noi
generata.
Esistono innumerevoli tavole aleatorie redatte, sulla base
di diversi criteri, da vari autori:
01
10097
37542
08422
99019
12807
91499
02
32533
04805
68953
02529
99970
14523
03
76520
64894
19645
09376
80157
68479
04
13586
74296
09303
70715
36147
27686
05
34673
24805
23209
38311
64032
46162
06
5486
24037
02560
31165
36653
83554
07
8055
20636
15953
88676
98951
94750
08
0917
10402
34764
74397
16877
89923
09
39292
00822
35080
04436
12171
37089
10
74945
91665
33606
27659
76833
20048
11
88685
99594
65481
80124
69916
09893
12
40200
67348
17674
35635
26803
20505
13
86504
87517
17468
17727
66252
14225
14
58401
64969
50950
08015
29148
68514
15
36766
91826
58047
45318
36936
46427
16
67951
08928
76974
22374
87203
56788
17
9034
93785
73039
21115
76621
96297
18
7693
61368
57186
78253
13990
78822
19
29609
23478
40218
14385
94400
54382
20
11062
34113
16544
53763
56418
14598
250
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
21
66065
31060
85269
63573
73796
83452
22
74717
10805
77602
32135
45753
99634
23
34072
45571
02051
05325
03529
06288
24
76850
82406
65692
47048
64778
98083
25
36697
35303
68665
90553
35808
13746
26
36170
42614
74818
57548
34282
70078
27
65813
86799
73053
28468
60935
18475
28
39885
07439
85247
28709
20344
40610
29
11199
23403
18623
83491
35273
68711
30
29170
09732
88579
25624
88435
77817
Per utilizzare una tavola occorrerà:
a)
assegnare un numero da 1 a N ad ogni elemento
della popolazione;
b) stabilire casualmente il punto di partenza, ossia le
colonne da cui prendere i numeri casuali (si potrà, ad esempio,
individuare la colonna e la riga corrispondente attraverso una
data o un altro criterio simile);
c)
prendere così tutti i numeri minori o uguali a N e
scartare tutti gli altri.
Prendiamo ora ad esempio una distribuzione di 1000
individui aventi più di 14 anni e suddivisa secondo il loro
sesso e secondo il fatto che essi fumino o meno:
251
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
FUMATORI
NON FUMATORI
Totale
MASCHI
162
338
500
FEMMINE
86
414
500
Totale
248
752
1000
Assegniamo a ciascun individuo un numero da 000 a 999.
Vogliamo estrarre 30 unità.
Dovremo pertanto prendere in considerazione le cifre di 3
colonne consecutive.
La scelta del punto di partenza potrà essere, ad esempio,
relativa ad una data, in cui si considerano mese e giorno.
Prendiamo il 19 febbraio come data di riferimento, (19/02) così
la prima cifra considerata quella corrispondente alla 19 a riga e
2 a colonna della tavola 1, ossia la cifra 9.
Per assegnare i numeri identificativi a ciascun individuo
prendiamo la tavola e suddividiamola in 4 classi diverse, per
cui sarà:
Schema di assegnazione di numeri casuali alla popolazione di
Maschi-Fumatori
da 000 a
Femmine-Fumatrici
da 162 a
Maschi-Non Fumatori
da 248 a
Femmine-Non Fumatrici
da 586 a
1000 individui
161
Classe A
247
Classe B
585
Classe C
999
Classe D
Dalla tavola il primo numero considerato sarà 960 ed i
successivi numeri casuali saranno 106, 606 e così via fino a
252
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
917, riprenderemo così con i numeri formati da altre 3 cifre
appartenenti alle colonne 5, 6 e 7, ossia: 737, 304, e così via,
sino a 361. Avremo una distribuzione di 30 individui s celti a
caso fra i 1000 considerati, ossia:
FUMATORI
NON FUMATORI
Totale
MASCHI
5
9
14
FEMMINE
2
14
16
Totale
7
23
30
253
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.2. Il campionamento casuale semplice.
I criteri di selezione per un campione casuale semplice
sono:
 con reimmissione
 e senza.
La distinzione di questi criteri ha più valore nella teoria
che nella pratica, in quanto quello con reinserimento è spesso
citato ma raramente applicato.
Motivi – svantaggi:
1) non si utilizzano le informazioni note a priori sulla
popolazione sulle caratteristiche distributive delle variabili;
2) non è considerato conveniente per i suoi elevati
costi di rilevazione dei dati e per i tempi di organizzazione
del lavoro.
Vantaggi:
1) evitare le distorsioni provocate da campionamenti
non casuali;
2) permettere di stimare gli errori di campionamento.
254
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.3. La numerosità campionaria.
Un aspetto fondamentale del campionamento riguarda il
numero di unità da introdurre nel campione. Estrarre quante
più unità possibili ci porta, però, da un lato ad avere una
maggiore credibilità dei risultati dell’indagine e, dall’altro, ad
affrontare elevati costi.
Dobbiamo tener conto che la numerosità campionaria
determina l’attendibilità delle stime, pertanto dovremo puntare
ad ottenere una dimensione campionaria ottimale, che
consenta il raggiungimento degli obiettivi dell’indagine al
minimo costo.
Sarà importante disporre di informazioni preliminari, che
possono derivare da un sondaggio pilota o da indagini sullo
stesso argomento effettuate in precedenza.
Consideriamo
un
campione
casuale
semplice
con
reimmissione, la numerosità è data dal rapporto tra la
variabilità del fenomeno osservato S y 2 e la varianza della media
campionaria Var( y ). Se la media campionaria si distribuisce
come una normale, stabilito che la stima cada dentro un
255
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
intervallo
di
Statistica inferenziale
ampiezza
desiderata
con
probabilità
predeterminabile, allora possiamo determinare la numerosità
campionaria.
Dalle
tavole
della
distribuzione
normale
standardizzata, individuiamo il valore z α/2 che esclude a destra
e sinistra dell’intervallo una frequenza pari a α/2, e sia inoltre
2D l’ampiezza dell’intervallo centrato su μ entro il quale, con
probabilità (1–α), si desidera che cada la stima.
Valori tipici della distribuzione normale standardizzata:
α
z α/2
0,10
1,65
0,05
1,96
0,01
2,58
0,001
3,29
Il campione dovrà avere dimensione pari a:
S y2  z2 / 2
n
D2
256
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Facciamo
un
esempio
numerico
in
cui,
si
vuole
individuare la numerosità di un campione per avere un
intervallo di confidenza al 95% di una distribuzione normale
con scarto quadratico medio σ = 5,1 e ampiezza dell’intervallo
pari a 2D=2 (D=1).
Per il nostro intervallo, il valore di z α/2 =1,96, i limiti
superiore e
x  z /2

n
inferiore dell’intervallo di confidenza sono
, poiché l’ampiezza deve essere pari a 2, possiamo
scrivere ( x  z / 2
n  z /2

n
)  ( x  z / 2

n
)  2 , ossia:

D
che, sostituendo, sarà:
n  z2 / 2
2
D2
 1,962 
5,12
 3,84  26,01  99,9  100
12
Nel caso, invece, della stima di una proporzione in cui si
vuole stimare la percentuale di N che possiede una certa
qualità, si può dimostrare che la numerosità campionaria, per
257
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
popolazioni sufficientemente grandi nel caso di estrazioni con
ripetizioni, è pari a:
n  z2 / 2
p(1  p)
D2
dove p è la proporzione della popolazione che possiede
quella qualità.
Un esempio numerico può essere fatto nel campo delle
ricerche di mercato, per individuare il numero di elementi da
comprendere in un campione, per un’indagine ad esempio sulla
percentuale di persone che consumano tè. Anche in tal caso
possiamo applicare la formula precedente e pertanto sarà
necessario valutare la percentuale (p) da un’indagine pilota.
Ipotizziamo che sia p=7%=0,07, con un livello di precisione
(errore massimo consentito) fissato al 95% e considerando un
intervallo la cui ampiezza sia pari a 2D=0,04 (D=0,02).
Avremo, quindi, che:
n  1,962 
0,07(1  0,07)
 625
0,02 2
258
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Tuttavia, in generale, fissato il livello di precisione si
potrà individuare l’ampiezza massima di n, considerando
l’ipotesi più sfavorevole dove p′=0,5, senza ricorrere ad un
sondaggio pilota. Applicando, infatti, tale ipotesi all’esempio
precedente risulta:
max( n)  1,962 
0,5  0,5
 2.401
0,02 2
In definitiva, sarà, quindi:
max(n) 
z2 / 2
4 D2
Date queste premesse, occorre ora precisare l’importanza
di 2 variabili:

l’accuratezza statistica

il costo dell’indagine.
Il ricercatore dovrà, infatti, considerare o uno schema
che per un dato costo renda massima la precisione, oppure
259
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
quello che per una data precisione renda minimo il costo
tenendo bene a mente che:
COSTO TOTALE DELLA RICERCA =
COSTI FISSI + COSTI VARIABILI
I costi fissi sono indipendenti dall’ampiezza del campione
e comprendono i costi di studi e di preparazione dell’indagine.
I costi variabili sono direttamente proporzionali al
numero di unità statistiche del campione.
Possiamo costruire una funzione lineare di costo del tipo:
CTot  A  Bn
A = totale dei costi fissi
B = costo per ogni unità
n = l’ampiezza del campione.
Graficamente:
260
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
CT
n
Tav. 1
I costi variabili B raramente aumentano in maniera
proporzionale per ogni unità aggiuntiva. Per questo motivo si
introduce il concetto di “costo marginale”, ossia di costo per
ogni unità in più; esso di solito diminuisce al crescere di n,
fino ad un certo punto per poi tendere ad aumentare.
CT
n
Tav. 2
261
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Sapendo
Statistica inferenziale
che
il
costo
dell’indagine
è
funzione
dell’ampiezza del campione, possiamo quindi affermare che
per ciascun campionamento bisognerà considerare l’errore
quadratico medio e la funzione costo in modo da poter
confrontare i vari risultati.
Il campionamento casuale semplice viene raramente
usato per i problemi visti in precedenza. Si ricorre ad altri
metodi più complessi i quali utilizzano tutte le informazioni
disponibili (proponendo così campioni più efficienti, ne senso
che tali campioni contribuiscono ad aumentare la precisione
delle stime).
Tra questi sono ampiamente applicati:
-
campionamento stratificato;
-
campionamento a più stadi;
-
campionamento sistematico.
262
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.4. Il campionamento stratificato.
“Stratificare” una popolazione significa ripartirla in
sottopopolazioni. L’operazione di stratificazione consiste nel
raggruppare le unità statistiche in strati omogenei, vale a dire
strati con caratteri comuni sulla base di informazioni relative
ad una popolazione.
Estraendo da ogni strato un campione casuale semplice,
si darà luogo ad un campionamento casuale stratificato.
Si ricorre ad esso quando ci troviamo di fronte ad un
universo di elevata ampiezza. Il principio è, infatti, quello di
suddividere le N unità di una popolazione in H strati quanto
più omogenei possibili rispetto a una certa modalità del
carattere considerato che sia in stretta correlazione con la
variabile d’indagine, in modo che le unità dei singoli strati
abbiano poca variabilità.
In tal modo sarà possibile stimare con molta precisione
determinate caratteristiche pur non utilizzando campioni di
eccessiva ampiezza. Utilizzando la stratificazione si potrà
263
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
ridurre la varianza campionaria senza dover aumentare
l’ampiezza del campione.
Motivo: esigenze amministrative e organizzative che
richiedono una suddivisione geografica (regione o provincia),
decentrando e facilitando le operazioni di rilevazione.
Trova maggiore applicazione nelle indagini economiche e
sociali su vasta scala quando i caratteri della popolazione
possono presentare grande variabilità o forte asimmetria.
Si possono avere due diversi criteri di stratificazione:

prima della selezione;

dopo la selezione.
264
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Notazioni simboliche:
h
Indice di strato
i
Indice dell’unità
Dimensione della subpopolazione nello st rato h
Nh
N   Nh
Dimensione della popolazione
nh
Dimensione del campione nello strato h
H
h 1
n   nh
Dimensione complessiva del campione
f h =n h /N h
Frazione di campionamento relativa allo strato h
f=n/N
Frazione di campionamento tot ale
y
Generica variabile oggetto di indagine
Y hi
Valore della variabile y relativa all’unità i appartenente allo
H
h 1
strato h
Nh
Yh   Yhi
Totale della variabile y relativo alla subpopolazione dello strato
i 1
h
Y
Yh  h
Nh
Media della variabile y relativa alla subpopolazione dello strato
Sh2 
h
1
 (Yhi  Yh ) 2
N h  1 i 1
Varianza della variabile y relativa alla subpopolazione dello
nh
Media della variabile y relativa al campione dello strato h
Nh
1
y   Yhi
nh i 1
sh2 
1 n
 (Yhi  Yh )2
nh  1 i 1
h
strato h
Varianza della variabile y relativa al campione dello strato h
265
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.4.1. La stratificazione preventiva.
La stratificazione preventiva presuppone la disponibilità
di un insieme di dati di base che contenga i valori delle
variabili ausiliarie per ogni unità della popolazione. La
popolazione di N unità verrà pertanto divisa in H strati aventi
N 1 , N 2 … N H unità tali che N 1 + N 2 + … + N H = N.
Estraendo dagli H strati altrettanti campioni, essi
saranno indicati con i simboli n1 , n 2 … n H e sarà: n 1 + n 2 + …
+ n H = n, .
La media della popolazione è stimata con la media
ponderata delle medie dei singoli strati.
Esempio:
Supponiamo di voler calcolare la temperatura media estiva
in cinque città (popolazione = N=5 unità) di cui 2 sono a clima
continentale e 3 sono a clima mediterraneo. I valori delle
temperature sono 14 e 16 e 21, 26, 25. Suddividiamo la
popolazione in 2 strati secondo il tipo di clima, per cui sarà
N 1 =2 (clima continentale) e N 2 =3 clima mediterraneo)
266
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
14  16
 15
2
21  26  25
Yh 
 24
3
Yh 
1
2
mentre la media dell’intera popolazione sarà:
Y 
14  16  21  26  25
 20,4
5
Quest’ultima può essere anche ottenuta mediante il
calcolo della media aritmetica ponderata delle medie dei due
strati con pesi dati dai rapporti: N 1/N=2/5 e N 2/N=3/5, cioè:
yst 
N1
N2
2
3
Yh 
Yh 
 15   24  20,4
N
N
5
5
1
2
267
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.4.2. La stratificazione proporzionale e
non.
Per effettuare una stima corretta della media Yst della
popolazione dovremo calcolare la media aritmetica ponderata
delle H stime y st ottenute dagli strati con pesi dati dai rapporti
Nh
N
, per cui sarà:
H
Yst 
N
h 1
Yh
h
N
Tale valore non è necessariamente uguale a quello della
media del campione y st data da:
H
yst 
n
h 1
h
yh
n
I pesi sono dati dalle frazioni di campionamento f h  nh N
.
h
Nel caso in cui da ogni strato si seleziona un campione la
cui percentuale di unità rispecchia quella della popolazione in
268
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
ogni strato, allora si parla di campionamento stratificato
proporzionale.
Esempio
Consideriamo di voler raccogliere l’opinione, su un dato
argomento, tra gli studenti di una facoltà, ripartiti nei vari anni
di corso estraendo un campione di 200 elementi:
ANNO
N°
COMPOSIZIONE %
DIM. CAMPIONARIA
I
640
40
80
II
400
25
50
III
240
15
30
IV
192
12
24
V
128
8
16
TOT.
1600
100
200
Avendo stabilito ciò, bisognerà ora soltanto individuare un
procedimento aleatorio con cui individuare gli studenti da
intervistare.
Qualora, invece, le frazioni di campionamento varino da
strato a strato, si parlerà allora di campionamento stratificato
non proporzionale. Il ricorso a tale campionamento può
essere dovuto a:
269
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
a)
Statistica inferenziale
difficoltà circa l’esecuzione dell’indagine;
b) particolari obiettivi che richiedono la selezione di un
numero costante di unità dai vari strati che hanno ampiezza
diversa.
Indichiamo con:
n
H n
Numero di unità per strato
La numerosità complessiva del campione
fh 
n
Nh
La frazione di campionamento dello strato h
f 
Hn
N
Frazione di campionamento dell’intera popolazione
sarà
270
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.4.3 Stratificazione a posteriori.
La stratificazione a posteriori presuppone una lista per
ogni strato con informazioni sulla modalità del carattere per
tutte le unità della popolazione. Tuttavia, tali informazioni
potrebbero non essere disponibili o comunque si vogliono
evitare i costi per la classificazione e suddivisione in strati.
In tal caso, si ricorre alla post-stratificazione che
consiste nel definire gli strati solo dopo aver estratto il
campione.
Il criterio di stratificazione deve essere fortemente
correlato con le variabili oggetto di studio ed, inoltre, vi deve
essere una distribuzione statistica nota nella popolazione.
E’ utilizzata in 2 occasioni, e cioè quando:
1.
il carattere di stratificazione non è noto e,
quindi, non si può stratificare a priori;
2.
l’interesse della stratificazione appare nel corso
della indagine, magari dopo aver constatato una correlazione
tra un criterio e la variabile d’indagine.
271
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Si può dimostrare come con la
stratificazione a
posteriori si ottiene una precisione superiore a quella di un
campione non stratificato, ma inferiore a quella di un
campione stratificato a priori.
È importante sottolineare, inoltre, che con tale procedura è
possibile
correggere
la
struttura
del
campione
sia
da
fluttuazioni casuali ma anche da deformazioni sistematiche
dovute alle “non risposte” (rifiuti o assenze di intervistati).
272
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.5. Il campionamento a più stadi (o
cluster).
Il campionamento a più stadi trova ampia applicazione
nella pratica. Avere più stadi o più livelli ha lo scopo di
voler individuare un campione di unità selezionandole su più
livelli.
Supponiamo,
ad
esempio,
di
voler
selezionare
un
campione di operai. Per farlo, procederemo estraendo:
1) prima un campione di comuni;
2) poi un insieme di imprese da ogni comune estratto;
3) ed, infine, i singoli operai delle imprese individuate.
Adottando il gergo tecnico, definiremo i comuni come le
unità “di primo stadio”, le imprese come unità “di secondo
stadio” e gli operai come unità “di terzo stadio”.
L’obiettivo principale del campionamento a più stadi, o
cluster, è quello di studiare le “unità elementari” che nel
273
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
nostro caso sono gli operai. Volendo, infatti, analizzare
l’intero territorio nazionale, le difficoltà principali sarebbero
legate al fatto che le unità considerate sono milioni e cambiano
continuamente.
Per la massima efficienza nel campionamento a più stadi, i
principi cui far riferimento sono opposti a quelli utilizzati nel
campionamento stratificato.
Nel campionamento a più stadi è, infatti, necessario che:

tra le unità elementari appartenenti ad un gruppo
vi siano ampie differenze;

le differenze tra i gruppi primari siano limitate.
Tali requisiti sono, però, spesso difficili da rinvenire dal
momento che vi sono molti casi in cui unità appartenenti allo
stesso gruppo presentano caratteri comuni. E’ questo, ad
esempio, il caso in cui, come molto spesso accade, vi sono
quartieri in cui vivono solo i cittadini più abbienti e quartieri
in cui, invece, risiedono persone a basso reddito. Da ciò
discende che campionamento a più stadi è presente un errore
standard elevato rispetto al campionamento stratificato, ma
ciò non esclude che esso possa essere efficiente.
274
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Vantaggi:

liste delle unità: per ogni stadio sono necessarie
le sole liste delle sub-popolazioni contenute nelle unità
selezionate al livello superiore. Pertanto esso si presenta utile
quando le liste della popolazione da sottoporre ad indagine non
sono disponibili o sono costose da reperire.

i costi si riducono notevolmente su larga scala
perché la rilevazione dei dati è concentrata e si limitano i
disagi organizzativi e umani.
Svantaggi:

complessità della metodologia di stima;

rischio che le stime siano inefficienti proprio per
il fatto che unità appartenenti ad un insieme tendono spesso ad
assomigliarsi.
Nell’ambito del campionamento su più stadi si distingue:

campionamento a grappoli (in inglese, cluster) e
si differenzia dagli altri per il fatto che gli elementi non sono
estratti uno per volta, ma per pacchetti o blocchi detti appunto
275
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
“grappoli”: tutti gli elementi ad essi appartenenti entrano a
far parte del campione.
Accade
spesso
che
i
campioni
a
grappoli
siano
assolutamente necessari. E’ questo il caso, ad esempio, di
indagini relative a liquidi imbottigliati. Volendo, infatti,
selezionare un campione di 100 bottiglie da una popolazione
costituita da 1.000 casse contenenti ciascuna 25 bottiglie,
risulterà molto agevole ricorrere ad un campione a grappoli
limitandosi ad aprire solo 4 casse per ottenere un campione
composto da 4 grappoli di 25 bottiglie, anziché aprire un gran
numero di casse se si utilizza un campione casuale semplice.
276
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.5.1. Selezione di un campione a grappoli.
Aspetto fondamentale per un ricercatore, quando decide di
formare un campione su più stadi, è quello di effettuare una
serie di scelte che riguardano 4 momenti:
a)
individuare il numero di stadi su cui effettuare la
selezione tale che la stratificazione sia efficiente;
b) individuare le caratteristiche per stratificare le
unità di primo stadio (qualora il ricercatore voglia stratificare);
c)
stabilire il numero di unità da selezionare nei vari
stadi;
d) decidere il modo in cui selezionare le unità ai vari
stadi.
La probabilità da assegnare alle unità di ogni singolo
stadio può essere:
 fissa oppure
 variabile.
277
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Considerando un’unità di secondo stadio, la probabilità di
essere selezionata è data dal prodotto tra la probabilità di
selezionare l’unità che la contiene (p i ) e la probabilità di essere
a sua volta estratta ( p j i ). Si parla di probabilità congiunta pij
pari a:
pij  pi  p j i
Per un campione a tre stadi la probabilità congiunta di
selezionare l’unità di terzo stadio k è pari a :
pijk  pi  p j i  pk ij  pij  pk ij
Esaminiamo ora una selezione a probabilità costante ad
ogni stadio in un campionamento a due stadi, utilizzando i
seguenti simboli:
STADIO
POPOLAZIONE
CAMPIONE
FRAZ. DI CAMPIONAM.
1
A
a
f1
2
N
n
f2
avremo che la probabilità di selezione ad ogni stadio è:
278
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
pi 
a
A
p ji  f detta probabilità costante predeterminata per ogni unità,
risulta:
p ji 
f A
a
Qualora ogni unità di primo stadio ha un’identica
dimensione,
allora
la
numerosità
del
campione
è
predeterminabile, se invece le unità di primo stadio hanno
dimensioni variabili l’estrazione renderà imprevedibile la
numerosità finale.
279
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.5.2 Applicazione: l’analisi di un caso
reale.
Analizziamo di seguito un caso reale. Un gruppo di
imprenditori è interessato alla fondazione di un istituto di
credito con una serie di filiali sparse nella provincia di Napoli.
Decide pertanto di voler effettuare una ricerca nei comuni
interessati, in cui sono presenti 500 sportelli bancari, per
valutare le quantità di risparmio da queste ultime amministrate
(espresse in miliardi di €). Non potendo rilevare tutti i dati , si
provvede a raggruppare i comuni in 10 gruppi composti da
comuni limitrofi, in modo che in ciascuno di esso vi sia lo
stesso numero di sportelli pari a 50. Avremo allora:
N 1 =10 gruppi di comuni (unità primarie)
N 2 =50 sportelli in ciascun gruppo (unità secondarie)
N  N1  N 2  10  50  500
numero totale di sportelli.
280
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Volendo effettuare un campionamento a 2 stadi, estraiamo
dapprima 5 gruppi di comuni da ciascuno dei quali poi
provvederemo ad estrarre a sorte 4 banche.
In definitiva avremo:
n 1 =5 gruppi di comuni
n 2 =4 sportelli per gruppo
n  n1  n2  5  4  20 sportelli che rappresentano il campione
complessivo.
Le quantità di risparmio amministrate per ognuna delle 20
banche sono riportate nella seguente tabella:
QUANTITA’ DI RISPARMIO AMMINISTRATE DA
CIASCUNO SPORTELLO (mld €)
GRUPPO
MEDIA
1
3
4
2
4
3,25
2
5
4
3
5
4,25
3
3
2
6
4
3,75
4
5
6
3
2
4
5
2
4
4
3
3,25
La media generale sarà:
x
18,5 18,5

 3,70
n1
5
La varianza tra le medie dei gruppi è:
281
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
(3,25  3,70) 2  (4,25  3,70) 2  (3,75  3,70) 2  (4  3,70) 2 
5
 ( 3,25  3,70) 2
 0,16
5
sm2 
Le varianze in ogni gruppo saranno pari a:
s12 
s22 
s32 
s42 
s52 
( 3  3,25) 2  (4  3,25) 2  ( 2  3,25) 2  ( 4  3,25) 2
4
2
2
(5  4,25)  ( 4  4,25)  (3  4,25) 2  (5  4,25) 2
4
2
2
( 3  3,75)  (2  3,75)  ( 6  3,75) 2  ( 4  3,75) 2
4
2
2
(5  4)  (6  4)  (3  4) 2  ( 2  4) 2
 2,50
4
( 2  3,25) 2  ( 4  3,25) 2  (4  3,25) 2  (3  3,25) 2
4
 0,6875
 0,6875
 2,1875
 0,6875
Il totale è pari a 6,75 per cui la sua media sarà:
s12  s22  s32  s42  s52 6,75
s 

 1,35
5
5
2
Nel nostro caso, essendo un campionamento a 2 stadi,
abbiamo 2 varianze da prendere in considerazione.
Una stima della varianza delle medie generali, come
abbiamo visto in precedenza è pari, a:
282
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
sm2
n
s2
n
0,16
5
1,35
(1  1 ) 
(1  2 ) 
(1 
)

n1  1
N1
n1 (n2  1)
N2
51
10
5(4  1)
4
(1 
)  0,1028
50
sx2 
pertanto la stima dello scostamento quadratico medio è
pari a:
sx 
0,1028  0,32
Lo scostamento ottenuto è di non piccola entità rispetto
alla media generale di 3,70, tuttavia la nostra stima non deve
considerarsi del tutto inattendibile.
In
definitiva,
dopo
aver
verificato
l’utilità
di
un
campionamento a più stadi empiricamente, possiamo valutare i
vantaggi e gli svantaggi legati a questo tipo di proceura, già
precedentemente accennati. I vantaggi sono sostanziali nelle
indagini economiche e sociali su vasta scala rispetto ad altri
campionamenti casuali, poiché le unità sono localizzate in
un’area e permettono così di ridurre costi, tempi e disagi
dell’indagine. Gli svantaggi riguardano per lo più, l’alto
rischio
di
stime
inefficienti.
Pertanto
sarà
necessario
individuare il numero appropriato di stadi, che dipenderà
soprattutto da accessibilità e costo delle liste. L’eterogeneità
283
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
degli elementi in ogni unità primaria nel primo stadio è quindi
necessaria, e a questa deve affiancarsi l’uniformità tra i gruppi.
Tale tipo di campionamento può essere considerato abbastanza
efficiente,
soprattutto
se
consideriamo
che
lo
scopo
del
campionamento su più stadi non è quello di ottenere la massima
attendibilità in un campione rispetto alla sua ampiezza, quanto
quello di raggiungere il più alto grado di precisione nel valutare le
unità elementari.
284
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.6. Il campionamento sistematico.
Il campionamento sistematico consiste nel disporre in
ordine, numerare le unità di partenza della popolazione e
nell’estrarne un certo numero ad intervalli regolari mediante
appunto una selezione sistematica.
Per effettuarlo, abbiamo bisogno dei seguenti elementi:
a)
K = passo di campionamento, ossia il salto che si
compie nella selezione tra 2 unità K  N n .
b)
N = la popolazione
c)
n = dimensione campionaria.
E’ importante distinguere tra:

K intero: essendo N un multiplo esatto di K, allora
risulta che n  N K . In tal caso basterà individuare un numero
casuale r compreso tra 1 e K da cui far partire la selezione.
Abbiamo così che (1<r<K) e quindi le unità selezionate
saranno r, r+K, r+2K,…,r+(n1)K;
285
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna

Statistica inferenziale
K non intero: non essendo più la selezione
immediata, si potrà approssimare il K per difetto ed in tal caso
ci saranno alcune unità verso la fine della lista che saranno
automaticamente escluse dalla selezione, mentre si potrà
approssimare il K per eccesso ed avere una numerosità
campionaria inferiore a quella prestabilita. Tuttavia ci sono
alcuni accorgimenti semplici che si possono adottare per dare a
tutte
le
unità della
popolazione uguale
probabilità
di
appartenere al campione.
Svantaggi
Le unità della popolazione possono essere suscettibili di
fenomeni di fluttuazione periodica, vale a dire che siano
disposte in sequenza ciclica, correndo così il rischio che
selezionando con regolarità le unità, si abbia un campione
composto da troppe unità che stanno nella stessa posizione del
ciclo.
In
tal
rappresentativo
caso,
di
il
campione
un
campione
formato
sarà
ottenuto
con
meno
un
campionamento casuale semplice.
Il campionamento sistematico sarà quindi assimilabile a
quello casuale semplice solo se l’ordine della lista è casuale e
l’unità di partenza è individuata in maniera casuale.
286
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Questa tecnica di estrazione è molto intuitiva, non
presenta infatti alcun tipo di difficoltà pratica trova largo
impiego ad esempio nelle indagini per campione effettuate sui
clienti di un supermercato dove non essendo nota la lista si
utilizzerà un K intero e si individuano le unità con un sistema
meccanico.
287
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.6.1. Fasi per la selezione di un campione.
Analizziamo ora le fasi necessarie per la selezione di un
campione:
a) passo di campionamento, che nel corso di selezione
manuale è spesso approssimato a multipli di 5 o di 10;
b) numero casuale di partenza, che nelle indagini
ripetute nel tempo con selezione manuale sarà r=1 per la prima
volta, r=2 nella seconda volta, per semplicità e per evitare di
tornare presso unità già visitate.
Quando K non è un numero intero si possono considerare
due possibilità per risolvere il problema, attraverso:

l’integrazione della lista in modo da rendere K
un numero intero. In tal caso verranno aggiunte alla lista, B
unità dette “bianche” cioè inesistenti finchè K non diventi un
numero intero che sarà detto K * . Per cui la lista avrà
numerosità N * =N+B ed il passo di campionamento risulta
288
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
N*
che è l’approssimazione per eccesso di K. Ad esempio
K 
n
*
se N=444 e n=15, abbiamo che K 
444
non è un numero
15
intero; basterà pertanto aggiungere 6 unità bianche avendo
N * =N+B=444+6=450 e K * 
450
 30 . Se il numero casuale di
15
partenza compreso tra 1 e 30 è minore o uguale a 24 avremo un
campione di 15 unità, mentre se r>24 allora il campione sarà
composto da 14 unità;

la moltiplicazione di K per una potenza di 10 in
modo da renderlo un numero intero K * . In tal caso se K 
N
è
n
un numero con d cifre decimali, si potrà renderlo intero
moltiplicandolo per un numero casuale r, con 1≤ r ≤ K(10 d ).
Supponendo di voler utilizzare l’esempio numerico fatto al
punto precedente, risulta che K 
444
 29,6 , per cui si ottiene
15
K * =296. Selezioniamo così un numero casuale tra 1 e 296 e
assumiamo che sia 155, si identificheranno pertanto le unità
18, 48, 78, 107 e così via, ricavate dalle seguenti formule:
289
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
155  29
 18,4
10
155  296  29
 48,0
10
155  296  2  29
 77,6
10
155  296  3  29
 107,2
10
290
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
9.6.2
Statistica inferenziale
Valutazione del campionamento
sistematico.
Il campionamento sistematico offre, al pari di tutti gli
altri, vantaggi e svantaggi. Analizziamo, nel dettaglio, sia gli
uni che gli altri.
Vantaggi

semplicità e dell’efficienza soprattutto quando ci
troviamo di fronte ad una lista in cui gli elementi disposti
accanto sono più uniformi di quelli lontani tra loro.
Analoghe caratteristiche si possono rintracciare nel
campionamento stratificato, tuttavia se la popolazione è di
grandi dimensioni e non vi sono difficoltà nel metterla in
ordine allora la selezione sistematica viene preferita. Un
esempio può avere a che fare con una lista di redditi che, dopo
averla riordinata secondo l’ampiezza, potrà essere campionata
utilizzando una selezione sistematica. Questo ci permetterà di
avere una rappresentazione proporzionata di tutte le classi di
reddito
senza
ricorrere
alla
stratificazione.
Tale
campionamento inoltre tende ad essere più rappresentativo di
291
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
un campione, di uguale dimensione, ottenuto con procedura
casuale semplice, a patto che le unità siano sistemate in modo
che quelle vicine abbiano caratteristiche simili.

Aspetti
economici:
un
campione
sistematico
risulterà, in linea generale, meno costoso di un campione
casuale
semplice
avente
stessa
dimensione.
Ciò
viene
confermato da un’indagine reale: volendo, infatti, selezionare
un campione casuale da un lotto di bulloni, col campionamento
semplice sarà necessario numerare ciascuna unità per poi
selezionarla, mentre col campionamento sistematico basterà far
scorrere tutti i bulloni e sceglierne uno ogni K. Tutto ciò sarà
possibile con un minor dispendio di risorse economiche e di
tempo.
Nel campionamento casuale semplice, la dimensione
dell’universo deve essere necessariamente nota a priori, cosa
invece che con l’estrazione sistematica non è sempre
necessaria. Ad esempio, in un’indagine di mercato condotta
sui clienti di un supermercato, la dimensione N della
popolazione non sarà nota prima dell’inizio dell’indagine,
infatti
solo
a
posteriori
sarà
numerosità della popolazione.
292
possibile
determinare
la
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.7. Campionamenti non probabilistici.
I
campionamenti
probabilistici
presentano
una
caratteristica comune che risiede nel fatto che ogni unità della
popolazione ha una probabilità nota e diversa da 0 di essere
inclusa nel campione. Va precisato che potrebbe verificarsi
anche la condizione che vi siano delle differenze tra le
probabilità di ogni unità, ma in tal caso se ne potrà tener conto
attraverso una semplice procedura di ponderazione.
Potremo anche trovarci nella condizione in cui non sia
possibile conoscere la probabilità di inclusione nel campione
di ogni unità, in tal caso si ricorre ad uno dei campionamenti
non probabilistici.
L’utilizzo di tali tecniche rende però impossibile valutare:
-
il grado di precisione delle stime;
-
i rischi di commettere errori.
La costruzione di campioni mediante l’uso di tali tecniche
ha lo scopo di raffigurare in “piccolo” la popolazione
considerata; i campioni così ottenuti sono detti “a scelta
ragionata”. Questi campionamenti, seppure prescindono dalla
293
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
casualità, possono essere anche perfettamente rappresentativi
in relazione alle informazioni di cui si dispone.
In alcuni casi questi tipi di campionamento sono
preferibili al campionamento casuale, perché talvolta la
selezione dovrà rispondere ad una scelta oculata secondo dei
criteri non casuali.
La conoscenza del fenomeno e l’ausilio di “esperti”
permette
dell’intero
di
ottenere
universo;
una
“fotografia
questa
sarà
formato
fortemente
ridotto”
influenzata
dall’angolo visuale e dalla messa a fuoco del problema di colui
che opera la scelta ragionata. I risultati pertanto potranno
essere attendibili in merito a quegli aspetti del fenomeno ben
conosciuti, mentre ci possono essere delle distorsioni qualora
gli aspetti inclusi nell’indagine non concordano con quelli
conosciuti.
Esistono diversi tipi di campionamento a scelta ragionata,
tra questi, merita una menzione particolare il campionamento
per quote.
294
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.7.1. Il campionamento per quote.
Tale campionamento consiste nel selezionare, in base ad
alcune variabili strutturali, la popolazione oggetto di studio.
Ogni intervistatore dovrà, infatti, individuare un numero
prestabilito, detto quota, di individui aventi determinate
caratteristiche da sottoporre ad indagine. Da qui deriva
appunto il nome di campionamento per quota. Ad esempio, gli
individui
potranno
essere
coloro
che
appartengono
a
determinate categorie o che rientrano in determinate classi
sociali o professionali.
Il giudizio del ricercatore giocherà un fattore importante
nella selezione: egli sarà, infatti, tentato di intervistare soltanto
gli individui che lo colpiscono in maniera positiva. Il
ricercatore potrebbe ignorare tutti gli individui difficili da
rintracciare e/o quelli che manifestano scarsi segnali di
collaborazione. Un campione per quote corre sempre il rischio
di
essere
fortemente
influenzato
dalla
convenienza
dell’intervistatore. In altre parole, potremmo quindi dire che il
295
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
campionamento per quote funziona in maniera tale da impedire
al caso di agire liberamente.
Nonostante ciò tale tecnica trova ampia applicazione
soprattutto nelle indagini sull’opinione pubblica, giungendo a
risultati soddisfacenti se:

l’intervistatore segue le istruzioni impartite;

nella popolazione non vi è correlazione tra gli
elementi selezionati e le caratteristiche da studiare.
Il campionamento per quote equivale, quindi, ad un
particolare tipo di campionamento stratificato. Occorre, infatti,
dividere la popolazione in strati il più possibile omogenei
all’interno e il più possibile eterogenei tra di loro, in cui la
selezione degli individui è lasciata all’intervistatore e non al
caso.
Una volta stabilito il totale degli elementi da campionare
si stabilisce per ogni strato una quota proporzionata alla sua
consistenza nella popolazione complessiva.
In tale campionamento, le variabili più frequentemente
usate per classificare gli individui sono:

le aree geografiche;

il sesso;

l’età;
296
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale

le classi sociali;

le condizioni professionali.
I caratteri in base ai quali le interviste sono assegnate
all’intervistatore,
riguardano
ad
esempio,
l’età
del
capofamiglia, la sua professione, il numero di componenti la
famiglia, ecc; ciò permetterà quindi di determinare le quote
marginali.
Consideriamo infatti un semplice esempio, relativo ad
un’indagine in cui è stabilito il numero di interviste che il
ricercatore dovrà ottenere per sesso e per età secondo la
seguente tabella:
SESSO (quota)
ETÀ (quota)
MASCHI
25
18-44
25
FEMMINE
30
45-64
20
65 in su
10
Volendo invece individuare le combinazioni sesso-età,
dalle variabili interconnesse consideriamo le quote incrociate,
le quali stabiliscono le quote per tutti i sottogruppi di
individui e da cui sono determinate le quote marginali, così
come riportato nella seguente tabella a doppia entrata:
297
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
ETÀ
SESSO
MASCHI
FEMMINE
18-44
10
15
45-64
11
9
65 in su
4
6
Le interviste presentano all’inizio una serie di domandetipo tali da permettere all’intervistatore di collocare il
rispondente in uno dei sottogruppi. Ed è proprio per questo
motivo che talvolta si incontrano delle difficoltà dovute alla
disponibilità di sottoporre un individuo all’intervista, così che
un campione per quota potrebbe risultare insufficiente a
rappresentare alcuni gruppi. Sarà, ad esempio, difficile
condurre un sondaggio con campione quota sulla clientela di
un supermercato durante un giorno feriale in un orario
lavorativo, perché ci troveremo di fronte donne e per la
maggior parte disoccupate; il nostro campione quindi sarà poco
rappresentativo.
Il ricercatore può scegliere le unità da rilevare purché
rispetti le quote assegnate. Vengono spesso inseriti dei vincoli
sui criteri di individuazione delle unità; tali accortenze hanno
lo scopo di limitare la soggettività della scelta.
298
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Come abbiamo già detto le indagini per quota sono molto
utilizzate nel settore delle ricerche pubblicitarie soprattutto,
quando le fonti statistiche necessarie per il campionamento
casuale mancano oppure quando l’area di studio è poco estesa
ed il campione molto ridotto. Il campionamento per quote è
utilizzato soprattutto quando urge la conoscenza dell’opinione
pubblica riguardo un determinato fenomeno.
Uno dei vantaggi principali di tale metodo risiede infatti
nella capacità di poter portare a termine un’indagine in breve
tempo,
dato
interessamento
il
minimo
per
quegli
lavoro
preparatorio
elementi
del
e
il
non
campione
non
reperibili, i quali determinerebbero allungamenti dei tempi
dell’indagine. Il metodo per quote si rivolge infatti a quegli
elementi facilmente rintracciabili, e nel giro di poco tempo. I
costi contenuti dell’indagine rappresentano un altro vantaggio
e sono dovuti al fatto che le unità da campionare non sono
imposte dalla lista e l’intervistatore può quindi anche
concentrare le sue interviste in una limitata area geografica.
Inoltre il metodo non richiede una base campionaria, infatti in
numerosi casi non si dispone della lista comprendente tutte le
unità della popolazione. Tale metodo non presenta grossi
inconvenienti quando per l’oggetto di studio non ci troviamo in
299
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
presenza di un forte livello di correlazione tra la scelta di
individui arbitraria da parte del ricercatore e l’atteggiamento
dei componenti del campione. Se invece tale correlazione si
presenta allora ci possiamo trovare di fronte a gravi distorsioni
che falseranno i risultati della nostra indagine.
Gli svantaggi, tuttavia, gravano molto su tale procedura,
infatti, riguardano per lo più la mancanza di una base teorica
che non permette di stimare la variabilità del campionamento,
ed inoltre il controllo della raccolta dei dati risulta molto più
complesso che nelle procedure casuali. Gli errori di rilevazione
potrebbero, infatti, non essere individuati determinando un
ulteriore rischio occulto. A questo poi c’è da aggiungere il
fatto che un campione quota sarà per lo più composto da
individui disposti a collaborare, tenendo quindi esclusi gli
individui non-rispondenti e ciò finirà per influenzare i risultati
dell’indagine.
In conclusione si può affermare che i tentativi fatti per
valutare l’efficienza di campionamenti per quote, per poterla
paragonare all’efficienza emersa da metodi casuali, sono stati
poco utili ed insufficienti a fornire risposte esaurienti.
300
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
La misura dell’attendibilità delle stime relativamente al
campionamento è proponibile invece solo per i campioni per quota
formati secondo criteri para-probabilistici.
301
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.7.2. Altri tipi di campionamento non
probabilistico.
Nell’ambito dei campionamenti non probabilistici si
distinguono oltre al campionamento per quote diversi altri tipi.
A nessuno di essi sono ovviamente applicabili le tecniche della
statistica induttiva pertanto non sarà proponibile il calcolo
della stima della precisione.
Ciascuno di essi fa riferimento a metodiche soggettive
proprie del ricercatore, che non permettono di validare o
confutare le ipotesi della ricerca. Tra i più importanti
riconosciamo:

il
campionamento
accidentale:
nel
quale il
ricercatore seleziona le unità oggetto d’indagine senza criteri
definiti; pertanto ciò che si perde in accuratezza del campione,
lo si recupera in risparmio di tempo e di denaro;

il campionamento a valanga 1: esso è composto da
più fasi; dopo aver infatti intervistato alcune persone dotate
delle caratteristiche richieste, queste identificheranno altri
1
GOODMAN C.A. (1961) “Snowball sampling”, in “Annals of mathematical statistics”.
302
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
soggetti che possono essere successivamente intervistati
formando così liste progressivamente più ampie; ripetendo tali
fasi si crea un effetto a valanga. Tale campionamento è
utilizzato quando si è di fronte a popolazioni rare, ossia
popolazioni
di
individui
ad
esempio
appartenenti
ad
associazioni esclusive, ideologiche o a sette religiose, che si
conosceranno molto bene tra loro;

il campionamento per dimensioni: esso consiste
nel precisare tutte le dimensioni (variabili) oggetto di studio
nella popolazione e verificare poi che per ogni possibile
combinazione delle diverse variabili ci sia almeno un caso. Ciò
ci permette di non correre il rischio di avere combinazioni non
rappresentate anche disponendo di un campione di piccole
dimensioni;

il campionamento a più stadi: esso si articola
nello stesso modo del campionamento casuale su più stadi ma
in tal caso la selezione avviene senza seguire criteri
probabilistici;

il campionamento a elementi rappresentativi: esso consiste nel
selezionare all’interno della popolazione gli elementi che il ricercatore ritiene
rappresentativi per gli obiettivi della ricerca.
303
Campionamento casuale semplice e tecniche di campionamento
Prof. Antonio Perna
Campionamenti
Statistica inferenziale
Procedura di selezione
Vantaggi
Svantaggi
probabilistici
Casuale semplice
Consiste nell’estrarre le unità
- Semplicità di utilizzo.
- Elevati costi di rilevazione rispetto ad
di una popolazione N, da
- Non richiede conoscenze
altri schemi di campionamento;
inserire nel campio-ne
profonde delle
- Non è utilizzato per popolazioni molto
servendosi di una procedura
caratteristiche della
ampie;
casuale (ad es. generatore di
popolazione.
- Non sfrutta tutte le caratteristiche note
numeri casuali)
- Facilità nel calcolare le
della popolazione;
stime dei parametri ed i
- Fornisce stime in genere meno precise
relativi errori.
dei parametri rispetto ad altri tipi di
campioni di pari ampiezza.
Stratificato
Consiste nel suddividere la
- Aumenta la precisione a
- La formazione dei gruppi è molto costosa
popolazio-ne in strati il più
parità di ampiezza del
se non si dispone già di informazioni
possibile omogenei all’interno
campione;
sufficienti o di un elenco degli strati.
e il più possibile eterogenei tra
- E’ conveniente se la
di loro. Successivamente si
distribuzione del carattere è
estrag-gono da ogni gruppo in
asimmetrica.
modo casuale le singole unità.
Campionamento casuale semplice
Campionamento casuale semplice e tecniche di campionamento
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Prof. Antonio Perna
A più stadi
Statistica inferenziale
Consiste nel dividere la
Basta conoscere solo gli
- Le stime possono essere affette da errori
popolazione in gruppi tra di
elementi che entrano a far
medi superiori a quelli relativi ad altri
loro omogenei e al loro interno parte del campio-ne;
campioni, perché elementi appartenenti ad
il più possibile eterogenei.
- Se le unità di primo stadio
un gruppo tendono a rassomigliarsi;
Successivamente con selezione
sono di tipo geografico
- Le stime dei parametri sono complicate;
casuale saranno scelti alcuni
allora i costi sono molto
- I costi complessivi in casi complessi sono
di essi che costi-tuiscono il
ridotti.
elevati.
Consiste nel definire la lista di
- Le procedure di estrazione
- Se vi è una tendenza lineare nella variabile
campio-namento e un passo di
sono semplici e rapide;
allora il campione è meno efficiente di quello
campiona-mento per poi
- Le stime sono più precise
stratificato ma è più efficiente di quello
campione.
Sistematico
estrarre le n unità campionarie di quelle ottenibili da un
(1 ogni K unità della
campione casuale semplice.
popolazione).
306
casuale.
Campionamento casuale semplice
Campionamento
casuale
semplice e tecniche di campionamento
e tecniche
di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Prof. Antonio Perna
Campionamento non
Statistica inferenziale
Procedura di selezione
Vantaggi
Svantaggi
probabilistico
Per quote
Consiste nel dividere la popolazione
- Non è richiesta una base
- Manca una base
in strati il più possibile omogenei
campio-naria;
teorica;
all’interno; successivamente è
- Il costo dell’indagine è
- E’ complicato il
assegnata la selezione degli individui
inferiore a quello di indagini
controllo della raccolta
all’intervistatore secondo un numero
probabilisti-che.
dei dati.
prestabilito (quote).
307
9.8. Il questionario di indagine.
Nell’ambito della raccolta di informazioni distinguiamo:

le scienze naturali che si basano su metodi di
osservazioni proprie

le scienze sociali in cui diviene fondamentale il
contatto diretto con i singoli individui.
Il problema fondamentale sta nel sostituire a dei
procedimenti soggettivi un metodo razionale per la raccolta
delle informazioni. Viene di solito utilizzata la pratica
dell’intervista.
Il questionario di indagine è uno strumento di misura, al
servizio della ricerca sociale per raccogliere le informazioni
sulle variabili, oggetto di indagine, che non si manifestano in
comportamenti facilmente osservabili. Il questionario è quindi
uno strumento di comunicazione finalizzato a facilitare
l’interazione tra il ricercatore, il rilevatore e l’intervistato.
Tale strumento é sempre più utilizzato per soddisfare la
necessità di informazioni richieste, ad esempio dal mercato
circa la volontà degli individui di essere intenzionati o meno
all’acquisto di un prodotto.
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Gli intervistatori celano la propria curiosità dietro
domande che suonano innocenti ed ottengono risposte poco
chiare, inesatte o addirittura deliberatamente false.
I motivi sono innumerevoli e possono semplificarsi in 2
tipi di reazioni:

la prima che si oppone ad un’inchiesta promossa
dalle autorità trova origine in una sorta di diffidenza difensiva
nei suoi confronti;

la seconda si oppone ad un’indagine privata ed è
dovuta al fatto che l’intervistato non riesce a capire i motivi
che hanno indotto il ricercatore all’intervista.
Si consideri, inoltre, il fatto che vi possono essere
domande complicate e ambigue, con termini troppo crudi o giri
di parole tali da condannare l’inchiesta all’insuccesso.
Possiamo considerare alcuni semplici esempi, come quello di
un pensionato che preferirà ostentare in una luce impietosa la
propria povertà o un altro che cercherà a tutti i costi di nasconderla.
L’intervistatore non è altro che un intermediario.
Altro
metodo
di
indagine
consiste
nell’inviare
i
questionari per posta, tuttavia si può affermare per esperienza
che essi presentano innumerevoli difficoltà. Il campione
risulterebbe piccolo, per le difficoltà dovute allo scarso
309
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
interesse di tali questionari e quindi otterremo un campione
poco rappresentativo per ottenere delle conclusioni valide.
L’efficace progettazione del questionario necessita
quindi di una pianificazione delle operazioni da compiere,
individuabili in tre fasi:
a)
definizione degli obiettivi e concettualizzazione;
b) redazione del questionario;
c)
verifica del questionario.
Definizione degli obiettivi e concettualizzazione
Occorre definire i temi interesse d’indagine tenendo da
parte quelli che non hanno un interesse primario, bisognerà
quindi preparare una lista delle variabili rispetto ai temi di
interesse.
Il processo di concettualizzazione porterà a stabilire in
modo analitico il contenuto del questionario, attraverso un
primo scheletro di domande.
Un modello di progettazione concettuale è quello di
Entità-Relazione detto modello E/R; esso si avvale delle
seguenti strutture di rappresentazione:
1) entità
2) relazione
3) attributo
310
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
4) gerarchia di generalizzazione
5) sottoinsieme
Entità rappresenta una classe di oggetti omogenei in una
particolare realtà; ogni elemento è detto istanza dell’entità.
Relazione rappresenta una classe di fatti omogenei,
stabilendo un collegamento logico tra i singoli elementi
dell’entità coinvolti nella relazione.

Attributo è
una caratteristica di un’entità o
relazione rilevante nella realtà di interesse.

Gerarchia di generalizzazione esprime un legame
concettuale tra un’entità detta padre e una o più entità, dette
figlie.

Sottoinsieme costituisce un caso particolare di una
gerarchizzazione tra un’entità padre e una sola entità figlia.
Utilizziamo le strutture del modello E/R per individuare i
contenuti informativi di un’indagine statistica
”Indagine sulla condizione abitativa in Italia”.
La realtà di interesse è la “condizione abitativa”, costituita
da situazioni e concetti che saranno rappresentati nello schema
concettuale d’indagine.
311
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Il concetto di “abitazione” è il primo che viene alla
mente, e che rappresenta un’entità, cioè una classe di oggetti
omogenei.
Il concetto di abitazione si trascina l’entità “famiglia”, ci
sono infatti situazioni che legano i 2 concetti: una famiglia sta
in un’abitazione o un’abitazione è occupata da una famiglia. In
tal caso vi è una relazione tra le due entità.
Le caratteristiche diventano fondamentali per indagare
sulla qualità dell’abitare, pertanto nel modello E/R tale
esigenza è soddisfatta con la struttura di rappresentazione:

Attributi dell’entità abitazione: superficie, anno
di costruzione , indirizzo e occupazione.

Attributi
dell’entità
famiglia
numero
di
componenti.
Un primo abozzo potrà essere rappresentato, quindi nel
seguente modo:
312
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Nu° componenti
FAMIGLIA
Superficie
1,1
1,N
ABITA
IN
Indirizzo
ABITAZIONE
Anno di
costruzione
Introdurremo poi una gerarchia di generalizzazione tra
abitazione (entità padre) e abitazione occupata e non occupata
(entità figlie). Sarà poi possibile raffinare lo schema
introducendo:

gerarchia
di
generalizzazione:
vogliamo
documentare il ruolo svolto da ogni entità figlia

gerarchia di sottoinsieme: una sola entità figlia è
degna di interesse .
Abbiamo in tal caso utilizzato la strategia di progettazione
nota come metodo top-down, caratterizzata da processi di
derivazione che permettono di passare da concetti generali a
quelli più specifici.
313
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Si può anche procedere in maniera inversa con un metodo
per astrazione, cioè da concetti specifici si giunge a quelli
generali.
Una volta ottenuto lo schema concettuale, dovremo
tradurlo in un questionario di rilevazione utilizzando
1.
albero delle aree: ha la funzione di individuare le
parti omogenee. Nel nostro esempio abbiamo 3 aree:

la
prima
si
riferisce
alle
informazioni
sul
capofamiglia;

la seconda alle informazioni sulle famiglie;

la terza alle informazioni sulle abitazioni.
Redazione del questionario.
Tale
fase
gioca
un
ruolo
fondamentale
per
la
progettazione del questionario; sarà infatti importante che:
-
le domande siano predisposte in modo da raggiungere
elevati livelli di standardizzazione;
-
gli errori non dovuti al campionamento, detti errori
non campionari, siano ridotti al minimo.
314
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Ogni domanda avrà una funzione specifica nell’indagine,
costituendo infatti un’ipotesi di ricerca; pertanto qualsiasi
comportamento o azione non prevista potrà essere una fonte di
errore tale da falsare l’indagine.
Nelle varie fasi dell’indagine partecipano diversi individui
e ciascuno di essi potrà determinare degli errori non
campionari.
Errori dovuti al ricercatore, che potrebbero dipendere
dalla
mancanza
di
chiarezza
riguardo
gli
obiettivi
dell’indagine, o dall’utilizzo scorretto di tecniche di indagine;
Errori dovuti al rilevatore, che possono riguardare
distrazioni o imperfezioni circa il questionario e la conduzione
dell’intervista;
Errori dovuti al rispondente, che potrebbero dipendere
da problemi di memoria, mancanza di informazioni o scarso
interesse nel dare la risposta;
Errori dovuti all’operatore di registrazione, che potrà
registrare in modo errato il valore del dato;
Errori del supervisore, che è colui il quale controlla le
attività sul campo.
Il questionario è una fonte potenziale di errori non
campionari, e che pertanto per cercare di ridurli al minimo,
315
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
bisognerà approntare nel migliore dei modi la fase di
redazione del questionario.
a) Collocazione delle domande e loro successione logica
Affinché la comprensione del questionario non risulti
ambigua è importante che il rispondente riesca ad inquadrare il
contesto delle domande.
La sequenza degli argomenti affrontati deve essere
coerente evitando che si verifichino salti da un tema ad un
altro.
Regole ricavate dall’esperienza
e dall’analisi dei
questionari
- I quesiti che implicano uno sforzo di memoria
andrebbero collocati verso la metà del questionario, dato che
all’inizio il rispondente potrebbe essere poco disponibile a tale
impegno e che alla fine sia troppo stanco.
- I quesiti su temi delicati da affrontare andrebbero invece
collocati verso la fine, per sfruttare la maggiore confidenza e
disponibilità.
- Quando ci sono gruppi di domande specifiche e
dettagliate è bene predisporre delle domande-filtro che
316
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
permettono di saltare uno o più quesiti successivi quando si
verifichino certe condizioni prestabilite nelle risposte date.
Tecniche nella gestione delle domande:
- successione a imbuto nella quale si passa da domande
generali
a
domande
più
particolari
per
permettere
al
rispondente di focalizzare l’attenzione sul tema proposto;
- la successione ad imbuto rovesciato nella quale invece
si antepongono le domande specifiche a quelle più generali;
inducendo così l’intervistato a ponderare sulla risposta finale.
Il
questionario
deve
risultare
coinvolgente
per
il
rispondente, mantenendo vivo il suo interesse. Si parla perciò
di lunghezza ottimale di un questionario ed alcuni studiosi
ritengono che l’intervista non debba durare più di 45 minuti.
b) Formulazione dei quesiti
Linguaggio utilizzato nelle domande è un aspetto critico
per la riuscita di un questionario, ed anche piccole variazioni
di linguaggio possono causare grandi distorsioni. A questo si
aggiunge la possibilità che siano date diverse interpretazioni
alle domande dovute a differenti condizioni culturali o
esperienze personali, tali da influenzare le risposte.
317
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Un esempio in merito può essere visto considerando lo
studio di due ricercatori americani; essi presero un campione
di famiglie e lo divisero in due sottogruppi casuali,
sottoponendo ad essi due domande diverse. Al primo
sottogruppo fu posta la seguente domanda:
- “Pensa che negli Stati Uniti debbano essere proibiti
discorsi pubblici favorevoli al comunismo?”
mentre al secondo sottogruppo fu posta la seguente
domanda:
- “Pensa che negli Stati Uniti debbano essere permessi
discorsi pubblici favorevoli al comunismo?”.
Sebbene si possa pensare che le due domande debbano
avere un significato esattamente opposto (la risposta "si" alla
prima domanda corrisponde alla risposta "no" nella secon da) la
percentuale di "si" per la prima domanda è stata del 39.3%
mentre la percentuale di "no" alla seconda è stata del 56.3%
con una differenza, statisticamente significativa, del 17%. Tale
differenza può essere attribuita all’importanza del significato
dato dai rispondenti ai termini "proibire" e "permettere".
E’ inoltre importante che le domande siano formulate in
modo da contenere informazioni sufficienti a non risultare
318
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
ambigue e per far si che tutti gli intervistati rispondano alla
medesima domanda.
Bisogna evitare che gli intervistatori siano costretti ad
aggiungere parole per specificare una domanda incompleta.
Non bisogna usare un linguaggio dispregiativo o
elogiativo oppure troppo complesso.
Occorre evitare che i quesiti proposti contengano più
domande in una volta sola.
Deve essere posta molta attenzione alla scelta del
periodo di riferimento della domanda e alla corretta
formulazione del quesito.
Si ricorre pertanto ad un quesito retrospettivo che ha lo
scopo di sollecitare la memoria del rispondente senza
influenzarne i ricordi.
Perciò è bene:
- ridurre il più possibile il periodo di riferimento,
inducendo il rispondente a riportare fatti documentati e non
solamente mnemonici;
-
porre
una
sequenza
di
domande
per
collocare
temporalmente i ricordi del rispondente;
- proporre un buon numero di alternative di risposta per
sollecitare la memoria;
319
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
- ricorrere ad un diario in cui trascrivere giorno per
giorno le informazioni richieste (tale tecnica è quella utilizzata
dall’ISTAT per le indagini sui consumi familiari).
Meccanismi psicologici di difesa; essi si attivano in
riferimento ad alcuni argomenti che sono psicologicamente
difficili da indagare:
il consumo di alcool, il reddito, la contraccezione, i
comportamenti sessuali, la presenza di portatori di handicap in
famiglia.
Per questo è necessario che le domande siano formulate
nel modo opportuno, per limitare il più possibile il disagio.
- utilizzare una serie di domande di approccio; in tal
modo l’individuo non si sente condannato socialmente né ha la
sensazione di essere solo contro tutti. È il caso ad esempio di
alcune donne che si sottopongono ad operazione per non avere
più figli. In tal caso l’approccio sarà del tipo:
I. “Ha mai sentito parlare di tale metodo?”
II. “Si è mai sottoposta a tale operazione?”
- premettere
osservazioni
che
informino
comportamenti o li giustifichino; ad esempio:
I.
“Le è stato possibile recarsi a votare?”
320
sui
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
- ricorrere
Statistica inferenziale
all’autocompilazione
per
dare
maggiore
riservatezza all’intervistato;
- porre le domande in forma indiretta in modo da
contribuire a diminuire l’imbarazzo e indurre così l’intervistato
a proiettarsi in una situazione vivendola come propria; ad
esempio:
I.
“Secondo lei di quanto avrebbe bisogno al mese
una famiglia composta come la sua e nella stessa condizi one
per vivere in questa città, senza lussi, ma senza farsi mancare
il necessario?”
c) Organizzazione delle risposte
Il modo in cui si registra la risposta alla domanda
formulata deve essere considerato con la stessa attenzione
posta nella predisposizione dei quesiti. Occorre infatti
prendere una serie di decisioni circa quanta libertà lasciare
all’intervistato, quante risposte accettare ed il loro ordine.
Identifichiamo così diversi tipi di struttura per una risposta:
- risposte a domande aperte;
- risposte a domande strutturate;
- domande a risposta multipla;
321
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
- domande gerarchizzate.
Le risposte a domande aperte in cui la risposta viene
fornite dall’intervistato con parole proprie senza alcun
suggerimento.
Riportiamo di seguito un esempio:
“Dove
svolge
solitamente
i
suoi
acquisti
di
abbigliamento?”
_______________________________________________
_
Valutiamo ora vantaggi e svantaggi. I vantaggi consistono
nel:
-
non condizionare la risposta;
-
esplorare situazioni sconosciute;
-
trattare quesiti delicati che l’intervistato potrà così
motivare meglio.
Gli svantaggi invece riguardano:
-
l’eccessivo lavoro di registrazione e l’elevato tempo
di codifica;
-
la difficoltà a scrivere o a concettualizzare da parte
degli intervistati;
322
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
-
Statistica inferenziale
le difficoltà nel non alterare l’interpretazione delle
risposte.
Tali domande permettono di conoscere le determinazioni
delle variabili generate dalle domande e le relative frequenze
associate, quindi sono spesso utilizzate nella fase esplorativa
dell’indagine nei sondaggi sull’opinione pubblica, perché
danno all’intervistato la possibilità di esprimere il proprio
punto di vista.
Le risposte a domande strutturate prevedono una serie
di risposte predefinite tra le quali il rispondente deve scegliere
quella che meglio si adatta alla sua situazione. La selezione
della gamma di risposte da proporre è il problema maggiore,
pertanto si procede ad un’indagine esplorativa con un
campione di piccole dimensioni selezionato con metodi non
probabilistici. Molte volte però le risposte non coprono tutti i
casi possibili ed allora sarà opportuno lasciare una domanda
aperta “Altro” per evitare distorsioni nei risultati.
Riportiamo di seguito un esempio:
“In che tipo di negozio preferisce acquistare i suoi capi
di abbigliamento?”
323
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
Negozio specializzato
Grande distribuzione
Mercato
Altro
Non ha preferenze
I vantaggi di tale tipo di struttura riguardano:
-
la riduzione dei tempi di codifica e registrazione;
-
un grosso aiuto al rispondente;
-
la standardizzazione della domanda.
Gli svantaggi invece hanno a che fare con:
-
le troppe opzioni che concentrano l’attenzione sulle
ultime;
-
le
poche
opzioni
che
possono
trascurare
fatti
importanti;
-
il fatto che il rispondente può rispondere a caso.
Per ridurre gli svantaggi delle domande strutturate talvolta
si introduce la modalità di risposta "non so", infatti in tal modo
gli indecisi evitano una risposta data a caso, ma ciò può
indurre il rispondente alla pigrizia. Per questo, nel caso di
324
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
intervista faccia a faccia, è bene associare tecniche di
sollecitazione alla risposta da parte dei rilevatori.
Le
domande
a
risposta
multipla
sono
domande
strutturate che ammettono più di una risposta fra quelle
predisposte.
Le domande gerarchizzate sono domande strutturate per
le quali le opzioni di risposta devono essere ordinate secondo
una scala di preferenze.
325
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
9.8.1. Verifica del questionario.
Lo scopo della terza ed ultima fase di progettazione del
questionario
è
quello
di
provare
sperimentalmente
l’adeguatezza del questionario. Occorrerà quindi valutare,
prima di rilasciare la versione definitiva del questionario, se
esso soddisfa le esigenze conoscitive dell’indagine, se sono
state omesse domande, se il linguaggio, i riferimenti spaziali e
quelli temporali sono adeguati e se è facilmente comprensibile
per gli intervistati e semplice da gestire per il rilevatore.
Per poter effettuare tutto ciò bisognerà attivare una serie
di controlli che si articolano in quattro operazioni, di seguito
analizzate:
1)
Una revisione d’ufficio, in cui un gruppo di esperti
del fenomeno riesamina la bozza del questionario. Inoltre tale
bozza, accompagnata da una nota in cui sono riassunti obiettivi
dell’indagine e tecniche utilizzate, viene sottoposta allo studio
di un team di studiosi interni o esterni all’istituto. Ogni esperto
dovrà quindi stilare un commento relativo al questionario
326
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
inserendo suggerimenti e critiche al fine di migliorare la
stesura del questionario.
2)
Un pre-test, in cui si sottopone a verifica la stesura
provvisoria, somministrandola ad un campione ragionato di
individui, molto limitato numericamente e il più vario
possibile. Gli intervistatori annoteranno quindi una serie di
elementi che permetteranno di valutare completezza, chiarezza
e gestibilità del questionario. Dopo queste analisi andranno
apportate le modifiche, se necessarie, per mettere a punto il
questionario.
3)
diverse
Un test di alternative, che consiste nel verificare
versioni
del
questionario
attraverso
delle
somministrazioni a piccoli campioni indipendenti di individui.
In tal modo si sperimentano delle versioni alternative del
questionario, che permettono di ricavare e valutare l’effetto
differenziale. Lo scopo è quindi quello di guidare nella scelta
tra le possibili alternative, che riguarderanno per lo più la
scelta del linguaggio, la forma della domanda, la lunghezza
dell’intervista, ecc.
4)
Un’indagine pilota, che consiste in una versione
completa dell’indagine effettuata su un piccolo campione,
estratto con metodo casuale, con lo scopo di verificare il grado
327
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
di integrazione tra le fasi dell’indagine e le condizioni i n cui si
svolgerà la rilevazione. La tecnica d’indagine sarà la stessa
utilizzata nell’indagine effettiva e sarà anche possibile dopo
tale
operazione
effettuare
eventuali
questionario.
328
ritocchi
anche
sul
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
9.8.2.
Statistica inferenziale
La
revisione
di
domande
standardizzate.
In
una
qualsiasi
indagine
effettuata
con
metodi
probabilistici, per poter svolgere dei controlli di qualità sui
risultati o calcolare gli errori campionari, sarà necessario
inserire nella struttura del questionario una serie di domande
standardizzate. Ipotizzando di effettuare un’indagine sulla
famiglia, in tal caso le domande standardizzate riguarderanno:
1.
le famiglie sostituite;
2.
le modalità di risposta;
3.
le caratteristiche dell’intervistatore;
4.
le caratteristiche dell’intervista.
Per quanto riguarda il primo aspetto, si possono verificare
diverse situazioni (ad esempio, famiglie non raggiungibili,
indirizzo errato, cambiamento di dimora della famiglia) tali da
non permettere che le famiglie estratte siano intervistate. In tal
caso
l’eliminazione
delle
famiglie
329
originarie
inciderà
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
negativamente sulla qualità dei risultati. Potrebbero tuttavia
essere previste delle sostituzioni qualora l’intervistatore
disponga di un elenco di base e un elenco suppletivo. Tenendo
quindi conto di questa eventualità, occorrerà inserire nella
copertina del questionario i seguenti quesiti, che il rilevatore
dovrà compilare:
Famiglia appartenente all’elenco di base
[S] [N]
Famiglia appartenente all’elenco sostitutivo
[S] [N]
Numero identificativo della famiglia
______
Per quanto riguarda il secondo aspetto vi è la possibilità,
che vi siano impedimenti di tipo psichico o fisico circa la
difficoltà di poter intervistare un individuo della famiglia. Si
potrà anche verificare che un componente risponda per sé e p er
conto di altri membri in difficoltà dando origine all’" effetto
proxy"2. Esso è un errore che si verifica nelle risposte ottenute
da rispondenti diversi da quelle designati per la rilevazione.
L’obiettivo è quindi quello di avere delle informazioni per
effettuare dei controlli a posteriori sulla situazione, evitando
2
To proxy (dall’inglese): agire da procuratore, cioè fare qualcosa per conto di un altro.
330
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
distorsioni nei risultati. L’intervistatore dovrà quindi ricevere
una serie di istruzione sul comportamento da tenere nella fase
di rilevazione, ad esempio se accettare che un membro possa
rispondere per un altro, se esiste un componente della famiglia
più adatto a rispondere in sostituzione ad altri, se in caso di
assenza di un membro dovrà ritornare presso quella famiglia o
la parte relativa del questionario sarà lasciata incompleta e via
di seguito. Alla fine di ciascun questionario individuale,
l’intervistatore dovrà compilare una serie di quesiti circa
ciascun componente, come ad esempio di questo tipo:
Il componente al momento dell’intervista era:
Presente e ha risposto alla maggior parte dei [S] [N]
quesiti
Presente e non ha risposta alla maggior parte dei [S] [N]
quesiti
Presente al momento dell’intervista
[S] [N]
Il terzo aspetto riguarda la necessità di ridurre gli errori
non campionari inerenti alla fase di rilevazione. Lo scopo,
infatti, è quello di responsabilizzare e controllare gli
intervistatori, pertanto si costruisce un archivio volto ad
331
Campionamento casuale semplice
e tecniche di campionamento.
Prof. Antonio Perna
Statistica inferenziale
analizzare la qualità del lavoro svolto dall’intervistatore. Tali
controlli lo renderanno più cosciente e scrupoloso.
L’ultimo aspetto riguarda le caratteristiche dell’intervista
e si propone di formulare una serie di quesiti per ottenere un
quadro dettagliato dell’intervista. Si cerca così di sondare le
difficoltà incontrate prima e durante l’intervista, le modalità di
raccolta dati, i tempi, la durata dell’intervista, la disponibilità
familiare, ecc. Tuttavia l’inserimento di troppi quesiti potrebbe
appesantire il lavoro creando così un’indagine nell’indagine.
Tali dati sono utili soprattutto in fase di pre-test.
332