2. CAMPIONAMENTO CASUALE SEMPLICE 2.1 - UniFI

annuncio pubblicitario
2. CAMPIONAMENTO CASUALE SEMPLICE
2.1
INTRODUZIONE
Sebbene non sia molto diffuso nella pratica delle indagini, il campionamento
casuale semplice rappresenta il naturale punto di partenza per lo studio di tutti gli
altri disegni campionari.
Si consideri una popolazione di N unità dalla quale si debba estrarre un campione di
n unità distinte. Il campionamento casuale semplice è la tecnica che attribuisce la
stessa probabilità di selezione ad ogni insieme di n unità distinte della popolazione.
Consegue dalla precedente definizione che anche ogni singola unità della
popolazione ha la stessa probabilità di entrare a far parte del campione. Vedremo in
seguito che altri disegni di campionamento possiedono questa ultima proprietà, per
la quale vengono detti equiprobabilistici (termine corrispondente alla sigla epsem
usata nella letteratura di lingua inglese da equal probability selection method), ma
in nessuno di essi l'equiprobabilità di estrazione può essere estesa ad una
qualunque n-pla campionaria come avviene nel campionamento casuale semplice.
Un disegno equiprobabilistico dà luogo, in via teorica, ad un campione così detto
autoponderante. All'atto pratico è estremamente difficile, se non impossibile,
realizzare campioni autoponderanti a causa di una serie di ostacoli, in parte dovuti
alla qualità del frame, in parte alle operazioni di raccolta dei dati (problema della
mancata risposta, dell’errore di rilevazione, ecc.).
Nella selezione di un campione casuale è possibile scegliere se ogni unità possa
entrare più di una volta nel campione. Se questa possibilità non è ammessa il
campionamento è detto senza ripetizione, altrimenti con ripetizione. Nella pratica,
l'estrazione con ripetizione viene adottata raramente. E' intuitivo che, fissata la
dimensione del campione, l'osservazione ripetuta di una o più unità rappresenta una
perdita di informazione. E' tuttavia anche evidente che la distinzione tra estrazione
con e senza ripetizione perde gradualmente di importanza all'aumentare della
dimensione della popolazione di rilevazione.
2.1
2.2
PIANO DI CAMPIONAMENTO E PROBABILITÀ DI INCLUSIONE
Per la definizione data nel precedente paragrafo, l’insieme dei possibili campioni di
dimensione prestabilita pari ad n che possono essere selezionati da una popolazione
di N unità ha cardinalità pari a:
⎛N⎞
⎜⎜ ⎟⎟ .
⎝n⎠
Pertanto la probabilità di ciascun possibile campione è pari a :
−1
⎛N⎞
p(s ) = ⎜⎜ ⎟⎟ .
⎝n⎠
Inoltre, ricordando che la probabilità di inclusione semplice può essere ricavata dal
valore atteso delle variabili di appartenenza al campione: E (t i ) e la probabilità di
inclusione congiunta dal valore atteso del loro prodotto: E t i t j , è immediato
( )
verificare che tali probabilità di inclusione sono costanti per ogni unità della
popolazione e rispettivamente pari a:
πi = n N
e
π ij = n(n − 1) N ( N − 1) .
La dimostrazione di questi risultati è riportata in appendice al capitolo
2.3
SELEZIONE DEL CAMPIONE
Per illustrare il procedimento di formazione del campione e quello di stima di una
costante caratteristica della popolazione utilizziamo un semplice esempio [Kalton,
1983]. Supponiamo di disporre di una lista di 1872 studenti universitari ciascuno
contrassegnato da un numero di matricola compreso tra 0001 e 1950. E’ realistico
che il contrassegno più elevato, 1950, sia maggiore del numero degli iscritti, 1872,
in quanto alcuni studenti originariamente nella lista possono essere usciti per vari
2.2
motivi dal corso di studi. Supponiamo ancora che per svolgere l'indagine si debba
estrarre un campione casuale semplice di 250 studenti. Un modo per procedere
all'estrazione consiste nel fare ricorso al così detto modello dell'urna. Ciascun
numero che identifica lo studente è inserito in un contenitore sferico perfettamente
calibrato. I contenitori vengono poi posti dentro un'urna che consenta di
rimescolarli in modo che nessuno abbia possibilità di assumere una posizione
preferenziale o individuabile dentro la stessa e, infine, n tra questi vengono estratti
a caso (con una pesca manuale o meccanica). Se alcuni contenitori, tra quelli
selezionati, contengono numeri corrispondenti a studenti non più iscritti al corso di
studi, si procede ad estrazioni supplementari fino a raggiungere la dimensione programmata del campione, nell'esempio: n = 250 studenti.
Questo metodo è molto semplice ma diventa impraticabile quando la lista supera
certe dimensioni.
Un metodo alternativo fa uso delle tavole dei numeri casuali. Queste tavole sono
costituite da insiemi di numeri ricavati mediante algoritmi matematici, in modo che
nel lungo andare ogni cifra, ogni coppia di cifre, ogni terna, ecc. abbia la stessa
frequenza di ogni altra. Un estratto della tavola dei numeri casuali prodotta da M.
G. Kendall e Babington Smith [1954] è riportato nella Tab. 1.
Poiché ogni studente è identificato da un numero di quattro cifre, dobbiamo
selezionare casualmente numeri di quattro cifre dalla tavola. Per far questo è
sufficiente individuare casualmente un punto di partenza dal quale procedere
ordinatamente per riga o per colonna.
Per semplicità possiamo partire dall'angolo in alto a sinistra, cioè dall'inizio
naturale della nostra tavola e leggere i numeri in verticale, seguendo le colonne. I
primi due numeri (7766, 7481) non portano ad alcuna selezione. Il primo studente
selezionato corrisponde al numero 0588, a condizione ovviamente che risulti
iscritto al corso di studi. Anche il numero successivo, 0579, corrisponde ad
un'estrazione, dopo di che seguono ben undici numeri (esaurita la prima colonna si
passa alla seconda) che devono essere scartati in quanto superiori a 1950.
L'elevata quantità di numeri scartati deriva naturalmente dal fatto che più dell'80%
dei numeri di quattro cifre sono superiori a 1950. Per rendere il procedimento di
selezione più spedito conviene associare alla lista degli studenti non solo i numeri
compresi tra 1 e 1950 ma anche quelli (di quattro cifre) che si ottengono sommando
a questi opportuni valori costanti maggiori di 1950.
2.3
Tab. 1 - Tavola dei numeri casuali
1
2
3
4
5
6
7
8
9
10
1-4
5-8
9-12
13-16 17-20 21-24 25-28 29-32 33-36 37-40
77 66
74 81
05 88
05 79
79 98
55 09
79 19
28 70
54 44
93 69
88 40
53 71
20 12
76 95
70 98
79 15
16 49
12 06
53 59
31 43
86 61
16 61
10 45
69 00
97 94
11 56
99 08
71 02
34 44
93 93
96 70
59 13
80 22
48 70
55 99
65 88
80 01
34 50
49 93
77 39
78 75
33 02
38 70
60 14
44 04
08 16
56 35
30 16
61 75
72 40
29 77
25 95
94 11
53 11
75 89
96 95
41 42
83 58
19 87
66 32
21 94
92 37
22 02
06 57
69 50
33 17
72 58
39 98
34 93
90 86
12 37
03 18
08 37
06 26
64 03
60 45
20 39
84 01
85 16
65 88
66 11
46 26
74 87
60 31
96 68
81 31
33 53
27 85
18 79
41 19
53 42
37 86
49 04
06 74
17 89
50 46
85 26
17 35
65 94
36 86
Nel nostro caso si possono sommare le costanti 2000, 4000, 6000 e 8000 per
ottenere le serie:
0001
#
1950
2001
#
3950
4001
#
5950
6001
#
7950
8001
#
9950
ciascuna delle quali comprende numeri utili alla selezione degli studenti. Ad
esempio, ripartendo dall'inizio della tavola, troviamo il numero 7766
precedentemente scartato dal quale, togliendo la costante 6000, otteniamo 1766,
cioè un numero compreso nella lista di origine, che dà luogo all'estrazione del
corrispondente studente. Procedendo in questo modo i numeri che si scartano si
riducono a circa il 2,5% di quelli composti da quattro cifre. Così procedendo, può
capitare di incontrare più volte lo stesso numero. Nel qual caso, se l'estrazione è
senza ripetizione, lo si scarta come se fosse fuori della lista.
Il metodo delle tavole casuali è stato alla base dell'estrazione probabilistica fino
all'avvento degli elaboratori elettronici. Al giorno d'oggi quasi tutti i linguaggi
informatici che si usano in campo scientifico contengono routine per la generazione
di numeri casuali. Tali routine permettono di ottenere in tempi brevissimi serie di
numeri casuali che ammettono o meno ripetizioni ed è a queste che lo statistico si
2.4
rivolge per selezionare campioni. Poiché anche le liste delle popolazioni di
selezione sono frequentemente registrate su supporti informatici, l'operazione di
selezione è spesso assistita completamente dall'elaboratore. Occorre pertanto conoscere a fondo le implicazioni probabilistiche dei meccanismi di selezione
automatica per poterne valutare la qualità e l'adeguatezza alle situazioni nelle quali
si vogliono applicare.
2.4
STIMA
Avendo selezionato 250 studenti, supponiamo ora di aver rilevato su ciascuno di
essi alcune variabili per stimare una o più costanti caratteristiche della loro
popolazione di provenienza, ad esempio, il numero medio di ore che uno studente
passa davanti alla televisione e la proporzione di quelli che hanno superato l'esame
di maturità con il massimo dei voti.
Indichiamo il carattere (variabile) quantitativo numero di ore passate davanti alla
televisione con la lettera Y. In seguito useremo la stessa lettera per denotare un
generico carattere quantitativo.
Seguendo una convenzione diffusa nella teoria del campionamento da popolazioni
finite, useremo lettere maiuscole corsive per indicare valori associati alle unità della
popolazione e minuscole corsive per le unità del campione e per le stime. Pertanto,
con Y1, Y2,..,Yi,..YN, denotiamo il numero di ore di televisione per le N unità della
popolazione e con yi1 , yi2 ,..., yin il corrispondente valore per le n unità estratte. La
media della popolazione è data da:
Y =
1
N
N
∑Y
i =1
i
La media delle osservazioni del campione (o media campionaria) da:
y=
1
∑ yi ,
n i∈s
(2.1)
in cui la somma è estesa a tutte le unità della popolazione selezionate nel campione.
2.5
La media campionaria è il tradizionale stimatore della media della popolazione. E’
immediato verificare che la media campionaria corrisponde ad uno stimatore di HT
della media della popolazione.
Viene spontaneo domandarci se y è una buona stima di Y . Essendo il valore di
Y ignoto, non è possibile dare una risposta a questa domanda. In altri termini, non
è possibile valutare una singola stima, cioè un particolare valore ottenuto da un
particolare campione. E' però possibile valutare il procedimento che ha portato alla
formazione di una particolare stima. Il termine stima non dovrebbe essere confuso
con il termine stimatore (nella pratica i due termini sono spesso usati con lo stesso
significato). Infatti, mentre il primo sta ad indicare un particolare valore numerico,
il secondo identifica il procedimento utilizzato per ricavarlo. Lo stimatore possiamo
identificarlo con l'operazione di media delle unità campionarie, la stima con il
risultato che otteniamo in seguito all'applicazione di questa operazione su
determinate osservazioni campionarie.
Le proprietà dello stimatore (media) si ricavano teoricamente ipotizzando di poter
estrarre da una popolazione tutti i possibili campioni distinti di una determinata
dimensione. Calcolata la media su ciascuno di questi, si ricava la sua distribuzione,
che è detta: distribuzione campionaria delle medie. Si è già verificato nel
precedente capitolo che lo stimatore HT del totale Y è uno stimatore corretto. E’
immediato estendere la verifica alla media della popolazione Y , sia in termini
generali, cioè ipotizzando generiche probabilità di inclusione π i , sia considerando
la probabilità di inclusione costante n/N che ogni unità della popolazione ha nel
campionamento casuale semplice. Infatti, poiché la media della popolazione è data
dal rapporto tra il totale e la dimensione della popolazione stessa:
Y =Y N ,
anche lo stimatore di HT della media sarà uguale a quello del totale rapportato alla
dimensione N:
1 N Y
yπ = ∑ i t i
(2.2)
N i =1 π i
2.6
E’ facile verificare che lo stimatore (2.2) è corretto e che sostituendo a πi la
probabilità di inclusione costante n/N si ottiene la media campionaria riporta in
(2.1) che, ovviamente, può essere scritta nella forma:
y ccs =
1 N
∑ Yi ti .
n i =1
(2.3)
Il suffisso ccs, aggiunto al simbolo della media campionaria, sta per:
campionamento casuale semplice. In seguito utilizzeremo analoghi indici per
identificare lo stimatore di HT nel contesto di altri piani di campionamento.
Nonostante la correttezza, la maggior parte, se non la totalità, delle medie
campionarie differirà in più o in meno da quella della popolazione. In altre parole le
medie campionarie avranno una variabilità più o meno elevata intorno al valore
centrale rappresentato, come si è detto, dalla media della popolazione. E' intuitivo
che se questa variabilità è elevata è del pari elevata la probabilità che la media di un
campione casuale risulti anche molto diversa da quella della popolazione. Al
contrario, se la variabilità è piccola la distribuzione campionaria è non solo
centrata ma anche addensata sulla media della popolazione e, di conseguenza, è alta
la probabilità di selezionare casualmente campioni con media prossima a quella
della popolazione. Il grado di addensamento della distribuzione campionaria
intorno alla propria media è una proprietà che si esprime con il termine precisione
e si misura con un indice denominato ‘errore standard’. L'errore standard è la radice
quadrata della varianza della distribuzione campionaria delle medie. Questa varianza non deve essere confusa con quella elementare (cioè degli elementi o unità)
della popolazione, di cui è una funzione. La varianza dello stimatore y ccs è infatti
data da data da:
V ( y ccs ) =
N −nσ2
N −1 n
(2.4)
nella quale :
N
σ 2 = ∑ (Yi − Y ) N
2
i =1
2.7
rappresenta la varianza elementare della popolazione. Tale varianza nella teoria
campionaria viene comunemente definita in modo leggermente diverso, ossia:
N
S 2 = ∑ (Yi − Y ) N − 1
2
(2.5)
i =1
dalla quale si ricava una versione alternativa della (2.4):
S2
N −n S2
= (1 − f )
V ( y ccs ) =
N n
n
(2.6)
nella quale f = n/N è la frazione di campionamento.
E' immediato verificare che sussiste la seguente relazione, che consente di
verificare l'uguaglianza in termini numerici tra la (2.4) e la (2.6):
S 2 = σ 2 N N −1.
L’espressione (2.6) può essere facilmente ricavata dall’espressione dello stimatore
(2.3). Infatti anche per il calcolo della varianza resta valido quanto si è osservato
per il calcolo del valore atteso. La varianza dello stimatore è riferita esclusivamente
alle variabili casuali ti ed in particolare alla loro somma, considerando tutti gli altri
termini come costanti. Pertanto:
⎡1 N
⎤ ⎛ 1 N
⎞
V ( yccs ) = V ⎢ ∑ Yiti ⎥ = ⎜⎜ 2 ∑ Yi2 ⎟⎟ V (ti ) + 2C ti , t j ,
⎢⎣ n i =1 ⎥⎦ ⎝ n i =1 ⎠
(
(
( ))
(2.7)
)
dove C t i , t j è la covarianza tra le possibili coppie di valori ti tj (con i<j).
Tenuto conto che le ti sono variabili bernoulliane con probabilità di successo pari a
n/N, è facile ricavare che:
V (t i ) =
e
2.8
n⎛
n⎞
⎜1 − ⎟
N⎝
N⎠
(
)
C ti , t j = −
n
n⎞
⎛
⎜1 − ⎟ ;
N ( N − 1) ⎝
N⎠
da cui segue che:
1 ⎡N 2
⎢∑ Yi V (t i ) + 2∑i ∑ j <i Yi Y j C t i , t j
n 2 ⎢⎣ i =1
1 ⎡
n⎛
n⎞
= 2 ⎢∑i Yi2 ⎜1 − ⎟ − 2∑i ∑ j <i Yi Y j
N⎝ N⎠
n ⎣
(
V ( y ccs ) =
)⎤⎥
⎥⎦
n
n ⎞⎤
⎛
⎜1 − ⎟⎥.
N ( N − 1) ⎝ N ⎠⎦
Raccogliendo opportunamente a fattor comune, si perviene alla seguente
espressione:
1− f ⎛
2
⎞
2
Yi Y j ⎟
⎜ ∑i Yi −
∑
∑
i
i
<
j
nN ⎝
N −1
⎠
1− f ⎛ N
1
⎞
=
Yi2 −
Y2⎟
⎜
∑
i
nN ⎝ N − 1
N −1 ⎠
V ( y ccs ) =
che con ulteriori semplici passaggi porta a:
V ( y ccs ) =
1− f
(Yi − Y )2 = 1 − f S 2 .
∑
i
n(N − 1)
n
Cioè il risultato anticipato nella (2.6).
L'errore standard della media, ES( y ccs ), è dato dalla radice quadrata della (2.6).
Per convenienza di notazione, la variabilità della stima viene normalmente espressa
in termini di varianza. Quindi diremo che al crescere della varianza diminuisce la
precisione della stima e, viceversa, al diminuire della varianza aumenta la sua
precisione.
La (2.6) mostra che la varianza della media campionaria dipende da tre fattori. Il
primo, (1 − f), detto fattore di correzione per popolazione finita, (cpf), esprime il
contributo nella riduzione della varianza dovuto sia alla dimensione finita della
popolazione che alla selezione senza ripetizione. Per n ≥ 2, infatti il termine è
2.9
minore di 1, ma perde rapidamente di importanza, tendendo ad 1, all'aumentare
della dimensione della popolazione. Il termine è uguale a 1 se l'estrazione è con
ripetizione o se la popolazione non è finita.
Il secondo, n, è la dimensione del campione e il terzo, S2, è la varianza elementare
(per il carattere Y) nella popolazione. Poiché quest'ultima è un dato sul quale non si
ha alcuna influenza e (1 - f) è generalmente trascurabile, il termine dal quale principalmente dipende la varianza della stima è la dimensione campionaria n.
Tornando all'esempio degli studenti, dovrebbe essere chiaro, per le considerazioni
svolte, che se il tempo dedicato alla televisione è approssimativamente uguale per
tutti, la media di ogni campione osservabile sarà vicina a quella della popolazione.
Se, al contrario, le abitudini televisive differiscono notevolmente da uno studente
all'altro, ci sarà un certo rischio di osservare una media campionaria che differisce
molto da quella della popolazione. La varianza della stima ci dà una misura di
questo rischio. Tuttavia, poiché tale varianza dipende da quella non nota, S2, nella
popolazione, sarà necessario ricavare una sua stima dal campione. La stima cui si fa
ricorso è:
s2
(2.8)
v( y ccs ) = (1 − f )
n
nella quale,
s 2 = ∑ ( yi − y ccs )2 (n − 1)
i∈s
è uno stimatore corretto di S2. La verifica della correttezza è lasciata come esercizio
allo studente.
Dalla (2.8) si ricava inoltre la stima dell'errore standard della media:
es( y ccs ) =
(1 − f ) s 2
n
(2.9)
Avendo stimato l'errore standard della media è possibile, sotto certe condizioni,
costruire un intervallo di confidenza centrato su di essa, cioè individuare due valori,
gli estremi dell'intervallo, che hanno una prestabilita probabilità di contenere al loro
2.10
interno la vera media della popolazione. Per esempio l'intervallo di confidenza al
95% per Y è dato da:
y ± 1,96 se( y ccs )
dove il valore 1,96 è tratto dalla tavola della distribuzione normale standardizzata
(il 95% della distribuzione è compreso nell'intervallo i cui estremi sono: -1,96 e
1,96).
Applicando la precedente espressione al campione di 250 studenti, nell'ipotesi che:
y ccs = 2,192 e s2 = 1,008, abbiamo:
250 ⎞ 1,008
⎛
2,192 ± 1,96 ⎜1 −
= 2,192 ± 0,116
⎟
⎝ 1872 ⎠ 250
Possiamo allora affermare che, assumendo sussistano le condizioni di normalità
necessarie per applicare la teoria degli intervalli di stima, abbiamo una probabilità
del 95% che l'intervallo i cui estremi sono 2,076 e 2,3084 comprenda la vera media
della popolazione..
Dal campione di 250 studenti ci eravamo prefissi di stimare anche la proporzione di
quelli che avevano superato la maturità con il massimo dei voti. La proporzione di
unità che nella popolazione detengono un particolare attributo è frequentemente
uno dei parametri di maggiore interesse nelle indagini. I risultati teorici per le
proporzioni derivano direttamente da quelli appena illustrati per le medie,
considerando la proporzioni come una media calcolata su un carattere che possa
assumere solo due valori: 1, ad indicare il possesso di un certo attributo; 0, ad indicarne la mancanza. Pertanto, la proporzione P di unità che hanno un certo attributo
nella popolazione è equivalente alla media Y del carattere stesso e la corrispondente proporzione campionaria p alla media campionaria y o, dato che il
campione è casuale semplice, y ccs .
2
La formula della varianza S dato che Yi può assumere solo valore 0 o 1, può essere
scritta in una forma alternativa rispetto alla (2.5) e lo stesso vale per la sua stima
2
campionaria. In particolare, S = NPQ/(N −1), con Q = (1−P) e s 2 = npq/(n − 1),
con q = (1 − p).
2.11
Pertanto le espressioni della varianza dello stimatore e della sua stima campionaria,
saranno le seguenti:
V ( p ) = (1 − f )
NPQ
(N − 1)n
(2.10)
pq
(n − 1)
(2.11)
e
v( p ) = (1 − f )
A titolo di esempio, supponiamo che nel campione 15 studenti su 250 avessero
superato la maturità con pieni voti. La proporzione stimata è pari a 15/250 = 0,06
(6%). La varianza stimata della proporzione è:
250 ⎞ 0,06 0,94
⎛
v ( p ) = ⎜1 −
= 0,000196
⎟
⎝ 1872 ⎠ 249
e quindi il suo errore standard è:
se( p ) = 0,000196 = 0,014 .
2.5
DETERMINAZIONE DELLA DIMENSIONE CAMPIONARIA
Abbiamo visto nel paragrafo precedente che la frazione di campionamento svolge
un ruolo trascurabile sulla precisione delle stime. Il ruolo preponderante è svolto
dalla dimensione assoluta del campione n. Possiamo allora chiederci quale
dimensione debba avere il campione affinché la precisione delle stime sia pari o
non inferiore ad un prefissato valore. A questa domanda è possibile rispondere ma a
condizione di disporre di informazioni non troppo vaghe sulla varianza elementare
della popolazione relativamente al carattere o ai caratteri di maggiore interesse
nell’indagine.
2.12
Per semplicità, puntiamo l’attenzione sulla stima della media Y della popolazione.
In genere è possibile stabilire a priori l’ordine di grandezza desiderabile del suo
errore standard; spesso si assume per l’errore standard un valore inferiore a quello
che non vorremmo fosse superato nell’indagine. Denotiamo tale errore standard con
V0. Il suo quadrato è dato da:
V02
S2 ⎛
n ⎞ S2
=
,
⎜1 − ⎟ =
n ⎝
N ⎠ n'
nella quale n’ = n/(1−n/N). Se è possibile attribuire un valore ragionevole a S2,
(ricavandolo da dati censuari, da indagini precedenti, da registrazioni di carattere
amministrativo o da indagini pilota ad hoc) la dimensione n’ è data da:
n' =
S2
V02
e il valore di n si ottiene immediatamente dalla relazione:
n=
n'
n'
1+
N
A titolo di esempio, supponiamo di voler stimare la proporzione di studenti
immatricolati all’Ateneo Fiorentino che hanno ottenuto la maturità con il massimo
dei voti. La dimensione della popolazione si aggira sulle 9000 unità; ci
domandiamo quale deve essere la dimensione di un campione casuale semplice che
ci consenta di ottenere uno stimatore della proporzione con un errore standard pari
a 0,01. Quando si vuole stimare una proporzione non è infrequente poter avanzare a
priori delle ragionevoli ipotesi sul suo ordine di grandezza. Nell’esempio, è
ragionevole pensare che tale proporzione sia piuttosto bassa, probabilmente
compresa tra 0,05 e 0,08. La varianza elementare, che possiamo approssimare con
PQ date le dimensioni della popolazione, non è molto variabile in questo intervallo
2.13
2
2
di valori di P. Se P è 0,05, S = 0,0475; se P è 0,08, S = 0,0736. Per cautela
2
possiamo stabilire di prendere il maggiore tra i valori ipotizzati per S . Pertanto:
n' =
PQ
V02
=
0,0736
(0,01)2
= 736
e quindi, poiché la dimensione della popolazione è di circa 9000 unità,
n=
736
≅ 680 ,
736
1+
9000
con una variazione di lieve entità rispetto ad n’ a conferma della scarsa rilevanza
del fattore di correzione, cpf, già in popolazioni di medie dimensioni. Si noti che
con P = 0,05 la dimensione campionaria sarebbe stata di circa 451 unità, cioè circa
il 66% della precedente. A questo proposito si deve osservare che la scelta
cautelativa implica un consistente aumento della dimensione campionaria. E ancora
che quando la proporzione che si deve stimare non è molto piccola, come
nell’esempio, o, il che è equivalente, molto grande, conviene cautelarsi adottando
per P il valore 0,5 che massimizza la varianza PQ.
2.6
CAMPIONAMENTO CASUALE SEMPLICE CON RIPETIZIONE
Pur rivestendo scarsa utilità nella pratica delle indagini, il campionamento casuale
semplice con ripetizione merita qualche cenno nelle sue linee principali soprattutto
per metterne in evidenza le principali differenze rispetto al campionamento senza
ripetizione. Nel campionamento casuale semplice con ripetizione infatti:
(a) è possibile selezionare campioni di dimensione anche superiore a quella
della popolazione;
(b) per popolazioni di dimensione N la cardinalità dell’insieme dei possibili
campioni di dimensione n è maggiore di quella precedentemente vista per
l’estrazione senza ripetizione (cfr. § 2.2)
2.14
Nel determinare la cardinalità dell’insieme S dei possibili campioni si considerano
generalmente le possibili sequenze ordinate di n-ple di unità, data la necessaria
sequenzialità del processo di estrazione. Le unità non possono infatti essere prese in
blocco, ma necessariamente una per volta e reinserite nella popolazione. Le
possibili n-ple sono complessivamente: N n . Di conseguenza, ciascuna ha
probabilità di selezione pari a 1 N n .
Non è possibile parlare di probabilità di inclusione, salvo modificarne la
definizione, dato che un’unità inclusa nel campione alla prima estrazione, può
essere di nuovo estratta nel campione in una successiva estrazione.
Si può e si deve invece parlare di frequenza attesa di inclusione per esprimere il
numero atteso di ricorrenze di ciascuna unità in un campione di dimensione
prestabilita.
Se consideriamo una popolazione di dimensione N e ipotizziamo di selezionare un
campione di n unità:
i) la probabilità di selezione di una generica unità in ogni fase del processo
(estrazione) resta pari a 1/N;
ii) la frequenza attesa di inclusione è pari a n/N.
La frequenza attesa di inclusione, n/N, è solo formalmente uguale alla probabilità di
inclusione nel campionamento casuale semplice senza ripetizione. La differenza
sostanziale è rappresentata dal fatto che la frequenza attesa di inclusione può essere
maggiore di 1, valore che una probabilità non può ovviamente superare.
E’ possibile, come si è già notato, modificare la definizione di probabilità di
inclusione per adattarla al campionamento con ripetizione. Un modo, con
riferimento a quella del primo ordine, è definirla come: “probabilità che una
generica unità entri almeno una volta nel campione durante il processo di
estrazione”. In questa definizione, ed indicandola con π i∗ , per distinguerla
dall’altra, la sua espressione è data da:
π i∗
1⎞
⎛
= 1 − ⎜1 − ⎟
⎝ N⎠
n
Dato che (1 − 1 N )n è la probabilità che un’unità non sia selezionata durante il
processo di formazione del campione.
2.15
Inoltre, la probabilità che, in un campione di dimensione n, un’unità venga
selezionata esattamente r volte è data da:
r
⎛ n ⎞⎛ 1 ⎞ ⎛ N − 1 ⎞
⎜⎜ ⎟⎟⎜ ⎟ ⎜
⎟
⎝ r ⎠⎝ N ⎠ ⎝ N ⎠
n−r
Infine, nella versione modificata che abbiamo appena visto, è ancora possibile
determinare la probabilità di inclusione congiunta, cioè la probabilità che le unità i
e j siano entrambe estratte, almeno una volta, durante il processo di formazione del
campione:
⎛
⎝
π ij∗ = 1 − 2⎜1 −
2.7
n
1⎞
2⎞
⎛
⎟ + ⎜1 − ⎟
N⎠
⎝ N⎠
n
INDICATORE DI RICORRENZA NEL CAMPIONE
Per illustrare, anche se in modo molto sintetico, il procedimento di stima della
media (o del totale) nel campionamento casuale semplice con ripetizione, è utile
introdurre una variabile aleatoria, analoga alla variabile indicatore già introdotta nel
campionamento casuale semplice senza ripetizione, che, in questo caso, dobbiamo
definire come indicatore di ricorrenza di una generica unità nel campione.
Tale variabile che denotiamo con ai, può assumere tutti i valori interi compresi tra 0
e n, ad indicare che l’unità non è stata estratta (ai = 0), è stata estratta una sola volta
(ai = 1), due volte (ai = 2) e così via.
La variabile ai è evidentemente una variabile casuale binomiale con probabilità di
successo 1 N e il suo valore atteso n N corrisponde alla frequenza attesa di
inclusione.
Lo stimatore della media Y , che indichiamo con y ccsr , può essere scritto come
segue:
y ccsr
2.16
1 N
= ∑ Yi ai
n i =1
Ed è immediato verificarne la correttezza dato che E (ai ) = n N .
La sua varianza si ricava facilmente considerando che:
V (ai ) =
1⎞
n⎛
⎜1 − ⎟
N⎝
N⎠
(
)
C ai , a j = −
e
n
N2
Come abbiamo già visto nel paragrafo 2.4:
1 ⎡N 2
⎤
Y V (ai ) + 2∑i ∑ j >i Yi Y j C (ai , a j )⎥
2 ⎢∑ i
n ⎣ i =1
⎦
n⎛
n ⎤
1 ⎡
1⎞
= 2 ⎢∑i Yi 2 ⎜1 − ⎟ − 2∑i ∑ j >i Yi Y j 2 ⎥.
N⎝ N⎠
n ⎣
N ⎦
V ( y ccsr ) =
Da cui:
V ( y ccsr ) =
1 ⎡
1
Y2 −
∑
⎢
i i
nN ⎣
N
∑Y
=
Y2
1 ⎛
⎜⎜ ∑i Yi 2 −
nN ⎝
N
⎞ σ 2 N −1 S 2
⎟⎟ =
=
⋅
N n
⎠ n
i
2
i
−
2
N
∑∑
i
j >i
⎤
Yi Y j ⎥
⎦
Infine uno stimatore corretto della varianza dello stimatore
y
è dato
dall’espressione:
v( y ccsr ) =
s2
⋅
n
E vale la pena di notare che in questo caso s 2 = ∑s ( yi − y ccsr )
2
(n − 1)
è uno
stimatore corretto di σ 2 e non di S 2 .
2.17
2.8
EFFETTO DEL DISEGNO
La strategia di campionamento data dal piano di campionamento casuale semplice
(senza ripetizione) e dallo stimatore di HT è spesso considerata un termine di
confronto con altre strategie alternative, a parità di dimensione campionaria.
Il confronto è spesso effettuato mediante un indice denominato effetto del disegno
(design effect) che denotiamo con Deff 2 . Il Deff 2 (T ) è un rapporto tra la varianza
di uno stimatore T relativo ad una strategia che vogliamo valutare e la varianza del
corrispondente stimatore nella strategia costituita dal campionamento casuale
semplice e dallo stimatore di HT.
A titolo di esempio, possiamo valutare mediante il Deff 2 ( y ccsr ) la strategia,
appena vista, costituita dal campionamento casuale semplice con ripetizione e dallo
stimatore delle media y ccsr .
N −1 S 2
N −1
V ( yccsr )
= N n2 =
Deff 2 ( y ccsr ) =
N −n
V ( y ccs )
N −n S
N n
Il risultato evidenzia che, a parità di dimensione campionaria, il campionamento
casuale semplice senza ripetizione è più efficiente di quello con ripetizione, per un
fattore che tende a diventare trascurabile all’aumentare della dimensione della
popolazione o, comunque, al ridursi della frazione di campionamento.
Prima di concludere, un osservazione che riguarda la simbologia adottata.
L’elevazione al quadrato che compare nel simbolo Deff2 sta ad indicare che l’indice
mette in rapporto tra loro due varianze. E’ possibile valutare una strategia
campionaria anche in termini di errore standard dello stimatore. In questo caso
l’indice viene scritto senza l’elevazione a potenza. Inoltre, l’iniziale maiuscola
denota che l’indice è calcolato su varianze o errori standard reali, ma sappiamo che
in pratica potremo utilizzarlo solo su stime di varianze o di errori standard; in
questo caso l’indice sarà scritto con la lettera minuscola, seguendo la consueta
convenzione introdotta per il carattere di studio Y.
2.18
A.2 - APPENDICE AL CAPITOLO 2
DETERMINAZIONE DELLE PROBABILITÀ DI INCLUSIONE DEL PRIMO E DEL
SECONDO ORDINE
Per definizione, la probabilità di inclusione del primo ordine è:
π i = ∑ p (s )
s ∋i
Ma poiché p(s ) è costante, data la dimensione campionaria, per determinare π i è
necessari semplicemente contare quanti sono i campioni, s, che includono la iesima unità e rapportare questo numero al totale dei campioni selezionabili.
Il numero di campioni che contengono la i-esima unità si ricava facilmente
considerando che oltre alla i-esima il campione può contenere una qualsiasi
combinazione di n − 1 unità scelte dalle N − 1 presenti nella popolazione diverse
dall’unità i. Il loro numero è:
⎛ N − 1⎞
(N − 1)!
⎜⎜
⎟⎟ =
⎝ n − 1 ⎠ (n − 1)!( N − n )!
⎛N⎞
E dividendo per il totale dei possibili campioni ⎜⎜ ⎟⎟ si ottiene, con banali
⎝n⎠
semplificazioni:
⎛ N − 1⎞ ⎛ N ⎞ n
⎟⎟ ⎜⎜ ⎟⎟ = .
π i = ∑ p(s ) = ⎜⎜
−
1
n
s ∋i
⎝
⎠ ⎝n⎠ N
Possiamo ragionare in modo del tutto analogo per ricavare π ij :
⎛ N − 2⎞
⎟⎟
π ij = ∑ p(s ) = ⎜⎜
s ∋i , j
⎝ n−2⎠
⎛ N ⎞ n(n − 1)
⎜⎜ ⎟⎟ =
.
⎝ n ⎠ N ( N − 1)
2.19
Scarica