Schema di campionamento: << probabilità di

annuncio pubblicitario
Alcuni richiami e definizioni (1)
Popolazione: &egrave; l’insieme finito o infinito di unit&agrave;, definito nei
contenuti, nello spazio e nel tempo, oggetto dell’indagine
Campione: data una popolazione, &egrave; l’insieme delle n unit&agrave;,
selezionate tra le N che compongono la popolazione, al fine di
rappresentarla, quanto a caratteri oggetto di studio
Campione statistico &egrave; detto casuale (o probabilistico)
La casualit&agrave; si ottiene:
• attribuendo ad ogni unit&agrave; una probabilit&agrave; positiva di essere
selezionata
• utilizzando in modo appropriato le tecniche per la selezione
casuale del campione
Alcuni richiami e definizioni (2)
• Popolazione
N
unit&agrave;
• Campione
n
unit&agrave;
• Probabilit&agrave; di estrazione pi
• Probabilit&agrave; di inclusione nel campione πi
• Frazione di campionamento f
• Fattore di correzione per popolazioni finite (1-f)
• Fattore di riporto all’universo 1/f
Schema di campionamento:
&lt;&lt; probabilit&agrave; di selezione &gt;&gt;
In un campionamento casuale le probabilit&agrave; di
selezione delle unit&agrave; possono essere :
1
p
=
p
=
∀i, j ∈ {1, K, N}
• costanti i
j
• variabili
N
La probabilit&agrave; di selezione pi varia tra 0 e 1:
0 &lt; pi ≤ 1
N
i =1
∑ pi = 1
Schema di campionamento:
&lt;&lt; regole per la selezione &gt;&gt;
TECNICHE PER LA SELEZIONE CASUALE:
CASUALE
• Tavole dei numeri casuali
• Algoritmi di generazione di numeri pseudo-casuali
TIPI DI SELEZIONE CASUALE:
• Bernoulliana, o con reinserimento o con ripetizione
N.B. f = 0
• In blocco, o senza reinserimento o ripetizione
Schema di campionamento:
&lt;&lt; probabilit&agrave; di inclusione &gt;&gt;
La probabilit&agrave; di inclusione πi
&egrave; la
probabilit&agrave; di includere nel campione
l’i-esima unit&agrave;: πi =npi
Se la probabilit&agrave; iniziale &egrave; costante
(pi=1/N), la probabilit&agrave; totale &egrave;
πi =
n
N
Si dimostra che, se la probabilit&agrave; di selezione &egrave;
costante, sia nel campionamento bernoulliano, sia nel
campionamento in blocco πi =n/N
Schema di campionamento:
&lt;&lt; selezione sistematica &gt;&gt;
Si mettono in sequenza le unit&agrave; e se ne
seleziona una ogni tante, a partire da una,
scelta casualmente
Il passo di campionamento si determina
sulla base del rapporto k=N/n
La posizione dell’unit&agrave; da cui partire r &egrave;:
1≤r≤k
Si includono nel campione le n unit&agrave; nelle
posizioni:
r; r + k; r + 2k; … ; r + (n-1)k
Schema di campionamento:
&lt;&lt; la numerosit&agrave; campionaria &gt;&gt;
La numerosit&agrave; ottima di un campione &egrave; quella che
permette di ottenere gli obiettivi dell’indagine al
minimo costo (e nel minor tempo)
Sar&agrave; data, quindi, dal pi&ugrave; piccolo numero in base al
quale le stime raggiungono il livello di attendibilit&agrave;
desiderato dal ricercatore
Nel
seguito
vedremo
come determinare la
numerosit&agrave; campionaria all’interno dei diversi tipi
di campionamento probabilistico
Schema di campionamento:
&lt;&lt; struttura del campione &gt;&gt;
• campionamento casuale semplice
• campionamento stratificato
• campionamento su pi&ugrave; stadi
• campionamento per aree
• campionamento ruotato
• …
La STRUTTURA del campione &egrave; data dall’insieme
delle LISTE che si adoperano per formarlo
Se la lista della popolazione &egrave; unica, il campione
ha una struttura semplice, se sono necessarie pi&ugrave;
liste ha una struttura complessa
Campionamento casuale
&lt;&lt; SEMPLICE &gt;&gt; (1)
• Probabilit&agrave; di estrazione pi =1/N ∀i∈{1, …, N}
• Probabilit&agrave; di inclusione nel campione πi =n/N
• Fattore di espansione all’universo: N/n
• Frazione di campionamento f=n/N
• Fattore di riporto all’universo (1-f)=(N-n)/N
La precisione delle stime dipende da n quando N &egrave; molto
grande, mentre f &egrave; determinante quando N &egrave; piccolo
E’ il campione della teoria statistica
Nella pratica &egrave; spesso troppo dispendioso
Campionamento casuale &lt;&lt; SEMPLICE&gt;&gt; (2)
Determinazione della numerosit&agrave; campionaria
Problema: stimare la media &micro; di una caratteristica
X della popolazione, nel caso di un campionamento
casuale semplice, con reimmissione.
Ricordando che, in questo caso, la varianza dello
stimatore media campionaria X &egrave; dato da:
Var (X ) = σ 2 / n
si ha, quindi:
n = σ 2 /Var (X
)
σ2 &egrave; la varianza del fenomeno X nella popolazion e
Dato σ, basta quindi fissare un livello massimo
accettabile per Var (X ) (o, in altri termini, l’ampiezza
accettabile per l’intervallo di confidenza, ad un α
fissato) per determinare n
Campionamento casuale &lt;&lt; SEMPLICE&gt;&gt; (3)
Determinazione della numerosit&agrave; campionaria
Nei casi in cui lo stimatore media campionaria si distribuisce
normalmente, allora la metodologia statistica ci viene in aiuto.
Infatti, si ha che:
σ 2z α / 2
n=
,
dove :
d2
z α / 2 &egrave; il valore dell' ascissa di una distribuzi one n ormale standardiz zata
α &egrave; il valore di confidenza prefissato
2d &egrave; l' ampiezza dell'intervallo centrato su &micro;
all'interno del quale, con probabilit &agrave; (1 - α ) si desidera cada la stima
Il problema &egrave; che generalmente σ non &egrave; noto prima della
rilevazione e occorre, quindi, fare riferimento o ad indagini
similari, oppure porre in essere una indagine pilota e controllare il
livello nel corso dell’indagine
Campionamento casuale &lt;&lt; SEMPLICE&gt;&gt; (4)
Determinazione della numerosit&agrave; campionaria
Nelle indagini di mercato &egrave; pi&ugrave; frequente il caso in
cui si voglia stimare una proporzione di soggetti,
piuttosto che una media. In questo caso la teoria statistica
consente di semplificare ulteriormente la soluzione di questo problema
Il problema pu&ograve; essere formalmente rappresentato,
per ciascun soggetto, in termini di possesso, o meno
dell’attributo di interesse (oppure favorevole, o
contrario ad una certa affermazione, ecc.) e, quindi,
attraverso una v.c. Bernoulliana
Ricordando le caratteristiche di una distribuzione bernoulliana, &egrave; noto
che se Y~Ber(p), allora Var(Y)=p(1-p) e poich&eacute; p &egrave; la probabilit&agrave; di
successo, e varia fra 0 e 1, ha come massimo 0,25, situazione di
massima incertezza
Campionamento casuale &lt;&lt; SEMPLICE&gt;&gt; (5)
Determinazione della numerosit&agrave; campionaria
Questo significa che, in assenza di informazioni su σ2,
la
numerosit&agrave;
campionaria
pu&ograve;
essere
cautelativamente calcolata ponendo p=0,5
Considerando l’intero campione, la proporzione di
interesse sar&agrave; quindi descritta da una binomiale di
parametri n e p. Nei casi di applicabilit&agrave; del teorema
di de Moivre-Laplace e, quindi, di approssimazione
alla normale, avremo, quindi (fissato un α=0,5):
p (1 − p )zα 2
1
2
2
(
)
0
,
25
1
,
96
nMax =
=
d
≅
d2
d2
Campionamento casuale &lt;&lt; SEMPLICE&gt;&gt; (6)
Determinazione della numerosit&agrave; campionaria
In genere, un’indagine si pone obiettivi di conoscenza relativi a
pi&ugrave; caratteristiche del collettivo oggetto di analisi
&laquo;Come si procede quando gli obiettivi
rilevazione riguardano pi&ugrave; variabili?&raquo;
1.
2.
3.
della
Soluzione prudenziale: si adotta la numerosit&agrave; pi&ugrave; grande
Soluzione riduttiva: si riduce la precisione della stima di
alcune variabili
Soluzione ponderata: si assegna alla varianza di stima delle
diverse variabili dei pesi che esprimono l’importanza della
precisione attesa per la statistica stimata (Kish, 1976):
n = ∑Qqw q nq con :
nq la numerosit&agrave; stimata per la q - esima variabile
w q il peso attribuito alla q - esima variabile
Q il numero delle variabili di interesse e
Q
∑q w q = 1
Campionamento casuale &lt;&lt; SEMPLICE&gt;&gt; (7)
Un esempio (Fabbris, 1989)
Viene commissionata una indagine longitudinale su 2000
persone sottoposte a cobalto terapia
Obiettivo:
1.
Rilevare la frazione di sopravvissuti a uno, a due, a cinque anni
2. A distanza di un anno dalla dimissione dell’ospedale, stimare la
media dei giorni di letto nel periodo
Per determinare la numerosit&agrave; si pone:
1.
Un errore di campionamento delle frazioni di sopravvisuti non
superiore al 5% del valore della frazione
2. Un errore di campionamento per il numero medio dei giorni di
letto ≤ 0,5
Campionamento casuale &lt;&lt; SEMPLICE&gt;&gt; (8)
Un esempio (Fabbris, 1989)
Conoscenze a priori:
Si suppone che le sole
informazioni in possesso
provengano
da
uno
studio straniero, da cui
si ricava questa curva di
sopravvivenza
1
0,8
0,6
0,4
0
1
2
3
4
5
6
7
8
9
10
Per il numero di giorni letto, l’esperienza passata dello stesso
ospedale committente porta a ritenere che la varianza sia di
40 giorni2 in un anno
Campionamento casuale
&lt;&lt; STRATIFICATO&gt;&gt; (1)
&laquo;Stratificare significa ripartire la popolazione
sottopopolazioni dette strati &raquo;
PERCHE’ Stratificare ?
™ Evidenziare
in
insiemi di unit&agrave; particolari (unit&agrave;
rare, gruppi estremali o devianti, come le grandi imprese)
™ Separare
dagli altri, strati fisicamente isolati o
con caratteristiche speciali
™ Individuare
particolari
unit&agrave; da osservare con tecniche
Introdurre sulla selezione il massimo controllo, pur
mantenendo la casualit&agrave;
Campionamento casuale
&lt;&lt; STRATIFICATO&gt;&gt; (2)
INDIVIDUARE SOTTOPOPOLAZIONI AL
MASSIMO OMOGENEE RISPETTO ALLA
VARIABILE (o alle variabili) DA RILEVARE
STIME
PIU’
EFFICIENTI
di
quelle
ottenibili con un campionamento casuale
semplice (di pari numerosit&agrave;)
Campionamento casuale
&lt;&lt; STRATIFICATO&gt;&gt; (3)
Ogni strato Ph &egrave; una popolazione
Se la popolazione P &egrave; suddivisa in H strati
allora
H
Uh =1 Ph = P
Il campione Ch estratto dallo strato h &egrave;
idoneo a rappresentarlo
H
Uh =1 C h = C
Rappresenta l’intera popolazione P
Campionamento casuale &lt;&lt; STRATIFICATO&gt;&gt; (4)
REGOLE per la stratificazione
™Le
CARATTERISTICHE
per
la
stratificazione devono essere note prima
della selezione
™Ogni
unit&agrave; statistica deve appartenere
ad uno e ad un solo strato
™STRATIFICATO
&egrave; un campione estratto
da una popolazione STRATIFICATO
Campionamento casuale &lt;&lt; STRATIFICATO&gt;&gt; (5)
Selezione di un campione
stratificato PROPORZIONALE
&frac34;La
frazione di campionamento &egrave; determinata
proporzionalmente alla presenza degli individui in
uno strato
nh = n
&frac34;Si
Wh
∑ h =1 W h
H
tratta di uno schema di campionamento
AUTOPONDERANTE, perch&eacute; la probabilit&agrave; di
inclusione di una unit&agrave; nel campione &egrave; uguale a
quella del campionamento casuale semplice (n/N)
Campionamento casuale &lt;&lt; STRATIFICATO&gt;&gt; (6)
con ALLOCAZIONE OTTIMA secondo
Neyman (1934) e Chuprov (1923)
Selezione
&frac34;Quando non si hanno vincoli di costo, o quando il
costo &egrave; uguale in tutti gli strati, la numerosit&agrave;
ottima per l’h-esimo strato &egrave; data da:
Whσ h
nh = n H
∑h =1Whσ h
N.B. pu&ograve; accadere che nh &gt; Nh. Si campioneranno,
allora le Nh unit&agrave; e si aumenter&agrave; la numerosit&agrave; da
attribuire agli altri (H-1) strati, ignorando l’h-esimo
Campionamento casuale &lt;&lt; STRATIFICATO&gt;&gt; (7)
STIMA con ALLOCAZIONE OTTIMA
&frac34;Il
campione stratificato con allocazione ottima
delle unit&agrave; non &egrave; autoponderante
&frac34;Occorre, quindi, introdurre un sistema di pesi wi
nel calcolo delle stime per tener conto delle
differenti probabilit&agrave; di inclusione πi delle singole
unit&agrave; (schema di campionamento con probabilit&agrave;
variabili)
wi =
1
πi
Campionamento casuale &lt;&lt; STRATIFICATO&gt;&gt; (8)
STIMA con ALLOCAZIONE OTTIMA della
MEDIA &micro; della variabile X
Chiamiamo:
ƒ &micro;h la media della variabile X, all’interno dell’h-esimo strato
della popolazione
ƒ X la media della variabile X, all’interno dell’h-esimo strato
del campione
ƒ σ2 h
la varianza della variabile X, all’interno dell’h-esimo
strato della popolazione
ƒ s2h
la varianza della variabile X, all’interno dell’h-esimo
strato del campioni
Campionamento casuale &lt;&lt; STRATIFICATO&gt;&gt; (9)
STIMA con ALLOCAZIONE OTTIMA della
MEDIA &micro; della variabile X
La MEDIA &micro; della variabile X &egrave; corretta stimata
dalla media aritmetica ponderata delle medie
stimate nei singoli strati:
x ott = ∑h =1Wh x h = ∑h =1 Nh x h N
x h = ∑in=1 x hi nh
H
h
H
Campionamento casuale &lt;&lt; STRATIFICATO&gt;&gt; (5)
Selezione di un campione
stratificato OTTIMALE
&frac34;La
frazione di campionamento che permette di
raggiungere l’obiettivo &egrave; pi&ugrave; elevata negli strati in
cui la variabilit&agrave; &egrave; maggiore, rispetto a quelli in cui
i valori si addensano attorno ai valori medi
&frac34;A
parit&agrave; di varianza, si campioner&agrave; negli strati
in cui il costo unitario di rilevazione &egrave; pi&ugrave; basso:
Whσ h C h
nh = n H
∑h =1Whσ h C h
dove σh &egrave; lo scarto quadratico medio della variabile scelta come
fattore di stratificazione all’interno dell’h-esimo strato
Campionamento casuale
&lt;&lt; A STADI&gt;&gt; (1)
&laquo;Alla base di un campionamento a stadi c’&egrave; una
struttura gerarchica della popolazione &raquo; :
la popolazione finale delle unit&agrave; &egrave; contenuta in un
insieme di unit&agrave; di livello superiore, che possono a
loro volta appartenere ad un numero pi&ugrave; ridotto di
insiemi di dimensione pi&ugrave; ampia
Esempio:
Si campiona in un primo stadio fra i comuni italiani.
Successivamente al secondo stadio si campionano
le famiglie all’interno dei comuni estratti.
Si intervistano, quindi, tutti i componenti delle
famiglie estratte (grappolo)
grappolo
Campionamento casuale
&lt;&lt; A STADI&gt;&gt; (2)
Si noti che :
•
•
•
la successione gerarchica dei campionamenti pu&ograve;
non coincidere con la struttura della popolazione
l’estrazione del campione si pu&ograve; effettuare con
criteri differenti ad ogni stadio:
o con probabilit&agrave; costanti o variabili
o da liste stratificate o meno
la stratificazione si effettua di regola al primo stadio,
perch&eacute; &egrave; pi&ugrave; economico e si hanno pi&ugrave; informazioni
fissata la numerosit&agrave; campionaria si pu&ograve; decidere
come combinare i diversi stadi
AMPIA FLESSIBILITA’
Campionamento casuale
&lt;&lt; A STADI&gt;&gt; (3)
Le fasi di un campionamento a stadi sono :
1. individuare il numero degli stadi
2. individuare le caratteristiche per stratificare (di
solito le unit&agrave; di primo stadio)
3. decidere quante unit&agrave; estrarre ad ogni stadio
4. decidere come selezionare ad ogni stadio
Il DEFF di un campionamento a stadi &egrave; inversamente
legato al coefficiente di correlazione interclasse
Campionamento casuale
&lt;&lt; RUOTATO&gt;&gt;
&laquo;Quando con l’indagine si vogliono stimare le
caratteristiche della popolazione ad intervalli di
tempo esistono diverse soluzioni &raquo; :
1. si costruisce un campione permanente, il panel
Vantaggi: consente di studiare flussi e persistenze
Limiti: rischio di perdita di rappresentativit&agrave; col tempo
2. si selezionano campioni indipendenti ogni volta
Vantaggi: garantisce la rappresentativit&agrave; nel tempo
Limiti: consente confronti temporali solo per aggregati
3. si sostituiscono a rotazione alcune unit&agrave;
Vantaggi: presenta il vantaggio della continuit&agrave; (parziale)
Limiti: complessit&agrave; dei processi di stima
LO SCHEMA DI
ROTAZIONE
&laquo;Un campione di dimensione n costante nel tempo pu&ograve;
essere visto come composto da n’ unit&agrave; incluse
nella prima rilevazione + n’’ unit&agrave; incluse nella
seconda e cos&igrave; via &raquo;
P=n’/n
&egrave; la frazione di sovrapposizione tra due periodi successivi
Si definiscono g gruppi di rotazione che hanno
generalmente uguale dimensione n/g
Il DEFF di un campionamento ruotato &egrave; legato al
coefficiente di auto-correlazione e alla frazione di
sovrapposizione
Un semplice schema di
ROTAZIONE
Consideriamo il caso pi&ugrave; semplice con:
P=1/2
SCHEMA PER T RILEVAZIONI
GRUPPI DI
ROTAZIONE
1
2
…
T-1
T
OCCASIONI DELL’ INDAGINE
1
x
x
2
x
x
…
…
…
…
…
…
T-1
x
x
T
x
x
Scarica