05. Errore Campionario e numerosità campionaria

Statistica per le ricerche di
mercato
A.A. 2014/15
05. Errore campionario e
numerosità campionaria
Gli schemi di campionamento condividono lo stesso principio di fondo:
rappresentare il più fedelmente possibile,
possibile seppur in scala ridotta,
ridotta la
popolazione di interesse. La rappresentatività è fondamentale per estendere le
conclusioni delle analisi svolte sul campione all’intera popolazione.
Ogni procedura inferenziale è caratterizzata da un certo livello di incertezza,
per le seguenti ragioni:
– da ogni popolazione sufficientemente grande è possibile estrarre un numero
virtualmente infinito di campioni di una determinata ampiezza;
– ognuno di questi campioni rappresenta la popolazione in modo probabilistico;
– in ogni singolo studio viene analizzato solo uno dei possibili campioni di ampiezza
prefissata.
fi
t
Quindi anche la procedura di campionamento più perfetta ed accurata è
soggetta ad errore: l’errore campionario.
campionario
L’errore campionario è l’errore che si commette quando si esamina
una
na parte della popola
popolazione,
ione il campione
campione, an
anzichè
ichè la ssua
a totalità
totalità.
2
Si immagini di calcolare la media della caratteristica in esame su
un numero molto
lt elevato
l
t di campioni
i i estratti
t tti dalla
d ll stessa
t
popolazione. Tali valori non saranno completamente diversi gli uni
dagli altri ma tenderanno ad approssimare il valore vero
incognito.
►ricordando le caratteristiche della distribuzione campionaria della media
La media campionaria è uno stimatore corretto della media della popolazione.
Nonostante la correttezza, la maggior parte, se non la totalità, delle medie
campionarie differirà in più o in meno da quella della popolazione.
In altre parole le medie campionarie avranno una variabilità più o meno elevata
intorno al valore centrale rappresentato, come si è detto, dalla media della
popolazione.
popo
a o e
3
E' intuitivo che se questa variabilità è elevata sarà elevata anche la
probabilità che la media di un campione casuale risulti molto diversa da
quella della popolazione.
Al contrario,, se la variabilità è p
piccola la distribuzione campionaria
p
è non
solo centrata ma anche addensata sulla media della popolazione e, di
conseguenza, è alta la probabilità di selezionare casualmente campioni con
media prossima a quella della popolazione.
popolazione
La precisione dello stimatore è espressa dal grado di addensamento della
distribuzione campionaria intorno alla propria media e si misura con un
indice denominato ‘errore standard’.
L'errore standard è la radice quadrata della varianza della distribuzione
campionaria delle medie. Questa varianza non deve essere confusa con
quella elementare (cioè degli elementi o unità) della popolazione, di cui è
una funzione.
4
Errore standard
È possibile stimare la variabilità della media campionaria
attraverso il valore della deviazione standard della sua
distribuzione denominato errore standard [ES] (in inglese
distribuzione,
standard error) che costituisce una misura della precisione della
stessa media
ed a ca
campionaria:
po a a
ES = Var ( y )
Poiché si può dimostrare che la media campionaria (sotto alcune
condizioni) segue una distribuzione Normale:
⎛ σ2 ⎞
Y ∼ N ⎜ μ; ⎟
n ⎠
⎝
L’errore standard per la media campionaria (standard error of the mean), a seconda dello schema
di campionamento seguito, si determina come:
ES =
σ
n
In genere il vero valore di σ è ignoto, pertanto può essere utilizzata la sua stima corretta.
5
Errore standard p
per la media campionaria
p
-- CCS
L’errore standard si ottiene dalla radice quadrata della varianza della media campionaria
ES
S ( yccs ) = Va
Var ( yccs )
CCS
ES ( yccs ) =
σ2 N −n
σ
N −n
⋅
=
⋅
n N −1
n N −1
dove σ rappresenta la deviazione standard della caratteristica in esame nella popolazione, N è la
dimensione della popolazione e n la dimensione campionaria.
n
Quando σ non è noto si stima utilizzando lo stimatore S =
∑( y − y )
i =1
i
2
ccs
n −1
6
La stima dell’errore campionario
s
N −n
⋅
ES ( yccs ) =
n N −1
1/2
s2
ES ( yccs ) = (1 − f )
n
oppure
La stima dell’errore campionario nel caso di dati provenienti da campionamento
casuale semplice è pari a:
Errore
campionario
p
s
N −n
⋅
e = tα ⋅ ES = tα ⋅
n N −1
2
2
dove tα/2 è il quantile della distribuzione t di Student legato al livello di fiducia della stima. Per n
sufficientemente g
grande ((n>100)) si p
può ricorrere all’approssimazione
pp
normale (p
(per esempio,
p , nel
caso di un livello di fiducia pari al 95% vale approssimativamente 1,96).
Livello di
fiducia 1-α
1α
tα/2
Zα/2
0,90
1,6759
1,68
0,95
2,0086
1,96
0,99
2,6778
2,58
n=50
7
La stima dell’errore campionario
2/2
Sulla base della sua stima si deduce che l’errore
l errore campionario è tanto
più grande:
grande
¾ quanto maggiore è il livello di fiducia che si ha nella stimaÎ i valori
dei coefficienti t (z) crescono al crescere del livello di fiducia
¾ quanto più elevata è la variabilità della caratteristica studiata nella
popolazione Î che si riflette nella variabilità della caratteristica
osservata sul campione
¾ quanto minore è la dimensione del campione Î legata alla varianza
campionaria secondo una proporzione inversa
8
Sulla base della stima dell’errore campionario è possibile costruire
ll’intervallo
intervallo di confidenza (IC) della media, per un livello di fiducia
(1--α)%:
(1
ycss ± e
IC:
s
N −n
⋅
ycss ± [tα /2 ⋅ ES ( ycss )] = tα ⋅
n N −1
2
9
Stima dell’errore
dell errore campionario e dell’intervallo
dell intervallo di confidenza
Esempio tratto dal libro di testo
Al fine di stimare il fatturato relativo ad un certo anno solare, dalla popolazione
di 10000 imprese a conduzione familiare di una certa regione, vengono
estratte 500 unità mediante CCS.
CCS La media campionaria è risultata pari a
495 migliaia di Euro, mentre la stima della deviazione standard (s) è pari a
10 mila Euro.
Determinare:
la frazione di campionamento;
la stima dell’errore campionario in corrispondenza di un livello di fiducia del 95%;
il corrispondente
i
d t iintervallo
t
ll di confidenza
fid
((sempre per un lilivello
ll di fid
fiducia
i d
dell 95%) per
la media;
10
Stima dell’errore campionario e dell’intervallo di
confidenza
L stima
La
ti
d ll’
dell’errore
campionario,
i
i in
i corrispondenza
i
d
di un livello
li ll di fiducia
fid i
del 95% è pari a:
e = 1,96 ⋅
10 10000 − 500 11,96
96 ⋅10
19
19,66
⋅
=
⋅ 0,95 =
⋅ 0,95 = 0,88 ⋅ 0,95 = 0,84
10000
1
22,
4
22,
4
−
500
Tale risultato equivale a dire che nella stima della media del fatturato delle
aziende - per un livello di fiducia del 95%- si può commettere un errore
parii a 0,84
0 84 migliaia
i li i di Euro
E
- per difetto
dif tt o per eccesso
Equivalentemente nell
nell’IC
IC [495-0,84;
[495 0 84; 495+0,84]
495+0 84] si trova il valore vero
incognito per un livello di fiducia pari al 95%.
11
Determinazione della numerosità campionaria
La frazione di campionamento svolge un ruolo trascurabile
sulla precisione delle stime.
stime
Il ruolo p
preponderante
p
è svolto dalla dimensione assoluta del
campione n.
Possiamo
P
i
allora
ll
chiederci
hi d i quale
l di
dimensione
i
d bb avere il
debba
campione affinché la precisione delle stime sia pari o non
inferiore ad un prefissato valore.
valore
Aq
questa domanda è p
possibile rispondere
p
ma a condizione di
disporre di informazioni non troppo vaghe sulla varianza
elementare della popolazione relativamente al carattere o ai
caratteri
tt i di maggiore
i
i t
interesse
nell’indagine.
ll’i d i
12
Determinazione della numerosità campionaria
In generale la dimensione del campione dipende da 3 elementi fondamentali:
1.
variabilità esistente nella popolazione:
–
–
–
2.
livello di precisione che si vuole raggiungere:
–
–
–
3.
popolazione con alta variabilità Î campione più grande
popolazione con minore variabilità Î campione più piccolo
Es. estremo: popolazione con individui aventi le medesime caratteristiche Æ BASTA una sola persona per
rappresentarli.
alta precisione richiesta Î campione più grande
b
bassa
precisione
i i
Î campione
i
più
iù piccolo
i
l
NB: raggiunta un certa dimensione del campione, la precisione aumenta in modo quasi impercettibile
costo del campione
Il campione non deve essere necessariamente proporzionale alla dimensione della popolazione:
Non necessariamente se raddoppia la popolazione deve raddoppiare anche il campione Î oltre
un certo limite, aggiungere altre unità non apporta miglioramenti apprezzabili
In 1. e 2. si fa riferimento alla precisione degli stimatori che è funzione inversa della
varianza e, ovviamente, dell’ampiezza degli intervalli di confidenza
13
Determinazione della numerosità campionaria
In particolare, si possono seguire due strade:
a) si può fissare a priori un valore per la varianza dello stimatore di
interesse e, quindi, ricercare la numerosità n che consente di
raggiungere tale precisione.
b) Prefissato un certo piano di campionamento, si ricerca n in modo tale
cche
e s
sia
a supe
superiore
o e ad 1-α
α la
a p
probabilità
obab tà c
che
e il pa
parametro
a et o θ s
sia
a incluso
c uso
entro un intervallo ±δ
attorno alla stima. In quest’ultimo caso, si
ritorna alla teoria degli intervalli di confidenza per un parametro θ
14
Determinazione della numerosità campionaria-B
Nella progettazione di un’indagine la numerosità campionaria è in genere
stabilita in base all
all’errore
errore campionario massimo che si è disposti a commettere.
Dalla formula base per la stima dell’errore campionario (vista per il CCS) si
ricava:
σ
2
⋅ z α2
n =
2
N −1
e
+
N
σ
2
⋅ z α2
2
2
N
σ, in genere incognita,
incognita può essere approssimata:
¾con una misura della variabilità della caratteristica in esame derivante da
eventuali indagini
g p
pregresse;
g
;
¾con una stima proveniente da un’indagine pilota
15
Determinazione della numerosità campionaria
Nell’ambito della stima di una proporzione la stima della
varianza della caratteristica in esame può essere effettuata
a prescindere
i d
d conoscenze pregresse del
da
d l fenomeno,
f
utilizzando piuttosto il valore massimo della varianza, ossia
0 25 (derivante da una ipotetica stima della proporzione pari
0,25
a p = 0,5 ) . Tale stima per eccesso è anche denominata
stima p
prudenziale.
2
⎛ zα 2 ⎞
n=⎜
⎟ ⋅ 0,, 25
⎝ e ⎠
2
In generale si ha:
2
⎛ zα 2 ⎞ l
l
n=⎜
⎟ ⋅ p 1− p
⎝ e ⎠
2
(
)
16
Determinazione della numerosità campionaria- Esempi
Si supponga di riprendere
i
d
l’
l’esempio
i sulla
ll stima
ti
d l fatturato
del
f tt t
medio. Ipotizzare di voler limitare l’errore relativo alla media
del fatturato ad un massimo di 500 Euro ((0,5
, mila Euro).
) Si
supponga inoltre che da una indagine pregressa la stima della
deviazione standard del fatturato nella popolazione sia
risultata pari a 8000 Euro.
Euro
La numerosità campionaria, a parità delle altre condizioni,
ecessa a a veder
ede verificate
e ca e le
e ipotesi
po es e
effettuate
e ua e è la
a
necessaria
seguente:
σ 2 ⋅ zα2
n=
2
e2
N −1
+
N
σ 2 ⋅ zα2
2
N
82 ⋅ 1,96
1 962
64 ⋅ 3,84
3 84
245
245,88
n=
=
=
≅ 895
10000 − 1 82 ⋅ 1,962 0, 25 ⋅ 0,9999 + 64 ⋅ 3,84 0, 25 + 0,025
0,5
+
10000
10000
10000
17
Determinazione della numerosità campionaria
Riepilogando, per il calcolo della numerosità campionaria si devono
Riepilogando
conoscere: il livello di significatività che vogliamo per le nostre stime (α),
per le nostre stime ((±e )), il valore della varianza
l’intervallo che accettiamo p
della popolazione (Var) e la numerosità della popolazione (N).
•
Esempio
Determinare la numerosità del campione casuale che deve essere assunta per
stimare l’età media degli studenti alla laurea specialistica, sapendo che la
varianza è pari a 45, affinché l’errore di campionamento massimo ammesso
((e)) sia p
pari a ±0.7, assumendo un intervallo al 95%. Per semplicità
p
adottiamo la formula in cui il fattore di correzione è omesso e ricaviamo n:
n=
σ 2 ⋅ zα2
e
2
2
n≅
σ 2 ⋅ z 2α
e2
2
45 ⋅1,962
=
= 352,8 ≅ 353
2
(0 7)
(0,7)
18