05. Errore campionario e numerosità campionaria

Statistica per le ricerche di
mercato
A.A. 2012/13
05. Errore campionario e
numerosità campionaria
Gli schemi di campionamento condividono lo stesso principio di fondo:
rappresentare il più fedelmente possibile, seppur in scala ridotta, la
popolazione di interesse. La rappresentatività è fondamentale per estendere le
conclusioni delle analisi svolte sul campione all’intera popolazione.
Ogni procedura inferenziale è caratterizzata da un certo livello di incertezza,
per le seguenti ragioni:
– da ogni popolazione sufficientemente grande è possibile estrarre un numero
virtualmente infinito di campioni di una determinata ampiezza;
– ognuno di questi campioni rappresenta la popolazione in modo probabilistico;
– in ogni singolo studio viene analizzato solo uno dei possibili campioni di ampiezza
prefissata.
Quindi anche la procedura di campionamento più perfetta ed accurata è
soggetta ad errore: l’errore campionario.
L’errore campionario è l’errore che si commette quando si esamina
una parte della popolazione, il campione, anzichè la sua totalità.
2
Si immagini di calcolare la media della caratteristica in esame su
un numero molto elevato di campioni estratti dalla stessa
popolazione. Tali valori non saranno completamente diversi gli uni
dagli altri ma tenderanno ad approssimare il valore vero
incognito.
►ricordando le caratteristiche della distribuzione campionaria della media
La media campionaria è uno stimatore corretto della media della popolazione.
Nonostante la correttezza, la maggior parte, se non la totalità, delle medie
campionarie differirà in più o in meno da quella della popolazione.
In altre parole le medie campionarie avranno una variabilità più o meno elevata
intorno al valore centrale rappresentato, come si è detto, dalla media della
popolazione.
3
E' intuitivo che se questa variabilità è elevata sarà elevata anche la
probabilità che la media di un campione casuale risulti molto diversa da
quella della popolazione.
Al contrario, se la variabilità è piccola la distribuzione campionaria è non
solo centrata ma anche addensata sulla media della popolazione e, di
conseguenza, è alta la probabilità di selezionare casualmente campioni con
media prossima a quella della popolazione.
La precisione dello stimatore è espressa dal grado di addensamento della
distribuzione campionaria intorno alla propria media e si misura con un
indice denominato ‘errore standard’.
L'errore standard è la radice quadrata della varianza della distribuzione
campionaria delle medie. Questa varianza non deve essere confusa con
quella elementare (cioè degli elementi o unità) della popolazione, di cui è
una funzione.
4
Errore standard
È possibile stimare la variabilità della media campionaria
attraverso il valore della deviazione standard della sua
distribuzione, denominato errore standard [ES] (in inglese
standard error) che costituisce una misura della precisione della
stessa media campionaria:
ES = Var ( y )
Poiché si può dimostrare che la media campionaria (sotto alcune
condizioni) segue una distribuzione Normale:
⎛ σ2 ⎞
Y ∼ N ⎜ µ; ⎟
n ⎠
⎝
L’errore standard per la media campionaria (standard error of the mean), a seconda dello schema
di campionamento seguito, si determina come:
ES =
σ
n
In genere il vero valore di σ è ignoto, pertanto può essere utilizzata la sua stima corretta.
5
Errore standard per la media campionaria -- CCS
L’errore standard si ottiene dalla radice quadrata della varianza della media campionaria
ES ( yccs ) = Var ( yccs )
CCS
ES ( yccs ) =
σ2 N −n
σ
N −n
⋅
=
⋅
n N −1
n N −1
dove σ rappresenta la deviazione standard della caratteristica in esame nella popolazione, N è la
dimensione della popolazione e n la dimensione campionaria.
n
Quando σ non è noto si stima utilizzando lo stimatore S =
∑( y − y )
i =1
i
2
ccs
n −1
6
La stima dell’errore campionario
s
N −n
⋅
ES ( yccs ) =
n N −1
1/2
s2
ES ( yccs ) = (1 − f )
n
oppure
La stima dell’errore campionario nel caso di dati provenienti da campionamento
casuale semplice è pari a:
Errore
campionario
s
N −n
⋅
e = tα ⋅ ES = tα ⋅
n N −1
2
2
dove tα/2 è il quantile della distribuzione t di Student legato al livello di fiducia della stima. Per n
sufficientemente grande (n>100) si può ricorrere all’approssimazione normale (per esempio, nel
caso di un livello di fiducia pari al 95% vale approssimativamente 1,96).
Livello di
fiducia 1-α
tα/2
Zα/2
0,90
1,6759
1,68
0,95
2,0086
1,96
0,99
2,6778
2,58
n=50
7
La stima dell’errore campionario
2/2
Sulla base della sua stima si deduce che l’errore campionario è tanto
più grande:
¾ quanto maggiore è il livello di fiducia che si ha nella stimaÎ i valori
dei coefficienti t (z) crescono al crescere del livello di fiducia
¾ quanto più elevata è la variabilità della caratteristica studiata nella
popolazione Î che si riflette nella variabilità della caratteristica
osservata sul campione
¾ quanto minore è la dimensione del campione Î legata alla varianza
campionaria secondo una proporzione inversa
8
Sulla base della stima dell’errore campionario è possibile costruire
l’intervallo di confidenza (IC) della media, per un livello di fiducia
(1-α)%:
ycss ± e
IC:
s
N −n
⋅
ycss ± [tα /2 ⋅ ES ( ycss )] = tα ⋅
n N −1
2
9
Stima dell’errore campionario e dell’intervallo di confidenza
Esempio tratto dal libro di testo
Al fine di stimare il fatturato relativo ad un certo anno solare, dalla popolazione
di 10000 imprese a conduzione familiare di una certa regione, vengono
estratte 500 unità mediante CCS. La media campionaria è risultata pari a
495 migliaia di Euro, mentre la stima della deviazione standard (s) è pari a
10 mila Euro.
Determinare:
la frazione di campionamento;
la stima dell’errore campionario in corrispondenza di un livello di fiducia del 95%;
il corrispondente intervallo di confidenza (sempre per un livello di fiducia del 95%) per
la media;
10
Stima dell’errore campionario e dell’intervallo di
confidenza
La stima dell’errore campionario, in corrispondenza di un livello di fiducia
del 95% è pari a:
e = 1,96 ⋅
10 10000 − 500 1,96 ⋅10
19,6
⋅
=
⋅ 0,95 =
⋅ 0,95 = 0,88 ⋅ 0,95 = 0,84
10000
−
1
22,
4
22,
4
500
Tale risultato equivale a dire che nella stima della media del fatturato delle
aziende - per un livello di fiducia del 95%- si può commettere un errore
pari a 0,84 migliaia di Euro - per difetto o per eccesso
Equivalentemente nell’IC [495-0,84; 495+0,84] si trova il valore vero
incognito per un livello di fiducia pari al 95%.
11
Determinazione della numerosità campionaria
La frazione di campionamento svolge un ruolo trascurabile
sulla precisione delle stime.
Il ruolo preponderante è svolto dalla dimensione assoluta del
campione n.
Possiamo allora chiederci quale dimensione debba avere il
campione affinché la precisione delle stime sia pari o non
inferiore ad un prefissato valore.
A questa domanda è possibile rispondere ma a condizione di
disporre di informazioni non troppo vaghe sulla varianza
elementare della popolazione relativamente al carattere o ai
caratteri di maggiore interesse nell’indagine.
12
Determinazione della numerosità campionaria
In generale la dimensione del campione dipende da 3 elementi fondamentali:
1.
variabilità esistente nella popolazione:
–
–
–
2.
livello di precisione che si vuole raggiungere:
–
–
–
3.
popolazione con alta variabilità Î campione più grande
popolazione con minore variabilità Î campione più piccolo
Es. estremo: popolazione con individui aventi le medesime caratteristiche Æ BASTA una sola persona per
rappresentarli.
alta precisione richiesta Î campione più grande
bassa precisione Î campione più piccolo
NB: raggiunta un certa dimensione del campione, la precisione aumenta in modo quasi impercettibile
costo del campione
Il campione non deve essere necessariamente proporzionale alla dimensione della popolazione:
Non necessariamente se raddoppia la popolazione deve raddoppiare anche il campione Î oltre
un certo limite, aggiungere altre unità non apporta miglioramenti apprezzabili
In 1. e 2. si fa riferimento alla precisione degli stimatori che è funzione inversa della
varianza e, ovviamente, dell’ampiezza degli intervalli di confidenza
13
Determinazione della numerosità campionaria
In particolare, si possono seguire due strade:
a) si può fissare a priori un valore per la varianza dello stimatore di
interesse e, quindi, ricercare la numerosità n che consente di
raggiungere tale precisione.
b) Prefissato un certo piano di campionamento, si ricerca n in modo tale
che sia superiore ad 1-α la probabilità che il parametro θ sia incluso
entro un intervallo ±δ
attorno alla stima. In quest’ultimo caso, si
ritorna alla teoria degli intervalli di confidenza per un parametro θ
14
Determinazione della numerosità campionaria-B
Nella progettazione di un’indagine la numerosità campionaria è in genere
stabilita in base all’errore campionario massimo che si è disposti a commettere.
Dalla formula base per la stima dell’errore campionario (vista per il CCS) si
ricava:
σ
2
⋅ z α2
n =
2
N −1
e
+
N
σ
2
⋅ z α2
2
2
N
σ, in genere incognita, può essere approssimata:
¾con una misura della variabilità della caratteristica in esame derivante da
eventuali indagini pregresse;
¾con una stima proveniente da un’indagine pilota
15
Determinazione della numerosità campionaria
Nell’ambito della stima di una proporzione la stima della
varianza della caratteristica in esame può essere effettuata
a prescindere da conoscenze pregresse del fenomeno,
utilizzando piuttosto il valore massimo della varianza, ossia
0,25 (derivante da una ipotetica stima della proporzione pari
a p = 0,5 ) . Tale stima per eccesso è anche denominata
stima prudenziale.
2
⎛ zα 2 ⎞
n=⎜
⎟ ⋅ 0, 25
⎝ e ⎠
2
In generale si ha:
2
⎛ zα 2 ⎞ l
l
n=⎜
⎟ ⋅ p 1− p
⎝ e ⎠
2
(
)
16
Determinazione della numerosità campionaria- Esempi
Si supponga di riprendere l’esempio sulla stima del fatturato
medio. Ipotizzare di voler limitare l’errore relativo alla media
del fatturato ad un massimo di 500 Euro (0,5 mila Euro). Si
supponga inoltre che da una indagine pregressa la stima della
deviazione standard del fatturato nella popolazione sia
risultata pari a 8000 Euro.
La numerosità campionaria, a parità delle altre condizioni,
necessaria a veder verificate le ipotesi effettuate è la
seguente:
σ 2 ⋅ zα2
n=
2
e2
N −1
+
N
σ 2 ⋅ zα2
2
N
82 ⋅ 1,962
64 ⋅ 3,84
245,8
n=
=
=
≅ 895
10000 − 1 82 ⋅ 1,962 0, 25 ⋅ 0,9999 + 64 ⋅ 3,84 0, 25 + 0,025
+
0,5
10000
10000
10000
17
Determinazione della numerosità campionaria
Riepilogando, per il calcolo della numerosità campionaria si devono
conoscere: il livello di significatività che vogliamo per le nostre stime (α),
l’intervallo che accettiamo per le nostre stime (±e ), il valore della varianza
della popolazione (Var) e la numerosità della popolazione (N).
•
Esempio
Determinare la numerosità del campione casuale che deve essere assunta per
stimare l’età media degli studenti alla laurea specialistica, sapendo che la
varianza è pari a 45, affinché l’errore di campionamento massimo ammesso
(e) sia pari a ±0.7, assumendo un intervallo al 95%. Per semplicità
adottiamo la formula in cui il fattore di correzione è omesso e ricaviamo n:
n=
σ 2 ⋅ zα2
e
2
2
n≅
σ 2 ⋅ z 2α
e2
2
45 ⋅1,962
=
= 352,8 ≅ 353
2
(0,7)
18