Presentazione di PowerPoint - Dipartimento di Economia, Finanza e

Le indagini campionarie

Le fasi di un’indagine campionaria
Il campionamento: schemi e stima dei parametri

Gli errori campionari e non campionari


Tipologie di quesiti, scale di valutazione,
classificazione dei caratteri statistici
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
1/89
Indagini censuarie e campionarie
Un’indagine conoscitiva può essere condotta secondo due
approcci distinti:
indagine totale o censuaria
indagine parziale o campionaria
Il collettivo di unità su cui deve
essere effettuata l’indagine è
esaminato in maniera completa
È esaminata solo una parte del
collettivo - un campione anziché la sua totalità
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
2/89
Confronto tra indagine censuaria
e indagine campionaria
Indagine
censuaria
Indagine
campionaria
Risorse
economiche molto elevate
contenute
Durata delle
operazioni
molto lunga
breve
Errore
campionario assente
presente
Altri tipi di
errore
presenti
presenti
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
3/89
Il campionamento - prime definizioni
Popolazione o universo: insieme di unità che soddisfano in
maniera esaustiva uno o più criteri (Es: insieme imprese
manifatturiere italiane attive al 31/12/2014)
Indagine campionaria: metodologia per conoscere le
caratteristiche della popolazione tramite un campione
Inferenza statistica: processo mediante il quale si desumono le
caratteristiche di una popolazione attraverso lo studio di una
parte di essa detta campione
Il campionamento può essere:
- probabilistico: scelta delle unità affidata al caso
- non probabilistico: scelta delle unità dipendente dalla
soggettività di chi raccoglie le informazioni
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
4/89
Confronto tra campionamento
probabilistico e non probabilistico
Campionamento
probabilistico
Campionamento
non probabilistico
Risorse
economiche
relativamente
elevate
contenute
Durata delle
operazioni
relativamente
lunga
breve
Errore
campionario
valutabile
non valutabile
Rappresentatività
della popolazione buona
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
non valutabile
5/89
Le fasi di un’indagine campionaria
1. Formulazione degli obiettivi dell’indagine
- Si decide quali informazioni rilevare
- informazioni prioritarie (relative agli obiettivi
principali dell’indagine)
- informazioni complementari (relative agli
obiettivi secondari)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
6/89
Le fasi di un’indagine campionaria
2. Individuazione della popolazione obiettivo
- insieme delle unità sulle quali si intende ottenere le
informazioni obiettivo dell’indagine
- definito in base ad alcuni criteri (in particolare
criteri spazio-temporali)
- Lista di campionamento: elenco esaustivo delle unità
appartenenti alla popolazione obiettivo
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
7/89
Le fasi di un’indagine campionaria
3. Individuazione tecnica di campionamento
- Metodo di selezione del campione
- prima distinzione: metodi probabilistici
e non probabilistici
- Scelta dipendente da:
- livello di attendibilità desiderato
- vincoli sui costi dell’indagine
Diversi schemi di campionamento probabilistico
e non probabilistico
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
8/89
Le fasi di un’indagine campionaria
4. Individuazione modalità di raccolta dati
- postale (autocompilazione)
Rilevazione
assistita da
computer:
- intervista telefonica (compilazione assistita)
CATI
- intervista diretta (compilazione assistita)
CAPI
- via internet o email (autocompilazione)
CAWI
- tramite questionario, diverse modalità:
Scelta modalità: compromesso tra diversi obiettivi spesso
contrastanti: partecipazione; qualità dei dati; costi
Par. 2.4 per i dettagli sulle tecniche di rilevazione dei dati
(vantaggi e svantaggi delle diverse tecniche)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
9/89
Le fasi di un’indagine campionaria
5. Progettazione del questionario
- Strumento per la rilevazione dei dati
- Caratteristiche (lunghezza, complessità dei quesiti, istruzioni)
dipendenti dalla modalità di rilevazione:
- con autocompilazione (breve e semplice; istruzioni per
l’intervistato)
- intervista telefonica (meglio breve e semplice; istruzioni per
l’intervistatore)
- intervista diretta (anche più complesso)
- Test (indagini pilota) e revisioni
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
10/89
Le fasi di un’indagine campionaria
6. Rilevazione dei dati
- Determinazione del periodo più appropriato per la
raccolta dei dati
- Concentrazione in un breve periodo
7. Codifica e archiviazione dei dati
- Codifica numerica delle variabili qualitative
(in particolare, in caso di domande a risposte aperte)
- Inserimento delle informazioni in un supporto informatico
- Verifiche di coerenza, dati mancanti e relative imputazioni
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
11/89
Le fasi di un’indagine campionaria
8. Analisi dei dati
- Produzione delle stime campionarie dei valori ignoti
relativi alla popolazione
9. Redazione di un rapporto di ricerca
- Descrizione delle caratteristiche dell’indagine
- Descrizione dei principali risultati ottenuti
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
12/89
Caso di studio:
le fasi dell’indagine EFIGE
1. Obiettivi dell’indagine
Modalità di internazionalizzazione e analisi
delle relazioni con altre caratteristiche delle imprese
- informazioni prioritarie (circa 40 variabili per le quali
è richiesta una % di risposte di almeno il 90%)
- informazioni complementari (circa 110 variabili)
2. Popolazione obiettivo
Imprese manifatturiere con almeno 10 dipendenti
(Eurostat: Structural Business Statistics, 2008)
3. Individuazione tecnica di campionamento
Campionamento probabilistico (stratificato)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
13/89
Il caso di studio:
le fasi dell’indagine EFIGE
4. Individuazione modalità di raccolta dati
- telefonica (CATI)
- via web (CAWI)
5. Progettazione del questionario
Complesso (nonostante CATI, CAWI); domande prioritarie, altre
Indagine pilota: su 100 imprese per i paesi più grandi; per
convalidare modalità di contatto e adeguatezza del questionario
(chiarezza, facilità di risposta, filtri)
6. Rilevazione dei dati
Da gennaio a maggio 2010
Dati di bilancio relativi al 2008
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
14/89
Il caso di studio:
le fasi dell’indagine EFIGE
7. Codifica e archiviazione dei dati
File Excel: un foglio per ogni sezione del questionario
8. Analisi dei dati
- Stima delle variabili e analisi descrittive
- Stima dei parametri di modelli e analisi delle determinanti
della internazionalizzazione
9. Rapporto di ricerca
“The triggers of competitiveness: The EFIGE cross-country
report”
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
15/89
Il processo di stima
– concetti di base
Processo di stima: procedimento per ricavare, tramite una
funzione delle osservazioni campionarie, il valore incognito di una
caratteristica della popolazione
 Il parametro da stimare: la caratteristica della popolazione che
costituisce l’obiettivo dell’indagine
 Lo stimatore: una formula analitica atta a stimare il valore
incognito della caratteristica della popolazione sulla base dei dati
campionari
 Il valore della stima o stima: il risultato dell’applicazione dello
stimatore ai dati campionari
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
16/89
Il processo di stima
Esempio. Il parametro da stimare è la media aritmetica del
fatturato delle aziende di un paese, le quali costituiscono la
popolazione di riferimento (composta da N unità):
1 N
Y   Yi
N i 1
Dalla popolazione si estrae un campione casuale di n unità sulle
quali si rileva il fatturato.
La stima del parametro della popolazione si ottiene applicando ai
dati campionari lo stimatore media aritmetica:
1 n
y   yj
n j 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
17/89
Il processo di stima
Altri parametri da stimare (oltre la media):
-
Il totale:
N
tY   Yi
i 1
-
La varianza:
1 N
S   (Yi  Y ) 2
N i 1
2
Y
Stima del totale:
Stima della varianza:
tˆY  N  Yˆ  N  y
n
2
1
2
sy 
yj  y


n  1 j 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
18/89
Stimatore corretto
Lo stimatore di un parametro θ della popolazione:
una funzione dei dati campionari ˆ  f (Yc )
per assegnare un valore a θ sulla base del campione
Stimatore corretto (o non distorto):
se nell’insieme dei campioni casuali estraibili il valore medio
delle stime è pari al valore del parametro nella popolazione:
E (ˆ)  
Altrimenti, stimatore non corretto
Distorsione:
B(ˆ)  E (ˆ)  
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
19/89
Stimatore corretto - Esempio
Campionamento casuale semplice senza ripetizione
Popolazione di N = 4 unità; campioni di n = 2 unità
Popolazione
n.
Y
1
2
3
4
110
120
80
90
Y  100
Possibili
campioni
(1;
(1;
(1;
(2;
(2;
(3;
2)
3)
4)
3)
4)
4)
Valori di y
y
110; 120
110; 80
110; 90
120; 80
120; 90
80; 90
115
95
100
100
105
85
E ( y )  100
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
20/89
Lo stimatore fondamentale nel
campionamento probabilistico
Probabilità di inclusione: probabilità che una unità della
popolazione appartenga al campione.
Non necessariamente uguale per ogni unità (Es. caso di studio:
sovra-campionamento grandi imprese)
Nel campionamento probabilistico la probabilità di inclusione nel
campione è nota e diversa da zero per ogni unità della
popolazione
Esempio: Campionamento casuale semplice senza ripetizione
Popolazione di N = 4 unità: 1; 2; 3; 4
Insieme dei possibili campioni di n = 2 unità
(1,2); (1,3); (1,4); (2,3); (2,4); (3,4)
Probabilità di inclusione dell’unità 1: 3/6= ½
(idem per 2, 3, 4)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
(= n/N)
21/89
Lo stimatore fondamentale
Stimatore corretto della media per il campionamento
probabilistico senza ripetizione - Notazioni:
j
Probabilità di inclusione:
Coefficienti di espansione:
w j  1/  j
Stimatore fondamentale (di Horvitz-Thompson) della
media:
n y
n
1
1
Yˆ   j   w j y j
N j 1  j N j 1
e del totale:
n
tˆY  NYˆ  
j 1
yj
j
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
n
  wj y j
j 1
22/89
Stimatore fondamentale - Esempio
Popolazione di N = 4 unità:
Y1 = 110; Y2 = 120; Y3 = 80; Y4 = 90;
Y  100; tY  400
Campione estratto di n = 2 unità: (1,3)
n
1
Yˆ   w j y j
N j 1
1
ˆ
Y  (2 110  2  80)  95
4
tˆY  NYˆ
tˆY  4  95  380
n
tˆy   w j y j
tˆY  2 110  2  80  380
j 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
23/89
Le tecniche di campionamento
probabilistico
Principali tecniche di campionamento probabilistico:
casuale semplice (CCS) e sistematico (CSI)
stratificato (CST)
a grappoli (CGRA)
a più stadi (CSTA)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
24/89
Il campionamento casuale semplice
 Tecnica di campionamento più elementare tra i metodi
probabilistici
 Rappresenta il naturale punto di partenza per lo studio
di tutti gli altri metodi di campionamento
 La probabilità di inclusione nel campione è la stessa
per ogni unità della popolazione - pari alla frazione di
campionamento - data da:
n
j  f 
N
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
25/89
La tecnica di estrazione del CCS
- illustrazione
1
2
11
12
3
6
25
28
31
37
44
46
49
50
Dato N=50, le unità della popolazione sono numerate da 1 a 50
Per estrarre un CCS di 10 unità (f = 1/5) si genera una
sequenza di numeri casuali {3, 6, 11, 12, 25, 28, 31, 37, 44, 46}
Le unità corrispondenti a tali numeri d’ordine costituiscono il
campione
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
26/89
Il campionamento sistematico

Tecnica alternativa assimilabile a quella per l’estrazione
di un CCS
 Consiste nella selezione di una unità ogni k presenti
nella lista
 k è il passo di campionamento: la parte intera
del reciproco della frazione di campionamento  k = N/n
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
27/89
La tecnica di estrazione del CSI
- illustrazione
1
2
7
12
17
22
27
32
37
42
47
49
50
Dato N = 50 e fissata la dimensione campionaria n = 10, si
determina il passo di campionamento, dato da k = N/n = 50/10 = 5
Si estrae un numero casuale compreso tra 1 e k (5) per esempio 2
e si seleziona l’unità corrispondente
Si procede selezionando le unità corrispondenti ai seguenti n. d’ordine:
2+k = 7, 2+2k = 12, 2+3k = 17, … fino ad esaurimento della lista
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
28/89
Pro e contro del CCS

La semplicità concettuale è il suo principale punto di forza
Il CCS presenta tuttavia anche alcuni possibili svantaggi:
 Il campione potrebbe presentarsi sparso sul territorio
con conseguenti costi elevati di organizzazione
 Poiché tutti i possibili campioni hanno uguale probabilità
di essere estratti, è possibile estrarre un ‘‘cattivo’’
campione (poco rappresentativo della popolazione)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
29/89
Le stime con il CCS
Media:
n y
n
n
y
1
1
1
Yˆ   j   j   y j  y
N j 1  j N j 1 n N n j 1
Lo stimatore corretto della media della popolazione è la
media campionaria
Totale:
tˆy  N  y
1 N
Varianza (stima varianza di Y nella popolaz. S   (Yi  Y ) 2 ):
N i 1
2
Y
n
2
1
2
sy 
yj  y


n  1 j 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
30/89
Stima di una frequenza
Popolazione: Yi = 1 se l’attributo è presente; Yi = 0 se assente
1 N
P   Yi
N i 1
Stimatore fondamentale della frequenza:
n y
n
1
1
Pˆ   j   y j  p
N j 1  j n j 1
Stimatore del totale:
tˆY  N  y  N  p
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
31/89
Varianza degli stimatori
Necessario conoscerla per poter costruire gli intervalli di
confidenza per le stime tratte dal campione
Varianza teorica: nell’insieme di tutti i possibili campioni
Esempio: varianza della media campionaria
Popolazione
n. Y
1
2
3
4
110
120
80
90
Y =100
Possibili
campioni
(1;
(1;
(1;
(2;
(2;
(3;
2)
3)
4)
3)
4)
4)
Valori di y
y
110; 120
110; 80
110; 90
120; 80
120; 90
80; 90
115
95
100
100
105
85
E ( y )  100
Var ( y )  [(115  100) 2  (95  100) 2  ...(85  100) 2 ] / 6  83.3
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
32/89
Varianza della media campionaria
Varianza teorica della media campionaria:
Esempio
Popolazione:
Y
1 110
2 120
3
80
4
90
Y =100
N  n SY2
Var( y ) 
N 1 n
N  n SY2 4  2 250
Var( y ) 
 

 83.3
N 1 n 4 1 2
SY2 =250
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
33/89
Varianza della media campionaria
Dalla varianza teorica della media campionaria:
N  n SY2
Var( y ) 
N 1 n
Alla stima della varianza della media campionaria:
s y2
var( y )  (1  f )
n
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
34/89
Varianza della media campionaria Esempio
Popolazione
n.
Y
1
2
3
4
Possibili
campioni
110
120
80
90
(1;
(1;
(1;
(2;
(2;
(3;
Y =100
SY2 =250
2)
3)
4)
3)
4)
4)
y
115
95
100
100
105
85
12.5
112.5
50
200
112.5
12.5
E ( y )  100
E (var( y ))  83.3
Stima – campione (1; 2):
Varianza teorica:
Var( y ) 
var( y )
N n S
4  2 250
 

 83.3
N 1 n 4 1 2
2
Y
s y2
var( y )  (1  f )
n
(25  25) / 1
 (1  0.5)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
2
 12.5
35/89
Intervalli di confidenza per le stime
Per n sufficientemente elevato la distribuzione campionaria
della media può essere approssimata con una normale
Intervallo di confidenza per la media:
[y
[ y  z 2
z 2 var( y )]
s y2
s y2
(1  f ) ; y  z 2 (1  f ) ]
n
n
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
36/89
Intervalli di confidenza per le stime
Intervallo di confidenza per il totale:
[tˆy
z 2 var(tˆy )]
Varianza della stima del totale:
var(tˆy )  N 2 var( y )
(tˆy  N  y )
2
y
s
var(tˆy )  N (1  f )
n
2
s y2
s y2
[t y  z 2 N (1  f ) ; t y  z 2 N (1  f ) ]
n
n
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
37/89
Il campionamento stratificato
L’obiettivo è estrarre un campione più efficiente rispetto al CCS:
stime più precise con la stessa numerosità campionaria
Esempio: Popolazione di N = 12 imprese
N. imp.
1
2
3
4
5
6
7
8
9
10 11 12
ROI
3
4
6
3
2
2
4
6
3
2
4
6
Media ROI popolazione: 3.75
Campioni CS: (4; 6; 9; 10)  media ROI: (3+2+3+2)/4 = 2.5
(2; 3; 7; 12)  media ROI: (4+6+4+6)/4 = 5
Risultato: stime poco precise e a forte variabilità
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
38/89
Il campionamento stratificato
Disponibilità informazione aggiuntiva: settore di attività
N. imp. 1
2
3
4
5
6
7
8
9
10 11 12
ROI
3
4
6
3
2
2
4
6
3
2
4
6
Settore A
C
M
A
T
T
C
M
A
T
C
M
Riorganizzazione informazioni:
Popolazione:
Campione:
Settore N. imp. ROI
Settore n. imp. ROI
A
3
3; 3; 3
A
1
3
T
3
2; 2; 2
T
1
2
M
3
6; 6; 6
M
1
6
C
3
4; 4; 4
C
1
4
N=12
Media
3.75
n=4
Media
3.75
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
39/89
Il campionamento stratificato
a.
La popolazione obiettivo è classificata in sottopopolazioni esaustive e mutuamente esclusive - dette strati
b.
Gli strati devono essere possibilmente omogenei al loro
interno ed eterogenei tra di loro
c.
Da ogni strato si estrae un campione casuale semplice
d.
Infine l’aggregazione di tali campioni produce il campione
stratificato
Variabili di stratificazione:
- disponibili per ogni unità della popolazione
- correlate con le principali variabili di interesse (affinché sia
realizzata la condizione di cui al punto b, da cui dipende
l’obiettivo del CST)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
40/89
La tecnica di estrazione del CST
Schema di campionamento stratificato:
In blu le unità campionate in ciascuno dei tre strati
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
41/89
Campionamento stratificato
Schema di popolazione di dimensione N ripartita in H strati
Strato
Unità
Dimens.
Media
Varianza
1
.
h
.
H
Y11 … Y1i … Y1N1
N1
Y1
S12
Yh1 … Yhi … YhNh
Nh
Yh
Sh2
YH1 … YHi … YHNH
NH
YH
SH2
H
N   Nh
h 1
1 Nh
Yhi
Parametri di strato: Yh 

N h i 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Nh
1
2
Sh2 
(
Y

Y
)

hi
h
N h i 1
42/89
Campionamento stratificato
Schema di campione di dimensione n estratto dagli H strati
Strato
Unità
Dimens.
Media
Varianza
1
.
h
.
H
y11 … y1j … y1n1
n1
y1
s12
yh1 … yhj … yhnh
nh
yh
sh2
yH1 … yHj … yHnH
nH
yH
sH2
H
n   nh
h 1
Media e varianza
campionaria di strato:
1 nh
yh   yhj
nh j 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
nh
1
2
sh2 
(
y

y
)

hj
h
nh  1 j 1
43/89
Stime con CST
 In caso di CCS negli strati, la probabilità di inclusione
per l’unità i dello strato h è:
nh
 hj 
 fh
Nh
 Lo stimatore della media:
nh
H nh y
H nh
H
H
1
1
N
N
1
hj
YˆST     h yhj   h  yhj Wh yh  yST
N h1 j 1  hj N h1 j 1 nh
h 1 N nh j 1
h 1
 Lo stimatore del totale:
Wh 
Nh
: peso strato h
N nella popolazione
H
tY ,ST  N  yST   N h  yh
h 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
44/89
Esempio stima con CST
Popolazione:
Campione:
Settore N. imp. ROI
Settore n. imp
Pr.incl.
ROI
A
2
3; 3
A
1
1/2
3
T
3
2; 2; 2
T
1
1/3
2
M
2
6; 6
M
1
1/2
6
C
3
4; 4; 4
C
1
1/3
4
N = 10 Media 3.6
n=4
Media 3.6
H
yST   Wh yh 0.2  3  0.3  2  0.2  6  0.3  4  3.6
h 1
1 n yj 1 n
ˆ
Y     wj y j
N j 1  j N j 1
1
 (2  3  3  2  2  6  3  4)  3.6
10
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
45/89
Le stime con il CST
Varianza della media campionaria:
H
yST   Wh yh
h 1
2
s
var( yST )  Wh2 var( yh ) Wh2 1  f h  h
nh
h 1
h 1
H
H
Varianza del totale:
tˆY ,ST  N  yST
2
s
var(tˆyS,T )  N 2 var( yST )   N h2 1  f h  h
nh
h 1
H
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
46/89
Le stime con il CST
Intervalli di confidenza
media:
[ yST
z 2 var( yST )]
totale:
[tˆy ,ST
z 2 var(tˆy ,ST )]
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
47/89
L’allocazione della numerosità
campionaria tra gli strati
Allocazione proporzionale:
La numerosità campionaria n viene ripartita tra gli strati
in proporzione al peso di ogni strato nella popolazione:
Pesi di strato nel campione = pesi di strato nella popolazione:
nh N h

;
n N
nh  n Wh
Frazione di campionamento uguale in ogni strato (pari alla
frazione di campionamento globale f)
nh n
fh 
  f
Nh N
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
(h = 1,..., H )
48/89
Campionamento stratificato Schema con allocazione proporzionale
h=1
h=2
h=3
Dato N=50 e fissata la dimensione campionaria n=10, si determina la
frazione di campionamento f = 1/5
Nella popolazione sono stati individuati 3 strati: N1=10; N2=25; N3=15
Applicando f = 1/5 ad ogni strato si ottengono le numerosità
campionarie di strato:
1
n1  f  N1  10  2;
5
1
n2  f  N 2   25  5;
5
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
1
n3  f  N3  15  3.
5
49/89
Stima CST con allocazione
proporzionale
Media campionaria:
nh 1 nh
1 n
 Wh yh     yhj   y j
n j 1
h 1
h 1 n nh j 1
H
yST , PR
H
(campione autoponderante)
Varianza della media campionaria:
sh2 (1  f ) H
2
var( yST , PR )  W (1  f ) 
n
s

h h
2
n
n
h 1
h 1
h
H
2
h
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
50/89
L’allocazione non proporzionale
 Applicazione di frazioni di campionamento differenti nei
diversi strati.
Preferibile in caso di maggiore variabilità del fenomeno
oggetto di studio in alcuni strati rispetto ad altri
Esempio:
Strati
N. impr.
ROI
1
5
5.5; 5.7; 6; 6.3; 6.5
2
5
2; 3; 4; 5; 6
Al fine di produrre stime più efficienti, negli strati
a maggiore variabilità si applica intenzionalmente una
frazione di campionamento maggiore
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
51/89
L’allocazione non proporzionale
Allocazione ottimale di Neyman:
la numerosità campionaria di strato è direttamente
proporzionale, oltre che al peso di strato Wh, alla variabilità di
strato espressa da Sh:
nh  n 
Wh Sh
H
W S
h 1
h
h
Esempio: Popolazione N = 10; Campione n = 5
Strati
N. impr.
1
5
2
5
ROI
Sh
Wh Sh
nh
ottimale
5.5; 5.7; 6; 6.3; 6.5
0.369
0.1845
1
2; 3; 4; 5; 6
1.414
0.7070
4
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
52/89
Pro e contro del CST
Pro:
 Guadagno in efficienza rispetto al CCS
 Possibilità di stimare i parametri in sottopopolazioni di
particolare interesse per gli scopi della ricerca
 Riduzione della probabilità di estrazione di campioni
poco rappresentativi della popolazione obiettivo
Contro:
 Se le variabili ausiliarie non sono di buona qualità
(sufficientemente correlate con il fenomeno oggetto di studio)
ne può derivare una perdita di efficienza
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
53/89
Il Deff
Sulla base della variabilità delle stime è possibile calcolare una
misura del guadagno in efficienza derivante da un disegno di
campionamento alternativo al CCS
La misura è denominata effetto di disegno o Deff
In generale, il Deff è definito come segue (dove ALT sta
per disegno di campionamento alternativo al CCS):
Deff ALT
Var ( y ALT )

Var ( y )
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
< 1 guadagno in efficienza
> 1 perdita in efficienza
54/89
Il Deff
Nel caso di campionamento stratificato in genere si ha:
Deff ST
var( yST )

1
var( y )
Più specificamente, in genere si verifica:
var( yST ,OT )  var( yST ,PR )  var( y )
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
55/89
Il campionamento a grappoli
Una popolazione oggetto di indagine può essere talvolta
considerata come costituita da sottoinsiemi “naturali” di unità
elementari denominati grappoli
Esempi:
- la popolazione delle persone residenti in una città
è costituita dalle persone appartenenti alle famiglie residenti;
- gli studenti di una scuola sono costituiti dagli appartenenti
alle sue diverse classi
- gli operai dell’industria sono costituiti dagli operai dipendenti
dalle diverse imprese
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
56/89
Il campionamento a grappoli
Lo schema di campionamento a grappoli prevede:
a. l’estrazione casuale di alcuni grappoli (es: famiglie)
b. l’analisi completa di tutte le unità in essi contenute
Obiettivo diverso da quello della stratificazione:
convenienza in termini di costi e di tempo,
facilitare il processo di raccolta delle informazioni
Prezzo da pagare: minore efficienza
i grappoli tendono ad essere omogenei al loro interno
--> duplicazione inutile di informazioni
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
57/89
La tecnica di estrazione del CGRA
- illustrazione
La popolazione di 50 unità è suddivisa in 7 grappoli
Vengono estratti casualmente 3 grappoli
Per ognuno di essi vengono esaminate tutte le unità
Il campione risultante si compone di 20 unità
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
58/89
La stima della media con il CGRA
Grappoli N. unità per
grappolo
1
Unità
Totale di
grappolo
Y11 … Y1β …Y1B1
B1
tY1
B
α
Yα1 … Yαβ …YαBα
Bα
tY   Y
tYα
 1
A
YA1 … YAβ …YABA
BA
A
tYA
1 A
Y   tY
N  1
A
N   B
tY   tY
 1
 1
Campione di a grappoli; probabilità di inclusione: a/A
Stimatore fondamentale della media:
Num. campionaria:
1 a t
1 1 a
1
yGRA 

y
N  1 a A

(
 t y ) 
N A a  1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
N A
ty
a
n   B
 1
59/89
La stima della media con il CGRA
Dimensione media dei grappoli nella popolazione
=
Dimensione media dei grappoli nel campione
N/A = n/a :
yGRA
yGRA
1 1 a

(  t y )
N A a  1
B
t y   y
1 1 a B
1 a B

y   y

n a a  1  1
n  1  1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
 1
Media delle osservazioni
campionarie
60/89
La stima della varianza con il CGRA
Stimatore della media:
yGRA
1
A

ty  ty
N A
N
2
Varianza della media:

st2y
A
var( yGRA )  2 (1  f )
N
a
A2
var( yGRA )  2 var( ty )
N
NB: var( ty ) corrisponde alla stima
della varianza di y nel CCS:
s y2
(f = n/N)
var( y )  (1  f )
f = a/A: frazione di campionamento
n
2
1 a
2
2
s
NB:
t y (stima varianza del totale)
st y 
(t y  ty )

corrisponde alla stima della
a  1  1
Dove:
varianza di Y nel CCS:
2
1 n
s 
yj  y


n  1 j 1
2
y
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
61/89
Pro e contro del CGRA
Pro:
 Effettuare la rilevazione solo su alcuni grappoli è molto meno
dispendioso rispetto al CCS. Soprattutto se:
a) si rende necessario un contatto diretto;
b) le unità sono caratterizzate da dispersione sul territorio
 Particolarmente vantaggioso quando per le unità appartenenti
ai grappoli non si dispone di una lista
Contro:
 E’ in genere meno efficiente: i raggruppamenti naturali
di unità tendono ad essere omogenei al loro interno
ed eterogenei tra loro
(ma la perdita di efficienza si può eventualmente compensare
aumentando la dimensione del campione)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
62/89
Campionamento a due stadi
Nella
popolazione
vengono
individuati:
Può essere
visto come
un campionamento
a grappoli in cui
-siraggruppamenti
di parte
unità delle
(grappoli)
osserva solo una
unità denominati
appartenenti ai grappoli
unità di primo
stadio (es: comuni)
campione
(campionamento
a grappoli a due stadi)
- unità elementari appartenenti alle unità di primo stadio
denominate unità di secondo stadio (es: famiglie, persone )
Lo schema di campionamento a due stadi consiste:
- nel selezionare casualmente un campione di unità
di primo stadio
- nel selezionare casualmente un campione di unità di
secondo stadio da quelle di primo stadio
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
63/89
Campionamento a due stadi
Esempio:
Indagine Istat sui consumi delle famiglie italiane.
Invece di estrarre direttamente un CCS di famiglie dal complesso
delle famiglie italiane (come nello schema di campionamento
a grappoli), si procede in due fasi:
1) si estrae un certo numero di comuni campione (476)
dall’insieme dei comuni italiani (dopo stratificazione degli
stessi: 230 strati)
2) da ognuno dei comuni campione si estraggono alcune famiglie
(in complesso 28.000)
Vantaggio organizzativo e di costi analogo a quello che si
ottiene con il campionamento a grappoli: concentrazione
della rilevazione in alcuni comuni, invece che dispersa in
tutto il territorio
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
64/89
La tecnica di estrazione del CSTA illustrazione
1° stadio sono estratte casualmente 3 UPS
2° stadio da ogni UPS selezionata sono estratte casualmente delle USS
(f = 1/2)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
65/89
Pro e contro del CSTA
Pro:
 nelle indagini con rilevazione diretta tramite intervistatori
consente di ridurre tempi e costi, poiché riduce notevolmente
la dispersione territoriale della rilevazione
Contro:
 di norma si verifica che le UPS sono omogenee al loro interno
ed eterogenee tra loro. Di conseguenza il CSTA risulta meno
efficiente del CCS
Stessi pro e contro del campionamento a grappoli
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
66/89
Tecniche di campionamento
non probabilistico
Non si applicano criteri di casualità nella selezione delle unità
campionarie
La selezione delle unità è lasciata all’arbitrio di chi deve
raccogliere i dati
Trovano impiego nelle ricerche di mercato e nei sondaggi di
opinione (in particolare nei casi in cui non si dispone di una lista)
Esempio:
Indagine per rilevare le opinioni dei clienti di un supermercato
riguardo le promozioni effettuate su alcuni prodotti tramite
interviste fatte all’uscita a clienti scelti liberamente dai
rilevatori
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
67/89
Tecniche di campionamento
non probabilistico
Vantaggi:
 la semplicità organizzativa
 i bassi costi di realizzazione
 la velocità di esecuzione
Limiti:
- l’arbitrio di chi raccoglie i dati può comportare una
distorsione da selezione del campione
- non è possibile effettuare una stima della precisione
dei risultati
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
68/89
Il campionamento per quote
Il metodo si basa sulla riproduzione nella composizione
del campione di alcune caratteristiche distributive note
della popolazione, nonostante che:
•
non si dispone di una lista di campionamento
•
non si applicano criteri di casualità nella selezione
delle unità campionarie
Esempio:
Indagine per rilevare le opinioni dei clienti di un
supermercato riguardo le promozioni effettuate su alcuni
prodotti tramite interviste fatte all’uscita a clienti scelti dai
rilevatori, ma in modo che il campione rispecchi la
composizione dell’insieme dei clienti secondo il genere e l’età
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
69/89
Il campionamento per quote
Fasi del metodo:
1. Si individuano le caratteristiche rilevanti della popolazione
da riprodurre nel campione (esempio: genere e/o età degli
individui)
2. Attraverso idonee fonti statistiche si calcola il peso
percentuale dei corrispondenti gruppi sul totale della
popolazione
3. Stabilita la numerosità campionaria, essa è ripartita tra i
gruppi individuati in modo che il campione rispecchi la
composizione della popolazione
4. Ai rilevatori sono assegnate le quote, ovvero il numero di
interviste da effettuare liberamente in ognuno dei gruppi
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
70/89
Profilo dell’errore
Errore statistico: differenza tra il valore vero - relativo ad una
certa caratteristica della popolazione - ed il valore osservato sui
dati campionari
Scomposizione dell’errore statistico in:
1. errore campionario: derivante dal fatto che si esamina solo un
campione della popolazione, anziché la sua totalità
2. errore non campionario: derivante da imprecisioni presenti
nelle diverse fasi dell’indagine
Classificabile in diversi tipi di errore a seconda delle fonti
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
71/89
L’errore campionario
La stima dell’errore campionario definisce l’intervallo di
confidenza. Nel campionamento casuale semplice:
s y2
s y2
(1  f ) ; y  z 2 (1  f ) ]
n
n
[ y  z 2
Errore campionario:
e  z 2
Errore standard:
s y2
(1  f )  z 2  ESˆ ( y )
n
s y2
ESˆ ( y )  var( y )  (1  f )
n
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
72/89
L’errore campionario
Sulla base della sua espressione si deduce che l’ errore
campionario è tanto più grande:
 quanto maggiore è il livello di fiducia che si vuole avere
nella stima  i valori dei coefficienti zα/2 crescono
al crescere del livello di fiducia
 quanto più elevata è la variabilità della caratteristica
studiata nella popolazione  tale variabilità si riflette
in quella osservata sul campione (e quindi sulla varianza
e sull’errore standard della media campionaria)
 quanto minore è la dimensione del campione  legata
alla varianza della media campionaria secondo una
proporzione inversa
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
73/89
L’errore campionario - Esempio
-
Popolazione di 10.000 imprese (N = 10000);
Estratte 400 unità (n = 400) mediante CCS
Stima della media del fatturato: 495 (migliaia di euro);
Stima della varianza: 2500 (migliaia di euro).
La stima dell’errore campionario, in corrispondenza di un livello
di fiducia del 95%:
e  1,96  (1 
400 2500
)
 4,8
10000 400
Conclusione: nella stima della media del fatturato delle aziende per un livello di fiducia del 95% - si può commettere un errore
pari a 4,8 migliaia di euro, per difetto o per eccesso
Ovvero, al 95% di probabilità, il valore vero incognito si trova
nell’intervallo di confidenza [495 - 4,8; 495 + 4,8]
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
74/89
L’errore campionario - Esempio
Per una diversa numerosità campionaria: n = 300
(e a parità di livello di fiducia e stima della varianza
nella popolazione)
Errore campionario:
e  1,96  (1 
300 2500
)
 5,6
10000 300
Intervallo di confidenza: [495 – 5,6; 495 + 5,6]
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
75/89
Calcolo numerosità campionaria
Stabilita prima di estrarre il campione in base all’errore
campionario massimo (e) che si è disposti ad accettare
Come si fissa l’errore massimo e ?
A partire dalla varianza teorica della media campionaria
nel CCS:
N  n SY2
Var( y ) 
N 1 n
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
76/89
Calcolo numerosità campionaria
Da cui deriva il valore teorico dell’errore standard:
N  n SY2
ES 

N 1 n
e il valore teorico dell’errore campionario:
N  n SY2
e  z 2 

N 1 n
da cui si ottiene n in funzione di e (e di altri parametri):
n
SY2  z2 2
2
2
S

z
N 1 Y  2
e2

N
N
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
77/89
Calcolo numerosità campionaria
Poiché la varianza della caratteristica nella popolazione S2Y è
ignota, in genere si ricorre a:
 una misura della variabilità derivante da eventuali
indagini precedenti
 una stima proveniente da un’indagine pilota
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
78/89
Calcolo numerosità campionaria
Caso di stima di una frequenza
Variabile dicotomica: Y = 1 (presenza attributo); Y = 0 (assenza)
La varianza di Y nella popolazione:
S2Y = (1 – P)2 P + (0 – P)2 (1 – P) = P (1 - P)
La numerosità campionaria può essere determinata assumendo
il valore massimo della varianza, che si ha per P=0.5, e
sostituendolo nella formula generale, ottenendo:
n
0.25  z2 2
0.25  z 2
2 N 1
e

N
N
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
2
79/89
Calcolo numerosità campionaria Esempio
Popolazione di N = 10000 imprese
Calcolo della numerosità campionaria per la stima della
proporzione di imprese che hanno fatto investimenti nel triennio
precedente, con
- un errore massimo del 3% in più o in meno (e = 0.03)
- un livello di fiducia del 95% (α = 0.05; zα/2 = 1.96)
0.25 1.962
n
 964
2
0.25 1.96
2 9999
0.03

10000
10000
Per N =
100.000 ?
Per N = 1.000.000 ?
n = 1056
n = 1066
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
80/89
Calcolo numerosità campionaria Esempio
Per P = 0.2 ? (e N = 10000)
Bastava un campione più
piccolo:
0.16 1.962
n
 640
2
0.16 1.96
2 9999
0.03

10000
10000
Oppure (per n = 964) avremo un errore campionario minore:
e  z 2 (1  f )
p(1  p)
0.2(1  0.2)
=1.96 (1  0.0964)
 0.024
n 1
963
e quindi un intervallo di confidenza meno ampio
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
81/89
Errore non campionario
• Casuale
è attribuibile unicamente
al caso e i suoi effetti
tendono ad annullarsi
all’aumentare della
numerosità campionaria
1. di copertura
• Sistematico
2. di non risposta
3. di misura
a. totale
b. parziale
4. di codifica e archiviazione dei dati
imputabile a insufficienze
metodologiche o organizzative
che possono originare in ogni fase
di una indagine
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
82/89
Errore di copertura
Legato al grado di corrispondenza tra le unità elencate nella lista
di campionamento e quelle effettive della popolazione
Due tipi di errore:
1. Sovracopertura - la lista include unità non appartenenti alla
popolazione (es: imprese non più attive presenti nell’archivio delle
imprese)
• si diagnostica con un quesito iniziale per verificare l’appartenenza
• si risolve eliminando le unità e con un campione di riserva per la
loro sostituzione
2. Sottocopertura - la lista esclude unità appartenenti alla
popolazione (es. elenchi telefonici)
• si diagnostica analizzando le caratteristiche della lista
• si risolve con riponderazione o post-stratificazione (più avanti)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
83/89
Errore di non risposta
Deriva dalla mancata osservazione sulla unità di rilevazione di
alcune o di tutte le caratteristiche oggetto di studio
Si distingue in:
a. non risposta totale - se riguarda tutte le caratteristiche
• si previene con: motivazione unità selezionate; semplicità del
questionario; solleciti; incentivi
• si risolve con: sostituzione unità; sovracampionamento;
riponderazione, post-stratificazione
b. non risposta parziale - se riguarda un numero contenuto di
caratteristiche oggetto di indagine
• si previene con: chiarezza domande; attenzione alla riservatezza
• si risolve con: imputazione dati mancanti (Cap. 3)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
84/89
Errori di non risposta o di copertura
Esempio (mancate risposte):
Effetto sul campione
composizione del
M delle Fnon risposte
TOT totali
o
della sotto-copertura:
alcune componenti
Popolazione:
8000
12000
20000
 campione diversa
della popolazione
sottorappresentate
(40%)
(60%)
(100%)
altre
sovrarappresentate
Campione:
160
240
400
Rispondenti
N. R.
(40%)
(60%)
(100%)
90
210
300
(30%)
(70%)
(100%)
70
30
100
Tassi di risposta: 56.2%
87.5%
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
da quella della
popolazione
75%
85/89
Errori di non risposta o di copertura
Esempio (sottocopertura):
M
F
Popolazione:
8000
12000
(40%) (60%)
Campione
selezionato:
120
280
(30%) (70%)
Rispondenti:
90
210
(30%) (70%)
Tassi di risposta: 75%
75%
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
TOT
20000
(100%)
400
(100%)
300
(100%)
75%
86/89
Riponderazione
Nota la composizione della popolazione secondo una o più
caratteristiche, la riponderazione consiste:
- nell’aumentare il peso delle unità campionarie sottorappresentate
- e nel diminuire il peso di quelle sovra-rappresentate
(fino a riportare i pesi a quelli noti nella popolazione)
Informazioni necessarie:
Composizione della popolazione (oltre che del campione) secondo
le k modalità della caratteristica (o delle caratteristiche)
utilizzata/e per la riponderazione
Esempio: % di M e di F nella popolazione e nel campione
Caso di studio: % di imprese di ogni settore e classe dimensionale
nella popolazione e nel campione
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
87/89
Riponderazione
Composizione della popolazione e del campione secondo le k
modalità della caratteristica:
Popolazione:
Campione:
Ni
ni
(i  1,..., k )
PPi 
PCi 
N
n
Pesi di riponderazione:
(per ogni unità j appartenente al sottocampione i):
PPi Ni N (i  1,..., k )
wij 

PCi
ni n
ni
 w
i 1
j 1
ij
k
n
peso aumentato
wij  1 unità sovrarappresentate:
peso diminuito
Somma dei pesi:
k
wij  1 unità sottorappresentate:
(
i 1
ni
n k Ni
wij    ni )

N i 1 ni
j 1
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
88/89
Riponderazione
Stima della media:
y
k
ni
 w
i 1 j 1
k ni
k
ij
 w y
yij
 wij
ni
=
i 1 j 1
ij
ij
n
i 1 j 1
Esempio (mancate risposte):
M
Popolazione:
8000
(40%)
Campione:
160
(40%)
Rispondenti
90
(30%)
Pesi riponderazione:
1.333
F
12000
(60%)
240
(60%)
210
(70%)
0.857
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
TOT
20000
(100%)
400
(100%)
300
(100%)
89/89
Riponderazione Caso di studio
Composizioni della popolazione e del campione
in base alla loro articolazione in strati:
Numero imprese settore k, dim. s
Numero imprese totali
Popolazione
Campione
Pfirmsks
Pfirms
Sfirmsks
Sfirms
Pesi relativi (per ogni impresa j appartenente al sottocampione dello strato ks):
rwks ( j ) 
Pfirmsks Pfirms
Sfirmsks Sfirms
( rwks ( j )  Sfirms)
Pesi assoluti:
awks ( j )
Pfirmsks Pfirms Pfirms
Pfirmsks


awks ( j ) 
Sfirmsks Sfirms Sfirms
Sfirmsks
( awks ( j )  Pfirms)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
90/89
Post-stratificazione
Primo passo:
classificazione del campione secondo le k modalità di una
caratteristica  classificazione a posteriori del campione
in k strati (post-stratificazione)
Secondo passo:
calcolo delle medie nei k strati costruiti a posteriori e applicazione
della formula del campionamento stratificato per la stima della
media nella popolazione
k
Ni
y   yi
i 1 N
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
91/89
Post-stratificazione - Esempio
Esempio (mancate risposte):
Popolazione
Rispondenti
N. R.
M
8000
(40%)
90
(30%)
70
F
12000
(60%)
210
(70%)
30
0.4
0.6
TOT
20000
(100%)
300
(100%)
100
Post-stratificazione:
Pesi (Ni / N)
Medie
30
Senza tenere conto della diversa
incidenza delle mancate risposte ?
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
k
Ni
y   yi  0.4  30  0.6  20  24
20
i 1 N
k
ni
yi  0.3  30  0.7  20  23
i 1 n
y 
92/89
Post-stratificazione
Post-stratificazione = Riponderazione
Ni 1 ni
w ij yij n   yij k

Ni
i 1 j 1
i 1 N ni j 1
y
=
=  yi
n
n
i 1 N
k
ni
k
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
93/89
Le tipologie di quesiti
Classificati in base alle modalità di risposta
- domande a risposta aperta (o domande aperte):
- non sono fornite le categorie di risposta;
- l’intervistato deve fornire un valore numerico esatto
oppure rispondere con parole proprie
domande a risposta chiusa (o domande chiuse):
- sono elencate le possibili categorie di risposta tra cui il
rispondente deve indicarne una o più di una
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
94/89
Domande aperte vs domande chiuse
Pro aperte:
 consentono l’espressione libera del rispondente
 consentono l’acquisizione di dati numerici esatti
 nelle fasi di test del questionario consentono di individuare le
categorie di risposta per le domande chiuse della versione finale
Contro aperte:
 interpretazione soggettiva della domanda
 carico di lavoro più elevato con maggiori probabilità di errore
e/o abbandono
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
95/89
Le scale di valutazione

Utilizzate nella rilevazione di opinioni o atteggiamenti
Esempio: accordo/disaccordo  molto, abbastanza, …
Oppure: soddisfazione/insoddisfazione
 Trovano impiego nei sondaggi di opinione e nelle
ricerche di mercato
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
96/89
Le scale di valutazione
Scala ancorata: possibilità di selezionare valori interi
all’interno di un certo intervallo
1
2
Totalmente
Abbastanza
in disaccordo in disaccordo
3
Né d’accordo
né in disaccordo
4
Abbastanza
d’accordo
5
Totalmente
d’accordo
Scala continua: opzioni di risposta un insieme continuo di valori
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
97/89
Classificazione dei caratteri statistici
Principale distinzione
 Caratteri quantitativi: che derivano da misurazioni o
operazioni di conteggio (es: reddito, n. di addetti)
 Caratteri qualitativi: in cui è assente il concetto di
quantità (es: condizione occupazionale)
Classificazione più fine, fondata sulla scala di misurazione:
da essa dipendono le operazioni che si possono compiere
e i confronti ammissibili tra unità statistiche
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
98/89
La scala di misurazione
Caratteri qualitativi
Scala nominale: le modalità non possono essere messe in ordine
secondo una sequenza logica (es: nazionalità; forma giuridica)
Confronto ammissibile tra due unità statistiche: se sono uguali o
diverse rispetto a quel carattere
Scala ordinale: le modalità possono essere messe in ordine
secondo una sequenza logica (es: titolo di studio, aspettative
produzione)
Confronto ammissibile tra due unità statistiche: se l’una ha
modalità maggiore o minore dell’altra secondo quel carattere
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
99/89
La scala di misurazione
Caratteri quantitativi
Scala di intervalli: le modalità non possiedono uno “zero assoluto” e
quindi non possono essere misurate partendo da un’origine che
indichi assenza della quantità
Esempio: temperatura; zero convenzionale, diverso a seconda della
scala adottata
Confronto ammissibile: per differenza tra i valori assunti
dal carattere sulle unità
Esempio: l’aumento di calore che si verifica tra 0° e 20° della scala
Celsius è lo stesso che si verifica tra 20° e 40°.
Ma non si può affermare che il caldo a 40° è doppio che a 20°
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
100/89
La scala di misurazione
Caratteri quantitativi
Scala di rapporti: le modalità possono essere misurate partendo
da un’origine che rappresenta l’assenza della quantità (Esempio:
fatturato)
Confronto ammissibile: rapporto tra i valori assunti dal carattere in
due diverse unità
(Esempio: se il rapporto è 2 il fatturato è doppio)
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
101/89
La classificazione dei caratteri
statistici
Esame del carattere statistico:
si denota concetto di quantità?
Sì
No
Carattere quantitativo
Esame del carattere statistico:
si individua zero assoluto?
Carattere qualitativo
Esame del carattere statistico:
le modalità sono ordinabili?
Sì
No
Sì
No
Scala di
rapporti
Scala di
intervalli
Scala
ordinale
Scala
nominale
Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
102/89