Corso di Laurea Magistrale in Economia e Professione
Statistica per l’analisi dei dati
Prima parte: il campionamento nella
revisione contabile
Dispensa 3
Argomenti: numerosità campionaria, stima del totale,
campionamento stratificato
Prof. Giorgio Tassinari
a.a. 2011-12
III -
1
In molte situazioni in cui l’obiettivo del revisore è di formulare un’opinione sul
valore monetario della popolazione, il valore contabile registrato dalla popolazione
dovrà essere noto. L’obiettivo del revisore è spesso quello di verificare se il valore
contabile registrato non sia materialmente errato.
Ad esempio, supponiamo che il valore totale dei debiti sia di un milione di euro e
che il revisore voglia essere ragionevolmente sicuro che il valore registrato in
contabilità non sia errato per più di € 20.000.
In una situazione di questo tipo, il classico approccio statistico è di fissare un test
di ipotesi per discriminare tra due ipotesi alternative.
Il revisore dovrà decidere se accettare:
H0: ipotesi nulla: il valore contabile è corretto,
H1: ipotesi alternativa: il valore contabile è errato per un certo ammontare.
Durante le fasi della verifica, si può incorrere in errori nell’accettare o rifiutare le
ipotesi formulate a causa di errati campionamenti, salvo che vengano esaminati
tutti i valori contabili, ipotesi spesso improponibile.
III -
2
Il rischio principale è quello di accettare come corretto un bilancio, che
in realtà contiene degli errori materiali; questo tipo di errore si traduce
nell’errore del secondo tipo o errore β
C’è anche la possibilità di rigettare l’ipotesi nulla come falsa, quando
questa è vera, in questo caso per il revisore si presenta il rischio di
rigettare un bilancio corretto. Questo è definito come errore α.
Valori contabili
Corretto
Errori per importi
materiali
H0 vera
H0 falsa
Il valore contabile è corretto
(accetto H0)
decisione corretta
prob=1-α
errore II tipo prob=β
Il valore contabile è
materialmente errato
(respingo H0)
errore I tipo prob=α
decisione corretta
prob=1-β
Conclusioni del revisore
III -
3
Il rischio β è di particolare rilevanza perché quando la revisione viene completata,
il revisore richiede, con un livello di garanzie molto alto, che i conti siano
materialmente corretti prima che il rapporto conclusivo venga firmato. Se l’unica
fonte di questa certezza proviene dai test statistici e, nessun altro test di revisione
e stato compiuto, allora viene richiesto un rischio β molto basso e
conseguentemente campioni molto grandi.
Tuttavia nella pratica vengono normalmente messe in essere numerose procedure
di revisione da utilizzare in aggiunta ai test statistici, ed ognuna di queste ha
l’obiettivo di verificare che non ci siano errori materiali nei conti.
In particolare ci sono due aspetti che possono influenzare la scelta del livello di β:
1. il controllo interno: quando c’è un buon sistema di controllo interno, il rischio
che si verifichi un errore materiale è ridotto, pertanto è ragionevole fissare β ad
un livello più alto. Il revisore deve esaminare il sistema di controllo interno e
verificarne l’efficacia, perché esiste comunque la possibilità che il suo
funzionamento sia influenzato dalle scelte del management, ed il revisore deve
tenerne conto.
2. altre procedure di revisione: il revisore utilizzerà trend e rapporti e forse anche
altre tipologie di test di revisione nella stessa area in cui sono stati impiegati i
test statistici proposti.
III -
4
Per trovare valori ragionevoli di β, si possono quindi considerare i seguenti fattori:
OE
= il verificarsi di errori materiali,
FIC
= l’incapacità del controllo interno nel prevenire l’errore materiale,
F0
= l’insuccesso delle altre procedure di revisione nello scoprire l’errore
materiale,
Fss
= l’insuccesso delle procedure di revisione statistiche nello scoprire l’errore
materiale.
Sulla base di questi aspetti la probabilità di incorrere nel rischio complessivo di
revisione è data dalle seguente relazione:
P(x)=P[OE ∩ (FIC ∩ F0 ∩ Fss]
Pertanto β (definito come il rischio dell’insuccesso nello scoprire un errore materiale
nei conti) può essere definito dalla seguente notazione:
β = P[Fss | OE ∩ FIC ∩ F0].
III -
5
È quindi possibile giungere ad una scelta di β facendo alcune assunzioni e
formulando valutazioni sui controlli interni e le altre procedure di revisione.
OE
la probabilità che si verifichi un errore materiale è, prudenzialmente, uguale
ad 1.
FIC
la probabilità che il controllo interno non riesca a scoprire un errore materiale
varia da 1 (quando non esistente alcun controllo interno) ad un valore molto
piccolo, come 0.1 (per un controllo interno eccellente). Prudenzialmente, si
assume che il controllo interno lavori al meglio solo al 90% della sua
efficacia.
F0
la probabilità di insuccesso delle altre procedure di revisione nello scoprire un
errore materiale varia da 1 (se non ci sono altre procedure) ad un valore
piccolo, come 0.1 (per un’alta efficacia della procedura). Prudenzialmente, si
assume una efficacia massima del 90%
III -
6
Per quanto riguarda la valutazione del controllo interno e per l’efficacia delle altre
procedure di revisione si possono assumere arbitrariamente 5 livelli di valutazione. È
pertanto possibile stimare valori per β sotto varie condizioni.
Rilevanza assegnata al controllo interno.
Se esiste un significativo rischio che il management possa influenzare i controlli, con conseguenze
sull’area da esaminare, si registra 0. Altrimenti, si valuta il controllo interno con conseguenze
sull’area da esaminare.
Se i controlli sono:
Si assegna il punteggio:
Eccellenti
Buoni
Equi
Scarsi
Inesistenti
4
3
2
1
0
Rilevanza assegnata alle altre procedure di revisione.
Valutare le altre procedure che potrebbero scoprire errori materiali dello stesso tipo di quelli
rilevabili nei test statistici.
Per ogni test addizionale con significativa efficacia, assegnare 2 punti e per ogni test addizionale
con moderata efficacia, assegnare 1 punto. Si registra il totale, che non deve eccedere i 4 punti.
Se il totale è di
Utilizzare come β
0
1
2
3
4
6-8
0.05
0.10
0.15
0.30
0.50
0.50
x
y
x+y
Negli ultimi due casi il revisore potrebbe decidere di omettere i test statistici
III -
7
La dimensione del campione
Quanto deve essere grande il campione per fornire risultati attendibili?
Risparmio di risorse
Determinare l’ampiezza più piccola che soddisfa i
requisiti di precisione delle stime stabiliti a priori
 fissare il margine di errore che si è disposti a tollerare
 la probabilità che la stima si collochi all’interno di tale
margine d’errore
III -
8
In generale, indicati con:
N, α, ε, C  n
N :
α :
ε :
n :
C :
la numerosità della popolazione
la probabilità di errore
l’errore che si è disposti a commettere
la dimensione del campione
il piano di campionamento
Definiti la dimensione della popolazione, il
piano di campionamento, l’errore e grado di
fiducia che l’accompagna, sarà possibile
determinare la dimensione del campione
Può però accadere che, sulla base di vincoli
di costo, siano dati, oltre alla dimensione
della popolazione, il piano di campionamento
e la numerosità del campione: in questo
caso si potranno calcolare gli errori massimi
corrispondenti a diversi gradi di fiducia
N, n, α , C
 ε
III -
9
Se il parametro oggetto di inferenza è la media campionaria, per determinare la
dimensione del campione, dovremo fare riferimento alla sua distribuzione:
X
 2 
N  , 
n 

X
 2 N n
N  ,

n N 1 

campionamento con ripetizione
campionamento senza ripetizione
Sulla base di questa distribuzione è stato
possibile definire gli intervalli di confidenza
X  z /2 V ( X )
L’errore che si commette nella stima e che si vuole
non superi una certa soglia è quindi dato da:
z /2 V ( X )  

z /2 
 V (X ) 

V (X )
2
z2 /2
III -
10
Date le relazioni:
V (X ) 
V (X ) 
2
n

2
campionamento con ripetizione
2
z /2
2 N n
n N 1

2
2
z /2
campionamento senza ripetizione
risolvendo rispetto ad n avremo:
2
n  z /2 2

campionamento con ripetizione
z2 /2 2 N
n
( N  1) 2  z2 /2 2
campionamento senza ripetizione
2
III -
11
Noto il valore di N e fissati ε e zα/22 per risolvere le equazioni è
necessario precisare un valore per la varianza σ2, di solito a sua
volta non conosciuta
Per determinare σ2 si può utilizzare:
»
una sua stima ottenuta attraverso altre indagini svolte in passato o su
popolazioni simili
»
una stima della varianza ottenuta nella fase di pre-test del questionario
»
una stima desunta sfruttando una relazione nota tra lo scarto quadratico
CV

medio σ e il campo di variazione CV (range), in base alla quale:
2
da cui si deriva che:
2
CV
2 
4
III -
12
Ipotizziamo di avere una popolazione di 5000 fatture di acquisto i cui importi
variano da un minimo di 10€ ad un massimo di 10000€.
Determinare la dimensione del campione da analizzare per stimare, con un livello
di confidenza del 95%, l’importo medio delle fatture con un errore massimo di
500€
N=5000
CV=10000-10=9990
σ2≈99902/4=24950025
zα/2=1.96
ε=500
z2 /2 2 N
1.962  24950025  5000
n

 356.15  357
( N  1) 2  z2 /2 2  5000  1  5002  1.962  24950025
Se ε=250, a parità delle altre condizioni, avremo n=1174
III -
13
Se l’oggetto di indagine è la proporzione campionaria, in maniera del tutto
analoga a quanto visto per la media campionaria, si dovrà tenere in
considerazione la sua distribuzione ed in particolare la media e la varianza: se P è
lo stimatore corretto per π, proporzione incognita nella popolazione, abbiamo:
E ( P)  
 (1   )
V ( P) 
n
 (1   ) N  n
V ( P) 
n
N 1
campionamento con ripetizione
campionamento senza ripetizione
p 
Possiamo quindi definire , z 
distribuita approssimativamente come una
V ( P)
Normale standardizzata.
Fissati quindi l’errore ε ed il grado di fiducia 1-α avremo:

 
Pr  p       Pr  z 
  1
V
(
P
)




V ( P)
 z /2
da cui si ricava, nel caso del campionamento senza ripetizione:
V ( P) 
 (1   ) N  n
n
N 1


2
z2 /2
z2 /2 N
n
( N  1) 2
 z2 /2
 (1   )
III -
14
Come si può notare, l’ampiezza campionaria dipende dal parametro π da stimare.
Anche in questo caso è possibile utilizzare i risultati di indagini preliminari o altre
conoscenze a priori, tuttavia una soluzione consiste nell’ipotizzare la situazione di
massima variabilità.
È il caso in cui π = 0.5, per cui π (1- π )=0.25.
L’equazione precedente diventa quindi:
z2 /2 N
n
4( N  1) 2  z2 /2
III -
15
Nella tabella che segue sono riportate le numerosità campionarie in corrispondenza di
diversi valori del margine d’errore (1,2,3,5,10), della proporzione p (0.5 e 0.15) e livelli di
confidenza (95% e 99%).
Se ad esempio abbiamo una
popolazione di 10000 documenti e
vogliamo un margine di errore del
3%, con livello di confidenza del
95% e fissiamo p=0.5, dovremo
estrarre un campione di 964
documenti.
È da notare che se poniamo p=0.15,
l’ampiezza del campione diventa n=517.
III -
16
Ipotizziamo di avere una popolazione composta da 10000 fatture di acquisto.
Se vogliamo avere una stima con un margine di errore del 2%, con livello di confidenza del
95%, ed ipotizziamo che nella popolazione la percentuale di errore sia del 5%, quale dovrà
essere l’ampiezza del campione?
z2 /2 N
1.962 10000
38416
38416
n



 437
2
3.996
( N  1) 2
(10000

1)

0.02
 3.8416 88.0437
 z2 /2
 1.962
0.0475
 (1   )
0.05  (1  0.05)
Se, per motivi di costo, si dovessero ispezionare solamente 250 documenti, quale sarebbe la
precisione che dobbiamo attenderci, sempre con livello di confidenza del 95%?

 p  z /2

z /2
p (1  p ) N  n
, p  z /2
n
N 1
p (1  p ) N  n 

n
N  1 
p(1  p) N  n
0.05  (1  0.05) 10000  250
 1.96
 1.96  0.0136  0.027
n
N 1
250
10000  1
L’errore potrà essere
del 2.7%
III -
17
Determinazione della numerosità campionaria nel test di ipotesi
Quando viene fissata una ipotesi, ed assieme ad essa i valori di probabilità associati
agli errori di I e II specie, si deve determinare la numerosità minima del campione
sufficiente a garantire i livelli di probabilità desiderati.
Nel caso di test unilaterali, se indichiamo con K il valore discriminante che divide la
regione di accettazione da quella di rifiuto, K può essere espresso in termini di z sia
per l'ipotesi nulla che per quella alternativa, secondo le espressioni:
z1 
K  0

z 
K  1

n
n
la soluzione del sistema composto da
queste due equazioni consente di
determinare la numerosità campionaria n:
  z1  z   
n






1
0
Nel caso di test bilaterali avremo che la
numerosità del campione sarà data da:
  z1 /2  z   
n






1
0
2
2
III -
18
Si consideri il caso in cui, in riferimento a una distribuzione normale, si voglia
sottoporre a test l'ipotesi nulla
H0 : μ = μ0
contro l'ipotesi alternativa
H1 : μ = μ1 > μ0
al livello di significatività α = 0,05 e in modo tale che la potenza del test non
sia inferiore a 0,90. Si ricorda che la potenza di un test (1-β) rappresenta la
probabilità di non commettere un errore di II tipo.
Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza

x  0  1.645
n
il vincolo sulla potenza impone il rispetto della relazione
 

Pr  X  0  1.645
  0.90
n

 X  1 X  0

Pr 

 1.645   0.90
 n  n

Essendo il valore di z che ha alla sua destra il 90% dei casi è -1.282, dovrà essere
soddisfatta l’uguaglianza:
2
Per μ0= 100 , μ1= 110 e σ2=400 si avrà
 1.645  1.282    
0  1
 1.645  1.282  n  

0  1
 n


 1.645  1.282   20   58.54 
n
 
  34.27
100

110

10



2
2
III -
19
sia fissata l'ipotesi:
H 0 : 0  130
H1 : 1  140
con s=16 ed inoltre siano dati α=0.05 e β=0.20, determinare la numerosità n del campione.
Avremo quindi:
z1  1. 645
z  0. 8416
( z1  z )2  (1. 645  0. 8416)2  6. 20
(6. 20)(16)2
(6. 20)(256)
n

 15. 87  16
2
(140  130)
100
Se invece s=60 avremo:
(6.20)(60)2 (6.20)(3600)
n

 222.59  223
(140  130)2
100
III -
20
stima del totale
Sia TX l’ammontare totale di un carattere X nella popolazione di riferimento. Esso
può essere considerato alla stregua di un parametro da stimare, al pari della
media (valore atteso), della varianza, della frequenza ecc.
Qualunque
sia
il
piano
di
campionamento
prescelto,
casuale
semplice,
probabilizzato o complesso, esistono formule generali che forniscono stimatori
corretti del totale. In particolare, esistono due famiglie di stimatori corretti, la
prima riferita a un campionamento con reintroduzione, la seconda a un
campionamento senza reintroduzione (in blocco).
III -
21
Se il campionamento è effettuato con reintroduzione,
la stessa unità statistica può venire inclusa più volte
nel campione, e le osservazioni sono indipendenti e la
loro probabilità di estrazione rimane costante. Se
indichiamo con pi la probabilità di estrazione dell’iesima unità del campione, definiamo lo stimatore
corretto del totale di Hansen Hurwitz:
La probabilità di estrazione è la
probabilità che l'unità λ-esima
della popolazione venga estratta
come unità i-esima del campione
e viene indicata con pλ(i).
1 n xi
ˆ
HH TX 

n i 1 pi
Se invece il campionamento è effettuato senza
reintroduzione, la stessa unità statistica può venire
inclusa una volta sola nel campione, e le osservazioni
sono allora correlate. Se indichiamo con πi la
probabilità di inclusione dell’i-esima unità del
campione, definiamo lo stimatore corretto del totale
di Horvitz Thompson:
n
HT
x
TˆX   i
i 1
i
La probabilità di inclusione è la
probabilità che singoli elementi, o
gruppi di elementi, entrino a far
parte del campione.
Si definisce probabilità di
inclusione di primo ordine di una
unità λ, e si indica con πλ, la
probabilità che il campione estratto
contenga tale unità: πλ = P(λ  s).
πλλ’ = P({λ,λ’}  s) è invece la
probabilità di inclusione del
secondo ordine, ovvero che il
campione estratto contenga λ e λ’
III -
22
Quando il piano di campionamento è casuale semplice (con ripetizione o senza
ripetizione), i due stimatori individuati vengono a coincidere e lo stimatore
ottenuto, detto stimatore per espansione, è direttamente proporzionale alla
media aritmetica campionaria.
Se consideriamo il campionamento con reintroduzione la probabilità di
estrazione è la stessa per tutte le unità della popolazione, ed è pari a
1/N. Ponendo dunque pi = 1/N nella formula dello stimatore di Hansen
Hurwitz si ottiene:
1 n xi
N
ˆ

HH TX 

n i 1 1/ N n
n
x
i
 Nx
i 1
Se invece consideriamo un CCS in blocco, la probabilità di inclusione di
una qualunque unità statistica è pari alla frazione di campionamento
n/N, pertanto, ponendo πi = n/N, lo stimatore di Horvitz Thompson
diviene:
n
xi
N n
ˆ
  xi  N  x
HT TX  
n
/
N
n i 1
i 1
III -
23
In generale, se indichiamo con Xi l’ammontare della i-esima voce nella
popolazione e con X il totale delle poste sottoposte a revisione, abbiamo
N
X   Xi
i 1
in cui, N e il numero degli insiemi di voci della popolazione.
Se si seleziona un campione casuale semplice e si stabilisce l’ammontare da
sottoporre a revisione in relazione alla somma complessiva delle singole voci che
costituiscono il campione, si ottiene uno stimatore corretto di X “espandendo” il
campione da sottoporre a revisione per il reciproco della frazione di
campionamento.
N
Xˆ 
n
n
x
i
Nx
i 1
in cui xi indica l’ammontare di revisione dell’i-esima voce campionata e x ,la
media campionaria delle voci sottoposte a revisione
(questo stimatore viene anche detto mean-per-unit)
III -
24
Varianza e scarto dello stimatore per espansione
Sulla base dei risultati già noti per la media aritmetica campionaria, e tenendo
presente che il totale della popolazione è pari a N volte la media della
popolazione stessa, si possono ottenere la varianza e lo scarto dello stimatore
per espansione, nonché le loro stime.
Se il campionamento è con reintroduzione si avrà quindi:
2
N2 2
2
2
ˆ
V ( X )  V ( N  x )  N V ( x )  N


n
n
Ovviamente, il valore di σ non è quasi mai noto, per cui va stimato tramite
s. Si ottiene così la stima della varianza dello stimatore per espansione:
ˆ2 N 2 2
2
2 s
ˆ
V ( X )  N V ( x )  N

sˆ
n
n
direttamente ottenibile dai valori campionari
III -
25
Se invece si fa riferimento al campionamento in blocco entra in gioco anche il
fattore di riduzione della varianza, e si avrà pertanto
V ( Xˆ )  N V ( x )  N
2
2
2 N n
n N 1
N
2
2
n
(1  f ) 
1 f 2 2
N
n
dove f=n/N è il tasso di sondaggio,
mentre la quantità 1 - f va sotto il nome di fattore correttivo per popolazione finita
Anche in questo caso, essendo σ2 generalmente ignota, si potrà fare ricorso allo
stimatore corretto della varianza s2, per cui avremo:
2
2
ˆ
ˆ
s
N

n
s
1 f 2 2
2
V ( Xˆ )  N V ( x )  N
N
(1  f ) 
N sˆ
n N 1
n
n
2
2
Sulla base della varianza dello stimatore potremo costruire gli intervalli di confidenza
per la stima:
s N n
s N  n 

Pr  Nx  z /2 N
 X  Nx  z /2 N
  1 
N
N 
n
n

III -
26
Supponiamo di avere osservato un campione di 20 crediti verso clienti della
società ALFA, estratto da una popolazione di 1000 documenti
Cliente
Crediti €
Cliente
Crediti €
Cliente 1
85.27
Cliente 11
263.62
Cliente 2
303.42
Cliente 12
680.00
Cliente 3
290.00
Cliente 13
41.79
Cliente 4
491.15
Cliente 14
442.15
Cliente 5
237.92
Cliente 15
590.00
Cliente 6
234.15
Cliente 16
605.00
Cliente 7
269.30
Cliente 17
244.32
Cliente 8
76.89
Cliente 18
650.00
Cliente 9
258.61
Cliente 19
450.00
Cliente 10
333.24
Cliente 20
499.42
Abbiamo quindi: N=1000 e n=20
Sulla base dei dati campionari si ottiene:
x  352.31
s  190.20
Xˆ  Nx  1000  352.31  352312.50
da cui possiamo calcolare gli estremi
dell’intervallo di confidenza:

190.20 1000  20
190.20 1000  20 
;1000  352.31  z /21000
1000  352.31  z /21000

1000
1000
20
20


Ponendo ad esempio 1-α=95% avremo:
352310 1.96 1000  42.53  0.9899;352310 1.96 1000  42.53  0.9899 269789;434831
Se il totale del conto crediti verso clienti iscritto a bilancio fosse, ad esempio,
382101.40 potremo ritenere accettabile tale valore.
III -
27
Anche nel caso della stima di un totale, l’ampiezza dell’intervallo di confidenza,
e quindi la precisione della stima dipende da:
N, n, α, C
 ε




numerosità della popolazione
numerosità campionaria
livello di confidenza
piano di campionamento
Nell’esempio precedente si ottiene un intervallo di confidenza molto ampio, per
avere una stima più precisa si potrà quindi agire sul livello di confidenza oppure
sulla dimensione campionaria
La domanda è quindi: quanti documenti debbo revisionare per avere una
determinata precisione con un certo livello di confidenza?
Ancora una volta si tratta di risolvere la
disequazione precedente rispetto ad n
Avremo:
z2 /2 2 N
n
 N  1  2  z 2  2
 /2
N2
N, ε, α, C
 n
Nell’esempio precedente, se avessimo ricercato
una precisione, e quindi un errore, non superiore
ai 10000€:
1.962 190.202 1000
n
 581.79  582
1000  1 100002  1.962 190.202
10002
III -
28
x
revisione
y
registrati
Cliente 1
85.27
85.27
Cliente 2
303.42
303.42
Cliente 3
290.00
290.00
Cliente 4
491.15
491.15
Cliente 5
237.92
237.92
Cliente 6
234.15
234.15
Cliente 7
269.30
269.30
Cliente 8
76.89
76.89
Cliente 9
258.61
258.61
Cliente 10
333.24
333.24
Cliente 11
263.62
263.62
Cliente 12
680.00
680.00
Cliente 13
41.79
41.79
Cliente 14
442.15
244.15
Cliente 15
590.00
590.00
Cliente 16
605.00
60.50
Cliente 17
244.32
244.32
Cliente 18
650.00
650.00
Cliente 19
450.00
450.00
Cliente 20
499.42
499.42
352.31
315.19
MEDIA
Totale complessivo Y
x-y
Se durante la fase di revisione
confrontiamo il valore revisionato e
quello effettivamente registrato nelle
scritture contabili e che conduce al dato
riportato in bilancio, possiamo utilizzare
questa informazione per ottenere uno
stimatore che tenga conto della
differenza tra queste due quantità.
Più in generale è possibile fare ricorso a
stimatori che tengano conto del dato
riportato a bilancio come variabile
ausiliaria.
198.00
544.50
Questi stimatori sono:
 stimatore per differenza
 stimatore rapporto
382101.40
III -
29
Campionamento stratificato
Il bilancio da sottoporre alle procedure di revisione è generalmente un
aggregato di conti individuali di dimensioni piuttosto diverse.
Spesso l’insieme delle voci da sottoporre a verifica è vasto e complesso
e le distruzioni dei dati contabili risultano fortemente asimmetriche.
In queste situazioni può risultare utile il ricorso a procedure di
stratificazione campionaria.
La “Stratificazione” è il processo attraverso il quale una popolazione
viene suddivisa in sotto popolazioni, ciascuna delle quali rappresenta un
gruppo di unità di campionamento con caratteristiche analoghe (spesso
valori monetari).
Documento n°530
III -
30
L’efficacia del lavoro di revisione può essere migliorata se il revisore
stratifica la popolazione suddividendola in sotto popolazioni aventi
specifiche caratteristiche .
Alcune delle condizioni che rendono vantaggiosa la stratificazione sono:
 la popolazione oggetto di studio può essere ripartita in gruppi, in modo
che ciascun gruppo sia relativamente omogeneo al suo interno e
diverso dagli altri gruppi;
 i campioni vengono estratti in modo indipendente da ciascuno strato;
in tal modo si possono applicare i risultati teorici del campionamento
da una popolazione di unità elementari di dimensione N al
campionamento da ogni strato di dimensione Nk;
 se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli
convenientemente nel campione;
 la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non
è disponibile una lista unica delle unità elementari, ma esistono liste
separate per ogni sotto-polazione.
III -
31
Con la stratificazione si possono perseguire due obiettivi alternativi
tra loro:
 ridurre la variabilità delle voci all’interno di ciascuno strato e quindi
di consentire che la dimensione del campione sia ridotta senza un
incremento proporzionale del rischio di campionamento;
 il miglioramento della precisione degli stimatori dei parametri della
popolazione rispetto al campionamento dall’intera popolazione di
unità elementari, sfruttando la possibilità di campionare
separatamente all’interno di diverse sottopopolazioni, e quindi
meglio rappresentando la popolazione stessa.
III -
32
Data quindi una popolazione di N unità, questa viene suddivisa in H
sotto-popolazioni (gli strati), dove l’ì-esima sotto-popolazione è
composta da Ni unità (con i=1,…,H).
Queste sotto-popolazioni non debbono “sovrapporsi”, in modo tale che:
N1+N2+…+NH=N
Verrà quindi estratto un campione di dimensione ni (sempre con
i=1,…,H) da ogni strato, per cui avremo:
n1+n2+…+nH=n
La stima del parametro, o dei parametri, può quindi essere effettuata
all’interno di ciascuno strato; si potrà poi ottenere una stima relativa
all’intera popolazione “mettendo insieme” le varie stime ottenute, per
esempio facendone la somma (stima del totale) o la media ponderata
(stima di medie o frequenze).
III -
33
Data la popolazione stratificata:
Strato
Elementi
Numer. Media Varianza
1
Y11
Y1i
Y1N1
N1
Y1
2
Y21
Y2i
Y2 N2
N2
Y2
 12
 22
h
Yh1
Yhi
YhNh
Nh
Yh
 h2
H
YH 1
YHi
YHN H
NH
YH
 H2
1
Yh 
Nh
Nh
Y
hi
2
1 Nh
 
Y

Y


 hi h
N h  1 i 1
1
yh 
nh
nh
hj
1 nh
2
s 
 yhj  yh 

nh  1 j 1
i 1
2
h
ed il corrispondente campione stratificato:
Strato
Elementi
Numer. Media Varianza
1
y11
y1i
y1N1
n1
y1
s12
2
y21
y2 i
y2 N 2
n2
y2
s22
h
yh1
yhi
yhNh
nh
yh
sh2
H
yH 1
yHi
yHN H
nH
yH
sH2
y
j 1
2
h
III -
34
Da ciascuno strato della popolazione viene estratto, solitamente, un
CCS senza ripetizione. Il numero di campioni che compongono
l’universo corrispondente è:
 N1  N 2 
 NH 
...
  


 n1  n2 
 nH 
La probabilità di inclusione di una generica unità uhj (h=strato, j=unità)
è pari alla frazione di campionamento del corrispondente strato:
πhj=nh/Nh
La probabilità di inclusione di secondo ordine differisce a seconda che le due unità
appartengano o meno al medesimo strato. Se lo strato è comune si ha
hj, hl = nh (nh –1) / Nh (Nh.- 1)
Se invece si considerano due individui di strati diversi, le due estrazioni vanno
considerate indipendenti, dunque si moltiplicano tra loro le singole prob. di inclusione
hj, kl = nh nk / Nh Nk
III -
35
Stima della media della popolazione
Se siamo interessati alla stima della
media del carattere nella popolazione,
Lo stimatore
1
yst 
N
H
N
h 1
1
Y 
N
H
Nh
1
Y

hi

N
h 1 i 1
H
N Y
h h
h 1
H
h
yh   Wh yh
h 1
dove Wh=Nh/N rappresenta la quota di popolazione appartenente allo strato h,
costituisce uno stimatore corretto della media della popolazione. Questo risultato
consegue dal fatto che le medie campionarie di strato sono stimatori corretti
delle medie di strato.
1 H
yst è diverso dalla media campionaria y   nh yh coincidono solamente quando si ha una
n h 1
allocazione proporzionale delle unità del
campione nh/n=Nh/N
Se indichiamo con fh=nh/Nh la frazione di campionamento nello strato h, lo stimatore
potrà essere scritto come:
N-1Σh Σjyhj/fh
dove ciascuna osservazione del campione è ponderata mediante il reciproco della
probabilità di inclusione (del primo ordine).
III -
36
La varianza dello stimatore sarà:
 h2 H 2
 h2
1
 Nh 
V ( yst )   
1

f

W
1

f





h
h
h


nh h 1
nh N 2
h 1  N 
H
2
H
 N N
h
h 1
Nel caso di allocazione proporzionale (f = fh)
l'espressione della varianza si semplifica:
h
 nh 
 h2
nh
1 f
V ( yst ) 
n
H
W
2
h
h 1
 h2
nh
L'espressione della varianza dello stimatore dipende dalle varianze di strato, che sono
generalmente incognite. Possiamo, tuttavia, applicare i risultati del CCS, per cui:
1 nh
2
s 
 yhj  yh 

nh  1 j 1
2
h
è uno stimatore corretto di σ2.
Sostituendo nell’espressione precedente si ottiene una stima della varianza dello
stimatore che può essere utilizzata per costruire intervalli di confidenza per la media
della popolazione.
III -
37
Stima del totale della popolazione
La stima Ŷ del totale Y si ottiene sommando tra loro le stime dei totali di strato.
Poiché all’interno dello strato si applica un CCS senza ripetizione, si può usare lo
stimatore per espansione.
Infatti dall’espressione dello stimatore di Horvitz-Thompson,
e ricordando che la probabilità di inclusione del primo ordine
è πhj=nh/Nh avremo:
n
n
yi
y
ˆ
 i
HT TY  
i 1 n / N
i 1  i
H nh
H
yhj
ˆ
Yst  
  Nh yh
h 1 j 1 nh N h
h 1
con varianza:
1  fh 2
V (Yˆst )   N h2
h
nh
h 1
H
che nel caso di allocazione
ˆst )  N 2 1  f
V
(
Y
proporziona diventa:
n
H
W 
h
2
h
h 1
Anche in questo caso potremo utilizzare la varianza campionaria corretta sh2 per il
calcolo degli intervalli di confidenza
III -
38
Stima di una proporzione della popolazione
Come già sottolineato, la stima di una proporzione può essere trattata in
maniera del tutto analoga alla stima della media, per cui avremo che:
H
H
Nh
pˆ st  yst  
pˆ h   Wh pˆ h
h 1 N
h 1
con varianza:
H
V ( pˆ st )   Wh
h 1
pˆ 1  pˆ h 
1  fh
nh h
nh
 nh  1
che nel caso di allocazione proporziona e
assumendo che Nh/(Nh-1) = 1 diventa:
1 f
V ( pˆ st ) 
n
H
W P (1  P )
h 1
h h
h
III -
39
tipi di stratificazione - allocazione del campione tra gli strati
Una caratteristica fondamentale della stratificazione è che il campione può
essere organizzato in maniera del tutto indipendente da uno strato all’altro.
In linea di principio si può quindi pensare di utilizzare strategie diverse negli
strati (pensati come popolazioni a se stanti), più efficienti in rapporto alla
struttura della parte di popolazione contenuta negli stessi.
Questo può consentire di avere strati di numerosità diversa, in particolare è
possibile distinguere tre principali metodologie di allocazione delle unità negli
strati:
- allocazione di tipo proporzionale;
- allocazione di tipo ottimale
- allocazione non proporzionale
III -
40
L’allocazione proporzionale:
•
riproduce la stessa composizione della popolazione in termini di
dimensione degli strati
•
ogni unità ha probabilità di inclusione nel campione uguale infatti
fh=nh/Nh=n/N per ogni strato
•
la numerosità del campione negli strati si calcola considerando
Nh=nWh
dove Wh=Nh/N
il campione derivante dall’allocazione di tipo proporzionale è
autoponderante.
Questa caratteristica fa si che le procedure di stima dei parametri
possano prescindere dalla procedura di selezione del campione
utilizzata.
III -
41
L’allocazione ottimale:
•
privilegia gli strati che presentano una maggior variabilità per il
fenomeno di interesse
•
sono necessarie per la determinazione dell’allocazione ottimale le
informazioni relative alla variabilità delle osservazioni negli strati della
popolazione
•
la frazione di campionamento è in questo caso variabile e dipende
direttamente dalla variabilità
nh  n 
Wh Sh
H
W S
i 1
h
h
dove Wh=Nh/N e Sh è la deviazione standard del fenomeno nello strato
non essendo il campione autoponderante la stima dei parametri di interesse
deve essere basata su uno schema di ponderazione i cui pesi possono
essere ottenuti partendo dalle probabilità di inclusione.
III -
42
Strati
Nh
fino a 500 €
36140
0.4044
8.3
3.36
6713.56
241
501-2000 €
25860
0.2894
9.6
2.78
5556.31
199
2001-5000 €
20400
0.2283
10.1
2.31
4611.46
165
6600
0.0739
218
16.10
32202.33
1154
300
0.0034
703.2
2.36
4721.58
169
60
0.0007
1506.9
1.01
2023.59
72
89360
1.0000
27.91
55828.83
2000
5001-25000 €
25000-100mila €
Oltre 100mila €
nh  n 
Wh
Sh
WhSh
n*Wh*Sh
nh
Wh Sh
H
Wh Sh
allocazione ottima di Neyman-Tschuprow
i 1
Wh=Nh/N
III -
43
L’allocazione non proporzionale:
Si usa quando si decide di sovrarappresentare alcuni strati (e quindi di
sottorappresentarne altri). Tipicamente, gli strati sovrarappresentati sono
quelli meno numerosi.
Il campione, quindi, non riproduce la composizione della popolazione, e,
nelle analisi andrà dunque effettuata una operazione di riponderazione.
 In generale il campionamento stratificato con allocazione proporzionale è più
efficiente del campionamento semplice e il campionamento stratificato con
allocazione ottima è più efficiente di quello con allocazione proporzionale.
 Se le varianze di strato sono uguali il campionamento stratificato con
allocazione ottima è del tutto simile al campionamento stratificato con
allocazione proporzionale
 Se le medie di strato sono tutte uguali il campionamento stratificato con
allocazione proporzionale è del tutto simile al campionamento semplice
III -
44
Definizione del criterio di stratificazione
La scelta della variabile di stratificazione rappresenta una aspetto di particolare
importanza, infatti quando l’obiettivo della stratificazione è quello
dell'efficienza degli stimatori, gli strati dovranno essere formati in modo da
risultare più omogenei possibile al loro interno rispetto alla variabile di studio.
Nel caso specifico dell’auditing, in cui si ha spesso a che fare con variabili
fortemente asimmetriche, occorre che il processo di stratificazione consenta di
avere un campione che tenga conto di questa caratteristica e che dia il giusto
peso sia alle voci di scarsa entità che a quelle più rilevanti
III -
45
Metodo della Cumulative Root Frequency
1. ordinare la variabile di stratificazione X in ordine crescente
2. raggruppare x in un certo numero j di “strati di prova” di uguale ampiezza,
ad esempio si considerino (max-min)/50 per creare una ripartizione iniziale
con 50 gruppi
3. si calcoli la frequenza relativa per ogni gruppo fi (i=1,…,j)
4. si calcoli la radice quadrata della frequenza per ogni gruppo
5. si costruisca la cumulata delle radici delle frequenze
J

i 1
fi
6. determinare la quantità Q dividendo la somma delle radici degli scarti per il
J
numero L di strati da creare Q  1  fi
L
i 1
7. prendere il limite superiore di ogni gruppo in cui ricadono i valori Q,2Q,…,LQ
III -
46
Metodo geometrico
1. ordinare la variabile di stratificazione X in ordine crescente
2. prendere il valore minimo come primo termine, e il valore massimo
come ultimo termine di una serie geometrica con L+1 termini, dove L
rappresenta il numero di strati da definire
3. calcolare il common ratio: r = (max/min)1/L
4. prendere come limite di ogni strato il valore di X corrispondente ai
termini della progressione geometrica
Minimum k0= a, ar, ar2 ….. arL = maximum kL
III -
47
Cumulative Root Frequency
Σ(fi)½=770.1, L=6
Q=770.1/6=128.4
2Q=128.4*2=256.8
3Q=128.4*3=385.2
4Q=128.4*4=513.6
5Q=128.4*5=642.0
6Q=128.4*6=770.4
limite
146.5
240.6
401.0
516.3
638.9
770.1
Metodo geometrico
r = (max/min)1/L
r = (10000/100)1/6=2.154
L
In questo esempio si è deciso di non sottoporre a
revisione i documenti di importo inferiore ai 100$,
mentre vengono analizzati tutti quelli di importo
superiore ai 10000$.
limiti
0
k0=100*2.1540
100.0
1
k1=100*2.1541
215.4
2
k2=100*2.1542
464.2
3
k3=100*2.1543
1000.0
4
k4=100*2.1544
2154.4
5
k5=100*2.1545
4641.6
6
k6=100*2.1546
10000.0
III -
48
numerosità campionaria complessiva nel campionamento stratificato
Anche nel caso della stratificazione si può determinare la numerosità
campionaria complessiva che garantisca errori prestabiliti, in modo analogo a
quanto visto per il campionamento casuale semplice.
La determinazione della numerosità campionaria complessiva viene effettuata
nell'ipotesi di campionamento stratificato proporzionale. L'allocazione negli
strati avviene successivamente, secondo il criterio scelto dal ricercatore.
Nel caso della stima di una media, essendo:
2
N n 2
1 H
2
  
V ( yst ) 
s
s   N h sh2
V ( y)  

Nn
N h 1
 z /2 
avremo:
1
   2

   2

N


 



1
1
z
z

/2

/2




n
   H
 
2
 s

N
N
2
N
s


  h h

h 1




N n 2   
s 

Nn
 z /2 
2
1
III -
49
Per la stima di un totale, tenendo conto della varianza dello stimatore stratificato,
si avrà:
1
   2

   2



 



1
1
z
z

/2

/2




n
   H
 
2
2
 N s

N
N
2
N
N
s


  h h

h 1




1
III -
50
Dovendo verificare l’importo medio di 3300 fatture di acquisto, sono state
stratificate per classi di importo, determinare la numerosità campionaria
complessiva, fissando per la stima un errore di 25€ con livello di confidenza al
95%
H
s   N h sh2
2
Gruppo
classi di importo
Nh
sh
h 1
550
222.6632
550*222.662=
27268396
1870
253.4102
120085279
2001-4000
650
315.0387
64512115
>4000
230
1189.098
325209496
1
0-900
2
901-2000
3
4
3300
1
537075286
1
2
   2



25 

N

 3300 

1


1
1
3300

162.6926
1
z
1.96



/2
   

 
 
n   H


 




N
537075286 3300
3300 
2
 537075286
  N h sh





 h 1

1
1
 536885.7


 0.000303  
 767.65  768
0.001  0.000303
 537075286

III -
51
Un campione casuale semplice, ipotizzando un valore di s complessivo pari a
1200€, con medesimo errore e livello di confidenza, avrebbe una numerosità:
s=1200
ε=25
1-α=.95
z2 /2 2 N
1.962 12002  3300
n

 2403.98  2404
2
2
2
2
2
2
( N  1)  z /2
 3300  1  25  1.96 1200
III -
52
Gruppo
classi di importo
Nh
(Nh/N)*n=ni
1
0-900
550
128.0
128
385.52
212036
2
901-2000
1870
435.2
435
523.44
978833
3
2001-4000
650
151.3
151
1086.33
706115
4
>4000
230
53.5
54
3541.76
814605
3300
my
768
Nh*my
2711588
Definita la numerosità campionaria complessiva, è possibile allocare le unità per
strato, ad esempio con il metodo dell’allocazione proporzionale.
Ipotizzando di avere osservato le medie my all’interno di ogni strato, la media
complessiva sarà:
1
yst 
N
H
 N h yh 
h 1
2711588
 821.69
3300
III -
53
Se invece l’obiettivo fosse la stima del totale, per determinare la numerosità
campionaria utilizzeremo:
1
1
   2

  75000 2

 

 



1
1
z
1.96

/2




 
n H
  

H


N
3300 
2
2
N
N
s
3300
N
s
h
h
h
h
 




h 1
h

1




con:
ε=75000
1-α=.95
1
 1, 464, 233, 653


 0.00030303   885.59  886
 3300  537, 075, 286

che potremo poi allocare proporzionalmente negli strati
Gruppo
classi di importo
Nh
1
0-900
550
147.67
148
2
901-2000
1870
502.07
502
3
2001-4000
650
174.52
174
4
>4000
230
61.75
62
3300
(Nh/N)*n=nh
886
III -
54
Ipotizzando di avere osservato i seguenti valori in ciascuno strato, potremo
determinare l’intervallo di confidenza per la stima del totale:
Gruppo
classi di importo
Nh
1
0-900
550
148
385.52
212036
222.6632
8263.15
2
901-2000
1870
502
523.44
978832.8
253.4102
36389.48
3
2001-4000
650
174
1086.33
706114.5
315.0387
19549.13
4
>4000
230
62
3541.76
814604.8
1189.098
98548.33
3300
886
nh
my
Nh*my
sh
2711588
Whsh2
162750.09
H
Yˆst   N h yh  2711588
h 1
1 f
V (Yˆst )  N 2
n
H
Wh h2  33002
h 1
1  886 / 3300 
162750.09  1463317992
886
 
Yˆst  z /2 V Yˆst  27111588  1.96 1463317992
2636612; 2786565
III -
55