Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella revisione contabile Dispensa 3 Argomenti: numerosità campionaria, stima del totale, campionamento stratificato Prof. Giorgio Tassinari a.a. 2011-12 III - 1 In molte situazioni in cui l’obiettivo del revisore è di formulare un’opinione sul valore monetario della popolazione, il valore contabile registrato dalla popolazione dovrà essere noto. L’obiettivo del revisore è spesso quello di verificare se il valore contabile registrato non sia materialmente errato. Ad esempio, supponiamo che il valore totale dei debiti sia di un milione di euro e che il revisore voglia essere ragionevolmente sicuro che il valore registrato in contabilità non sia errato per più di € 20.000. In una situazione di questo tipo, il classico approccio statistico è di fissare un test di ipotesi per discriminare tra due ipotesi alternative. Il revisore dovrà decidere se accettare: H0: ipotesi nulla: il valore contabile è corretto, H1: ipotesi alternativa: il valore contabile è errato per un certo ammontare. Durante le fasi della verifica, si può incorrere in errori nell’accettare o rifiutare le ipotesi formulate a causa di errati campionamenti, salvo che vengano esaminati tutti i valori contabili, ipotesi spesso improponibile. III - 2 Il rischio principale è quello di accettare come corretto un bilancio, che in realtà contiene degli errori materiali; questo tipo di errore si traduce nell’errore del secondo tipo o errore β C’è anche la possibilità di rigettare l’ipotesi nulla come falsa, quando questa è vera, in questo caso per il revisore si presenta il rischio di rigettare un bilancio corretto. Questo è definito come errore α. Valori contabili Corretto Errori per importi materiali H0 vera H0 falsa Il valore contabile è corretto (accetto H0) decisione corretta prob=1-α errore II tipo prob=β Il valore contabile è materialmente errato (respingo H0) errore I tipo prob=α decisione corretta prob=1-β Conclusioni del revisore III - 3 Il rischio β è di particolare rilevanza perché quando la revisione viene completata, il revisore richiede, con un livello di garanzie molto alto, che i conti siano materialmente corretti prima che il rapporto conclusivo venga firmato. Se l’unica fonte di questa certezza proviene dai test statistici e, nessun altro test di revisione e stato compiuto, allora viene richiesto un rischio β molto basso e conseguentemente campioni molto grandi. Tuttavia nella pratica vengono normalmente messe in essere numerose procedure di revisione da utilizzare in aggiunta ai test statistici, ed ognuna di queste ha l’obiettivo di verificare che non ci siano errori materiali nei conti. In particolare ci sono due aspetti che possono influenzare la scelta del livello di β: 1. il controllo interno: quando c’è un buon sistema di controllo interno, il rischio che si verifichi un errore materiale è ridotto, pertanto è ragionevole fissare β ad un livello più alto. Il revisore deve esaminare il sistema di controllo interno e verificarne l’efficacia, perché esiste comunque la possibilità che il suo funzionamento sia influenzato dalle scelte del management, ed il revisore deve tenerne conto. 2. altre procedure di revisione: il revisore utilizzerà trend e rapporti e forse anche altre tipologie di test di revisione nella stessa area in cui sono stati impiegati i test statistici proposti. III - 4 Per trovare valori ragionevoli di β, si possono quindi considerare i seguenti fattori: OE = il verificarsi di errori materiali, FIC = l’incapacità del controllo interno nel prevenire l’errore materiale, F0 = l’insuccesso delle altre procedure di revisione nello scoprire l’errore materiale, Fss = l’insuccesso delle procedure di revisione statistiche nello scoprire l’errore materiale. Sulla base di questi aspetti la probabilità di incorrere nel rischio complessivo di revisione è data dalle seguente relazione: P(x)=P[OE ∩ (FIC ∩ F0 ∩ Fss] Pertanto β (definito come il rischio dell’insuccesso nello scoprire un errore materiale nei conti) può essere definito dalla seguente notazione: β = P[Fss | OE ∩ FIC ∩ F0]. III - 5 È quindi possibile giungere ad una scelta di β facendo alcune assunzioni e formulando valutazioni sui controlli interni e le altre procedure di revisione. OE la probabilità che si verifichi un errore materiale è, prudenzialmente, uguale ad 1. FIC la probabilità che il controllo interno non riesca a scoprire un errore materiale varia da 1 (quando non esistente alcun controllo interno) ad un valore molto piccolo, come 0.1 (per un controllo interno eccellente). Prudenzialmente, si assume che il controllo interno lavori al meglio solo al 90% della sua efficacia. F0 la probabilità di insuccesso delle altre procedure di revisione nello scoprire un errore materiale varia da 1 (se non ci sono altre procedure) ad un valore piccolo, come 0.1 (per un’alta efficacia della procedura). Prudenzialmente, si assume una efficacia massima del 90% III - 6 Per quanto riguarda la valutazione del controllo interno e per l’efficacia delle altre procedure di revisione si possono assumere arbitrariamente 5 livelli di valutazione. È pertanto possibile stimare valori per β sotto varie condizioni. Rilevanza assegnata al controllo interno. Se esiste un significativo rischio che il management possa influenzare i controlli, con conseguenze sull’area da esaminare, si registra 0. Altrimenti, si valuta il controllo interno con conseguenze sull’area da esaminare. Se i controlli sono: Si assegna il punteggio: Eccellenti Buoni Equi Scarsi Inesistenti 4 3 2 1 0 Rilevanza assegnata alle altre procedure di revisione. Valutare le altre procedure che potrebbero scoprire errori materiali dello stesso tipo di quelli rilevabili nei test statistici. Per ogni test addizionale con significativa efficacia, assegnare 2 punti e per ogni test addizionale con moderata efficacia, assegnare 1 punto. Si registra il totale, che non deve eccedere i 4 punti. Se il totale è di Utilizzare come β 0 1 2 3 4 6-8 0.05 0.10 0.15 0.30 0.50 0.50 x y x+y Negli ultimi due casi il revisore potrebbe decidere di omettere i test statistici III - 7 La dimensione del campione Quanto deve essere grande il campione per fornire risultati attendibili? Risparmio di risorse Determinare l’ampiezza più piccola che soddisfa i requisiti di precisione delle stime stabiliti a priori fissare il margine di errore che si è disposti a tollerare la probabilità che la stima si collochi all’interno di tale margine d’errore III - 8 In generale, indicati con: N, α, ε, C n N : α : ε : n : C : la numerosità della popolazione la probabilità di errore l’errore che si è disposti a commettere la dimensione del campione il piano di campionamento Definiti la dimensione della popolazione, il piano di campionamento, l’errore e grado di fiducia che l’accompagna, sarà possibile determinare la dimensione del campione Può però accadere che, sulla base di vincoli di costo, siano dati, oltre alla dimensione della popolazione, il piano di campionamento e la numerosità del campione: in questo caso si potranno calcolare gli errori massimi corrispondenti a diversi gradi di fiducia N, n, α , C ε III - 9 Se il parametro oggetto di inferenza è la media campionaria, per determinare la dimensione del campione, dovremo fare riferimento alla sua distribuzione: X 2 N , n X 2 N n N , n N 1 campionamento con ripetizione campionamento senza ripetizione Sulla base di questa distribuzione è stato possibile definire gli intervalli di confidenza X z /2 V ( X ) L’errore che si commette nella stima e che si vuole non superi una certa soglia è quindi dato da: z /2 V ( X ) z /2 V (X ) V (X ) 2 z2 /2 III - 10 Date le relazioni: V (X ) V (X ) 2 n 2 campionamento con ripetizione 2 z /2 2 N n n N 1 2 2 z /2 campionamento senza ripetizione risolvendo rispetto ad n avremo: 2 n z /2 2 campionamento con ripetizione z2 /2 2 N n ( N 1) 2 z2 /2 2 campionamento senza ripetizione 2 III - 11 Noto il valore di N e fissati ε e zα/22 per risolvere le equazioni è necessario precisare un valore per la varianza σ2, di solito a sua volta non conosciuta Per determinare σ2 si può utilizzare: » una sua stima ottenuta attraverso altre indagini svolte in passato o su popolazioni simili » una stima della varianza ottenuta nella fase di pre-test del questionario » una stima desunta sfruttando una relazione nota tra lo scarto quadratico CV medio σ e il campo di variazione CV (range), in base alla quale: 2 da cui si deriva che: 2 CV 2 4 III - 12 Ipotizziamo di avere una popolazione di 5000 fatture di acquisto i cui importi variano da un minimo di 10€ ad un massimo di 10000€. Determinare la dimensione del campione da analizzare per stimare, con un livello di confidenza del 95%, l’importo medio delle fatture con un errore massimo di 500€ N=5000 CV=10000-10=9990 σ2≈99902/4=24950025 zα/2=1.96 ε=500 z2 /2 2 N 1.962 24950025 5000 n 356.15 357 ( N 1) 2 z2 /2 2 5000 1 5002 1.962 24950025 Se ε=250, a parità delle altre condizioni, avremo n=1174 III - 13 Se l’oggetto di indagine è la proporzione campionaria, in maniera del tutto analoga a quanto visto per la media campionaria, si dovrà tenere in considerazione la sua distribuzione ed in particolare la media e la varianza: se P è lo stimatore corretto per π, proporzione incognita nella popolazione, abbiamo: E ( P) (1 ) V ( P) n (1 ) N n V ( P) n N 1 campionamento con ripetizione campionamento senza ripetizione p Possiamo quindi definire , z distribuita approssimativamente come una V ( P) Normale standardizzata. Fissati quindi l’errore ε ed il grado di fiducia 1-α avremo: Pr p Pr z 1 V ( P ) V ( P) z /2 da cui si ricava, nel caso del campionamento senza ripetizione: V ( P) (1 ) N n n N 1 2 z2 /2 z2 /2 N n ( N 1) 2 z2 /2 (1 ) III - 14 Come si può notare, l’ampiezza campionaria dipende dal parametro π da stimare. Anche in questo caso è possibile utilizzare i risultati di indagini preliminari o altre conoscenze a priori, tuttavia una soluzione consiste nell’ipotizzare la situazione di massima variabilità. È il caso in cui π = 0.5, per cui π (1- π )=0.25. L’equazione precedente diventa quindi: z2 /2 N n 4( N 1) 2 z2 /2 III - 15 Nella tabella che segue sono riportate le numerosità campionarie in corrispondenza di diversi valori del margine d’errore (1,2,3,5,10), della proporzione p (0.5 e 0.15) e livelli di confidenza (95% e 99%). Se ad esempio abbiamo una popolazione di 10000 documenti e vogliamo un margine di errore del 3%, con livello di confidenza del 95% e fissiamo p=0.5, dovremo estrarre un campione di 964 documenti. È da notare che se poniamo p=0.15, l’ampiezza del campione diventa n=517. III - 16 Ipotizziamo di avere una popolazione composta da 10000 fatture di acquisto. Se vogliamo avere una stima con un margine di errore del 2%, con livello di confidenza del 95%, ed ipotizziamo che nella popolazione la percentuale di errore sia del 5%, quale dovrà essere l’ampiezza del campione? z2 /2 N 1.962 10000 38416 38416 n 437 2 3.996 ( N 1) 2 (10000 1) 0.02 3.8416 88.0437 z2 /2 1.962 0.0475 (1 ) 0.05 (1 0.05) Se, per motivi di costo, si dovessero ispezionare solamente 250 documenti, quale sarebbe la precisione che dobbiamo attenderci, sempre con livello di confidenza del 95%? p z /2 z /2 p (1 p ) N n , p z /2 n N 1 p (1 p ) N n n N 1 p(1 p) N n 0.05 (1 0.05) 10000 250 1.96 1.96 0.0136 0.027 n N 1 250 10000 1 L’errore potrà essere del 2.7% III - 17 Determinazione della numerosità campionaria nel test di ipotesi Quando viene fissata una ipotesi, ed assieme ad essa i valori di probabilità associati agli errori di I e II specie, si deve determinare la numerosità minima del campione sufficiente a garantire i livelli di probabilità desiderati. Nel caso di test unilaterali, se indichiamo con K il valore discriminante che divide la regione di accettazione da quella di rifiuto, K può essere espresso in termini di z sia per l'ipotesi nulla che per quella alternativa, secondo le espressioni: z1 K 0 z K 1 n n la soluzione del sistema composto da queste due equazioni consente di determinare la numerosità campionaria n: z1 z n 1 0 Nel caso di test bilaterali avremo che la numerosità del campione sarà data da: z1 /2 z n 1 0 2 2 III - 18 Si consideri il caso in cui, in riferimento a una distribuzione normale, si voglia sottoporre a test l'ipotesi nulla H0 : μ = μ0 contro l'ipotesi alternativa H1 : μ = μ1 > μ0 al livello di significatività α = 0,05 e in modo tale che la potenza del test non sia inferiore a 0,90. Si ricorda che la potenza di un test (1-β) rappresenta la probabilità di non commettere un errore di II tipo. Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza x 0 1.645 n il vincolo sulla potenza impone il rispetto della relazione Pr X 0 1.645 0.90 n X 1 X 0 Pr 1.645 0.90 n n Essendo il valore di z che ha alla sua destra il 90% dei casi è -1.282, dovrà essere soddisfatta l’uguaglianza: 2 Per μ0= 100 , μ1= 110 e σ2=400 si avrà 1.645 1.282 0 1 1.645 1.282 n 0 1 n 1.645 1.282 20 58.54 n 34.27 100 110 10 2 2 III - 19 sia fissata l'ipotesi: H 0 : 0 130 H1 : 1 140 con s=16 ed inoltre siano dati α=0.05 e β=0.20, determinare la numerosità n del campione. Avremo quindi: z1 1. 645 z 0. 8416 ( z1 z )2 (1. 645 0. 8416)2 6. 20 (6. 20)(16)2 (6. 20)(256) n 15. 87 16 2 (140 130) 100 Se invece s=60 avremo: (6.20)(60)2 (6.20)(3600) n 222.59 223 (140 130)2 100 III - 20 stima del totale Sia TX l’ammontare totale di un carattere X nella popolazione di riferimento. Esso può essere considerato alla stregua di un parametro da stimare, al pari della media (valore atteso), della varianza, della frequenza ecc. Qualunque sia il piano di campionamento prescelto, casuale semplice, probabilizzato o complesso, esistono formule generali che forniscono stimatori corretti del totale. In particolare, esistono due famiglie di stimatori corretti, la prima riferita a un campionamento con reintroduzione, la seconda a un campionamento senza reintroduzione (in blocco). III - 21 Se il campionamento è effettuato con reintroduzione, la stessa unità statistica può venire inclusa più volte nel campione, e le osservazioni sono indipendenti e la loro probabilità di estrazione rimane costante. Se indichiamo con pi la probabilità di estrazione dell’iesima unità del campione, definiamo lo stimatore corretto del totale di Hansen Hurwitz: La probabilità di estrazione è la probabilità che l'unità λ-esima della popolazione venga estratta come unità i-esima del campione e viene indicata con pλ(i). 1 n xi ˆ HH TX n i 1 pi Se invece il campionamento è effettuato senza reintroduzione, la stessa unità statistica può venire inclusa una volta sola nel campione, e le osservazioni sono allora correlate. Se indichiamo con πi la probabilità di inclusione dell’i-esima unità del campione, definiamo lo stimatore corretto del totale di Horvitz Thompson: n HT x TˆX i i 1 i La probabilità di inclusione è la probabilità che singoli elementi, o gruppi di elementi, entrino a far parte del campione. Si definisce probabilità di inclusione di primo ordine di una unità λ, e si indica con πλ, la probabilità che il campione estratto contenga tale unità: πλ = P(λ s). πλλ’ = P({λ,λ’} s) è invece la probabilità di inclusione del secondo ordine, ovvero che il campione estratto contenga λ e λ’ III - 22 Quando il piano di campionamento è casuale semplice (con ripetizione o senza ripetizione), i due stimatori individuati vengono a coincidere e lo stimatore ottenuto, detto stimatore per espansione, è direttamente proporzionale alla media aritmetica campionaria. Se consideriamo il campionamento con reintroduzione la probabilità di estrazione è la stessa per tutte le unità della popolazione, ed è pari a 1/N. Ponendo dunque pi = 1/N nella formula dello stimatore di Hansen Hurwitz si ottiene: 1 n xi N ˆ HH TX n i 1 1/ N n n x i Nx i 1 Se invece consideriamo un CCS in blocco, la probabilità di inclusione di una qualunque unità statistica è pari alla frazione di campionamento n/N, pertanto, ponendo πi = n/N, lo stimatore di Horvitz Thompson diviene: n xi N n ˆ xi N x HT TX n / N n i 1 i 1 III - 23 In generale, se indichiamo con Xi l’ammontare della i-esima voce nella popolazione e con X il totale delle poste sottoposte a revisione, abbiamo N X Xi i 1 in cui, N e il numero degli insiemi di voci della popolazione. Se si seleziona un campione casuale semplice e si stabilisce l’ammontare da sottoporre a revisione in relazione alla somma complessiva delle singole voci che costituiscono il campione, si ottiene uno stimatore corretto di X “espandendo” il campione da sottoporre a revisione per il reciproco della frazione di campionamento. N Xˆ n n x i Nx i 1 in cui xi indica l’ammontare di revisione dell’i-esima voce campionata e x ,la media campionaria delle voci sottoposte a revisione (questo stimatore viene anche detto mean-per-unit) III - 24 Varianza e scarto dello stimatore per espansione Sulla base dei risultati già noti per la media aritmetica campionaria, e tenendo presente che il totale della popolazione è pari a N volte la media della popolazione stessa, si possono ottenere la varianza e lo scarto dello stimatore per espansione, nonché le loro stime. Se il campionamento è con reintroduzione si avrà quindi: 2 N2 2 2 2 ˆ V ( X ) V ( N x ) N V ( x ) N n n Ovviamente, il valore di σ non è quasi mai noto, per cui va stimato tramite s. Si ottiene così la stima della varianza dello stimatore per espansione: ˆ2 N 2 2 2 2 s ˆ V ( X ) N V ( x ) N sˆ n n direttamente ottenibile dai valori campionari III - 25 Se invece si fa riferimento al campionamento in blocco entra in gioco anche il fattore di riduzione della varianza, e si avrà pertanto V ( Xˆ ) N V ( x ) N 2 2 2 N n n N 1 N 2 2 n (1 f ) 1 f 2 2 N n dove f=n/N è il tasso di sondaggio, mentre la quantità 1 - f va sotto il nome di fattore correttivo per popolazione finita Anche in questo caso, essendo σ2 generalmente ignota, si potrà fare ricorso allo stimatore corretto della varianza s2, per cui avremo: 2 2 ˆ ˆ s N n s 1 f 2 2 2 V ( Xˆ ) N V ( x ) N N (1 f ) N sˆ n N 1 n n 2 2 Sulla base della varianza dello stimatore potremo costruire gli intervalli di confidenza per la stima: s N n s N n Pr Nx z /2 N X Nx z /2 N 1 N N n n III - 26 Supponiamo di avere osservato un campione di 20 crediti verso clienti della società ALFA, estratto da una popolazione di 1000 documenti Cliente Crediti € Cliente Crediti € Cliente 1 85.27 Cliente 11 263.62 Cliente 2 303.42 Cliente 12 680.00 Cliente 3 290.00 Cliente 13 41.79 Cliente 4 491.15 Cliente 14 442.15 Cliente 5 237.92 Cliente 15 590.00 Cliente 6 234.15 Cliente 16 605.00 Cliente 7 269.30 Cliente 17 244.32 Cliente 8 76.89 Cliente 18 650.00 Cliente 9 258.61 Cliente 19 450.00 Cliente 10 333.24 Cliente 20 499.42 Abbiamo quindi: N=1000 e n=20 Sulla base dei dati campionari si ottiene: x 352.31 s 190.20 Xˆ Nx 1000 352.31 352312.50 da cui possiamo calcolare gli estremi dell’intervallo di confidenza: 190.20 1000 20 190.20 1000 20 ;1000 352.31 z /21000 1000 352.31 z /21000 1000 1000 20 20 Ponendo ad esempio 1-α=95% avremo: 352310 1.96 1000 42.53 0.9899;352310 1.96 1000 42.53 0.9899 269789;434831 Se il totale del conto crediti verso clienti iscritto a bilancio fosse, ad esempio, 382101.40 potremo ritenere accettabile tale valore. III - 27 Anche nel caso della stima di un totale, l’ampiezza dell’intervallo di confidenza, e quindi la precisione della stima dipende da: N, n, α, C ε numerosità della popolazione numerosità campionaria livello di confidenza piano di campionamento Nell’esempio precedente si ottiene un intervallo di confidenza molto ampio, per avere una stima più precisa si potrà quindi agire sul livello di confidenza oppure sulla dimensione campionaria La domanda è quindi: quanti documenti debbo revisionare per avere una determinata precisione con un certo livello di confidenza? Ancora una volta si tratta di risolvere la disequazione precedente rispetto ad n Avremo: z2 /2 2 N n N 1 2 z 2 2 /2 N2 N, ε, α, C n Nell’esempio precedente, se avessimo ricercato una precisione, e quindi un errore, non superiore ai 10000€: 1.962 190.202 1000 n 581.79 582 1000 1 100002 1.962 190.202 10002 III - 28 x revisione y registrati Cliente 1 85.27 85.27 Cliente 2 303.42 303.42 Cliente 3 290.00 290.00 Cliente 4 491.15 491.15 Cliente 5 237.92 237.92 Cliente 6 234.15 234.15 Cliente 7 269.30 269.30 Cliente 8 76.89 76.89 Cliente 9 258.61 258.61 Cliente 10 333.24 333.24 Cliente 11 263.62 263.62 Cliente 12 680.00 680.00 Cliente 13 41.79 41.79 Cliente 14 442.15 244.15 Cliente 15 590.00 590.00 Cliente 16 605.00 60.50 Cliente 17 244.32 244.32 Cliente 18 650.00 650.00 Cliente 19 450.00 450.00 Cliente 20 499.42 499.42 352.31 315.19 MEDIA Totale complessivo Y x-y Se durante la fase di revisione confrontiamo il valore revisionato e quello effettivamente registrato nelle scritture contabili e che conduce al dato riportato in bilancio, possiamo utilizzare questa informazione per ottenere uno stimatore che tenga conto della differenza tra queste due quantità. Più in generale è possibile fare ricorso a stimatori che tengano conto del dato riportato a bilancio come variabile ausiliaria. 198.00 544.50 Questi stimatori sono: stimatore per differenza stimatore rapporto 382101.40 III - 29 Campionamento stratificato Il bilancio da sottoporre alle procedure di revisione è generalmente un aggregato di conti individuali di dimensioni piuttosto diverse. Spesso l’insieme delle voci da sottoporre a verifica è vasto e complesso e le distruzioni dei dati contabili risultano fortemente asimmetriche. In queste situazioni può risultare utile il ricorso a procedure di stratificazione campionaria. La “Stratificazione” è il processo attraverso il quale una popolazione viene suddivisa in sotto popolazioni, ciascuna delle quali rappresenta un gruppo di unità di campionamento con caratteristiche analoghe (spesso valori monetari). Documento n°530 III - 30 L’efficacia del lavoro di revisione può essere migliorata se il revisore stratifica la popolazione suddividendola in sotto popolazioni aventi specifiche caratteristiche . Alcune delle condizioni che rendono vantaggiosa la stratificazione sono: la popolazione oggetto di studio può essere ripartita in gruppi, in modo che ciascun gruppo sia relativamente omogeneo al suo interno e diverso dagli altri gruppi; i campioni vengono estratti in modo indipendente da ciascuno strato; in tal modo si possono applicare i risultati teorici del campionamento da una popolazione di unità elementari di dimensione N al campionamento da ogni strato di dimensione Nk; se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli convenientemente nel campione; la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non è disponibile una lista unica delle unità elementari, ma esistono liste separate per ogni sotto-polazione. III - 31 Con la stratificazione si possono perseguire due obiettivi alternativi tra loro: ridurre la variabilità delle voci all’interno di ciascuno strato e quindi di consentire che la dimensione del campione sia ridotta senza un incremento proporzionale del rischio di campionamento; il miglioramento della precisione degli stimatori dei parametri della popolazione rispetto al campionamento dall’intera popolazione di unità elementari, sfruttando la possibilità di campionare separatamente all’interno di diverse sottopopolazioni, e quindi meglio rappresentando la popolazione stessa. III - 32 Data quindi una popolazione di N unità, questa viene suddivisa in H sotto-popolazioni (gli strati), dove l’ì-esima sotto-popolazione è composta da Ni unità (con i=1,…,H). Queste sotto-popolazioni non debbono “sovrapporsi”, in modo tale che: N1+N2+…+NH=N Verrà quindi estratto un campione di dimensione ni (sempre con i=1,…,H) da ogni strato, per cui avremo: n1+n2+…+nH=n La stima del parametro, o dei parametri, può quindi essere effettuata all’interno di ciascuno strato; si potrà poi ottenere una stima relativa all’intera popolazione “mettendo insieme” le varie stime ottenute, per esempio facendone la somma (stima del totale) o la media ponderata (stima di medie o frequenze). III - 33 Data la popolazione stratificata: Strato Elementi Numer. Media Varianza 1 Y11 Y1i Y1N1 N1 Y1 2 Y21 Y2i Y2 N2 N2 Y2 12 22 h Yh1 Yhi YhNh Nh Yh h2 H YH 1 YHi YHN H NH YH H2 1 Yh Nh Nh Y hi 2 1 Nh Y Y hi h N h 1 i 1 1 yh nh nh hj 1 nh 2 s yhj yh nh 1 j 1 i 1 2 h ed il corrispondente campione stratificato: Strato Elementi Numer. Media Varianza 1 y11 y1i y1N1 n1 y1 s12 2 y21 y2 i y2 N 2 n2 y2 s22 h yh1 yhi yhNh nh yh sh2 H yH 1 yHi yHN H nH yH sH2 y j 1 2 h III - 34 Da ciascuno strato della popolazione viene estratto, solitamente, un CCS senza ripetizione. Il numero di campioni che compongono l’universo corrispondente è: N1 N 2 NH ... n1 n2 nH La probabilità di inclusione di una generica unità uhj (h=strato, j=unità) è pari alla frazione di campionamento del corrispondente strato: πhj=nh/Nh La probabilità di inclusione di secondo ordine differisce a seconda che le due unità appartengano o meno al medesimo strato. Se lo strato è comune si ha hj, hl = nh (nh –1) / Nh (Nh.- 1) Se invece si considerano due individui di strati diversi, le due estrazioni vanno considerate indipendenti, dunque si moltiplicano tra loro le singole prob. di inclusione hj, kl = nh nk / Nh Nk III - 35 Stima della media della popolazione Se siamo interessati alla stima della media del carattere nella popolazione, Lo stimatore 1 yst N H N h 1 1 Y N H Nh 1 Y hi N h 1 i 1 H N Y h h h 1 H h yh Wh yh h 1 dove Wh=Nh/N rappresenta la quota di popolazione appartenente allo strato h, costituisce uno stimatore corretto della media della popolazione. Questo risultato consegue dal fatto che le medie campionarie di strato sono stimatori corretti delle medie di strato. 1 H yst è diverso dalla media campionaria y nh yh coincidono solamente quando si ha una n h 1 allocazione proporzionale delle unità del campione nh/n=Nh/N Se indichiamo con fh=nh/Nh la frazione di campionamento nello strato h, lo stimatore potrà essere scritto come: N-1Σh Σjyhj/fh dove ciascuna osservazione del campione è ponderata mediante il reciproco della probabilità di inclusione (del primo ordine). III - 36 La varianza dello stimatore sarà: h2 H 2 h2 1 Nh V ( yst ) 1 f W 1 f h h h nh h 1 nh N 2 h 1 N H 2 H N N h h 1 Nel caso di allocazione proporzionale (f = fh) l'espressione della varianza si semplifica: h nh h2 nh 1 f V ( yst ) n H W 2 h h 1 h2 nh L'espressione della varianza dello stimatore dipende dalle varianze di strato, che sono generalmente incognite. Possiamo, tuttavia, applicare i risultati del CCS, per cui: 1 nh 2 s yhj yh nh 1 j 1 2 h è uno stimatore corretto di σ2. Sostituendo nell’espressione precedente si ottiene una stima della varianza dello stimatore che può essere utilizzata per costruire intervalli di confidenza per la media della popolazione. III - 37 Stima del totale della popolazione La stima Ŷ del totale Y si ottiene sommando tra loro le stime dei totali di strato. Poiché all’interno dello strato si applica un CCS senza ripetizione, si può usare lo stimatore per espansione. Infatti dall’espressione dello stimatore di Horvitz-Thompson, e ricordando che la probabilità di inclusione del primo ordine è πhj=nh/Nh avremo: n n yi y ˆ i HT TY i 1 n / N i 1 i H nh H yhj ˆ Yst Nh yh h 1 j 1 nh N h h 1 con varianza: 1 fh 2 V (Yˆst ) N h2 h nh h 1 H che nel caso di allocazione ˆst ) N 2 1 f V ( Y proporziona diventa: n H W h 2 h h 1 Anche in questo caso potremo utilizzare la varianza campionaria corretta sh2 per il calcolo degli intervalli di confidenza III - 38 Stima di una proporzione della popolazione Come già sottolineato, la stima di una proporzione può essere trattata in maniera del tutto analoga alla stima della media, per cui avremo che: H H Nh pˆ st yst pˆ h Wh pˆ h h 1 N h 1 con varianza: H V ( pˆ st ) Wh h 1 pˆ 1 pˆ h 1 fh nh h nh nh 1 che nel caso di allocazione proporziona e assumendo che Nh/(Nh-1) = 1 diventa: 1 f V ( pˆ st ) n H W P (1 P ) h 1 h h h III - 39 tipi di stratificazione - allocazione del campione tra gli strati Una caratteristica fondamentale della stratificazione è che il campione può essere organizzato in maniera del tutto indipendente da uno strato all’altro. In linea di principio si può quindi pensare di utilizzare strategie diverse negli strati (pensati come popolazioni a se stanti), più efficienti in rapporto alla struttura della parte di popolazione contenuta negli stessi. Questo può consentire di avere strati di numerosità diversa, in particolare è possibile distinguere tre principali metodologie di allocazione delle unità negli strati: - allocazione di tipo proporzionale; - allocazione di tipo ottimale - allocazione non proporzionale III - 40 L’allocazione proporzionale: • riproduce la stessa composizione della popolazione in termini di dimensione degli strati • ogni unità ha probabilità di inclusione nel campione uguale infatti fh=nh/Nh=n/N per ogni strato • la numerosità del campione negli strati si calcola considerando Nh=nWh dove Wh=Nh/N il campione derivante dall’allocazione di tipo proporzionale è autoponderante. Questa caratteristica fa si che le procedure di stima dei parametri possano prescindere dalla procedura di selezione del campione utilizzata. III - 41 L’allocazione ottimale: • privilegia gli strati che presentano una maggior variabilità per il fenomeno di interesse • sono necessarie per la determinazione dell’allocazione ottimale le informazioni relative alla variabilità delle osservazioni negli strati della popolazione • la frazione di campionamento è in questo caso variabile e dipende direttamente dalla variabilità nh n Wh Sh H W S i 1 h h dove Wh=Nh/N e Sh è la deviazione standard del fenomeno nello strato non essendo il campione autoponderante la stima dei parametri di interesse deve essere basata su uno schema di ponderazione i cui pesi possono essere ottenuti partendo dalle probabilità di inclusione. III - 42 Strati Nh fino a 500 € 36140 0.4044 8.3 3.36 6713.56 241 501-2000 € 25860 0.2894 9.6 2.78 5556.31 199 2001-5000 € 20400 0.2283 10.1 2.31 4611.46 165 6600 0.0739 218 16.10 32202.33 1154 300 0.0034 703.2 2.36 4721.58 169 60 0.0007 1506.9 1.01 2023.59 72 89360 1.0000 27.91 55828.83 2000 5001-25000 € 25000-100mila € Oltre 100mila € nh n Wh Sh WhSh n*Wh*Sh nh Wh Sh H Wh Sh allocazione ottima di Neyman-Tschuprow i 1 Wh=Nh/N III - 43 L’allocazione non proporzionale: Si usa quando si decide di sovrarappresentare alcuni strati (e quindi di sottorappresentarne altri). Tipicamente, gli strati sovrarappresentati sono quelli meno numerosi. Il campione, quindi, non riproduce la composizione della popolazione, e, nelle analisi andrà dunque effettuata una operazione di riponderazione. In generale il campionamento stratificato con allocazione proporzionale è più efficiente del campionamento semplice e il campionamento stratificato con allocazione ottima è più efficiente di quello con allocazione proporzionale. Se le varianze di strato sono uguali il campionamento stratificato con allocazione ottima è del tutto simile al campionamento stratificato con allocazione proporzionale Se le medie di strato sono tutte uguali il campionamento stratificato con allocazione proporzionale è del tutto simile al campionamento semplice III - 44 Definizione del criterio di stratificazione La scelta della variabile di stratificazione rappresenta una aspetto di particolare importanza, infatti quando l’obiettivo della stratificazione è quello dell'efficienza degli stimatori, gli strati dovranno essere formati in modo da risultare più omogenei possibile al loro interno rispetto alla variabile di studio. Nel caso specifico dell’auditing, in cui si ha spesso a che fare con variabili fortemente asimmetriche, occorre che il processo di stratificazione consenta di avere un campione che tenga conto di questa caratteristica e che dia il giusto peso sia alle voci di scarsa entità che a quelle più rilevanti III - 45 Metodo della Cumulative Root Frequency 1. ordinare la variabile di stratificazione X in ordine crescente 2. raggruppare x in un certo numero j di “strati di prova” di uguale ampiezza, ad esempio si considerino (max-min)/50 per creare una ripartizione iniziale con 50 gruppi 3. si calcoli la frequenza relativa per ogni gruppo fi (i=1,…,j) 4. si calcoli la radice quadrata della frequenza per ogni gruppo 5. si costruisca la cumulata delle radici delle frequenze J i 1 fi 6. determinare la quantità Q dividendo la somma delle radici degli scarti per il J numero L di strati da creare Q 1 fi L i 1 7. prendere il limite superiore di ogni gruppo in cui ricadono i valori Q,2Q,…,LQ III - 46 Metodo geometrico 1. ordinare la variabile di stratificazione X in ordine crescente 2. prendere il valore minimo come primo termine, e il valore massimo come ultimo termine di una serie geometrica con L+1 termini, dove L rappresenta il numero di strati da definire 3. calcolare il common ratio: r = (max/min)1/L 4. prendere come limite di ogni strato il valore di X corrispondente ai termini della progressione geometrica Minimum k0= a, ar, ar2 ….. arL = maximum kL III - 47 Cumulative Root Frequency Σ(fi)½=770.1, L=6 Q=770.1/6=128.4 2Q=128.4*2=256.8 3Q=128.4*3=385.2 4Q=128.4*4=513.6 5Q=128.4*5=642.0 6Q=128.4*6=770.4 limite 146.5 240.6 401.0 516.3 638.9 770.1 Metodo geometrico r = (max/min)1/L r = (10000/100)1/6=2.154 L In questo esempio si è deciso di non sottoporre a revisione i documenti di importo inferiore ai 100$, mentre vengono analizzati tutti quelli di importo superiore ai 10000$. limiti 0 k0=100*2.1540 100.0 1 k1=100*2.1541 215.4 2 k2=100*2.1542 464.2 3 k3=100*2.1543 1000.0 4 k4=100*2.1544 2154.4 5 k5=100*2.1545 4641.6 6 k6=100*2.1546 10000.0 III - 48 numerosità campionaria complessiva nel campionamento stratificato Anche nel caso della stratificazione si può determinare la numerosità campionaria complessiva che garantisca errori prestabiliti, in modo analogo a quanto visto per il campionamento casuale semplice. La determinazione della numerosità campionaria complessiva viene effettuata nell'ipotesi di campionamento stratificato proporzionale. L'allocazione negli strati avviene successivamente, secondo il criterio scelto dal ricercatore. Nel caso della stima di una media, essendo: 2 N n 2 1 H 2 V ( yst ) s s N h sh2 V ( y) Nn N h 1 z /2 avremo: 1 2 2 N 1 1 z z /2 /2 n H 2 s N N 2 N s h h h 1 N n 2 s Nn z /2 2 1 III - 49 Per la stima di un totale, tenendo conto della varianza dello stimatore stratificato, si avrà: 1 2 2 1 1 z z /2 /2 n H 2 2 N s N N 2 N N s h h h 1 1 III - 50 Dovendo verificare l’importo medio di 3300 fatture di acquisto, sono state stratificate per classi di importo, determinare la numerosità campionaria complessiva, fissando per la stima un errore di 25€ con livello di confidenza al 95% H s N h sh2 2 Gruppo classi di importo Nh sh h 1 550 222.6632 550*222.662= 27268396 1870 253.4102 120085279 2001-4000 650 315.0387 64512115 >4000 230 1189.098 325209496 1 0-900 2 901-2000 3 4 3300 1 537075286 1 2 2 25 N 3300 1 1 1 3300 162.6926 1 z 1.96 /2 n H N 537075286 3300 3300 2 537075286 N h sh h 1 1 1 536885.7 0.000303 767.65 768 0.001 0.000303 537075286 III - 51 Un campione casuale semplice, ipotizzando un valore di s complessivo pari a 1200€, con medesimo errore e livello di confidenza, avrebbe una numerosità: s=1200 ε=25 1-α=.95 z2 /2 2 N 1.962 12002 3300 n 2403.98 2404 2 2 2 2 2 2 ( N 1) z /2 3300 1 25 1.96 1200 III - 52 Gruppo classi di importo Nh (Nh/N)*n=ni 1 0-900 550 128.0 128 385.52 212036 2 901-2000 1870 435.2 435 523.44 978833 3 2001-4000 650 151.3 151 1086.33 706115 4 >4000 230 53.5 54 3541.76 814605 3300 my 768 Nh*my 2711588 Definita la numerosità campionaria complessiva, è possibile allocare le unità per strato, ad esempio con il metodo dell’allocazione proporzionale. Ipotizzando di avere osservato le medie my all’interno di ogni strato, la media complessiva sarà: 1 yst N H N h yh h 1 2711588 821.69 3300 III - 53 Se invece l’obiettivo fosse la stima del totale, per determinare la numerosità campionaria utilizzeremo: 1 1 2 75000 2 1 1 z 1.96 /2 n H H N 3300 2 2 N N s 3300 N s h h h h h 1 h 1 con: ε=75000 1-α=.95 1 1, 464, 233, 653 0.00030303 885.59 886 3300 537, 075, 286 che potremo poi allocare proporzionalmente negli strati Gruppo classi di importo Nh 1 0-900 550 147.67 148 2 901-2000 1870 502.07 502 3 2001-4000 650 174.52 174 4 >4000 230 61.75 62 3300 (Nh/N)*n=nh 886 III - 54 Ipotizzando di avere osservato i seguenti valori in ciascuno strato, potremo determinare l’intervallo di confidenza per la stima del totale: Gruppo classi di importo Nh 1 0-900 550 148 385.52 212036 222.6632 8263.15 2 901-2000 1870 502 523.44 978832.8 253.4102 36389.48 3 2001-4000 650 174 1086.33 706114.5 315.0387 19549.13 4 >4000 230 62 3541.76 814604.8 1189.098 98548.33 3300 886 nh my Nh*my sh 2711588 Whsh2 162750.09 H Yˆst N h yh 2711588 h 1 1 f V (Yˆst ) N 2 n H Wh h2 33002 h 1 1 886 / 3300 162750.09 1463317992 886 Yˆst z /2 V Yˆst 27111588 1.96 1463317992 2636612; 2786565 III - 55