9 CAMPIONAMENTO CON PROBABILITA’ VARIABILE 9.1 INTRODUZIONE Un tipo di campionamento di largo impiego nella pratica delle indagini, è quello nel quale si assegna ad ogni unità della popolazione una probabilità di selezione variabile, direttamente proporzionale alla sua dimensione, supposta nota prima della selezione del campione. Abbiamo già incontrato nel capitolo 3 una tecnica di questo tipo, denominata campionamento di Poisson, nella quale si è ipotizzato che le singole unità della popolazione potessero avere una diversa probabilità di inclusione. Abbiamo inoltre visto, in quella occasione, che lo schema di estrazione portava alla formazione di un campione a dimensione variabile. In questo capitolo esamineremo una tecnica analoga che consente la selezione di campioni di dimensione fissa. Tale forma di campionamento, che in seguito chiameremo campionamento con probabilità variabile (CPV) ed è spesso indicata con la sigla PPS (dalle iniziali dei termini inglesi probability proportional to size) o con la sigla πPS (inclusion probability proportional to size) può essere considerata come la più generale tra quelle probabilistiche per campioni di dimensione fissa . Un qualsiasi metodo di selezione equiprobabilistico può infatti essere visto come un caso particolare di questo quando le unità della popolazione abbiano la stessa dimensione, oppure quando questa ultima sia considerata ininfluente nella fase di estrazione del campione. La principale giustificazione del CPV, la stessa ricordata per il campionamento di Poisson, sta nel fatto che nella pratica si riscontra spesso una relazione statistica più o meno stretta tra dimensione dell’unità e caratteri oggetto di studio. Di conseguenza, l'utilizzazione dell'informazione sulla dimensione, tradotta in termini di probabilità di selezione, consente la costruzione di stimatori migliori di quelli ricavabili da una selezione equiprobabilistica. 1 La selezione delle unità può essere effettuata con o senza ripetizione ma, diversamente da quanto abbiamo osservato per il campionamento casuale semplice, la scelta tra le due strategie non è ovvia. Possono infatti verificarsi condizioni di indagine nelle quali la selezione senza ripetizione risulta meno vantaggiosa di quella con ripetizione, sia per la precisione delle stime, sia per le complicazioni teoriche e computazionali che essa presenta. Per questi motivi, la selezione con ripetizione merita, nel CPV, un’attenzione ben maggiore di quella che riceve nell’ambito del campionamento equiprobabilistico. 9.2 ESTRAZIONE CON RIPETIZIONE Sia X una variabile i cui valori noti Xi (i = 1,..,N) sono interpretabili come misure di ampiezza (o dimensione) delle unità oggetto di indagine, nell'ipotesi che esse siano anche unità di selezione. Per fare qualche esempio, X può esprimere la superficie di un'azienda agricola, il numero di addetti di un'azienda industriale, il numero di studenti di una scuola, quello dei componenti di una famiglia, ecc.. Supponiamo di voler estrarre un campione di n unità in modo che la probabilità di selezionare l'i-esima unità sia: pi = X i ∑X i = Xi X Supponiamo inoltre che i valori Xi siano interi. Qualora non lo fossero, per renderli tali sarebbe sufficiente moltiplicare la variabile X per una potenza di 10. La selezione del campione si realizza attraverso l'esecuzione delle seguenti fasi: (a) si associano i primi X1 numeri naturali (da 1 a X1) alla prima unità, i secondi X2 (da [X1 + 1] a [X1 + X2]) alla seconda e così via; (b) si seleziona casualmente un numero compreso tra 1 e X (estremi inclusi) e si considera selezionata nel campione l'unità cui è associato il campo di numeri naturali che comprende quello estratto; (c) si ripete la fase (b) n volte, considerando ogni volta ancora presente nella popolazione l'unità precedentemente estratta. Il procedimento, piuttosto semplice, è ulteriormente illustrato dalla seguente applicazione. I dati tella Tab. 9.1 (P. V. Sukhatme e B. V. Sukhatme 1970, p. 51) si 2 TAB. 9.1: Valori della superficie totale coltivabile e della superficie coltivata a riso per una popolazione fittizia di 25 aziende agricole pi = X i X Azienda N. Superficie totale Cumulata valori Xi X ic 1 1232 1232 0,053 2 327 1559 0,014 3 1346 2905 0,058 4 1285 4190 0,055 5 428 4618 0,018 6 871 5489 0,038 7 1042 6513 0,044 8 1262 7775 0,054 9 497 8272 0,021 10 1016 9288 0,044 11 651 9939 0,028 12 1170 11109 0,051 13 2630 13739 0,114 14 515 14254 0,022 15 895 15149 0,039 16 1055 16204 0,046 17 2110 18314 0,091 18 979 19239 0,042 19 671 19964 0,029 20 120 20084 0,005 21 541 20625 0,023 22 1331 21956 0,057 23 842 22798 0,036 24 162 22960 0,007 25 206 23165 0,009 3 riferiscono ad una popolazione fittizia di 25 aziende agricole per ciascuna delle quali si suppone nota la dimensione in termini di superficie complessiva coltivabile, denotata con Xi per l' i-esima azienda. Nella tabella, oltre ai valori Xi, è riportata la loro serie cumulata, i cui termini sono indicati con X ic e la loro probabilità di selezione pi. Utilizzando una routine informatica, si seleziona un numero casuale, r, compreso tra 1 e il totale della variabile X, cioè 23165; quindi si confronta il valore estratto con i valori X ic della cumulata e si seleziona l’unità i per la quale risulta realizzata la seguente disuguaglianza: X ic−1 < r ≤ X ic Ad esempio, se r = 1985, è immediato osservare che tale valore è compreso tra 1559 (termine i-1) e 2905 (termine i) e pertanto viene estratta l’unità cui corrisponde l’i-esimo valore della distribuzione della variabile X, nella fattispecie la terza unità. Ancora, se r = 11805, abbiamo: 11109 < 11805 ≤ 13739, e conseguentemente viene estratta la 13a unità. Il procedimento viene iterato fini al raggiungimento della dimensione campionaria desiderata ed è evidente che la stessa unità della popolazione può essere selezionata più di una volta. D. B. Lahiri (1951) ha proposto un metodo alternativo di selezione che non richiede il calcolo di alcuna cumulata. Si seleziona casualmente un numero i compreso tra 1 e N. Quindi, ancora casualmente, un numero j compreso tra 1 e il massimo tra i valori Xi, che denotiamo con Xmax. Se quest'ultimo numero è più piccolo del valore Xi, corrispondente all'i-esimo valore della popolazione individuato alla prima delle due estrazioni, è definitivamente selezionata nel campione l'i-esima unità, altrimenti si ripete il procedimento fino a che la condizione non è soddisfatta. Per verificare che il procedimento ha termine e porta ad estrarre l'i-esima unità con probabilità pi = X i X si può osservare che la probabilità, q, che una prova, consistente nelle due suddette estrazioni, non porti ad alcuna selezione è: q= 4 1 N N ⎛ i =1 ⎝ Xi ⎞ ⎟⎟ , max ⎠ ∑ ⎜⎜1 − X mentre la probabilità di selezionare l'i-esima unità ad una qualunque estrazione è ovviamente: 1 ⎛ Xi ⎜ N ⎜⎝ X max ⎞ ⎟⎟ ⎠ Pertanto, la probabilità che il procedimento abbia termine con l'estrazione dell'iesima unità è: p X p i + qp i + q 2 pi + L = i = i X 1− q pi = 9. 3 STIMA DEL TOTALE NEL CAMPIONAMENTO PPS Per ricavare uno stimatore del totale (o della media) adeguato al tipo di selezione descritto, è opportuno partire da uno stimatore di carattere generale che combini linearmente i valori campionari yj con coefficienti wj. Lo stimatore, che per il momento denotiamo con T1, può essere scritto come segue: N T1 = ∑ wi Yi t i' (9.1) i =1 Dove t i' è una variabile casuale che assume valori interi compresi tra 0 (se l'i-esima unità della popolazione non risulta inclusa nel campione) e n (se la stessa unità è selezionata ripetutamente per n volte). I valori dei coefficienti vengono normalmente ricavati sotto la condizione che lo stimatore sia corretto per una qualsiasi dimensione campionaria: () E (T1 ) = ∑ wi Yi E t i' = Y N i =1 e poiché E (t i ) , che esprime la frequenza attesa di inclusione dell'i-esima unità, è pari a npi, avremo: 5 N E (T1 ) = ∑ wi Yi np i = Y i =1 wi = da cui: 1 . np i Lo stimatore assume dunque la forma: Yi t i' i =1 np i (9.2) 1 N Z i t i' = z ∑ n i =1 (9.3) N y pps = ∑ oppure, posto Z i = Yi pi : y pps = Dalla (9.2) o dalla (9.3) è quindi immediato ricavare, dividendo per N, lo stimatore della media Y della popolazione, che denotiamo con la consueta notazione y pps : y pps = 1 N z Z i t i' = ∑ Nn i =1 N (9.4) Dalla (9.3) è inoltre immediato verificare che il totale Y è stimato come media semplice dei valori campionari zi ciascuno dei quali rappresenta una stima corretta del totale stesso della popolazione. 9.4 VARIANZA DELLO STIMATORE DELLA MEDIA La trasformata Zi introdotta nella (9.3) ci consente di ricavare facilmente la varianza degli stimatori y pps e y pps . Infatti: 6 V ( y pps ) = V ( z ) = = V (Z i ) = n 1 N 2 pi (Z i − Z ) = ∑ n i =1 (9.5) 2 ⎞ 1 N ⎛Y = ∑ pi ⎜⎜ i − Y ⎟⎟ . n i =1 ⎝ pi ⎠ e ovviamente: V ( y pps ) = 1 V ( y pps ) = N2 1 = nN 2 ⎞ ⎛Y pi ⎜⎜ i − Y ⎟⎟ ∑ i =1 ⎠ ⎝ pi N 2 (9.6) Per fini computazionali la varianza del totale (e della media) può essere riscritta nella seguente forma alternativa: ⎤ 1 ⎡ N Yi 2 1 ⎡ N Yi 2 2⎤ − Y ⎥ = ⎢X ∑ −Y 2⎥. V ( y pps ) = ⎢∑ n ⎣ i =1 pi ⎦ n ⎣ i =1 X i ⎦ (9.7) Dalle precedenti espressioni si può osservare che se le probabilità di selezione pi sono proporzionali ai rispettivi valori Yi, la varianza si annulla poiché ogni singola osservazione, rapportata alla sua probabilità di selezione, stima con esattezza il totale della popolazione. Naturalmente non è possibile definire numericamente in tal modo le probabilità iniziali in quanto i valori Yi non sono noti se non dopo aver osservato il campione. Ma è in genere ragionevole ritenere che se le probabilità di selezione possono essere definite sulla base di una variabile nota che sia ragionevole assumere approssimativamente proporzionale alla variabile di studio Y, la varianza di stima anche se non nulla sarà ridotta rispetto a quella di stimatori alternativi. Una stima corretta da campione della (9.5) si può ricavare facilmente utilizzando la trasformazione di variabile già introdotta nella (9.3): v( y pps ) = v( z ) . Infatti essendo: v ( z ) = v (Z i ) n (9.8) 7 è sufficiente ricavare uno stimatore corretto di V(Zi) da inserire al numeratore della (9.8). Tale stimatore ha la seguente espressione: v (Z i ) = 1 2 ∑ (z i − z ) , n − 1 i∈s che si traduce nella seguente: ⎞ ⎛ yi 1 ⎜⎜ − y pps ⎟⎟ v( y pps ) = ∑ n(n − 1) i∈s ⎝ pi ⎠ 9.5 2 UN METODO ALTERNATIVO PER RICAVARE LA VARIANZA DEGLI STIMATORI La varianza dello stimatore (9.2) può essere ricavata anche seguendo il procedimento già introdotto nel Cap.2 per il campionamento casuale semplice senza ripetizione. Ricordando che nello stimatore (9.2) l’unico termine aleatorio è rappresentato da t i' , possiamo scrivere: ⎡1 N Y t ' ⎤ 1 ⎡ N ⎛ Y V ( y pps ) = V ⎢ ∑ i i ⎥ = 2 ⎢∑ ⎜⎜ i ⎣ n i =1 pi ⎦ n ⎢⎣ i =1 ⎝ pi 2 ⎞ Y Y ⎟⎟ V t i' + 2∑∑ i j Cov t i' t 'j i j >i p i p j ⎠ () e quindi, tenendo presente che: () ( ) V t i' = np i (1 − p i ) e Cov t i' t 'j = − pi p j dopo ovvie semplificazioni si ottiene: ⎤ 1 ⎡ N Yi 2 ⎤ 1 ⎡ N Yi 2 N 2 − ∑ Yi − 2∑ Yi Yi ⎥ = ⎢∑ −Y 2⎥ V ( y pps ) = ⎢∑ n ⎣ 1=1 pi i =1 i< j ⎦ ⎦ n ⎣ i =1 pi 8 ⎤ ( )⎥ ⎥⎦ come volevasi dimostrare (cfr. espressione 9.7) 9.6 SELEZIONE SENZA RIPETIZIONE La selezione senza ripetizione si “potrebbe” realizzare in modo analogo a quella con ripetizione già descritta nel paragrafo 9.2, avendo cura di togliere dalla lista della popolazione le unità di volta in volta estratte nel campione. Questa ultima operazione implica che ad ogni fase del processo di estrazione debbano essere ricalcolate le probabilità associate alle unità non ancora estratte. Per chiarire il procedimento, consideriamo la probabilità di inclusione, πi dell'iesima unità della popolazione in un campione di n = 2 unità. Tale probabilità è data dalla somma della probabilità di selezionare l’i-esima unità alla prima prova e della probabilità di selezionarla alla seconda data la mancata estrazione alla prima; ovvero, dopo che per prima sia stata estratta una qualunque altra unità. In termini formali: = probabilità di estrazione alla prima prova; pi N pi p j ∑1− p j ≠ i =1 = j probabilità di estrazione alla seconda prova, condizionata all’estrazione della j-esima unità (j ≠ i ; j = 1,..,N), alla prima estrazione. e quindi: π i = pi + pi p j N ∑1− p j ≠ i =1 j ⎡ = pi ⎢1 + ⎣⎢ pj ⎤ ⎥ ⎥ j ⎦ N ∑1− p j ≠ i =1 Inoltre, la probabilità di inclusione del secondo ordine, cioè la probabilità che le unità i e j siano congiuntamente incluse nel campione è: π ij = pi p j (1 − pi )−1 + pi p j (1 − p j )−1 [ = pi p j (1 − pi ) + (1 − p ) −1 −1 ] 9 I problemi, come si può facilmente intuire, sorgono quando n > 2, Infatti, il computo delle probabilità di inclusione del primo e soprattutto del secondo ordine, già complesso per n = 3, diventa proibitivo per dimensioni campionarie appena maggiori. Il procedimento appena descritto per n = 2 è sufficientemente semplice, tuttavia vedremo tra breve che le probabilità di inclusione del primo e del secondo ordine che da esso scaturiscono non risultano ottimali in rapporto all’obiettivo principale di questa strategia campionaria che è quello di ottenere stimatori con un elevato grado di precisione in rapporto alle alternative possibili, a parità di informazioni disponibili a priori. A questo fine è opportuno prescindere inizialmente dalla procedura di calcolo delle probabilità di inclusione sia del primo che del secondo ordine e passare a definire lo stimatore di Horvitz e Thompson del totale Y (o della media Y ), la sua varianza e lo stimatore campionario della varianza dello stesso stimatore. Lo stimatore di HT del totale, che indichiamo con yπ, assume l’espressione generale già introdotta del Cap. 1, e cioè: N yπ = ∑ i =1 Yi t i πi La varianza dello stimatore si ricava facilmente come segue: ⎡ N Yt ⎤ N Y2 Y Yj V ( y ) = V ⎢∑ i i ⎥ = ∑ i 2 V (t i ) + 2∑∑ i Cov(t i , t j ) π π π π = 1 = 1 > i i i j i j i i ⎦ i ⎣ N (1 − π i ) Y Yj (π ij − π iπ j ) = ∑ Yi 2 + 2∑∑ i πi i =1 i j >i (9.9) πi π j Questa espressione può essere espressa in termini più semplici; infatti, considerando che: πii = πi, gli ultimi due termini possono essere riunificati in un unico termine come segue: V ( yπ ) = ∑∑ i 10 j Yi Y j πi π j (π ij − π iπ j ) E posto Yi π i = Y i e (π ij − π i π j ) = ∆ ij , si ottiene infine la notazione molto ∨ compatta: ∨ ∨ V ( yπ ) = ∑∑ Yi Y j ∆ ij i (9.10) j E’ infine agevole ricavare uno stima corretta della varianza dello stimatore: ∨ ∨ v( yπ ) = ∑∑ Yi t i Y j t j i j ∆ ij π ij ∨ ∨ ∨ = ∑∑ Yi t i Y j t j ∆ ij i (9.11) j Dalla quale è immediato rilevare che la condizione di stimabilità della varianza dello stimatore yπ è subordinata alla disponibilità di valori positivi della probabilità congiunta πij per ogni possibile coppia di unità i e j nella popolazione. Yates e Grundy (1953), hanno dimostrato che la (9.10) può essere espressa in una forma diversa, ma equivalente, che consente di ricavare uno stimatore alternativo di quello nella (9.11). Indichiamo questa diversa forma della varianza con la notazione VYG: ⎛Y Yj ⎞ 1 ⎟ VYG ( yπ ) = − ∑∑ ∆ ij ⎜ i − ⎟ ⎜π 2 i j π i j ⎠ ⎝ 2 (9.12) Dalla quale è possibile ricavare il seguente stimatore alternativo della varianza di yπ : ∆ ij ⎛ y i y j ⎞ 1 ⎜ − ⎟ vYG ( yπ ) = − ∑∑ 2 i j π ij ⎜⎝ π i π j ⎟⎠ La (9.12) ci consente di sviluppare due importanti considerazioni: (i) Perchè la varianza sia positiva il termine ∆ ij deve essere negativo e quindi deve valere la condizione π ij < π i π j ; (ii) La differenza tra parentesi può ridursi a zero nel caso in cui le probabilità di inclusione del primo ordine siano proporzionali ai rispettivi valori della variabile Y. 11 Riguardo a questa ultima considerazione è evidente che, come si è già osservato in precedenza per le probabilità di selezione iniziali, non è possibile fissare le probabilità di inclusione πi proporzionali ai rispettivi valori Yi dato che questi non sono noti a priori. Tuttavia, se se sono disponibili da lista i valori Xi di una variabile ausiliaria, normalmente interpretabile come “dimensione” dell’unità i, tali che sia ipotizzabile un rapporto di approssimata proporzionalità con quelli della variabile di studio: Yi X i ≅ c (con c = costante), allora è intuitivo che il riuscire a stabilire per le probabilità di inclusione del primo ordine valori proporzionali a quelli della variabile ausiliaria: π i X i = c si tradurrà in una notevole riduzione della varianza dello stimatore. Da tutto questo discende l’esigenza di fissare i valori delle probabilità di inclusione proporzionali a quelli della variabile X. In altri termini è necessario che: π i X i = c e poiché per la definizione: N ∑π i =1 i =n Si ricava immediatamente che: πi = nX i nX i = = npi ; X ∑ Xi (i = 1, 2,...,N), (9.13) i dove i valori pi corrispondono alle probabilità iniziali introdotte nel precedente paragrafo 9.2. A questo riguardo, due considerazioni della massima importanza. La prima è che i termini npi non possono essere maggiori di 1, se come in questo caso assumono non più il significato di frequenze attese di inclusione (cfr § 9.2 ) bensì quello di probabilità di inclusione. Qualora, quindi, per una o più unità della popolazione dovesse verificarsi che npi > 1 , si dovrebbe enucleare tali unità dalla popolazione inserendole con certezza (probabilità pari a 1) nel campione o in una strato dal quale selezionarle separatamente dalle altre. La seconda è che solo per n = 1 è immediato soddisfare la condizione in (9.13) anche se in questo caso si ha che πij = 0 per ogni coppia di valori i e j (i ≠ j). Per n = 2, il procedimento descritto all’inizio di questo paragrafo non consente di soddisfarla, se non in modo approssimato, e per n > 2 le difficoltà aumentano esponenzialmente. Il soddisfacimento della (9.13) richiede che si riesca ad individuare un insieme opportuno di probabilità iniziali ed uno opportuno schema ad hoc di selezione ad 12 esse combinato. Brewer e Hanif (1983) riportano una numerosa serie di schemi che soddisfano la condizione citata per n = 2; alcuni di questi schemi sono semplici altri piuttosto complessi. Qui, a titolo di esempio, ne riportiamo uno per n = 2 relativamente semplice, dovuto a Brewer (1975). Lo schema di Brewer prevede che si calcolino in via prioritaria le quantità: ci = X i (X − X i ) , X (X − 2 X i ) quindi, lo schema è definito dai seguenti due passi: (i) si estrae la prima unità con probabilità: N pi* = ci ∑ ci . i =1 (ii) Senza rimpiazzare nella popolazione l’unità estratta per prima, che indichiamo con i1, si estrae una seconda unità, diciamo j|i1, con probabilità: p *j i1 = X i X − X i1 . E’ possibile verificare che, con questo schema, per i = 1,..., N : π i = 2X i X , come richiesto dalla (9.13) e che per ogni coppia i ≠ j: π ij = 2X i X j X − Xi − X j X (∑i ci ) ( X − 2 X i )(X − 2 X j ) . Inoltre, lo schema descritto garantisce che ∆ ij < 0 per ogni coppia i ≠ j e, conseguentemente, che esista uno stimatore non negativo della varianza dello stimatore yπ , almeno nella versione di Yates e Grundy. Riguardo al caso n > 2, ci limitiamo a riportare uno schema relativamente semplice, applicabile nei casi in cui il campione sia di dimensione piuttosto elevata: il campionamento sistematico con probabilità variabile. 13 La selezione sistematica con probabilità variabile è stata originariamente proposta da Madow (1949), e successivamente riesaminata da diversi AA. Tra questi Rao e Hartley (1962) cui si deve la sistemazione che segue. Le unità della popolazione sono in via preliminare disposte secondo un ordine casuale. Quindi, calcolata la distribuzione cumulativa X Cj delle misure di ampiezza note Xi’ (utilizziamo l’indice i’ per identificare le unità della popolazione nel nuovo ordine in cui si dispongono): j X Cj = ∑ X i ' ; ( j = 1,..., N ) , i '=1 e il rapporto K: K = X /n ; N X = ∑ X i' i '=1 (con gli opportuni provvedimenti per rendere K intero), si seleziona casualmente un numero b compreso tra 1 e K e si include nel campione l’unità associata al termine j, della serie cumulata, che soddisfa la disuguaglianza: X Cj−1 < b + tK ≤ X Cj . Si può osservare che in questo schema ogni unità non può essere selezionata più di una volta se, per ogni i’, Xi’ ≤ K o, il che è equivalente, se npi’ ≤ 1. E’ inoltre facile verificare che la probabilità di inclusione dell’i’-esima unità è esattamente npi’. Relativamente complesso il procedimento per determinare la varianza. Rao e Hartley, ricorrendo ad un approccio di tipo asintotico, hanno ricavato la seguente espressione valida per valori abbastanza elevati di N in rapporto alla dimensione campionaria n. V HR ( y ) ≅ 14 ⎞ ⎛ Yi ' 1 ⎟⎟[1 − (n − 1) pi ' ] ⎜ p Y − ∑ i ' N 2 n i ' ⎜⎝ pi ' ⎠ L’espressione mostra che questa varianza è inferiore alla corrispondente nel campionamento con ripetizione in virtù del fattore [1 − (n − 1) pi ' ] . Una stima campionaria della precedente varianza, anch’essa ricavata da Rao e Hartley, è la seguente: N N ⎡ N y j' ⎞ 1 ⎤⎛ y v HR ( y ) = 2 ∑ ∑ ⎢1 − n( pi ' + p j ' ) + ∑ p 2j ' ⎥⎜⎜ i ' − ⎟⎟ N (n − 1) i '=1 j '>i '⎣ j '=1 ⎦⎝ pi ' p j ' ⎠ 9.7 2 CONFRONTO TRA SELEZIONE CON E SENZA RIPETIZIONE Concludiamo, con un confronto tra selezione con probabilità variabile con e senza ripetizione. Nel campionamento casuale semplice, l’estrazione senza ripetizione risulta sempre vantaggiosa rispetto a quella con ripetizione, almeno in termini di precisione delle stime. E’ possibile oltretutto dimostrare che stime basate sulle sole unità distinte di un campione casuale semplice con ripetizione risultano più precise di quelle basate sull’intero campione (Raj e Kamis, 1958). La relazione tra selezione con e senza ripetizione valida per il campionamento casuale semplice non è generalizzabile al CPV. Per mettere a confronto i due tipi di selezione occorre in primo luogo fissare dei parallelismi tra i procedimenti. Oltre a quello consueto relativo alla uguale dimensione campionaria, si assume normalmente che sia soddisfatta l’uguaglianza πi = npi. Tale uguaglianza risponde alla logica aspettativa che le probabilità di inclusione del primo ordine siano proporzionali alle probabilità iniziali di selezione, ma allo stesso tempo restringe il confronto alle situazioni nelle quali la frequenza attesa di inclusione non superà il valore 1. Sotto queste assunzioni, D. Raj (1966) ha dimostrato che, indipendentemente dai valori osservabili yi (i = 1,..., N), una condizione sufficiente affinché lo stimatore di Horvitz e Thompson del totale Y abbia varianza inferiore allo stimatore (9.2), è che: π ij > (n − 1) π π n i j (9.14) 15 per ogni i e j. Lo stesso autore ha dimostrato che una condizione necessaria affinché, sotto le stesse assunzioni, la selezione senza ripetizione sia migliore di quella con ripetizione è la seguente: π ij ≤ 2(n − 1) π iπ j n (9.15) Dalla disuguaglianza è inoltre immediato ricavare che, per n = 2, lo stimatore della varianza di stima (9.12) sarà positivo soltanto se risulterà soddisfatta la (9.15). 16