Argomento: Applicazioni statistiche e analisi dei dati – Esercitazioni

annuncio pubblicitario
Argomento:
Applicazioni statistiche e analisi dei dati – Esercitazioni
1
Premessa
Le dispense elaborate per lo svolgimento dell’attività didattica sono
tratte dal testo “Introduzione al rilevamento campionario delle risorse
forestali” (P. Corona, 2000 – Edizioni CUSL, Firenze), al quale si
rimanda per maggiori approfondimenti.
2
Indice
Campionamento casuale
pag. 4
Campionamento sistematico
pag. 17
Campionamento stratificato
pag. 43
Campionamento multistadio
pag. 74
Stima secondo i metodi della regressione
pag. 95
3
Primi problemi
Definito cosa è bosco, occorre definire:
• cosa è oggetto di interesse,
• scala dell’inventario e dettaglio richiesto,
• errore tollerato, costo dell’impianto e delle
ripetizioni,
• tipo di uso del suolo,
• popolazioni d’interesse,
• attributi d’interesse,
4
Variabili
Categorie in cui si possono classificare le variabili:
A.
B.
1.
2.
3.
4.
Continua: possono assumere qualunque valore nel campo di variazione della
variabile stessa
Discontinua: può assumere solo valori isolati
Nominale: Viva – Morta (mutualmente esclusive)
Ordinale: classe a, b, c o 1, 2, 3 (come sopra ma ordinate con criterio
gerarchico, in cui i numeri hanno un valore di rango)
Intervallare: dbh 10 – 19; 20 –29 …oppure una data (1…10..20 del mese...
(ai ranghi viene associato un concetto di mutua distanza, ma manca uno zero
assoluto e non si possono costruire rapporti di valore)
Assoluta o razionale: si ha un intervallo costante tra due valori adiacenti sulla
scala di misurazione ( 0, 1, 2, 3, 4 …..)
5
Popolazioni
• Finite: il numero totale delle unità può essere
espresso con un numero finito (ad esempio il
numero di particelle forestali in una compresa);
• Infinite: il numero dei punti topografici in un
bosco, ma anche – per estensione - il numero di
individui arborei in una regione.
6
Popolazione (II)
• La popolazione è costituita dagli individui, di cui si
misurano, stimano, valutano attributi dei caratteri.
• Tali caratteri degli attributi costituiscono le variabili
Ad es: - vitalità di una pianta arborea (morta o viva),
attributo qualitativo;
- diametro dbh della stessa – attributo
quantitativo.
Ognuno di tali attributi – osservato su un individuo costituisce una osservazione
7
Scale di misura
Categorie in cui si possono classificare gli individui:
In scala continua o discontinua
1.
Nominale: Viva – Morta (mutualmente esclusive)
2.
Ordinale: classe a, b, c o 1, 2, 3 (come sopra ma ordinate
con criterio gerarchico, in cui i numeri hanno un valore di
rango)
3.
Intervallare: dbh 10 – 19; 20 –29 …oppure una data (1…10..20
del mese... (ai ranghi viene associato un concetto di mutua
distanza, ma manca uno zero assoluto e non si possono costruire
rapporti di valore)
4.
Assoluta o razionale: continua ( 0, 1, 2, 3, 4 …..)
Ordinando le categorie 3 e 4 si possono individuare distribuzioni di
frequenza (e dunque media, mediana, moda).
8
Rilievo completo o campionamento?
• Si possono rilevare gli attributi della/e popolazioni
d’interesse analizzando tutti gli individui (ad es. metodo
del controllo)
Preciso ma costoso !
• si possono inferire i parametri statistici degli attributi
rilevati in un sottoinsieme di individui (campione)
selezionato con criteri diversi.
Richiede preparazione !
Quest’ultimo caso è il più frequente per ovvi motivi di costo,
tempo, praticità, ecc.
9
Alcune definizioni
• Si dice unità campionaria ogni elemento incluso nel
campione;
• lo schema di campionamento o disegno campionario è la
procedura con cui il campione è estratto dalla popolazione;
10
Obiettivi del campionamento
• In genere: quantificare
uno o più parametri
statistici della popolazione
attraverso una stima del
valore più probabile
dell’attributo
considerato
• fornire una idea di quanto
la stima sia precisa e
accurata (attendibile o
non distorta)
Preciso e
accurato
Preciso,
inaccurato o
distorto
STIMATORE
Impreciso e distorto
Non distorto ma impreciso
11
Campionamento
Rappresentatività del campione: la capacità del campione
di rappresentare adeguatamente le caratteristiche della popolazione
costituendone una “riproduzione ridotta” ciò implica una accurata:
SCELTA DEL CAMPIONE
che può avvenire in modo
→ soggettivo
→ casuale
→ sistematico
12
CAMPIONAMENTO
CASUALE
13
Estrazione di un campione casuale
In ambito inventariale, le modalità operative per realizzare un campionamento
casuale semplice a probabilità costante1 possono essere:
v ad ogni unità statistica è assegnato un numero campionario e le unità
campionarie sono state selezionate estraendo dei numeri casuali: le unità
statistiche con numeri campionari corrispondenti ai numeri casuali estratti
sono incluse nel campione;
v le unità statistiche sono identificate in cartografia da una coppia di
coordinate; le unità statistiche con coordinate corrispondenti alle coppie di
numeri casuali estratti sono incluse nel campione.
1
Si opera un campionamento a probabilità costante quando le unità statistiche hanno tutte la medesima
probabilità di essere incluse nel campione. Questa probabilità è pari a:
1

1 − 1 − 
 N
n
Campionamento
con reinserimento
n
N
Campionamento
in blocco
14
Stimatori campionari
Media
Lo stimatore campionario della media è:
n
x=
dove:
∑x
i
i =1
n = numerosità campionaria
n
xi = valore dell’attributo della i-esima unità campionaria
Varianza
Lo stimatore campionario della varianza dell’attributo x è pari a:
2
n
s
2
x
=
∑ (x − x )
i =1
i
n −1
15
Deviazione standard
Lo stimatore campionario della deviazione standard è:
2
n
sx =
∑ (x − x )
i =1
i
n −1
Lo stimatore campionario del coefficiente di variazione è:
CV =
sx
x
che generalmente è espresso in notazione percentuale: CV% = CV*100
Varianza della media campionaria
Lo stimatore campionario della varianza della media campionaria nel caso di
popolazioni infinite o finite ma campionate casualmente è pari a:
con
reinserimento
2
s
2
x
s x
=
n
s
2
s
2
x
in blocco
x
N − n s2x
=
N n
s2x
=
(1 − f )
n
popolazioni finite
popolazioni infinite
16
(f = frazione di campionamento)
Limiti fiduciari della stima campionaria della media
In ambito campionario il grado di accuratezza di una stima non può essere
determinato in maniera assoluta, dato che il valore vero del parametro è incognito.
E’ però possibile individuare un intorno probabile del vero valore della media. Se
le medie campionarie ottenibili da tutti i campioni di numerosità n>50
teoricamente estraibili da una data popolazione possono essere sempre considerate
come distribuite normalmente intorno al loro valore atteso, allora è possibile
affermare che:
il 95% delle medie campionarie cade nell’intervallo µ ± 1.96σ x
il 99% delle medie campionarie cade nell’intervallo µ ± 2.58σ x
Dove σ x rappresenta la deviazione standard della distribuzione delle medie
campionarie.
17
Ovviamente, se dalla popolazione viene estratto solamente un campione, come
avviene nella pratica inventariale, il valore stimato della media campionaria
risulterà discosto da µ di una quantità incognita. Essendo però noto che il 95% di
tutte le possibili medie campionarie è compreso nell’intervallo µ ± 1.96σ x
e
adottando s x come stimatore di σ x , l’intervallo nell’ambito del quale, nel 95% dei
casi , dovrebbe ricadere la media vera µ può essere stimato pari a:
x ± 1.96s x
dove
x e s x sono determinati sulla base del singolo campione estratto.
Analogamente, l’intervallo nell’ambito del quale, nel 99% dei casi dovrebbe
ricadere la media vera µ può essere stimato pari a:
x ± 2.58s x
I suddetti intervalli sono chiamati intervalli fiduciari della media campionaria.
18
Considerando anche i campioni di numerosità n<50, la stima dell’intervallo
fiduciario della media campionaria ad un dato livello di significatività statistica può
essere generalizzata secondo la formula:
x ± t(n −1;1−α )s x
Dove t(n −1;1−α ) è il valore critico del t di Student, stabilito in corrispondenza del
prescelto livello di significatività statistica 1-a e in corrispondenza degli n-1 gradi
di libertà di s x , dove n è la numerosità del campione.
19
Valore totale
Lo stimatore campionario del valore totale è pari a:
X =Nx
Nel caso di inventari su ampie superfici con aree campione ordinarie di superficie
unitaria pari ad a, essendo N circa pari a A/a (dove A è la superficie totale della
popolazione considerata), la precedente formula può essere espressa nella formula:
A
X= x
a
2
2 2
Lo stimatore campionario della varianza del valore totale è pari a: s x =N s x
o, se il campionamento è stato condotto su aree campione di superficie unitaria pari
ad a:
2
A
 
s 2 x =  s 2 x
a
posto cha A sia nota senza errore.
X ± N (ts x )
L’intervallo fiduciario della stima di X è pari a
o, se il
campionamento è stato condotto su aree campione di superficie unitaria pari ad a:
A
20
X ± ts x
a
Scelta della numerosità del campione
A parità di altre condizioni, tanto più numeroso è il campione, tanto maggiore è la
precisione della stima. Dimensionare la numerosità del campione significa dunque
prefissare la precisione delle stime che si vogliono ottenere in modo che siano
caratterizzate da un errore di campionamento non superiore alla soglia massima
tollerata ec0:
 ts x 

n0 =
 ec0 
2
dove:
s x = valore presunto della deviazione standard dell’attributo x nella popolazione considerata.
t = valore critico del t di Student corrispondente al prescelto livello di sicurezza statistica e agli
appropriati gradi di libertà.
21
La suddetta formula può anche essere espressa secondo la notazione percentuale:
 tCV % 

n0 =
 ecp0 
2
dove:
CV% = valore presunto del coefficiente di variazione, espresso in termini percentuali, dell’attributo
x nella popolazione considerata;
ecp0 = errore percentuale massimo tollerato, dato dal rapporto percentuale tra il valore massimo
tollerato dell’errore di campionamento e la media campionaria.
Dall’esame delle suddette formule, si rileva che il dimensionamento statistico del
campione può essere operato solamente stabilendo a priori il valore di s x , cioè
avendo a disposizione informazioni preliminari sulla variabilità dell’attributo
oggetto di stima. In altre parole, i valori di s x vanno individuati tramite un
campionamento preliminare, detto campionamento pilota.
22
Il valore di t da inserire nelle formule del dimensionamento campionario può essere
desunto dalle tavole del t di Student, in prima approssimazione in corrispondenza di
npil-1 gradi di libertà, dove npil è il numero di osservazioni del campione pilota. Per
individuare più correttamente un valore di t esattamente commisurato alla
dimensione numerica del campione definitivo, i gradi di libertà di t possono essere
determinati con procedimento iterativo.
23
Osservazioni sul dimensionamento campionario
Il dimensionamento della numerosità del campione conduce solamente a una stima
del numero minimo di unità campionarie necessario per contenere l’incertezza
campionaria entro una data soglia massima tollerata. A esempio, definendo la
numerosità del campione a un livello di sicurezza statistica del 95% esisterà sempre
1 possibilità su 20 che il campione estratto fornisca una stima del parametro di
interesse al di fuori dell’intervallo fiduciario massimo tollerato, anche se la
numerosità del campione sia stata, per ipotesi, esattamente quantificata sulla base
del valore vero della varianza dell’attributo oggetto di interesse nella popolazione
considerata.
24
Vantaggi e svantaggi del campionamento casuale
v rispetta il requisito fondamentale degli schemi di campionamento
probabilistico, ovvero l’estrazione delle unità campionarie è condotta
con criteri di pura casualità;
Vantaggi
v permette di variare in ogni momento, quando se ne presentino le
necessità e le condizioni, la numerosità del campione;
v permette di dimensionare il campione in modo da ottenere la
precisione di stima desiderata.
Svantaggi
v il campionamento casuale semplice può comportare il rischio di non
tenere conto in modo adeguatamente uniforme di tutta la popolazione
(alcune parti della popolazione possono risultare intensamente
campionate, altre non campionate affatto). Per tale motivo il
campionamento casuale semplice è affidabile soprattutto quando la
popolazione è relativamente omogenea;
v nell’inventariazione delle risorse forestali la dislocazione delle unità
campionarie risulta alquanto onerosa e disagevole, soprattutto se
confrontata con quella di un campionamento di tipo sistematico.
25
CAMPIONAMENTO
SISTEMATICO
26
Si consideri una popolazione le cui unità si presentano ordinate secondo un qualche
criterio (ad esempio, secondo una seriazione spaziale o temporale).
Se, per ottenere da quella popolazione un campione di una data numerosità, si
estrae la prima unità campionaria casualmente e le altre sono invece scelte a
intervalli regolari a partire dalla prima unità estratta si realizza un campionamento
cosiddetto sistematico.
27
Estrazione di un campione sistematico
Assumendo che le unità statistiche di una popolazione siano disposte in sequenza e
numerate da 1 a N e che sia definito un intervallo di campionamento Y (<N),
scegliendo un numero k, compreso tra 1 e N, che individua la prima unità
campionaria, il campione sistematico sarà costituito dalle unità numerate con:
k, k+Y, k+2Y, . . . . , e k-Y, k-2Y, ecc.
A rigore, il numero k deve essere scelto in modo completamente casuale, benché
nella pratica del rilevamento delle risorse forestali viene spesso evitata l’estrazione
casuale della prima unità campionaria, assumendo che esista una completa
indipendenza tra la localizzazione delle unità campionarie e le variabili osservate.
28
Nelle applicazioni inventariali degli schemi di campionamento sistematico, le unità
campionarie a terra sono in genere configurate come strisce campione e soprattutto
come aree campione. Nei rilievi condotti su immagini telerilevate vengono in
genere impiegati fototransect (omologhi alle strisce campione) e soprattutto
fotopunti.
Strisce campione
La superficie da inventariare viene idealmente suddivisa in N strisce giustapposte.
Le unità campionarie vengono prescelte a intervalli regolari, cioè una striscia ogni
Y strisce. In pratica, si estrae un numero casuale compreso tra 1 e N e la striscia
corrispondente viene scelta come unità campionaria iniziale: le altre strisce
campione sono selezionate a intervalli regolari, una ogni Y strisce, nelle due
direzioni a partire dalla striscia campione iniziale.
Nel caso in cui è sconosciuto il valore di N, ovvero del numero di strisce che
compone la popolazione, si può operare selezionando direttamente la prima striscia
campione, a partire da un dato margine, in corrispondenza di un numero casuale
compreso tra 1 e Y (questo modo di operare può produrre un leggero sotto- o sovracampionamento se N non risulta un multiplo esatto di Y).
29
Il campionamento sistematico a strisce è usato negli inventari delle foreste tropicali
o comunque dove si hanno difficoltà di accesso all’interno della foresta.
Aree campione
La superficie da inventariare viene idealmente suddivisa in N aree giustapposte.
Ciascuna area può essere rappresentata come una cella di intersezione delle righe e
delle colonne di un reticolo. Le unità campionarie vengono prescelte a intervalli
regolari, cioè un’area ogni Y aree secondo le due dimensioni del reticolo (righe,
colonne).
L’estrazione delle n aree campione può essere condotta in maniera analoga a
quanto descritto per le strisce campione, con la differenza che in questo caso si ha
che fare con due dimensioni invece che con una. Si estrae un numero casuale
compreso tra 1 e Nr, dove Nr rappresenta il numero delle righe, e un numero
casuale compreso tra 1 e Nc, dove Nc rappresenta il numero delle colonne: questi
due numeri casuali identificano l’area che viene scelta come unità campionaria
iniziale. Le altre aree campione sono quindi selezionate a intervalli regolari, una
ogni Y aree, in ambedue le direzioni (lungo le righe e lungo le colonne) a partire
dall’area campione iniziale.
30
Nel caso in cui è sconosciuto il valore di N, ovvero del numero di aree che
compone la popolazione, e di Nr e Nc, si può operare selezionando direttamente la
riga della prima area campione, a partire da un dato margine, in corrispondenza di
un numero casuale compreso tra 1 e Y e ripetendo la stessa operazione per le
colonne (questo modo di operare può produrre un leggero sotto- o sovracampionamento se Nr e/o Nc non sono multipli esatti di Y).
31
Stimatori campionari
Lo stimatore campionario della media dell’attributo x è:
n
xsis =
dove:
∑x
i
i =1
n = numerosità campionaria
n
xi = valore dell’attributo della i-esima unità campionaria
Non esiste una procedura formalmente valida per la stima della varianza di xsis .
Tuttavia, assumendo che l’estrazione sistematica abbia prodotto un ordine di
selezione del campione sufficientemente casuale rispetto alla variabile di interesse,
allora, in prima approssimazione, si possono applicare al campionamento
sistematico gli stessi stimatori adottati per il campionamento casuale:
2
n
s
2
x
=
∑ (x − x )
i =1
i
n −1
varianza dell’attributo x
2
n
sx =
∑ (x − x )
i =1
i
n −1
deviazione standard
dell’attributo x
s
2
x
s2x N − n
=
n N
varianza della media 32
campionaria
Lo stimatore del valore totale è pari a:
X sis = Nxsis = (Yn)xsis
E la sua varianza può essere stimata pari a:
s 2 xsis = N 2 s 2 xsis
Se il campionamento è stato condotto su aree campione di superficie unitaria pari a
a, essendo N circa pari a A/a (dove A è la superficie totale considerata, nota senza
errore) si ha che:
X sis =
A
xsis
a
2
s 2 xsis
 A
=   s 2 xsis
a
33
Dimensionamento di un campione sistematico
Non esistono metodi esatti per ottimizzare la scelta della numerosità di un campione
sistematico al fine di non superare una data soglia dell’errore di campionamento.
Tuttavia, nel caso di basse frazioni di campionamento1, quali quelle che
generalmente caratterizzano le applicazioni inventariali, tale numerosità può essere
soddisfacentemente stabilita facendo riferimento alle procedure di
dimensionamento dei campioni casuali:
 ts x 

n0 =
 ec0 
2
dove:
s x = valore presunto della deviazione standard dell’attributo x nella popolazione considerata.
t = valore critico del t di Student corrispondente al prescelto livello di sicurezza statistica e agli
appropriati gradi di libertà.
1
Si definisce frazione di campionamento il rapporto tra la numerosità delle unità campionarie e la
34
numerosità complessiva degli elementi (unità statistiche) della popolazione.
Vantaggi e svantaggi del campionamento sistematico
v l’identificazione delle unità campionarie è molto più agevole rispetto a un
campionamento casuale;
Vantaggi
v nella gran parte delle situazioni e a parità di altre condizioni, il
campionamento sistematico fornisce stime più accurate rispetto a quello casuale:
non vi è alcuna possibilità che ampie porzioni omogenee della popolazione non
vengano rappresentate da almeno qualche unità campionaria;
v la regolarità della distribuzione delle unità campionarie facilita l’impiego dei
dati raccolti ai fini di una loro eventuale spazializzazione.
v il campionamento sistematico può comportare il rischio che l’intervallo di
campionamento coincida con eventuali fluttuazioni periodiche dei valori
dell’attributo oggetto di stima;
Svantaggi
v impossibilità di inferire in modo corretto la varianza della popolazione da
quella del campione: si possono dunque ottenere solamente valori approssimati
dell’errore di campionamento;
v una volta ultimato il campionamento non è possibile aggiungere nuove unità
campionarie, a meno di non procedere ex novo al campionamento stesso;
v possono verificarsi, specialmente in popolazioni piccole, situazioni di sovra- o
35
sotto-campionamento rispetto a quanto prestabilito.
ESERCIZI
CAMPIONAMENTO CASUALE
E
CAMPIONAMENTO SISTEMATICO
36
ESERCIZIO 1
Da una popolazione costituita da 100 nuclei familiari viene estratto, con
campionamento casuale semplice, un campione di 10 famiglie. Per ciascuna
famiglia campione viene stabilito il numero di componenti familiari:
Famiglia
campione
1
2
3
4
5
6
7
8
9
10
Numero di
componenti
2
5
1
4
4
3
2
5
2
3
1.
Determinare il numero medio di persone per nucleo familiare e la varianza
dello stimatore adottato;
2.
Determinare il numero totale di persone che compongono la popolazione e la
varianza dello stimatore adottato;
3.
Determinare i limiti fiduciari della media campionaria ad un livello di sicurezza
statistica del 90%.
37
Svolgimento dell’esercizio 1
Il numero medio di persone che compongono un nucleo familiare può essere stimato
per mezzo dello stimatore:
n
x=
dove:
∑x
i =1
i
n = numerosità campionaria
n
xi = valore dell’attributo della i-esima unità campionaria
n
x=
∑x
i =1
n
i
2 + 5 +1+ 4 + 4 + 3 + 2 + 5 + 2 + 3
=
= 3.1
10
38
Trattandosi di una popolazione finita (N=100) e di un campionamento in blocco, il
valore della varianza dello stimatore adottato (varianza della media campionaria)
viene stimato per mezzo della formula:
s
2
x
N − n s 2 x 100 − 10 1.88
=
=
= 0.169
N n
100 10
Dove la varianza campionaria s2x è:
2
n
s
2
x
=
∑ (x − x )
i =1
i
n −1
=
(2 − 3.1) 2 (5 − 3.1) 2 .....(3 − 3.1) 2
= 1.88
9
Il numero totale di persone della popolazione di 100 famiglie è:
X =Nx = 100 × 3.1 = 310
con varianza è pari a:
s 2 X =N 2 s 2 x = 100 2 * 0.169 = 1690
39
Assumendo un livello di sicurezza statistica pari al 90% ed essendo la numerosità
campionari < 50, i limiti fiduciari della media campionaria sono pari a:
x ± t(n −1;1−α )s x = 3.1 ± 1.833 × 0.411
Cioè si può affermare, con il rischio di sbagliare 10 volte su 100, che:
2.34 < µ < 3.85
40
ESERCIZIO 2
Ai fini della stima del vero peso di una sostanza vengono effettuate 11 pesate:
Pesata
campione
1
2
3
4
5
6
7
8
9
10
11
Peso registrato
(kg)
3.570
3.551
3.570
3.581
3.588
3.529
3.586
3.573
3.599
3.575
3.533
Determinare la media e la varianza campionaria, il valore della varianza della
media campionaria e i limiti fiduciari della media campionaria ad un livello di
sicurezza statistica del 95%.
41
Svolgimento dell’esercizio 2
Il valore della media campionaria può essere stimato per mezzo dello stimatore:
n
x=
dove:
∑x
i
i =1
n = numerosità campionaria
n
xi = valore dell’attributo della i-esima unità campionaria
n
x=
∑x
i =1
n
i
3.570 + 3.551 + .... + 3.533
=
= 3.569
11
Il valore della varianza campionaria può essere stimato per mezzo dello stimatore:
2
n
s
2
x
=
∑ (x − x )
i =1
i
n −1
(3.570 − 3.569) 2 (3.551 − 3.569) 2 .....(3.533 − 3.5699) 2
=
= 0.000497
10
42
Il valore della varianza della media campionaria può essere stimato per mezzo dello
stimatore (assimilabile a un campionamento con reinserimento):
s
2
x
s 2 x 0.000497
=
=
= 0.000045
n
11
Assumendo un livello di sicurezza statistica pari al 95% ed essendo la numerosità
campionari < 50, i limiti fiduciari della media campionaria sono pari a:
x ± t(n −1;1−α )s x = 3.569 ± 2.228 × 0.006708
Cioè si può affermare, con il rischio di sbagliare 5 volte su 100, che:
3.5540 < µ < 3.5839
43
ESERCIZIO 3
Ai fini della stima della provvigione legnosa media e della provvigione legnosa
totale di un soprassuolo di castagno esteso su 90 ettari, viene eseguito un rilievo
diretto su 15 aree circolari campione di 0.2 ettari ciascuna, distribuite casualmente.
I dati derivanti dalle operazioni di campo sono:
Area
campione
m3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
4.7 3.9 5.3 6.1 5.5 5.5 4.9 6.2 6.3 4.2 4.3 4.2 5.8 3.7 5.9
Determinare, oltre alla provvigione legnosa media e alla provvigione legnosa totale,
i rispettivi limiti fiduciari assumendo un livello di sicurezza statistica del 95%.
44
Svolgimento dell’esercizio 3
Il valore della provvigione legnosa media può essere stimato per mezzo dello
stimatore:
n
x=
dove:
∑x
i =1
i
n = numerosità campionaria
n
xi = valore dell’attributo della i-esima unità campionaria
n
x=
∑x
i =1
n
i
4.7 + 3.9 + .... + 5.9
=
= 5.1
15
Il valore della provvigione legnosa totale può essere stimato per mezzo dello
stimatore:
A
90
X = x=
× 5.1 = 2295
a
0 .2
45
I limiti fiduciari della stima della provvigione legnosa media, con un livello di
sicurezza statistica del 95%, sono:
x ± t(n −1;1−α )s x = 5.1 ± 2.145 × 0.266 = 5.1 ± 0.57
dove la varianza campionaria s2x è:
2
n
s
2
x
=
∑ (x − x )
i =1
i
n −1
(4.7 − 5.1) 2 (3.9 − 5.1) 2 .....(5.9 − 5.1) 2
=
= 0.071
14
I limiti fiduciari della stima della provvigione legnosa totale, con un livello di
sicurezza statistica del 95%, sono:
A
A
90
90
x ± t(n −1;1−α )s x = 5.1
± 2.145 × 0.266
= 2295 ± 256.7
a
a
0 .2
0 .2
46
ESERCIZIO 4
Un ricercatore botanico desidera stimare il numero di piante di faggio all’interno di
un’area di studio. L’area di studio è stata suddivisa in 1000 plot. Da una precedente
esperienza, risulta che la varianza del numero di fusti per plot è di 45.
Utilizzando un campionamento casuale semplice, quale dimensione campionaria
dovrebbe essere utilizzata per stimare il numero totale di piante ammettendo un
errore di campionamento massimo pari a 500 fusti e un livello di sicurezza statistica
del 95%? E con un errore di campionamento massimo di 1000 fusti?
47
Svolgimento dell’esercizio 4
La dimensione campionaria che dovrebbe essere utilizzata per stimare il numero
totale di piante ammettendo un errore di campionamento massimo pari a 500 fusti e
un livello di sicurezza statistica del 95% è data da:
2
 Nts x  10002 ×1.96 2 × 45
 =
n0 =
= 692
2
500
 ec0 
Valore del t di Student per infiniti gradi di libertà
Analogamente, la dimensione campionaria che dovrebbe essere utilizzata per
stimare il numero totale di piante ammettendo un errore di campionamento massimo
pari a 1000 fusti e un livello di sicurezza statistica del 95% è data da:
2
 Nts x  10002 × 1.96 2 × 45
 =
n0 =
= 173
2
1000
 ec0 
48
ESERCIZIO 5
Determinare il numero di unità campionarie necessarie per ottenere una stima
dell’indice di rinnovazione in un popolamento di cerro di 3 ha, ammettendo un
errore di campionamento non superiore al 15% della media (ecp0=15) a un livello
di sicurezza statistica del 95%. Tramite un campionamento pilota casuale di 20
areole, la media dell’indice di rinnovazione è stimata in via preliminare pari a 2.5
m e la varianza pari ad 1.5 m2.
49
Svolgimento dell’esercizio 5
La popolazione oggetto di campionamento (unità statistiche = areole di 1 m2) è
assimilabile a una popolazione infinita. Dunque:
 tCV % 

n0 =
 ecp0 
2
Dato che il valore critico di t dipende dai gradi di libertà della media, i quali a
loro volta dipendono da n0, un’esatta stima di n0 può essere desunta
iterativamente. Un primo valore approssimato di t può essere desunto in
corrispondenza di un numero di gradi di libertà pari a npil-1 (=19), cioè t=2.09
(test a due code). Allora, una prima stima della numerosità del campione risulta
pari a:
CV % =
sx
1.5
*100 =
*100 = 49
x
2.5
t 2CV % 2 2.09 2 49 2
n0 =
=
= 46
2
2
15
ecp0
50
Il valore di t appropriato per 45 gradi di libertà è pari a 2.02. Immettendo questo
valore di t nella formula precedente, si ha:
t 2CV % 2 2.02 2 49 2
n0 =
=
= 44
2
2
15
ecp0
Essendo il valore critico di t corrispondente a 43 gradi di libertà uguale al valore
di t inserito nella formula precedente, la dimensione numerica n=44 è quella da
adottare per il campionamento definitivo. Dato che nel campionamento pilota sono
state già rilevate 20 areole, restano dunque da estrarre casualmente e da misurare
altre 24 areole campione.
51
CAMPIONAMENTO
STRATIFICATO
52
Il campionamento stratificato consiste nella suddivisione della popolazione in
sottopopolazioni omogenee, dette strati, e nell’estrazione delle unità campionarie
indipendentemente da ciascuno strato.
Se gli strati sono configurati in modo tale da risultare al loro interno più
omogenei dell’intera popolazione, è possibile ridurre i costi del rilevamento
senza ridurre la precisione delle stime o, analogamente, a parità di costi, è
possibile ottenere una precisione di stima significativamente maggiore rispetto
a un campionamento semplice.
53
Estrazione di un campione stratificato
Ai fini dell’estrazione di un campione stratificato, si procede a:
1.
suddividere la popolazione in strati, ciascuno di Nj unità, in modo che:
∑
dove:
M
j =1
Nj = N
N = numerosità della popolazione
M = numero di strati
gli strati sono costituiti da porzioni di popolazione più omogenei al loro interno, nei
riguardi dell’attributo oggetto di interesse, di quanto non lo sia la popolazione nella sua
interezza.
2.
Estrarre un certo numero di unità campionarie indipendentemente da ciascuno
strato, cioè con modalità anche diverse da strato a strato.
54
La varianza dei valori di un attributo in una popolazione stratificata può essere
interpretata come somma di due componenti:
v la prima deriva dalle differenze tra i valori delle medie a livello di singoli strati;
v la seconda, dalle differenze tra i valori delle singole unità campionarie di
ciascuno strato e la media dello strato stesso.
Lo scopo della stratificazione è quello di ottenere una varianza tra gli strati
relativamente alta e una varianza entro gli strati relativamente bassa.
Il campionamento stratificato risulta efficace se si conoscono
le presunte cause principali di variabilità dell’attributo
oggetto di interesse nella popolazione considerata, di modo
che la suddivisione in strati possa essere stabilita in accordo al
presumibile pattern di variabilità dell’attributo stesso.
A esempio, il campionamento stratificato può risultare utile qualora si
debba stimare la provvigione di un bosco ed è possibile distinguere per
fotointerpretazione soprassuoli con evidenti differenze di grado di
copertura e di altezza.
55
Stime per singolo strato
Lo stimatore del valore medio nel j-esimo strato è pari a:
nJ
xj =
∑ xij
dove:
xij = valore dell’attributo nell’i-esima unità campionaria del j-esimo strato
i =1
nj
nj = numero di unità campionarie nel j-esimo strato
Lo stimatore della varianza del valor medio nel j-esimo strato è pari a:
Estrazione
con rimessa
s
2
xj
s 2 xi
=
nj
dove:
s2x = stimatore della varianza di x nel j-esimo strato
i
∑ (x
=
nj
= s
Estrazione in
blocco
s2xj
s 2 xi N j − n j
=
nj
Nj
2
xj
i =1
ij
− xj )
2
n j −1
Nj= numero di unità statistiche nel j-esimo strato
nj = numero di unità campionarie nel j-esimo strato
56
Lo stimatore del valore totale dell’attributo x nel j-esimo strato è pari a:
X j = N jxj
Essendo N pari circa a Aj/aj:
dove:
Xj =
Aj
aj
xj
Aj = superficie del j-esimo strato nota senza errore;
aj = superficie dell’area campione, nota senza errore.
La varianza è stimata pari a:
s 2 Xj = N j s 2 x j
2
57
Stime complessive
Lo stimatore della media (media ponderata) dell’attributo x nella popolazione è pari
a:
M
xST = ∑
j =1
Nj
N
xj
se la dimensione degli strati è espressa in termini di superficie:
M
xST = ∑
j =1
Aj
A
dove:
xj
Aj = superficie del j-esimo strato nota senza errore;
A = superficie totale della popolazione, nota senza errore.
Lo stimatore della varianza di xST è pari a:
 Nj
= ∑ 
j =1  N
M
s 2 xST
2
 2
 s x j

 Aj
= ∑ 
j =1  A
M
o
s 2 xST
2
 2
 s x j

58
Lo stimatore del valore totale dell’attributo x nella popolazione è pari a:
X ST = NxST
Analogamente, essendo N circa pari a A/a (dove a è la superficie delle unità
campionarie espressa nella stessa unità di misura di A), si ha che:
X ST
A
= xST
a
Lo stimatore della varianza di XST è pari a:
S 2 X ST = N 2 s 2 xST
Nel caso che le unità campionarie siano rappresentate da aree di superficie a, si ha:
2
S 2 X ST
 A 2
=   s xST
a
59
DIMENSIONAMENTO DI UN CAMPIONE STRATIFICATO
Nell’ambito dell’applicazione di un campionamento stratificato, il dimensionamento
del campione avviene in tre passi successivi:
1.
definizione della frazione Wj di unità campionarie da allocare in ciascuno strato;
2.
calcolo della numerosità campionaria complessiva;
3.
calcolo della numerosità del campione per ciascuno strato.
60
1.
Definizione della frazione Wj di unità campionarie per ciascuno strato
Esistono differenti metodi per definire la frazione Wj di unità campionarie da allocare in
ciascuno strato:
ripartizione soggettiva: la distribuzione numerica delle unità campionarie viene
stabilita soggettivamente dall’operatore; l’unico vincolo da rispettare è che
∑
M
Wj = 1 ;
j =1
ripartizione uniforme: la distribuzione delle unità campionarie negli M strati è paria
a: Wj=1/M. Tale approccio viene adottato quando gli strati hanno
approssimativamente la stessa ampiezza e sia il costo di campionamento per
unità campionaria sia la varianza dell’attributo oggetto di interesse non
differiscono significativamente da strato a strato e si desidera ottenere la
medesima precisione di stima in tutti gli strati;
ripartizione proporzionale: la ripartizione nei singoli strati viene stabilita in modo
proporzionale alla loro dimensione: Wj=Nj/N o, analogamente, Wj=Aj/A.
Tale approccio viene adottato quando gli strati hanno ampiezza differente tra
loro, ma il costo di campionamento per unità campionaria è più o meno
uguale in tutti gli strati, oppure quando poco si sa riguardo alla varianza
dell’attributo oggetto di interesse e al costo di campionamento per unità
61
campionaria nei vari strati;
ripartizione di Neyman: il numero di unità campionarie estratto nel j-esimo strato è
proporzionale alla deviazione standard nello strato e ponderato rispetto alla
dimensione dello strato stesso:
N j sx j
Wj =
o, analogamente,
M
∑N s
Wj =
j xj
j =1
Aj sx j
M
∑A s
j xj
j =1
Con questo tipo di ripartizione, tanto maggiore è la variabilità dell’attributo
esaminato in dato strato, tanto maggiore è, in termini relativi, il numero di unità
campionarie in esso da allocare. Ovviamente, la variabilità all’interno degli strati
viene valutata a priori mediante un campionamento pilota o con valutazioni
soggettive e l’efficacia della ripartizione dipende dalla corrispondenza tra la
realtà e queste valutazioni.
ripartizione ottima: tiene conto sia della dimensione, sia della variabilità dell’attributo
oggetto d’interesse che dei costi nei singoli strati:
Wj =
N j s2xj / c j
M
∑N
j =1
j
s
2
xj
/ cj
o, analogamente, W j =
Aj s 2 x j / c j
M
∑A
j =1
j
s2xj / c j
62
Questo tipo di ripartizione è efficace quando i costi unitari di campionamento
variano significativamente da strato a strato ed è perciò conveniente limitare al
massimo il numero di unità campionarie negli strati ove la realizzazione è più
costosa. Ovviamente, la variabilità e il costo all’interno degli strati viene valutata
a priori mediante un campionamento pilota o con valutazioni soggettive e
l’efficacia della ripartizione dipende dalla corrispondenza tra la realtà e queste
valutazioni.
63
2.
Numerosità del campione
A seconda degli obiettivi, la numerosità campionaria complessiva può essere
stabilita con riferimento al numero di osservazioni necessario a contenere l’errore
di campionamento entro una data soglia massima tollerata oppure con
riferimento al numero di osservazioni necessario a contenere il costo totale del
campionamento entro un livello massimo prefissato.
2.1 Numerosità del campione in funzione della precisione di stima
N j sx j
j =1
Wj
t2∑
n0 =
ec
2
0 xST
2
M
N +t
2
2
M
2
∑ N j sx j
2
Numero di osservazioni necessario a contenere
l’errore di campionamento della media
ponderata entro una data soglia massima ec0
Xst
j =1
N j sx j
j =1
Wj
t2∑
n0 =
ec
2
0 xST
2
M
+t
M
2
2
∑ N j sx j
j =1
2
Numero di osservazioni necessario a contenere
l’errore di campionamento del valore totale
entro una data soglia massima ec0 Xst
64
2.1 Numerosità del campione in funzione del costo totale
n0 =
C0 − c f
∑
M
j =1
Wjc j
dove:
C0=costo massimo prefissato;
cf=costi fissi del campionamento;
cj=costo medio di campionamento per unità campionaria nel j-esimo strato.
3.
Numerosità del campione nei singoli strati
La numerosità campionaria in ciascuno strato è pari a:
n0j = n0Wj
65
POST-STRATIFICAZIONE
Nella pratica inventariale può accadere che, pur potendo definire a priori le
caratteristiche degli strati, non è possibile o non è conveniente procedere alla
stratificazione della popolazione oggetto di interesse.
In questi casi si può procedere operando dapprima un campionamento sistematico
semplice, avendo l’accortezza di registrare, nel corso del rilievo in campo, a quale
strato appartiene ciascuna unità campionaria, in modo da potere eseguire
successivamente una post-stratificazione della popolazione e applicare gli
stimatori del campionamento stratificato.
Così facendo si può ottenere la stessa precisione di stima del campionamento
stratificato con ripartizione proporzionale, purché il campione sia sufficientemente
grande, come in genere avviene nelle applicazioni di inventariazione delle risorse
forestali.
66
Vantaggi e svantaggi del campionamento stratificato
v a parità di precisione di stima, richiede una numerosità
campionaria inferiore rispetto al campionamento semplice;
Vantaggi
v quando l’attributo di interesse presenta una importanza diversa
nei differenti strati (a esempio quando si esegue in inventario a fini
produttivi e le varie parti del territorio presentano soprassuoli forestali di
diverso valore commerciale) è possibile incrementare la precisione di
stima negli strati di maggiore importanza;
v può non essere semplice riuscire ad assegnare ciascuna unità
statistica ad un unico strato;
Svantaggi
v la dimensione degli strati deve essere nota a priori con
esattezza: nell’inventariazione delle risorse forestali su vaste
superfici tale quantificazione risulta spesso problematica.
67
ESERCIZI
CAMPIONAMENTO
STRATIFICATO
68
ESERCIZIO 1
Una popolazione di 450 unità statistiche è stata suddivisa in tre strati costituiti
rispettivamente da N1=100, N2=50 e N3=300 unità. Da ciascuno strato vengono
estratte 50 unità campionarie. Il valor medio e la varianza osservati nei differenti
strati sono:
N
n
x
s2
STRATO 1
100
50
10
2800
STRATO 2
50
50
20
700
STRATO 3
300
50
30
600
Qual è il valor medio dell’intera popolazione?
Svolgimento dell’esercizio 1
Il valor medio dell’intera popolazione può essere stimato come:
M
Nj
j =1
N
xST = ∑
xj =
100
50
300
10 +
20 +
30 = 24.44
450
450
450
69
ESERCIZIO 2
Una cerreta estesa su 350 ha viene divisa in tre strati di differente età, di estensione
pari a 25 ha, 175 ha e 150 ha. Nel primo strato vengono eseguiti rilievi diretti su 5
aree campione, nel secondo strato su 15 e nel terzo su 10. La superficie unitaria
delle aree campione è pari a 0.05 ha. I valori di massa legnosa osservati nelle aree
campione sono riportati in tabella:
AREA
CAMPIONE
1
2
3
4
5
STRATO 1
m3
3
5
7
4
6
STRATO 2
m3
3
8
3
6
STRATO 3
m3
4
5
4
3
6
7
8
9
10
11
12
13
14
15
7
5
9
4
6
4
5
5
4
9
6
7
5
8
4
5
4
Determinare il valore della provvigione legnosa nei singoli strati e quello dell’intera
foresta.
70
Svolgimento dell’esercizio 2
Il valore totale della provvigione legnosa nei tre strati viene stimato con la formula:
dove:
Xj =
Aj
aj
xj
Aj = superficie del j-esimo strato nota senza errore;
aj = superficie dell’area campione, nota senza errore.
x j = valore medio dell’attributo nel j-esimo strato.
Quindi, essendo il valor medio della provvigione legnosa nei singoli strati pari a:
nJ
xj =
∑ xij
i =1
nj
dove:
xij = valore dell’attributo nell’i-esima unità campionaria del j-esimo strato
nj = numero di unità campionarie nel j-esimo strato
Si ha:
x1 =
3 + 5 + ... + 6
=5
5
x2 =
3 + 8 + ... + 6
= 5.6
15
x3 =
4 + 5 + ... + 4
= 4.9
10
71
Pertanto, il valore totale della provvigione legnosa nei tre strati è:
X1 =
A1
25
x1 =
5 = 2500m3
a1
0.05
X2 =
A2
175
x2 =
5.6 = 19600m3
a2
0.05
X3 =
A3
150
x3 =
4.9 = 14700m3
a3
0.05
Il valore totale della provvigione legnosa della foresta è:
X ST
A
= xST
a
dove:
A = superficie della foresta, nota senza errore;
a = superficie dell’area campione, nota senza errore.
xST = valore medio dell’attributo della popolazione.
72
Essendo il valor medio della provvigione dell’intera foresta pari a:
M
Aj
j =1
A
xST = ∑
xj =
25
175
150
5+
5.6 +
4.9 = 5.26
350
350
350
dove:
Aj = superficie del j-esimo stato, nota senza errore;
A = superficie della foresta;
x j = valore medio dell’attributo nel j-esimo strato.
Il valore totale della provvigione legnosa della foresta è:
X ST
A
350
= xST =
5.26 = 36820m3
a
0.05
73
ESERCIZIO 3
Una faggeta estesa su 225 ha viene divisa in due strati di differente età, di
estensione pari a 100 ha e 125 ha. Nel primo strato vengono eseguiti rilievi diretti su
10 aree campione, nel secondo strato su 15. La superficie unitaria delle aree
campione è pari a 0.02 ha. I valori di massa legnosa osservati nelle aree campione
sono riportati in tabella:
AREA
CAMPIONE
1
2
3
4
5
6
7
8
9
10
STRATO 1
m3
4
6
7
9
4
7
10
8
7
9
STRATO 2
m3
5
3
5
1
4
6
3
2
3
0
11
12
13
14
15
4
3
2
5
3
Determinare il valore della provvigione legnosa nei singoli strati, quello dell’intera
foresta e le rispettive varianze.
74
Svolgimento dell’esercizio 3
Il valore totale della provvigione legnosa nei due strati viene stimato con la formula:
dove:
Xj =
Aj
aj
xj
Aj = superficie del j-esimo strato nota senza errore;
aj = superficie dell’area campione, nota senza errore.
x j = valore medio dell’attributo nel j-esimo strato.
Quindi, essendo il valor medio della provvigione legnosa nei singoli strati pari a:
nJ
xj =
∑ xij
dove:
xij = valore dell’attributo nell’i-esima unità campionaria del j-esimo strato
i =1
nj
nj = numero di unità campionarie nel j-esimo strato
Si ha:
x1 =
4 + 6 + ... + 9
= 7.1
10
x2 =
5 + 3 + ... + 3
= 3.3
15
75
Pertanto, il valore totale della provvigione legnosa nei due strati è:
X1 =
A1
100
x1 =
7.1 = 35500m 3
a1
0.02
X2 =
A2
125
x2 =
3.3 = 20625m3
a2
0.02
Con varianza pari a : s 2 Xj =
Aj
aj
2
s2 x j
2
dove s 2 x j ,varianza del valor medio nel j-esimo strato è pari a:
s
2
xj
s2xj
=
nj
dove:
s2x = stimatore della varianza di x nel j-esimo strato
i
∑ (x
=
nj
= s
2
xj
i =1
ij
− xj )
2
n j −1
76
Quindi:
∑ (x
=
nj
2
s
x1
i =1
− x1 )
2
i1
n1 − 1
2
2
2
(
4 − 7.1) (6 − 7.1) ...(9 − 7.1)
=
9
= 4.1
varianza dell’attributo negli strati
∑ (x
=
nj
s
2
s
x2
2
x1
s 2 x2
i =1
− x2 )
2
i2
n2 − 1
2
2
2
(
5 − 3.3) (3 − 3.3) ...(3 − 3.3)
=
14
= 2.64
s 2 x1 4.1
=
=
= 0.41
n1
10
s 2 x2 2.64
=
=
= 0.18
n2
15
2
varianza del valor medio dell’attributo negli strati
( )
100 2
A1 2
3
0
.
41
10250000
m
s X 1 = 2 s x1 =
=
0.02 2
a1
2
2
s2 X 2
2
( )
A2 2
1252
3
= 2 s x2 =
2
.
64
=
103125000
m
0.02 2
a2
varianza del valore totale
dell’attributo negli strati
2
77
Il valore totale della provvigione legnosa della foresta è:
X ST
A
= xST
a
dove:
A = superficie della foresta, nota senza errore;
a = superficie dell’area campione, nota senza errore.
xST = valore medio dell’attributo della popolazione.
Essendo xST ,valore medio dell’attributo della popolazione pari a:
M
xST = ∑
j =1
Aj
A
xj
dove:
Aj = superficie del j-esimo strato nota senza errore;
A = superficie totale della popolazione, nota senza errore.
xST
100
125
=
7.1 +
3.3 = 4.98
225
225
Si ha che il valore totale della provvigione legnosa della foresta è:
X ST =
A
225
xST =
4.98 = 56025m3
a
0.02
78
Con varianza pari a:
2
s 2 X ST
2
( )
 A
 225 
3
=   s 2 xST = 
 0.08 = 10125000 m
a
 0.02 
2
Dove s 2 xST , è lo stimatore della varianza del valor medio dell’attributo nella
popolazione:
s
2
xST
2
 Aj  2
 100 
 125 
3


= ∑  s xj = 
 0.41 + 
 0.18 = 0.13 m
 225 
 225 
j =1  A 
M
2
2
( )
79
2
ESERCIZIO 4
Ai fini della stima della provvigione legnosa di una compresa di faggio estesa su 250
ha, viene effettuata una suddivisione della foresta in tre strati: faggeta densa (125
ha), faggeta rada (75 ha), faggeta molto rada (50 ha). Da un campionamento pilota
condotto su aree campione di 0.1 ha, la varianza della massa legnosa nel primo
strato risulta pari a 85 (m3)2, nel secondo strato pari a 96 (m3)2, nel terzo strato pari
a 102 (m3)2 . Il costo di realizzazione di un’area campione nel primo strato risulta
pari a circa un terzo di quello del terzo strato, e a circa due terzi di quello del
secondo strato.
Determinare la ripartizione delle unità campionarie secondo i seguenti approcci:
-uniforme;
-proporzionale;
-di Neyman;
-ottimale.
80
Svolgimento dell’esercizio 4
Ripartizione uniforme delle unità campionarie:
W1,W2,W3 = 1/3=0.33;
Ripartizione proporzionale delle unità campionarie:
W1=A1/A=125/250=0.5;
W2=A2/A=75/250=0.3;
W3=A3/A=50/250=0.2;
Ripartizione di Neyman delle unità campionarie:
W1 =
A1s x1
M
∑A s
j =1
W2 =
125 × 9.22
1152.5
=
= 0.48
125 × 9.22 + 75 × 9.80 + 50 ×10.10 1152.5 + 735 + 505
=
75 × 9.80
735
=
= 0.31
125 × 9.22 + 75 × 9.80 + 50 ×10.10 1152.5 + 735 + 505
j xj
A2 s x2
M
∑A s
j =1
=
j xj
81
A3 s x 3
W3 =
M
∑A s
j =1
=
50 ×10.10
505
=
= 0.21
125 × 9.22 + 75 × 9.80 + 50 ×10.10 1152.5 + 735 + 505
j xj
Ripartizione ottima delle unità campionarie:
W1 =
A1 s 2 x1 / c1
M
∑A
j =1
W2 =
j
M
j =1
W3 =
j
M
j =1
j
=
75 96 / 0.5
1039.23
=
= 0.28
125 85 / 0.3 + 75 96 / 0.5 + 50 102 / 1 2104.06 + 1039.23 + 504.97
=
50 102 / 1
504.97
=
= 0.14
125 85 / 0.3 + 75 96 / 0.5 + 50 102 / 1 2104.06 + 1039.23 + 504.97
s 2 xj / c j
A3 s 2 x3 / c3
∑A
125 85 / 0.3
2104.06
=
= 0.58
2104
.
06
+
1039
.
23
+
504
.
97
125 85 / 0.3 + 75 96 / 0.5 + 50 102 / 1
s 2 xj / c j
A2 s 2 x2 / c2
∑A
=
s 2 xj / c j
82
CAMPIONAMENTO
MULTISTADIO
83
Nel caso di rilevamento campionario delle risorse forestali su territori molto vasti o
quando la popolazione oggetto di indagine è caratterizzata da scarsa accessibilità,
uno schema di campionamento utilizzabile è rappresentato dal campionamento
multistadio.
Estrazione di un campione multistadio
La procedura di estrazione di un campione multistadio si configura come segue:
1.
si suddivide la popolazione in un numero relativamente grande di sottopopolazioni,
dette unità primarie (M);
2.
si estrae un campione casuale di unità primarie (m);
3.
le unità primarie campione vengono a loro volta suddivise in sottoinsiemi più piccoli,
detti unità secondarie (N);
4.
si estrae un campione casuale di unità secondarie in ciascuna unità primaria campione
(n);
5.
si ripete il procedimento sopra descritto per qualsivoglia numero di stadi (unità
terziarie..ecc);
6.
il rilevamento dell’attributo oggetto di interesse viene condotto sulle unità selezionate
84
nell’ambito dell’ultimo stadio.
In ambito inventariale raramente si riscontrano casi di campionamento con un
numero di stadi superiore a tre.
Per aumentare la precisione di stima le unità primarie devono essere tali da
presentare al loro interno una variabilità dell’attributo oggetto di interesse
elevata. Tuttavia, essendo le unità primarie costituite da elementi fisicamente vicini,
di conseguenza tendono ad avere caratteristiche simili. Pertanto, di norma, il
numero delle unità primarie dovrebbe essere elevato e di dimensione ridotta.
La scelta delle modalità di estrazione delle unità campionarie può variare da stadio a
stadio. A esempio, i vantaggi di un campionamento sistematico delle unità
campionarie non sono ugualmente importanti in tutti gli stadi: in un campionamento
a due stadi in cui le unità primarie siano rappresentate da quadrati di 1 km di lato e
le unità secondarie da strisce di 1 km di lunghezza e 10 m di larghezza, la selezione
casuale delle unità secondarie in ciascuna unità primaria non comporta un
significativo incremento dei costi di accesso rispetto a una selezione sistematica.
85
STIMATORI PER CAMPIONAMENTO A DUE STADI
In ambito inventariale, l’applicazione più frequente del campionamento multistadio
è quello a due stadi, al quale faremo qui riferimento.
Il caso più comune di campionamento a due stadi è quello in cui sia le unità
primarie campione sia le unità secondarie campione sono estratte casualmente
e la probabilità di selezione, nell’ambito di uno stesso stadio, è la medesima per
tutte.
Numerosità della popolazione incognita
∑
=
∑
m
La stima della media campionaria è pari a: xDSr
dove: x j =
∑
nj
x
i =1 ij
j =1
m
N jxj
j =1
Nj
m= numero di unità
primarie campione
è lo stimatore della media dell’attributo x nella j-esima unità
nj
primaria campione; xij = valore dell’attributo x nella i-esima unità
secondaria campione della j-esima unità primaria campione; Nj = numero totale di unità
secondarie nella j-esima unità primaria campione; nj = numero di unità secondarie campione
nella j-esima unità primaria campione.
86
La varianza della media campionaria può essere stimata pari a:
∑
(M − m)
s
2
x DSr
=
2
N
j (x j − x DSr )
j =1
m
2
m −1
s 2 xj
+ ∑ N j (N j − n j )
nj
j =1
m
MmN 2 up
dove: s 2 x j = stimatore della varianza dell’attributo x nella j-esima unità primaria campione;
M = numero totale di unità primarie; N up = numero medio di unità secondarie nelle unità
primarie campione, m = numero di unità primarie campione.
Ovviamente, nel caso in cui le unità secondarie siano rappresentate da aree, gli
stimatori della media campionaria e della sua varianza sono riferiti alla superficie di
tali aree.
87
Lo stimatore del valore totale dell’attributo x nella popolazione è pari a:
X DS
M
=
m
m
∑N
j =1
j
x j = MX up
dove X up è la media del valore totale dell’attributo x nelle unità primarie campione
La varianza di XDS può essere stimata pari a:
s
2
X DS
m
2

(
)
X
X
−
∑
j
up
s2xj
M
m
j =1
=  (M − m )
+ ∑ j =1 N j (N j − n j )
m
m −1
nj





La varianza di X up può essere stimata pari a:
s 2 X up
m
2

(
)
X
−
X
up
s2xj
m
 (M − m ) ∑ j =1 j
+ ∑ j =1 N j (N j − n j )

nj
m −1
=
nM




88
Numerosità della popolazione nota
Nota la numerosità N della popolazione,
xDS
la stima della media campionaria è pari a:
M
= m
∑
m
j =1
N jxj
N
con varianza paria a:
s 2 x DS
2

m 
N


∑ j =1  N j x j − M xDS 
s2xj
M 
m
(M − m )
+ ∑ j =1 N j (N j − n j )
=
2 
m −1
nj
mN










Lo stimatore del valore totale dell’attributo x nella popolazione è pari a:
m
X DS r = N
∑N
j =1
∑
m
j =1
j
xj
Nj
= NX DSr
Con varianza stimata pari a:
s 2 X DSr = N 2 s 2 xDSr
89
Dimensionamento di un campione a due stadi
Anche nel caso più semplice di campionamento a due stadi occorre stabilire sia il
numero di unità primarie campione, sia il numero di unità secondarie campione
necessari per contenere l’errore o i costi di campionamento entro la soglia massima
tollerata. Il dimensionamento dovrà dunque prevedere:
1.
definire tutte le possibili modalità operative di suddivisione della popolazione
in unità primarie;
2.
per ciascuna modalità di suddivisione, determinare la combinazione ottimale
della dimensione campionaria delle unità primarie e delle unità secondarie,
comparando la precisione o i costi ottenuti dalle varie combinazioni possibili;
3.
selezionare la suddivisione ottimale, comparando la precisione o i costi
relativi alle combinazioni ottimali ottenute da ciascun tipo di suddivisione.
Nel caso di un campionamento a due stadi, a parità di altri fattori, la precisione
e il costo di campionamento tendono a crescere all’aumentare del numero di
unità primarie e al decrescere del numero di unità secondarie.
90
Il costo totale di un campionamento a due stadi è dato da:
C0 = c f + c1m + c2 nus m
dove: cf = costi fissi; c1= costo medio (per unità primaria) di accesso alle unità primarie
campione; c2 = costo medio di accesso (una volta raggiunta l’unità primaria) e rilevamento
per ciascuna unità secondaria campione; nus = numero medio di unità secondarie campione
nelle unità primarie campione.
Stabilito il costo totale Co, il numero ottimale di unità primarie potrà essere stimato,
in prima approssimazione, pari a:
m0 =
con
C0 − c f
c1 + c2 nus0
dove:
nus0 ≈
c1 N
c2 M
∑
Ms
2
M
2
N
s
xj
j
j =1
− ∑ j =1 N j s 2 x j
M
Xj
s 2 x j= varianza presunta dei valori totali delle unità primarie.
Ovviamente i valori presunti di s2xj, s2Xj, cf, c1, c2, devono essere stabiliti a priori sulla base
di un campione pilota.
91
Vantaggi e svantaggi del campionamento multistadio
v Il campionamento multistadio risulta vantaggioso quando sia il
campionamento semplice che quello stratificato sarebbero troppo onerosi a
causa dell’alto costo di accesso alle unità campionarie o quando la variabilità
tra le unità primarie è relativamente bassa rispetto a quella entro le unità
primarie.
Vantaggi
v Tanto più ampia e tanto meno accessibile è la superficie da inventariare,
tanto maggiore è la vantaggiosità di questo tipo di campionamento.
v Il campionamento multistadio può dunque essere adottato
vantaggiosamente ogni qualvolta si debbano inventariare popolazioni di
dimensioni molto ampie: in questi casi, infatti, può risultare troppo laborioso
e/o troppo costoso l’inquadramento di tutti i singoli elementi della
popolazione ed è più agevole concentrare i rilevamenti entro alcune
determinate porzioni di territorio.
Svantaggi
v Il raggruppamento spaziale delle unità di campionamento comporta, in
genere, una riduzione, a parità di altre condizioni, della precisione delle
stime rispetto a un campionamento casuale semplice: maggiore è la
variabilità tra le unità primarie, maggiore è tale riduzione
92
ESERCIZI
CAMPIONAMENTO
MULTISTADIO
93
ESERCIZIO 1
Una popolazione viene divisa in 10 unità primarie, ciascuna delle quali consiste di
6 unità secondarie. Dalle 10 unità primarie vengono estratte, con campionamento
casuale semplice senza reinserimento, 2 unità primarie campione e, dalle 6 unità
secondarie di ciascuna unità primaria campione, vengono selezionate, ancora con
campionamento casuale semplice senza reinserimento, 3 unità secondarie
campione. I valori della variabile d’interesse osservati sulle 3 unità secondarie
campione della prima unità primaria campione sono: 7, 5, 3; quelli osservati sulle
3 unità secondarie campione della seconda unità primaria campione sono: 4, 2, 3.
Stimare il valor medio della popolazione e la varianza dello stimatore adottato.
94
Svolgimento dell’esercizio 1
Dato che la numerosità N della popolazione è incognita, lo stimatore del valor
medio della popolazione è:
∑
=
∑
m
xDSr
dove:
xj
∑
=
nj
x
i =1 ij
j =1
m
N jxj
j =1
Nj
è lo stimatore della media dell’attributo x nella j-esima unità
nj
primaria campione; xij = valore dell’attributo x nella i-esima unità secondaria
campione della j-esima unità primaria campione; Nj = numero totale di unità secondarie nella j-esima
unità primaria campione; nj = numero di unità secondarie campione nella j-esima unità primaria
campione.
Quindi:
x1
x2
∑
=
nj
x
i =1 i1
n1
∑
=
nj
x
i =1 i 2
n2
=
7+5+3
=5
3
4+2+3
=
=3
3
∑
=
∑
m
xDSr
j =1
m
N jxj
j =1
Nj
=
6×5 + 6×3
=4
6+6
95
La varianza dello stimatore è pari a:
∑ j =1 N 2 j (x j − xDSr )
m
(M − m)
s
2
x DSr
2
m −1
=
s 2 xj
+ ∑ N j (N j − n j )
nj
j =1
m
MmN 2 up
2
dove: s x j = stimatore della varianza dell’attributo x nella j-esima unità primaria campione; M = numero
totale di unità primarie; N up = numero medio di unità secondarie nelle unità primarie campione, m =
numero di unità primarie campione.
Lo stimatore della varianza dell’attributo x nella j-esima unità primaria campione è:
− xj )
xj
∑ (x
=
− x1 )
x1
∑ (x
=
− x2 )
x2
(x
∑
=
nj
s
2
i =1
ij
n j −1
nj
s
2
i =1
i1
s
2
n j −1
nj
2
2
i =1
i2
n j −1
quindi:
2
2
2
(
7 − 5) + (5 − 5) + (3 − 5)
=
=4
2
2
2
(
4 − 3) + (2 − 3) + (3 − 3)
=
=1
2
2
2
96
Pertanto, la varianza dello stimatore del valor medio della popolazione è pari a:
2
N
∑ j =1 j (x j − xDSr )
m
(M − m)
2
m −1
s 2 x DSr =
MmN 2 up
6 2 (5 − 4) + 6 2 (3 − 4)
4
1
(10 − 2)
+ 6(6 − 3) + 6(6 − 3)
1
3
3 = 0.84
=
2
10 × 2 × 6
2
s 2 x DSr
s 2 xj
+ ∑ N j (N j − n j )
nj
j =1
m
2
97
ESERCIZIO 2
Si voglia stimare la massa legnosa di un rimboschimento di pino nero mediante un
campionamento casuale semplice a due stadi (senza reinserimento). Il
rimboschimento viene suddiviso in 25 unità primarie. Mediante campionamento
casuale semplice senza reinserimento, vengono estratte 12 unità primarie
campione e per ciascuna di queste 3 unità secondarie campione, individuate
ancora con estrazione casuale semplice, sulle quali vengono condotte le misure a
terra. Il numero di unità secondarie e i valori di massa legnosa osservati nelle
unità secondarie campione delle 12 unità primarie campione sono:
UNITA’ I
CAMPIONE
1
2
3
4
5
6
7
8
9
10
11
12
NJ
10
8
8
5
12
12
9
6
12
9
8
12
x1J
4
6
7
9
4
7
10
8
7
9
5
6
x2J
2
5
3
7
3
7
5
4
8
4
3
6
x3J
5
3
5
1
4
6
3
2
3
0
4
3
Determinare il valore totale della provvigione legnosa del rimboschimento e la
varianza dello stimatore.
98
Svolgimento dell’esercizio 2
Lo stimatore del valore totale della provvigione legnosa è:
X DS
dove:
xj
∑
=
nj
x
i =1 ij
M
=
m
m
∑N
j =1
j
xj
è lo stimatore della media dell’attributo x nella j-esima unità
nj
primaria campione; xij = valore dell’attributo x nella i-esima unità secondaria
campione della j-esima unità primaria campione; Nj = numero totale di unità secondarie nella j-esima
unità primaria campione; nj = numero di unità secondarie campione nella j-esima unità primaria
campione.
Quindi, essendo:
∑i=1 xi1
nj
x1 =
n1
∑i=1 xi 2
nj
x2 =
n2
∑i=1 xi3
4+2+5
=
= 3.7
3
6+5+3
=
= 4 .7
3
nj
x3 =
n3
=
7 + 3+5
=5
3
x4 =
x5 =
x6 =
∑
nj
x
=
9 + 7 +1
= 5.7
3
x
=
4+ 3+ 4
= 3 .7
3
x
=
7+7+6
= 6.7
3
i =1 i 4
n4
∑
nj
i =1 i 5
n5
∑
nj
i =1 i 6
n6
99
x7
∑
=
x8
∑
=
x9
∑
=
nj
x
i =1 i 7
n7
nj
x
i =1 i 8
n8
nj
x
i =1 i 9
n9
10 + 5 + 3
=
=6
3
8+ 4+ 2
=
= 4.7
3
7+8+3
=
=6
3
x10
∑
=
x11
∑
=
x12
∑
=
nj
x
i =1 i10
n10
nj
x
i =1 i11
n11
nj
x
i =1 i12
n12
=
9+4+0
= 4 .3
3
=
5+3+ 4
=4
3
=
6+6+3
=5
3
Il valore totale della provvigione legnosa è:
X DS
M
=
m
m
∑ N jxj =
j =1
25
(10 × 3.7 + 8 × 4.7 + ... + 12 × 5) = 1151.67 m3
12
100
La varianza di XDS può essere stimata pari a:
s 2 X DS
m
2

(
)
X
X
−
∑
j
up
s2xj
M
m
j =1
=  (M − m )
+ ∑ j =1 N j (N j − n j )
m
m −1
nj





dove X j è il valore totale dell’attributo x nella j-esimia unità primaria campione, X up è la
media del valore totale dell’attributo x nelle unità primarie campione e s 2 x j è lo stimatore
della varianza dell’attributo x nella j-esima unità primaria campione .
(x
∑
=
nj
Essendo X j = N j x j e
s2xj
i =1
ij
− xj )
n j −1
2
si ha:
101
X 1 = N1 x1 = 10 × 3.7 = 37
X 2 = N 2 x2 = 8 × 4.7 = 37.6
X 3 = N 3 x3 = 8 × 5 = 40
X 7 = N 7 x7 = 9 × 6 = 54
X 8 = N 8 x8 = 6 × 4.7 = 28.2
X 4 = N 4 x4 = 5 × 5.7 = 28.5
X 5 = N 5 x5 = 12 × 3.7 = 44.4
X 10 = N10 x10 = 9 × 4 = 38.7
X 6 = N 6 x6 = 12 × 6.7 = 80.4
X 12 = N12 x12 = 12 × 5 = 60
2
(
)
−
x
x
∑i=1 i1 1
X 9 = N 9 x9 = 12 × 6 = 72
X 11 = N11 x11 = 8 × 4 = 32
nj
s 2 x1 =
nj
s 2 x4
i =1
i4
= 2.3
− x4 )
s 2 x2 =
n4 − 1
2
∑i=1 (xi 7 − x7 )
n7 − 1
(x
∑
=
= 17.3
s 2 x5
= 13
2
∑i =1 (xi10 − x10 )
n10 − 1
i =1
i5
− x5 )
= 2.3
s 2 x3 =
2
∑i =1 (xi8 − x8 )
s 2 x8 =
n8 − 1
s 2 x6
− x6 )
s 2 x9
(x
∑
=
− x9 )
s 2 x12
(x
∑
=
nj
= 0.3
s 2 x11 =
= 9.3
2
∑i =1 (xi11 − x11 )
n11 − 1
i =1
i =1
= 0.3
n6 − 1
2
i9
=7
n9 − 1
nj
=1
=4
2
i6
nj
nj
= 20.3
n3 − 1
(x
∑
=
2
n5 − 1
2
(
)
−
x
x
∑i =1 i 3 3
nj
nj
nj
s 2 x10 =
n2 − 1
nj
2
nj
s 2 x7 =
2
(
)
−
x
x
∑i =1 i 2 2
nj
n1 − 1
(x
∑
=
X up = 46.06
i =1
i12
− x12 )
n12 − 1
2
=3
102
Pertanto, il valore della varianza di XDS è pari a:
s
s
2
X DS
2
X DS
m
2

(
)
X
X
−
∑
j
up
s2xj
M
m
j =1
=  (M − m )
+ ∑ j =1 N j (N j − n j )
m
m −1
nj





2
2
2
(
3 
2.3
2.3
37 − 46.06) + (37.6 − 46.06) + ... + (60 − 46.06) 
25 

+ 10(10 − 3)
+ 8(8 − 3)
+ ... + 12(12 − 3)   = 1437.13 (m3)2
=  (25 − 12)
3 
3
3
12 − 1
12 

103
STIMA SECONDO
I METODI
DELLA REGRESSIONE
104
Gli schemi di campionamento finora osservati fanno tutti riferimento a procedure di
stima basate solamente sui valori dell’attributo oggetto d’interesse, mentre in alcuni
casi l’utilizzo di informazioni su variabili ausiliarie, cioè su attributi i cui valori
sono correlati con quelli dell’attributo oggetto di interesse, può consentire, sotto
opportune condizioni, di procedere alla stima dei parametri statistici della variabile
principale in modo più efficiente.
Posto che siano noti senza errore la media e il valore totale della variabile ausiliaria
q nella popolazione considerata, per stimare la media e il valore totale della
variabile principale x sfruttando la relazione esistente tra x e q possono essere
adottati vari approcci. Di seguito verrà esaminato il metodo di stima per regressione
lineare.
105
Stima per regressione lineare
In ambito inventariale sono relativamente frequenti i casi in cui la relazione tra x e q
è approssimativamente di tipo lineare e non passante per l’origine. In questi casi, per
esprimere la relazione tra x e q è possibile fare riferimento a equazioni di
regressione del tipo x = b0+b1q, i cui coefficienti b0 e b1 possono essere stimati
mediante l’utilizzo di fogli di calcolo elettronico.
Nel caso in cui la media vera µq della variabile ausiliaria q sia nota senza
errore, su un campione casuale semplice di numerosità n vengono misurati
ambedue gli attributi x e q, dopodiché si procede alla determinazione dei
coefficienti di regressione:
x = b0+b1q
Assumendo che la stima della media della variabile a livello di popolazione sia pari
a:
xRL = b0 + b1µ q
e dato che b0 = x − b1q , dove x è il valore della media campionaria di x e q è
il valore della media campionaria di q, si ha che:
xRL = x − b1 (q − µ q )
106
La varianza di xRL di può essere stimata tramite la formula:
s 2 xRL
2


(
)
−
q
µ
 N −n 2 1
q

=
 s x ,q  + n
n ∑ (qi − q )2 
 N 
i =1


dove: s2x,q = stimatore della varianza dei valori predetti di x = s2x(1-r2xq); rxq = stimatore del
coefficiente di correlazione tra x e q; s2x = stimatore della varianza di x.
Il valore totale di XRL può essere stimato pari a:
X RL = NxRL = Nx − b1( Nq − Θ )
con varianza pari a:
s 2 X RL = N 2 s 2 xRL
dove: Θ = valore totale dell’attributo q nella popolazione.
107
Ai fini del dimensionamento del campione, il numero no di unità campionarie
necessarie per non superare la soglia massima tollerata ec0 xRL dell’errore di
campionamento di xRL può essere calcolato sulla base di una stima a priori del
valore presunto di s2x,q ottenuta tramite un campionamento pilota:
t 2 s 2 x ,q N
n0 = 2
ec 0 xRL N + t 2 s 2 x ,q
Analogamente,il numero no di unità campionarie necessarie per non superare la
soglia massima tollerata ec0 XRL dell’errore di campionamento di X RL può essere
stimato pari a:
t 2 s 2 x ,q N 2
n0 = 2
ec 0 X RL N + t 2 s 2 x ,q N
NB: La stima per regressione lineare risulta efficiente se il campione è sufficientemente
numeroso e se la correlazione tra x e q è sufficientemente stretta: in linea di massima, con
n>30, valori di rx,q>0.8-0.9 conducono quasi sempre a stime per regressione più efficienti
108
del campionamento casuale semplice
ESERCIZIO 1
Un rilievo di campo è stato condotto su n=20 aree selezionate in modo casuale da
una popolazione di N=1000 aree per determinare la quantità di prodotto coltivato
danneggiato da un inquinante aereo.
I risultati dei rilievi riportano che il valor medio di prodotto danneggiato (in peso)
è pari a x =10 e il valor medio di livello di inquinante (in parti per milione) è pari
a q = 6. A seguito dei rilievi è stata individuata una regressione lineare tra la
quantità di inquinante aereo (variabile ausiliaria) e la quantità di prodotto
danneggiato (variabile principale), il cui coefficiente b1= -2. Assumendo che il
livello medio di inquinante è pari a 5:
stimare la quantità media di prodotto danneggiato a livello di popolazione.
109
Svolgimento dell’esercizio 1
Lo stimatore della media della variabile a livello di popolazione pari a:
xRL = x − b1 (q − µ q ) = 10 + 2(6 − 5) = 12
110
ESERCIZIO 2
In un pioppeto viene condotto un rilievo con stima a vista dell’altezza delle 350
piante che costituiscono l’impianto. La misura viene poi effettuata con ipsometro su
un campione di 75 piante. Sulla base dei dati viene istituita la seguente regressione
lineare: hmis=5.43+0.75hstim, con un coefficiente di correlazione pari a 0.68. Dai
rilievi di altezza stimati a vista per l’intera popolazione si ottiene un valor medio di
9.7 m. Dai rilievi di campo misurati con ipsometro si ottiene un valor medio di 9.1
m e varianza 2.1 m2, mentre per quelli stimati a vista il valor medio è 9.4 m e la
varianza 8.2 m2.
Stimare l’altezza media del pioppeto e la rispettiva varianza.
111
Svolgimento dell’esercizio 2
L’altezza media del pioppeto viene stimata con la formula:
xRL = x − b1 (q − µ q ) = 9.1 − 0.75(9.4 − 9.7) = 9.3m
Dove: x è il valor medio delle altezze campione misurate con ipsometro;
q è il valor medio delle altezze campione stimate a vista;
µ q è il valor medio delle altezze stimate a vista per l’intero impianto;
112
La varianza è pari a:
s 2 xRL
2


(
)
−
q
µ
N
−
n
1

 2 
q

=
 s x ,q  + n
n ∑ (qi − q )2 
 N 
i =1


= (varianza) x (n-1)
dove: s2x,q = stimatore della varianza dei valori predetti di x = s2x(1-r2xq) dove rxq = stimatore
del coefficiente di correlazione tra x e q; s2x = stimatore della varianza dei valori di x
misurati sul campione.
s 2 xRL
2


(
)
1
9
.
4
−
9
.
7
 350 − 75 
2

 = 0.012
=
2.1(1 − 0.68 ) +
8.2 × 74 
 350 
 75
113
114
Scarica