Argomento: Applicazioni statistiche e analisi dei dati – Esercitazioni 1 Premessa Le dispense elaborate per lo svolgimento dell’attività didattica sono tratte dal testo “Introduzione al rilevamento campionario delle risorse forestali” (P. Corona, 2000 – Edizioni CUSL, Firenze), al quale si rimanda per maggiori approfondimenti. 2 Indice Campionamento casuale pag. 4 Campionamento sistematico pag. 17 Campionamento stratificato pag. 43 Campionamento multistadio pag. 74 Stima secondo i metodi della regressione pag. 95 3 Primi problemi Definito cosa è bosco, occorre definire: • cosa è oggetto di interesse, • scala dell’inventario e dettaglio richiesto, • errore tollerato, costo dell’impianto e delle ripetizioni, • tipo di uso del suolo, • popolazioni d’interesse, • attributi d’interesse, 4 Variabili Categorie in cui si possono classificare le variabili: A. B. 1. 2. 3. 4. Continua: possono assumere qualunque valore nel campo di variazione della variabile stessa Discontinua: può assumere solo valori isolati Nominale: Viva – Morta (mutualmente esclusive) Ordinale: classe a, b, c o 1, 2, 3 (come sopra ma ordinate con criterio gerarchico, in cui i numeri hanno un valore di rango) Intervallare: dbh 10 – 19; 20 –29 …oppure una data (1…10..20 del mese... (ai ranghi viene associato un concetto di mutua distanza, ma manca uno zero assoluto e non si possono costruire rapporti di valore) Assoluta o razionale: si ha un intervallo costante tra due valori adiacenti sulla scala di misurazione ( 0, 1, 2, 3, 4 …..) 5 Popolazioni • Finite: il numero totale delle unità può essere espresso con un numero finito (ad esempio il numero di particelle forestali in una compresa); • Infinite: il numero dei punti topografici in un bosco, ma anche – per estensione - il numero di individui arborei in una regione. 6 Popolazione (II) • La popolazione è costituita dagli individui, di cui si misurano, stimano, valutano attributi dei caratteri. • Tali caratteri degli attributi costituiscono le variabili Ad es: - vitalità di una pianta arborea (morta o viva), attributo qualitativo; - diametro dbh della stessa – attributo quantitativo. Ognuno di tali attributi – osservato su un individuo costituisce una osservazione 7 Scale di misura Categorie in cui si possono classificare gli individui: In scala continua o discontinua 1. Nominale: Viva – Morta (mutualmente esclusive) 2. Ordinale: classe a, b, c o 1, 2, 3 (come sopra ma ordinate con criterio gerarchico, in cui i numeri hanno un valore di rango) 3. Intervallare: dbh 10 – 19; 20 –29 …oppure una data (1…10..20 del mese... (ai ranghi viene associato un concetto di mutua distanza, ma manca uno zero assoluto e non si possono costruire rapporti di valore) 4. Assoluta o razionale: continua ( 0, 1, 2, 3, 4 …..) Ordinando le categorie 3 e 4 si possono individuare distribuzioni di frequenza (e dunque media, mediana, moda). 8 Rilievo completo o campionamento? • Si possono rilevare gli attributi della/e popolazioni d’interesse analizzando tutti gli individui (ad es. metodo del controllo) Preciso ma costoso ! • si possono inferire i parametri statistici degli attributi rilevati in un sottoinsieme di individui (campione) selezionato con criteri diversi. Richiede preparazione ! Quest’ultimo caso è il più frequente per ovvi motivi di costo, tempo, praticità, ecc. 9 Alcune definizioni • Si dice unità campionaria ogni elemento incluso nel campione; • lo schema di campionamento o disegno campionario è la procedura con cui il campione è estratto dalla popolazione; 10 Obiettivi del campionamento • In genere: quantificare uno o più parametri statistici della popolazione attraverso una stima del valore più probabile dell’attributo considerato • fornire una idea di quanto la stima sia precisa e accurata (attendibile o non distorta) Preciso e accurato Preciso, inaccurato o distorto STIMATORE Impreciso e distorto Non distorto ma impreciso 11 Campionamento Rappresentatività del campione: la capacità del campione di rappresentare adeguatamente le caratteristiche della popolazione costituendone una “riproduzione ridotta” ciò implica una accurata: SCELTA DEL CAMPIONE che può avvenire in modo → soggettivo → casuale → sistematico 12 CAMPIONAMENTO CASUALE 13 Estrazione di un campione casuale In ambito inventariale, le modalità operative per realizzare un campionamento casuale semplice a probabilità costante1 possono essere: v ad ogni unità statistica è assegnato un numero campionario e le unità campionarie sono state selezionate estraendo dei numeri casuali: le unità statistiche con numeri campionari corrispondenti ai numeri casuali estratti sono incluse nel campione; v le unità statistiche sono identificate in cartografia da una coppia di coordinate; le unità statistiche con coordinate corrispondenti alle coppie di numeri casuali estratti sono incluse nel campione. 1 Si opera un campionamento a probabilità costante quando le unità statistiche hanno tutte la medesima probabilità di essere incluse nel campione. Questa probabilità è pari a: 1 1 − 1 − N n Campionamento con reinserimento n N Campionamento in blocco 14 Stimatori campionari Media Lo stimatore campionario della media è: n x= dove: ∑x i i =1 n = numerosità campionaria n xi = valore dell’attributo della i-esima unità campionaria Varianza Lo stimatore campionario della varianza dell’attributo x è pari a: 2 n s 2 x = ∑ (x − x ) i =1 i n −1 15 Deviazione standard Lo stimatore campionario della deviazione standard è: 2 n sx = ∑ (x − x ) i =1 i n −1 Lo stimatore campionario del coefficiente di variazione è: CV = sx x che generalmente è espresso in notazione percentuale: CV% = CV*100 Varianza della media campionaria Lo stimatore campionario della varianza della media campionaria nel caso di popolazioni infinite o finite ma campionate casualmente è pari a: con reinserimento 2 s 2 x s x = n s 2 s 2 x in blocco x N − n s2x = N n s2x = (1 − f ) n popolazioni finite popolazioni infinite 16 (f = frazione di campionamento) Limiti fiduciari della stima campionaria della media In ambito campionario il grado di accuratezza di una stima non può essere determinato in maniera assoluta, dato che il valore vero del parametro è incognito. E’ però possibile individuare un intorno probabile del vero valore della media. Se le medie campionarie ottenibili da tutti i campioni di numerosità n>50 teoricamente estraibili da una data popolazione possono essere sempre considerate come distribuite normalmente intorno al loro valore atteso, allora è possibile affermare che: il 95% delle medie campionarie cade nell’intervallo µ ± 1.96σ x il 99% delle medie campionarie cade nell’intervallo µ ± 2.58σ x Dove σ x rappresenta la deviazione standard della distribuzione delle medie campionarie. 17 Ovviamente, se dalla popolazione viene estratto solamente un campione, come avviene nella pratica inventariale, il valore stimato della media campionaria risulterà discosto da µ di una quantità incognita. Essendo però noto che il 95% di tutte le possibili medie campionarie è compreso nell’intervallo µ ± 1.96σ x e adottando s x come stimatore di σ x , l’intervallo nell’ambito del quale, nel 95% dei casi , dovrebbe ricadere la media vera µ può essere stimato pari a: x ± 1.96s x dove x e s x sono determinati sulla base del singolo campione estratto. Analogamente, l’intervallo nell’ambito del quale, nel 99% dei casi dovrebbe ricadere la media vera µ può essere stimato pari a: x ± 2.58s x I suddetti intervalli sono chiamati intervalli fiduciari della media campionaria. 18 Considerando anche i campioni di numerosità n<50, la stima dell’intervallo fiduciario della media campionaria ad un dato livello di significatività statistica può essere generalizzata secondo la formula: x ± t(n −1;1−α )s x Dove t(n −1;1−α ) è il valore critico del t di Student, stabilito in corrispondenza del prescelto livello di significatività statistica 1-a e in corrispondenza degli n-1 gradi di libertà di s x , dove n è la numerosità del campione. 19 Valore totale Lo stimatore campionario del valore totale è pari a: X =Nx Nel caso di inventari su ampie superfici con aree campione ordinarie di superficie unitaria pari ad a, essendo N circa pari a A/a (dove A è la superficie totale della popolazione considerata), la precedente formula può essere espressa nella formula: A X= x a 2 2 2 Lo stimatore campionario della varianza del valore totale è pari a: s x =N s x o, se il campionamento è stato condotto su aree campione di superficie unitaria pari ad a: 2 A s 2 x = s 2 x a posto cha A sia nota senza errore. X ± N (ts x ) L’intervallo fiduciario della stima di X è pari a o, se il campionamento è stato condotto su aree campione di superficie unitaria pari ad a: A 20 X ± ts x a Scelta della numerosità del campione A parità di altre condizioni, tanto più numeroso è il campione, tanto maggiore è la precisione della stima. Dimensionare la numerosità del campione significa dunque prefissare la precisione delle stime che si vogliono ottenere in modo che siano caratterizzate da un errore di campionamento non superiore alla soglia massima tollerata ec0: ts x n0 = ec0 2 dove: s x = valore presunto della deviazione standard dell’attributo x nella popolazione considerata. t = valore critico del t di Student corrispondente al prescelto livello di sicurezza statistica e agli appropriati gradi di libertà. 21 La suddetta formula può anche essere espressa secondo la notazione percentuale: tCV % n0 = ecp0 2 dove: CV% = valore presunto del coefficiente di variazione, espresso in termini percentuali, dell’attributo x nella popolazione considerata; ecp0 = errore percentuale massimo tollerato, dato dal rapporto percentuale tra il valore massimo tollerato dell’errore di campionamento e la media campionaria. Dall’esame delle suddette formule, si rileva che il dimensionamento statistico del campione può essere operato solamente stabilendo a priori il valore di s x , cioè avendo a disposizione informazioni preliminari sulla variabilità dell’attributo oggetto di stima. In altre parole, i valori di s x vanno individuati tramite un campionamento preliminare, detto campionamento pilota. 22 Il valore di t da inserire nelle formule del dimensionamento campionario può essere desunto dalle tavole del t di Student, in prima approssimazione in corrispondenza di npil-1 gradi di libertà, dove npil è il numero di osservazioni del campione pilota. Per individuare più correttamente un valore di t esattamente commisurato alla dimensione numerica del campione definitivo, i gradi di libertà di t possono essere determinati con procedimento iterativo. 23 Osservazioni sul dimensionamento campionario Il dimensionamento della numerosità del campione conduce solamente a una stima del numero minimo di unità campionarie necessario per contenere l’incertezza campionaria entro una data soglia massima tollerata. A esempio, definendo la numerosità del campione a un livello di sicurezza statistica del 95% esisterà sempre 1 possibilità su 20 che il campione estratto fornisca una stima del parametro di interesse al di fuori dell’intervallo fiduciario massimo tollerato, anche se la numerosità del campione sia stata, per ipotesi, esattamente quantificata sulla base del valore vero della varianza dell’attributo oggetto di interesse nella popolazione considerata. 24 Vantaggi e svantaggi del campionamento casuale v rispetta il requisito fondamentale degli schemi di campionamento probabilistico, ovvero l’estrazione delle unità campionarie è condotta con criteri di pura casualità; Vantaggi v permette di variare in ogni momento, quando se ne presentino le necessità e le condizioni, la numerosità del campione; v permette di dimensionare il campione in modo da ottenere la precisione di stima desiderata. Svantaggi v il campionamento casuale semplice può comportare il rischio di non tenere conto in modo adeguatamente uniforme di tutta la popolazione (alcune parti della popolazione possono risultare intensamente campionate, altre non campionate affatto). Per tale motivo il campionamento casuale semplice è affidabile soprattutto quando la popolazione è relativamente omogenea; v nell’inventariazione delle risorse forestali la dislocazione delle unità campionarie risulta alquanto onerosa e disagevole, soprattutto se confrontata con quella di un campionamento di tipo sistematico. 25 CAMPIONAMENTO SISTEMATICO 26 Si consideri una popolazione le cui unità si presentano ordinate secondo un qualche criterio (ad esempio, secondo una seriazione spaziale o temporale). Se, per ottenere da quella popolazione un campione di una data numerosità, si estrae la prima unità campionaria casualmente e le altre sono invece scelte a intervalli regolari a partire dalla prima unità estratta si realizza un campionamento cosiddetto sistematico. 27 Estrazione di un campione sistematico Assumendo che le unità statistiche di una popolazione siano disposte in sequenza e numerate da 1 a N e che sia definito un intervallo di campionamento Y (<N), scegliendo un numero k, compreso tra 1 e N, che individua la prima unità campionaria, il campione sistematico sarà costituito dalle unità numerate con: k, k+Y, k+2Y, . . . . , e k-Y, k-2Y, ecc. A rigore, il numero k deve essere scelto in modo completamente casuale, benché nella pratica del rilevamento delle risorse forestali viene spesso evitata l’estrazione casuale della prima unità campionaria, assumendo che esista una completa indipendenza tra la localizzazione delle unità campionarie e le variabili osservate. 28 Nelle applicazioni inventariali degli schemi di campionamento sistematico, le unità campionarie a terra sono in genere configurate come strisce campione e soprattutto come aree campione. Nei rilievi condotti su immagini telerilevate vengono in genere impiegati fototransect (omologhi alle strisce campione) e soprattutto fotopunti. Strisce campione La superficie da inventariare viene idealmente suddivisa in N strisce giustapposte. Le unità campionarie vengono prescelte a intervalli regolari, cioè una striscia ogni Y strisce. In pratica, si estrae un numero casuale compreso tra 1 e N e la striscia corrispondente viene scelta come unità campionaria iniziale: le altre strisce campione sono selezionate a intervalli regolari, una ogni Y strisce, nelle due direzioni a partire dalla striscia campione iniziale. Nel caso in cui è sconosciuto il valore di N, ovvero del numero di strisce che compone la popolazione, si può operare selezionando direttamente la prima striscia campione, a partire da un dato margine, in corrispondenza di un numero casuale compreso tra 1 e Y (questo modo di operare può produrre un leggero sotto- o sovracampionamento se N non risulta un multiplo esatto di Y). 29 Il campionamento sistematico a strisce è usato negli inventari delle foreste tropicali o comunque dove si hanno difficoltà di accesso all’interno della foresta. Aree campione La superficie da inventariare viene idealmente suddivisa in N aree giustapposte. Ciascuna area può essere rappresentata come una cella di intersezione delle righe e delle colonne di un reticolo. Le unità campionarie vengono prescelte a intervalli regolari, cioè un’area ogni Y aree secondo le due dimensioni del reticolo (righe, colonne). L’estrazione delle n aree campione può essere condotta in maniera analoga a quanto descritto per le strisce campione, con la differenza che in questo caso si ha che fare con due dimensioni invece che con una. Si estrae un numero casuale compreso tra 1 e Nr, dove Nr rappresenta il numero delle righe, e un numero casuale compreso tra 1 e Nc, dove Nc rappresenta il numero delle colonne: questi due numeri casuali identificano l’area che viene scelta come unità campionaria iniziale. Le altre aree campione sono quindi selezionate a intervalli regolari, una ogni Y aree, in ambedue le direzioni (lungo le righe e lungo le colonne) a partire dall’area campione iniziale. 30 Nel caso in cui è sconosciuto il valore di N, ovvero del numero di aree che compone la popolazione, e di Nr e Nc, si può operare selezionando direttamente la riga della prima area campione, a partire da un dato margine, in corrispondenza di un numero casuale compreso tra 1 e Y e ripetendo la stessa operazione per le colonne (questo modo di operare può produrre un leggero sotto- o sovracampionamento se Nr e/o Nc non sono multipli esatti di Y). 31 Stimatori campionari Lo stimatore campionario della media dell’attributo x è: n xsis = dove: ∑x i i =1 n = numerosità campionaria n xi = valore dell’attributo della i-esima unità campionaria Non esiste una procedura formalmente valida per la stima della varianza di xsis . Tuttavia, assumendo che l’estrazione sistematica abbia prodotto un ordine di selezione del campione sufficientemente casuale rispetto alla variabile di interesse, allora, in prima approssimazione, si possono applicare al campionamento sistematico gli stessi stimatori adottati per il campionamento casuale: 2 n s 2 x = ∑ (x − x ) i =1 i n −1 varianza dell’attributo x 2 n sx = ∑ (x − x ) i =1 i n −1 deviazione standard dell’attributo x s 2 x s2x N − n = n N varianza della media 32 campionaria Lo stimatore del valore totale è pari a: X sis = Nxsis = (Yn)xsis E la sua varianza può essere stimata pari a: s 2 xsis = N 2 s 2 xsis Se il campionamento è stato condotto su aree campione di superficie unitaria pari a a, essendo N circa pari a A/a (dove A è la superficie totale considerata, nota senza errore) si ha che: X sis = A xsis a 2 s 2 xsis A = s 2 xsis a 33 Dimensionamento di un campione sistematico Non esistono metodi esatti per ottimizzare la scelta della numerosità di un campione sistematico al fine di non superare una data soglia dell’errore di campionamento. Tuttavia, nel caso di basse frazioni di campionamento1, quali quelle che generalmente caratterizzano le applicazioni inventariali, tale numerosità può essere soddisfacentemente stabilita facendo riferimento alle procedure di dimensionamento dei campioni casuali: ts x n0 = ec0 2 dove: s x = valore presunto della deviazione standard dell’attributo x nella popolazione considerata. t = valore critico del t di Student corrispondente al prescelto livello di sicurezza statistica e agli appropriati gradi di libertà. 1 Si definisce frazione di campionamento il rapporto tra la numerosità delle unità campionarie e la 34 numerosità complessiva degli elementi (unità statistiche) della popolazione. Vantaggi e svantaggi del campionamento sistematico v l’identificazione delle unità campionarie è molto più agevole rispetto a un campionamento casuale; Vantaggi v nella gran parte delle situazioni e a parità di altre condizioni, il campionamento sistematico fornisce stime più accurate rispetto a quello casuale: non vi è alcuna possibilità che ampie porzioni omogenee della popolazione non vengano rappresentate da almeno qualche unità campionaria; v la regolarità della distribuzione delle unità campionarie facilita l’impiego dei dati raccolti ai fini di una loro eventuale spazializzazione. v il campionamento sistematico può comportare il rischio che l’intervallo di campionamento coincida con eventuali fluttuazioni periodiche dei valori dell’attributo oggetto di stima; Svantaggi v impossibilità di inferire in modo corretto la varianza della popolazione da quella del campione: si possono dunque ottenere solamente valori approssimati dell’errore di campionamento; v una volta ultimato il campionamento non è possibile aggiungere nuove unità campionarie, a meno di non procedere ex novo al campionamento stesso; v possono verificarsi, specialmente in popolazioni piccole, situazioni di sovra- o 35 sotto-campionamento rispetto a quanto prestabilito. ESERCIZI CAMPIONAMENTO CASUALE E CAMPIONAMENTO SISTEMATICO 36 ESERCIZIO 1 Da una popolazione costituita da 100 nuclei familiari viene estratto, con campionamento casuale semplice, un campione di 10 famiglie. Per ciascuna famiglia campione viene stabilito il numero di componenti familiari: Famiglia campione 1 2 3 4 5 6 7 8 9 10 Numero di componenti 2 5 1 4 4 3 2 5 2 3 1. Determinare il numero medio di persone per nucleo familiare e la varianza dello stimatore adottato; 2. Determinare il numero totale di persone che compongono la popolazione e la varianza dello stimatore adottato; 3. Determinare i limiti fiduciari della media campionaria ad un livello di sicurezza statistica del 90%. 37 Svolgimento dell’esercizio 1 Il numero medio di persone che compongono un nucleo familiare può essere stimato per mezzo dello stimatore: n x= dove: ∑x i =1 i n = numerosità campionaria n xi = valore dell’attributo della i-esima unità campionaria n x= ∑x i =1 n i 2 + 5 +1+ 4 + 4 + 3 + 2 + 5 + 2 + 3 = = 3.1 10 38 Trattandosi di una popolazione finita (N=100) e di un campionamento in blocco, il valore della varianza dello stimatore adottato (varianza della media campionaria) viene stimato per mezzo della formula: s 2 x N − n s 2 x 100 − 10 1.88 = = = 0.169 N n 100 10 Dove la varianza campionaria s2x è: 2 n s 2 x = ∑ (x − x ) i =1 i n −1 = (2 − 3.1) 2 (5 − 3.1) 2 .....(3 − 3.1) 2 = 1.88 9 Il numero totale di persone della popolazione di 100 famiglie è: X =Nx = 100 × 3.1 = 310 con varianza è pari a: s 2 X =N 2 s 2 x = 100 2 * 0.169 = 1690 39 Assumendo un livello di sicurezza statistica pari al 90% ed essendo la numerosità campionari < 50, i limiti fiduciari della media campionaria sono pari a: x ± t(n −1;1−α )s x = 3.1 ± 1.833 × 0.411 Cioè si può affermare, con il rischio di sbagliare 10 volte su 100, che: 2.34 < µ < 3.85 40 ESERCIZIO 2 Ai fini della stima del vero peso di una sostanza vengono effettuate 11 pesate: Pesata campione 1 2 3 4 5 6 7 8 9 10 11 Peso registrato (kg) 3.570 3.551 3.570 3.581 3.588 3.529 3.586 3.573 3.599 3.575 3.533 Determinare la media e la varianza campionaria, il valore della varianza della media campionaria e i limiti fiduciari della media campionaria ad un livello di sicurezza statistica del 95%. 41 Svolgimento dell’esercizio 2 Il valore della media campionaria può essere stimato per mezzo dello stimatore: n x= dove: ∑x i i =1 n = numerosità campionaria n xi = valore dell’attributo della i-esima unità campionaria n x= ∑x i =1 n i 3.570 + 3.551 + .... + 3.533 = = 3.569 11 Il valore della varianza campionaria può essere stimato per mezzo dello stimatore: 2 n s 2 x = ∑ (x − x ) i =1 i n −1 (3.570 − 3.569) 2 (3.551 − 3.569) 2 .....(3.533 − 3.5699) 2 = = 0.000497 10 42 Il valore della varianza della media campionaria può essere stimato per mezzo dello stimatore (assimilabile a un campionamento con reinserimento): s 2 x s 2 x 0.000497 = = = 0.000045 n 11 Assumendo un livello di sicurezza statistica pari al 95% ed essendo la numerosità campionari < 50, i limiti fiduciari della media campionaria sono pari a: x ± t(n −1;1−α )s x = 3.569 ± 2.228 × 0.006708 Cioè si può affermare, con il rischio di sbagliare 5 volte su 100, che: 3.5540 < µ < 3.5839 43 ESERCIZIO 3 Ai fini della stima della provvigione legnosa media e della provvigione legnosa totale di un soprassuolo di castagno esteso su 90 ettari, viene eseguito un rilievo diretto su 15 aree circolari campione di 0.2 ettari ciascuna, distribuite casualmente. I dati derivanti dalle operazioni di campo sono: Area campione m3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 4.7 3.9 5.3 6.1 5.5 5.5 4.9 6.2 6.3 4.2 4.3 4.2 5.8 3.7 5.9 Determinare, oltre alla provvigione legnosa media e alla provvigione legnosa totale, i rispettivi limiti fiduciari assumendo un livello di sicurezza statistica del 95%. 44 Svolgimento dell’esercizio 3 Il valore della provvigione legnosa media può essere stimato per mezzo dello stimatore: n x= dove: ∑x i =1 i n = numerosità campionaria n xi = valore dell’attributo della i-esima unità campionaria n x= ∑x i =1 n i 4.7 + 3.9 + .... + 5.9 = = 5.1 15 Il valore della provvigione legnosa totale può essere stimato per mezzo dello stimatore: A 90 X = x= × 5.1 = 2295 a 0 .2 45 I limiti fiduciari della stima della provvigione legnosa media, con un livello di sicurezza statistica del 95%, sono: x ± t(n −1;1−α )s x = 5.1 ± 2.145 × 0.266 = 5.1 ± 0.57 dove la varianza campionaria s2x è: 2 n s 2 x = ∑ (x − x ) i =1 i n −1 (4.7 − 5.1) 2 (3.9 − 5.1) 2 .....(5.9 − 5.1) 2 = = 0.071 14 I limiti fiduciari della stima della provvigione legnosa totale, con un livello di sicurezza statistica del 95%, sono: A A 90 90 x ± t(n −1;1−α )s x = 5.1 ± 2.145 × 0.266 = 2295 ± 256.7 a a 0 .2 0 .2 46 ESERCIZIO 4 Un ricercatore botanico desidera stimare il numero di piante di faggio all’interno di un’area di studio. L’area di studio è stata suddivisa in 1000 plot. Da una precedente esperienza, risulta che la varianza del numero di fusti per plot è di 45. Utilizzando un campionamento casuale semplice, quale dimensione campionaria dovrebbe essere utilizzata per stimare il numero totale di piante ammettendo un errore di campionamento massimo pari a 500 fusti e un livello di sicurezza statistica del 95%? E con un errore di campionamento massimo di 1000 fusti? 47 Svolgimento dell’esercizio 4 La dimensione campionaria che dovrebbe essere utilizzata per stimare il numero totale di piante ammettendo un errore di campionamento massimo pari a 500 fusti e un livello di sicurezza statistica del 95% è data da: 2 Nts x 10002 ×1.96 2 × 45 = n0 = = 692 2 500 ec0 Valore del t di Student per infiniti gradi di libertà Analogamente, la dimensione campionaria che dovrebbe essere utilizzata per stimare il numero totale di piante ammettendo un errore di campionamento massimo pari a 1000 fusti e un livello di sicurezza statistica del 95% è data da: 2 Nts x 10002 × 1.96 2 × 45 = n0 = = 173 2 1000 ec0 48 ESERCIZIO 5 Determinare il numero di unità campionarie necessarie per ottenere una stima dell’indice di rinnovazione in un popolamento di cerro di 3 ha, ammettendo un errore di campionamento non superiore al 15% della media (ecp0=15) a un livello di sicurezza statistica del 95%. Tramite un campionamento pilota casuale di 20 areole, la media dell’indice di rinnovazione è stimata in via preliminare pari a 2.5 m e la varianza pari ad 1.5 m2. 49 Svolgimento dell’esercizio 5 La popolazione oggetto di campionamento (unità statistiche = areole di 1 m2) è assimilabile a una popolazione infinita. Dunque: tCV % n0 = ecp0 2 Dato che il valore critico di t dipende dai gradi di libertà della media, i quali a loro volta dipendono da n0, un’esatta stima di n0 può essere desunta iterativamente. Un primo valore approssimato di t può essere desunto in corrispondenza di un numero di gradi di libertà pari a npil-1 (=19), cioè t=2.09 (test a due code). Allora, una prima stima della numerosità del campione risulta pari a: CV % = sx 1.5 *100 = *100 = 49 x 2.5 t 2CV % 2 2.09 2 49 2 n0 = = = 46 2 2 15 ecp0 50 Il valore di t appropriato per 45 gradi di libertà è pari a 2.02. Immettendo questo valore di t nella formula precedente, si ha: t 2CV % 2 2.02 2 49 2 n0 = = = 44 2 2 15 ecp0 Essendo il valore critico di t corrispondente a 43 gradi di libertà uguale al valore di t inserito nella formula precedente, la dimensione numerica n=44 è quella da adottare per il campionamento definitivo. Dato che nel campionamento pilota sono state già rilevate 20 areole, restano dunque da estrarre casualmente e da misurare altre 24 areole campione. 51 CAMPIONAMENTO STRATIFICATO 52 Il campionamento stratificato consiste nella suddivisione della popolazione in sottopopolazioni omogenee, dette strati, e nell’estrazione delle unità campionarie indipendentemente da ciascuno strato. Se gli strati sono configurati in modo tale da risultare al loro interno più omogenei dell’intera popolazione, è possibile ridurre i costi del rilevamento senza ridurre la precisione delle stime o, analogamente, a parità di costi, è possibile ottenere una precisione di stima significativamente maggiore rispetto a un campionamento semplice. 53 Estrazione di un campione stratificato Ai fini dell’estrazione di un campione stratificato, si procede a: 1. suddividere la popolazione in strati, ciascuno di Nj unità, in modo che: ∑ dove: M j =1 Nj = N N = numerosità della popolazione M = numero di strati gli strati sono costituiti da porzioni di popolazione più omogenei al loro interno, nei riguardi dell’attributo oggetto di interesse, di quanto non lo sia la popolazione nella sua interezza. 2. Estrarre un certo numero di unità campionarie indipendentemente da ciascuno strato, cioè con modalità anche diverse da strato a strato. 54 La varianza dei valori di un attributo in una popolazione stratificata può essere interpretata come somma di due componenti: v la prima deriva dalle differenze tra i valori delle medie a livello di singoli strati; v la seconda, dalle differenze tra i valori delle singole unità campionarie di ciascuno strato e la media dello strato stesso. Lo scopo della stratificazione è quello di ottenere una varianza tra gli strati relativamente alta e una varianza entro gli strati relativamente bassa. Il campionamento stratificato risulta efficace se si conoscono le presunte cause principali di variabilità dell’attributo oggetto di interesse nella popolazione considerata, di modo che la suddivisione in strati possa essere stabilita in accordo al presumibile pattern di variabilità dell’attributo stesso. A esempio, il campionamento stratificato può risultare utile qualora si debba stimare la provvigione di un bosco ed è possibile distinguere per fotointerpretazione soprassuoli con evidenti differenze di grado di copertura e di altezza. 55 Stime per singolo strato Lo stimatore del valore medio nel j-esimo strato è pari a: nJ xj = ∑ xij dove: xij = valore dell’attributo nell’i-esima unità campionaria del j-esimo strato i =1 nj nj = numero di unità campionarie nel j-esimo strato Lo stimatore della varianza del valor medio nel j-esimo strato è pari a: Estrazione con rimessa s 2 xj s 2 xi = nj dove: s2x = stimatore della varianza di x nel j-esimo strato i ∑ (x = nj = s Estrazione in blocco s2xj s 2 xi N j − n j = nj Nj 2 xj i =1 ij − xj ) 2 n j −1 Nj= numero di unità statistiche nel j-esimo strato nj = numero di unità campionarie nel j-esimo strato 56 Lo stimatore del valore totale dell’attributo x nel j-esimo strato è pari a: X j = N jxj Essendo N pari circa a Aj/aj: dove: Xj = Aj aj xj Aj = superficie del j-esimo strato nota senza errore; aj = superficie dell’area campione, nota senza errore. La varianza è stimata pari a: s 2 Xj = N j s 2 x j 2 57 Stime complessive Lo stimatore della media (media ponderata) dell’attributo x nella popolazione è pari a: M xST = ∑ j =1 Nj N xj se la dimensione degli strati è espressa in termini di superficie: M xST = ∑ j =1 Aj A dove: xj Aj = superficie del j-esimo strato nota senza errore; A = superficie totale della popolazione, nota senza errore. Lo stimatore della varianza di xST è pari a: Nj = ∑ j =1 N M s 2 xST 2 2 s x j Aj = ∑ j =1 A M o s 2 xST 2 2 s x j 58 Lo stimatore del valore totale dell’attributo x nella popolazione è pari a: X ST = NxST Analogamente, essendo N circa pari a A/a (dove a è la superficie delle unità campionarie espressa nella stessa unità di misura di A), si ha che: X ST A = xST a Lo stimatore della varianza di XST è pari a: S 2 X ST = N 2 s 2 xST Nel caso che le unità campionarie siano rappresentate da aree di superficie a, si ha: 2 S 2 X ST A 2 = s xST a 59 DIMENSIONAMENTO DI UN CAMPIONE STRATIFICATO Nell’ambito dell’applicazione di un campionamento stratificato, il dimensionamento del campione avviene in tre passi successivi: 1. definizione della frazione Wj di unità campionarie da allocare in ciascuno strato; 2. calcolo della numerosità campionaria complessiva; 3. calcolo della numerosità del campione per ciascuno strato. 60 1. Definizione della frazione Wj di unità campionarie per ciascuno strato Esistono differenti metodi per definire la frazione Wj di unità campionarie da allocare in ciascuno strato: ripartizione soggettiva: la distribuzione numerica delle unità campionarie viene stabilita soggettivamente dall’operatore; l’unico vincolo da rispettare è che ∑ M Wj = 1 ; j =1 ripartizione uniforme: la distribuzione delle unità campionarie negli M strati è paria a: Wj=1/M. Tale approccio viene adottato quando gli strati hanno approssimativamente la stessa ampiezza e sia il costo di campionamento per unità campionaria sia la varianza dell’attributo oggetto di interesse non differiscono significativamente da strato a strato e si desidera ottenere la medesima precisione di stima in tutti gli strati; ripartizione proporzionale: la ripartizione nei singoli strati viene stabilita in modo proporzionale alla loro dimensione: Wj=Nj/N o, analogamente, Wj=Aj/A. Tale approccio viene adottato quando gli strati hanno ampiezza differente tra loro, ma il costo di campionamento per unità campionaria è più o meno uguale in tutti gli strati, oppure quando poco si sa riguardo alla varianza dell’attributo oggetto di interesse e al costo di campionamento per unità 61 campionaria nei vari strati; ripartizione di Neyman: il numero di unità campionarie estratto nel j-esimo strato è proporzionale alla deviazione standard nello strato e ponderato rispetto alla dimensione dello strato stesso: N j sx j Wj = o, analogamente, M ∑N s Wj = j xj j =1 Aj sx j M ∑A s j xj j =1 Con questo tipo di ripartizione, tanto maggiore è la variabilità dell’attributo esaminato in dato strato, tanto maggiore è, in termini relativi, il numero di unità campionarie in esso da allocare. Ovviamente, la variabilità all’interno degli strati viene valutata a priori mediante un campionamento pilota o con valutazioni soggettive e l’efficacia della ripartizione dipende dalla corrispondenza tra la realtà e queste valutazioni. ripartizione ottima: tiene conto sia della dimensione, sia della variabilità dell’attributo oggetto d’interesse che dei costi nei singoli strati: Wj = N j s2xj / c j M ∑N j =1 j s 2 xj / cj o, analogamente, W j = Aj s 2 x j / c j M ∑A j =1 j s2xj / c j 62 Questo tipo di ripartizione è efficace quando i costi unitari di campionamento variano significativamente da strato a strato ed è perciò conveniente limitare al massimo il numero di unità campionarie negli strati ove la realizzazione è più costosa. Ovviamente, la variabilità e il costo all’interno degli strati viene valutata a priori mediante un campionamento pilota o con valutazioni soggettive e l’efficacia della ripartizione dipende dalla corrispondenza tra la realtà e queste valutazioni. 63 2. Numerosità del campione A seconda degli obiettivi, la numerosità campionaria complessiva può essere stabilita con riferimento al numero di osservazioni necessario a contenere l’errore di campionamento entro una data soglia massima tollerata oppure con riferimento al numero di osservazioni necessario a contenere il costo totale del campionamento entro un livello massimo prefissato. 2.1 Numerosità del campione in funzione della precisione di stima N j sx j j =1 Wj t2∑ n0 = ec 2 0 xST 2 M N +t 2 2 M 2 ∑ N j sx j 2 Numero di osservazioni necessario a contenere l’errore di campionamento della media ponderata entro una data soglia massima ec0 Xst j =1 N j sx j j =1 Wj t2∑ n0 = ec 2 0 xST 2 M +t M 2 2 ∑ N j sx j j =1 2 Numero di osservazioni necessario a contenere l’errore di campionamento del valore totale entro una data soglia massima ec0 Xst 64 2.1 Numerosità del campione in funzione del costo totale n0 = C0 − c f ∑ M j =1 Wjc j dove: C0=costo massimo prefissato; cf=costi fissi del campionamento; cj=costo medio di campionamento per unità campionaria nel j-esimo strato. 3. Numerosità del campione nei singoli strati La numerosità campionaria in ciascuno strato è pari a: n0j = n0Wj 65 POST-STRATIFICAZIONE Nella pratica inventariale può accadere che, pur potendo definire a priori le caratteristiche degli strati, non è possibile o non è conveniente procedere alla stratificazione della popolazione oggetto di interesse. In questi casi si può procedere operando dapprima un campionamento sistematico semplice, avendo l’accortezza di registrare, nel corso del rilievo in campo, a quale strato appartiene ciascuna unità campionaria, in modo da potere eseguire successivamente una post-stratificazione della popolazione e applicare gli stimatori del campionamento stratificato. Così facendo si può ottenere la stessa precisione di stima del campionamento stratificato con ripartizione proporzionale, purché il campione sia sufficientemente grande, come in genere avviene nelle applicazioni di inventariazione delle risorse forestali. 66 Vantaggi e svantaggi del campionamento stratificato v a parità di precisione di stima, richiede una numerosità campionaria inferiore rispetto al campionamento semplice; Vantaggi v quando l’attributo di interesse presenta una importanza diversa nei differenti strati (a esempio quando si esegue in inventario a fini produttivi e le varie parti del territorio presentano soprassuoli forestali di diverso valore commerciale) è possibile incrementare la precisione di stima negli strati di maggiore importanza; v può non essere semplice riuscire ad assegnare ciascuna unità statistica ad un unico strato; Svantaggi v la dimensione degli strati deve essere nota a priori con esattezza: nell’inventariazione delle risorse forestali su vaste superfici tale quantificazione risulta spesso problematica. 67 ESERCIZI CAMPIONAMENTO STRATIFICATO 68 ESERCIZIO 1 Una popolazione di 450 unità statistiche è stata suddivisa in tre strati costituiti rispettivamente da N1=100, N2=50 e N3=300 unità. Da ciascuno strato vengono estratte 50 unità campionarie. Il valor medio e la varianza osservati nei differenti strati sono: N n x s2 STRATO 1 100 50 10 2800 STRATO 2 50 50 20 700 STRATO 3 300 50 30 600 Qual è il valor medio dell’intera popolazione? Svolgimento dell’esercizio 1 Il valor medio dell’intera popolazione può essere stimato come: M Nj j =1 N xST = ∑ xj = 100 50 300 10 + 20 + 30 = 24.44 450 450 450 69 ESERCIZIO 2 Una cerreta estesa su 350 ha viene divisa in tre strati di differente età, di estensione pari a 25 ha, 175 ha e 150 ha. Nel primo strato vengono eseguiti rilievi diretti su 5 aree campione, nel secondo strato su 15 e nel terzo su 10. La superficie unitaria delle aree campione è pari a 0.05 ha. I valori di massa legnosa osservati nelle aree campione sono riportati in tabella: AREA CAMPIONE 1 2 3 4 5 STRATO 1 m3 3 5 7 4 6 STRATO 2 m3 3 8 3 6 STRATO 3 m3 4 5 4 3 6 7 8 9 10 11 12 13 14 15 7 5 9 4 6 4 5 5 4 9 6 7 5 8 4 5 4 Determinare il valore della provvigione legnosa nei singoli strati e quello dell’intera foresta. 70 Svolgimento dell’esercizio 2 Il valore totale della provvigione legnosa nei tre strati viene stimato con la formula: dove: Xj = Aj aj xj Aj = superficie del j-esimo strato nota senza errore; aj = superficie dell’area campione, nota senza errore. x j = valore medio dell’attributo nel j-esimo strato. Quindi, essendo il valor medio della provvigione legnosa nei singoli strati pari a: nJ xj = ∑ xij i =1 nj dove: xij = valore dell’attributo nell’i-esima unità campionaria del j-esimo strato nj = numero di unità campionarie nel j-esimo strato Si ha: x1 = 3 + 5 + ... + 6 =5 5 x2 = 3 + 8 + ... + 6 = 5.6 15 x3 = 4 + 5 + ... + 4 = 4.9 10 71 Pertanto, il valore totale della provvigione legnosa nei tre strati è: X1 = A1 25 x1 = 5 = 2500m3 a1 0.05 X2 = A2 175 x2 = 5.6 = 19600m3 a2 0.05 X3 = A3 150 x3 = 4.9 = 14700m3 a3 0.05 Il valore totale della provvigione legnosa della foresta è: X ST A = xST a dove: A = superficie della foresta, nota senza errore; a = superficie dell’area campione, nota senza errore. xST = valore medio dell’attributo della popolazione. 72 Essendo il valor medio della provvigione dell’intera foresta pari a: M Aj j =1 A xST = ∑ xj = 25 175 150 5+ 5.6 + 4.9 = 5.26 350 350 350 dove: Aj = superficie del j-esimo stato, nota senza errore; A = superficie della foresta; x j = valore medio dell’attributo nel j-esimo strato. Il valore totale della provvigione legnosa della foresta è: X ST A 350 = xST = 5.26 = 36820m3 a 0.05 73 ESERCIZIO 3 Una faggeta estesa su 225 ha viene divisa in due strati di differente età, di estensione pari a 100 ha e 125 ha. Nel primo strato vengono eseguiti rilievi diretti su 10 aree campione, nel secondo strato su 15. La superficie unitaria delle aree campione è pari a 0.02 ha. I valori di massa legnosa osservati nelle aree campione sono riportati in tabella: AREA CAMPIONE 1 2 3 4 5 6 7 8 9 10 STRATO 1 m3 4 6 7 9 4 7 10 8 7 9 STRATO 2 m3 5 3 5 1 4 6 3 2 3 0 11 12 13 14 15 4 3 2 5 3 Determinare il valore della provvigione legnosa nei singoli strati, quello dell’intera foresta e le rispettive varianze. 74 Svolgimento dell’esercizio 3 Il valore totale della provvigione legnosa nei due strati viene stimato con la formula: dove: Xj = Aj aj xj Aj = superficie del j-esimo strato nota senza errore; aj = superficie dell’area campione, nota senza errore. x j = valore medio dell’attributo nel j-esimo strato. Quindi, essendo il valor medio della provvigione legnosa nei singoli strati pari a: nJ xj = ∑ xij dove: xij = valore dell’attributo nell’i-esima unità campionaria del j-esimo strato i =1 nj nj = numero di unità campionarie nel j-esimo strato Si ha: x1 = 4 + 6 + ... + 9 = 7.1 10 x2 = 5 + 3 + ... + 3 = 3.3 15 75 Pertanto, il valore totale della provvigione legnosa nei due strati è: X1 = A1 100 x1 = 7.1 = 35500m 3 a1 0.02 X2 = A2 125 x2 = 3.3 = 20625m3 a2 0.02 Con varianza pari a : s 2 Xj = Aj aj 2 s2 x j 2 dove s 2 x j ,varianza del valor medio nel j-esimo strato è pari a: s 2 xj s2xj = nj dove: s2x = stimatore della varianza di x nel j-esimo strato i ∑ (x = nj = s 2 xj i =1 ij − xj ) 2 n j −1 76 Quindi: ∑ (x = nj 2 s x1 i =1 − x1 ) 2 i1 n1 − 1 2 2 2 ( 4 − 7.1) (6 − 7.1) ...(9 − 7.1) = 9 = 4.1 varianza dell’attributo negli strati ∑ (x = nj s 2 s x2 2 x1 s 2 x2 i =1 − x2 ) 2 i2 n2 − 1 2 2 2 ( 5 − 3.3) (3 − 3.3) ...(3 − 3.3) = 14 = 2.64 s 2 x1 4.1 = = = 0.41 n1 10 s 2 x2 2.64 = = = 0.18 n2 15 2 varianza del valor medio dell’attributo negli strati ( ) 100 2 A1 2 3 0 . 41 10250000 m s X 1 = 2 s x1 = = 0.02 2 a1 2 2 s2 X 2 2 ( ) A2 2 1252 3 = 2 s x2 = 2 . 64 = 103125000 m 0.02 2 a2 varianza del valore totale dell’attributo negli strati 2 77 Il valore totale della provvigione legnosa della foresta è: X ST A = xST a dove: A = superficie della foresta, nota senza errore; a = superficie dell’area campione, nota senza errore. xST = valore medio dell’attributo della popolazione. Essendo xST ,valore medio dell’attributo della popolazione pari a: M xST = ∑ j =1 Aj A xj dove: Aj = superficie del j-esimo strato nota senza errore; A = superficie totale della popolazione, nota senza errore. xST 100 125 = 7.1 + 3.3 = 4.98 225 225 Si ha che il valore totale della provvigione legnosa della foresta è: X ST = A 225 xST = 4.98 = 56025m3 a 0.02 78 Con varianza pari a: 2 s 2 X ST 2 ( ) A 225 3 = s 2 xST = 0.08 = 10125000 m a 0.02 2 Dove s 2 xST , è lo stimatore della varianza del valor medio dell’attributo nella popolazione: s 2 xST 2 Aj 2 100 125 3 = ∑ s xj = 0.41 + 0.18 = 0.13 m 225 225 j =1 A M 2 2 ( ) 79 2 ESERCIZIO 4 Ai fini della stima della provvigione legnosa di una compresa di faggio estesa su 250 ha, viene effettuata una suddivisione della foresta in tre strati: faggeta densa (125 ha), faggeta rada (75 ha), faggeta molto rada (50 ha). Da un campionamento pilota condotto su aree campione di 0.1 ha, la varianza della massa legnosa nel primo strato risulta pari a 85 (m3)2, nel secondo strato pari a 96 (m3)2, nel terzo strato pari a 102 (m3)2 . Il costo di realizzazione di un’area campione nel primo strato risulta pari a circa un terzo di quello del terzo strato, e a circa due terzi di quello del secondo strato. Determinare la ripartizione delle unità campionarie secondo i seguenti approcci: -uniforme; -proporzionale; -di Neyman; -ottimale. 80 Svolgimento dell’esercizio 4 Ripartizione uniforme delle unità campionarie: W1,W2,W3 = 1/3=0.33; Ripartizione proporzionale delle unità campionarie: W1=A1/A=125/250=0.5; W2=A2/A=75/250=0.3; W3=A3/A=50/250=0.2; Ripartizione di Neyman delle unità campionarie: W1 = A1s x1 M ∑A s j =1 W2 = 125 × 9.22 1152.5 = = 0.48 125 × 9.22 + 75 × 9.80 + 50 ×10.10 1152.5 + 735 + 505 = 75 × 9.80 735 = = 0.31 125 × 9.22 + 75 × 9.80 + 50 ×10.10 1152.5 + 735 + 505 j xj A2 s x2 M ∑A s j =1 = j xj 81 A3 s x 3 W3 = M ∑A s j =1 = 50 ×10.10 505 = = 0.21 125 × 9.22 + 75 × 9.80 + 50 ×10.10 1152.5 + 735 + 505 j xj Ripartizione ottima delle unità campionarie: W1 = A1 s 2 x1 / c1 M ∑A j =1 W2 = j M j =1 W3 = j M j =1 j = 75 96 / 0.5 1039.23 = = 0.28 125 85 / 0.3 + 75 96 / 0.5 + 50 102 / 1 2104.06 + 1039.23 + 504.97 = 50 102 / 1 504.97 = = 0.14 125 85 / 0.3 + 75 96 / 0.5 + 50 102 / 1 2104.06 + 1039.23 + 504.97 s 2 xj / c j A3 s 2 x3 / c3 ∑A 125 85 / 0.3 2104.06 = = 0.58 2104 . 06 + 1039 . 23 + 504 . 97 125 85 / 0.3 + 75 96 / 0.5 + 50 102 / 1 s 2 xj / c j A2 s 2 x2 / c2 ∑A = s 2 xj / c j 82 CAMPIONAMENTO MULTISTADIO 83 Nel caso di rilevamento campionario delle risorse forestali su territori molto vasti o quando la popolazione oggetto di indagine è caratterizzata da scarsa accessibilità, uno schema di campionamento utilizzabile è rappresentato dal campionamento multistadio. Estrazione di un campione multistadio La procedura di estrazione di un campione multistadio si configura come segue: 1. si suddivide la popolazione in un numero relativamente grande di sottopopolazioni, dette unità primarie (M); 2. si estrae un campione casuale di unità primarie (m); 3. le unità primarie campione vengono a loro volta suddivise in sottoinsiemi più piccoli, detti unità secondarie (N); 4. si estrae un campione casuale di unità secondarie in ciascuna unità primaria campione (n); 5. si ripete il procedimento sopra descritto per qualsivoglia numero di stadi (unità terziarie..ecc); 6. il rilevamento dell’attributo oggetto di interesse viene condotto sulle unità selezionate 84 nell’ambito dell’ultimo stadio. In ambito inventariale raramente si riscontrano casi di campionamento con un numero di stadi superiore a tre. Per aumentare la precisione di stima le unità primarie devono essere tali da presentare al loro interno una variabilità dell’attributo oggetto di interesse elevata. Tuttavia, essendo le unità primarie costituite da elementi fisicamente vicini, di conseguenza tendono ad avere caratteristiche simili. Pertanto, di norma, il numero delle unità primarie dovrebbe essere elevato e di dimensione ridotta. La scelta delle modalità di estrazione delle unità campionarie può variare da stadio a stadio. A esempio, i vantaggi di un campionamento sistematico delle unità campionarie non sono ugualmente importanti in tutti gli stadi: in un campionamento a due stadi in cui le unità primarie siano rappresentate da quadrati di 1 km di lato e le unità secondarie da strisce di 1 km di lunghezza e 10 m di larghezza, la selezione casuale delle unità secondarie in ciascuna unità primaria non comporta un significativo incremento dei costi di accesso rispetto a una selezione sistematica. 85 STIMATORI PER CAMPIONAMENTO A DUE STADI In ambito inventariale, l’applicazione più frequente del campionamento multistadio è quello a due stadi, al quale faremo qui riferimento. Il caso più comune di campionamento a due stadi è quello in cui sia le unità primarie campione sia le unità secondarie campione sono estratte casualmente e la probabilità di selezione, nell’ambito di uno stesso stadio, è la medesima per tutte. Numerosità della popolazione incognita ∑ = ∑ m La stima della media campionaria è pari a: xDSr dove: x j = ∑ nj x i =1 ij j =1 m N jxj j =1 Nj m= numero di unità primarie campione è lo stimatore della media dell’attributo x nella j-esima unità nj primaria campione; xij = valore dell’attributo x nella i-esima unità secondaria campione della j-esima unità primaria campione; Nj = numero totale di unità secondarie nella j-esima unità primaria campione; nj = numero di unità secondarie campione nella j-esima unità primaria campione. 86 La varianza della media campionaria può essere stimata pari a: ∑ (M − m) s 2 x DSr = 2 N j (x j − x DSr ) j =1 m 2 m −1 s 2 xj + ∑ N j (N j − n j ) nj j =1 m MmN 2 up dove: s 2 x j = stimatore della varianza dell’attributo x nella j-esima unità primaria campione; M = numero totale di unità primarie; N up = numero medio di unità secondarie nelle unità primarie campione, m = numero di unità primarie campione. Ovviamente, nel caso in cui le unità secondarie siano rappresentate da aree, gli stimatori della media campionaria e della sua varianza sono riferiti alla superficie di tali aree. 87 Lo stimatore del valore totale dell’attributo x nella popolazione è pari a: X DS M = m m ∑N j =1 j x j = MX up dove X up è la media del valore totale dell’attributo x nelle unità primarie campione La varianza di XDS può essere stimata pari a: s 2 X DS m 2 ( ) X X − ∑ j up s2xj M m j =1 = (M − m ) + ∑ j =1 N j (N j − n j ) m m −1 nj La varianza di X up può essere stimata pari a: s 2 X up m 2 ( ) X − X up s2xj m (M − m ) ∑ j =1 j + ∑ j =1 N j (N j − n j ) nj m −1 = nM 88 Numerosità della popolazione nota Nota la numerosità N della popolazione, xDS la stima della media campionaria è pari a: M = m ∑ m j =1 N jxj N con varianza paria a: s 2 x DS 2 m N ∑ j =1 N j x j − M xDS s2xj M m (M − m ) + ∑ j =1 N j (N j − n j ) = 2 m −1 nj mN Lo stimatore del valore totale dell’attributo x nella popolazione è pari a: m X DS r = N ∑N j =1 ∑ m j =1 j xj Nj = NX DSr Con varianza stimata pari a: s 2 X DSr = N 2 s 2 xDSr 89 Dimensionamento di un campione a due stadi Anche nel caso più semplice di campionamento a due stadi occorre stabilire sia il numero di unità primarie campione, sia il numero di unità secondarie campione necessari per contenere l’errore o i costi di campionamento entro la soglia massima tollerata. Il dimensionamento dovrà dunque prevedere: 1. definire tutte le possibili modalità operative di suddivisione della popolazione in unità primarie; 2. per ciascuna modalità di suddivisione, determinare la combinazione ottimale della dimensione campionaria delle unità primarie e delle unità secondarie, comparando la precisione o i costi ottenuti dalle varie combinazioni possibili; 3. selezionare la suddivisione ottimale, comparando la precisione o i costi relativi alle combinazioni ottimali ottenute da ciascun tipo di suddivisione. Nel caso di un campionamento a due stadi, a parità di altri fattori, la precisione e il costo di campionamento tendono a crescere all’aumentare del numero di unità primarie e al decrescere del numero di unità secondarie. 90 Il costo totale di un campionamento a due stadi è dato da: C0 = c f + c1m + c2 nus m dove: cf = costi fissi; c1= costo medio (per unità primaria) di accesso alle unità primarie campione; c2 = costo medio di accesso (una volta raggiunta l’unità primaria) e rilevamento per ciascuna unità secondaria campione; nus = numero medio di unità secondarie campione nelle unità primarie campione. Stabilito il costo totale Co, il numero ottimale di unità primarie potrà essere stimato, in prima approssimazione, pari a: m0 = con C0 − c f c1 + c2 nus0 dove: nus0 ≈ c1 N c2 M ∑ Ms 2 M 2 N s xj j j =1 − ∑ j =1 N j s 2 x j M Xj s 2 x j= varianza presunta dei valori totali delle unità primarie. Ovviamente i valori presunti di s2xj, s2Xj, cf, c1, c2, devono essere stabiliti a priori sulla base di un campione pilota. 91 Vantaggi e svantaggi del campionamento multistadio v Il campionamento multistadio risulta vantaggioso quando sia il campionamento semplice che quello stratificato sarebbero troppo onerosi a causa dell’alto costo di accesso alle unità campionarie o quando la variabilità tra le unità primarie è relativamente bassa rispetto a quella entro le unità primarie. Vantaggi v Tanto più ampia e tanto meno accessibile è la superficie da inventariare, tanto maggiore è la vantaggiosità di questo tipo di campionamento. v Il campionamento multistadio può dunque essere adottato vantaggiosamente ogni qualvolta si debbano inventariare popolazioni di dimensioni molto ampie: in questi casi, infatti, può risultare troppo laborioso e/o troppo costoso l’inquadramento di tutti i singoli elementi della popolazione ed è più agevole concentrare i rilevamenti entro alcune determinate porzioni di territorio. Svantaggi v Il raggruppamento spaziale delle unità di campionamento comporta, in genere, una riduzione, a parità di altre condizioni, della precisione delle stime rispetto a un campionamento casuale semplice: maggiore è la variabilità tra le unità primarie, maggiore è tale riduzione 92 ESERCIZI CAMPIONAMENTO MULTISTADIO 93 ESERCIZIO 1 Una popolazione viene divisa in 10 unità primarie, ciascuna delle quali consiste di 6 unità secondarie. Dalle 10 unità primarie vengono estratte, con campionamento casuale semplice senza reinserimento, 2 unità primarie campione e, dalle 6 unità secondarie di ciascuna unità primaria campione, vengono selezionate, ancora con campionamento casuale semplice senza reinserimento, 3 unità secondarie campione. I valori della variabile d’interesse osservati sulle 3 unità secondarie campione della prima unità primaria campione sono: 7, 5, 3; quelli osservati sulle 3 unità secondarie campione della seconda unità primaria campione sono: 4, 2, 3. Stimare il valor medio della popolazione e la varianza dello stimatore adottato. 94 Svolgimento dell’esercizio 1 Dato che la numerosità N della popolazione è incognita, lo stimatore del valor medio della popolazione è: ∑ = ∑ m xDSr dove: xj ∑ = nj x i =1 ij j =1 m N jxj j =1 Nj è lo stimatore della media dell’attributo x nella j-esima unità nj primaria campione; xij = valore dell’attributo x nella i-esima unità secondaria campione della j-esima unità primaria campione; Nj = numero totale di unità secondarie nella j-esima unità primaria campione; nj = numero di unità secondarie campione nella j-esima unità primaria campione. Quindi: x1 x2 ∑ = nj x i =1 i1 n1 ∑ = nj x i =1 i 2 n2 = 7+5+3 =5 3 4+2+3 = =3 3 ∑ = ∑ m xDSr j =1 m N jxj j =1 Nj = 6×5 + 6×3 =4 6+6 95 La varianza dello stimatore è pari a: ∑ j =1 N 2 j (x j − xDSr ) m (M − m) s 2 x DSr 2 m −1 = s 2 xj + ∑ N j (N j − n j ) nj j =1 m MmN 2 up 2 dove: s x j = stimatore della varianza dell’attributo x nella j-esima unità primaria campione; M = numero totale di unità primarie; N up = numero medio di unità secondarie nelle unità primarie campione, m = numero di unità primarie campione. Lo stimatore della varianza dell’attributo x nella j-esima unità primaria campione è: − xj ) xj ∑ (x = − x1 ) x1 ∑ (x = − x2 ) x2 (x ∑ = nj s 2 i =1 ij n j −1 nj s 2 i =1 i1 s 2 n j −1 nj 2 2 i =1 i2 n j −1 quindi: 2 2 2 ( 7 − 5) + (5 − 5) + (3 − 5) = =4 2 2 2 ( 4 − 3) + (2 − 3) + (3 − 3) = =1 2 2 2 96 Pertanto, la varianza dello stimatore del valor medio della popolazione è pari a: 2 N ∑ j =1 j (x j − xDSr ) m (M − m) 2 m −1 s 2 x DSr = MmN 2 up 6 2 (5 − 4) + 6 2 (3 − 4) 4 1 (10 − 2) + 6(6 − 3) + 6(6 − 3) 1 3 3 = 0.84 = 2 10 × 2 × 6 2 s 2 x DSr s 2 xj + ∑ N j (N j − n j ) nj j =1 m 2 97 ESERCIZIO 2 Si voglia stimare la massa legnosa di un rimboschimento di pino nero mediante un campionamento casuale semplice a due stadi (senza reinserimento). Il rimboschimento viene suddiviso in 25 unità primarie. Mediante campionamento casuale semplice senza reinserimento, vengono estratte 12 unità primarie campione e per ciascuna di queste 3 unità secondarie campione, individuate ancora con estrazione casuale semplice, sulle quali vengono condotte le misure a terra. Il numero di unità secondarie e i valori di massa legnosa osservati nelle unità secondarie campione delle 12 unità primarie campione sono: UNITA’ I CAMPIONE 1 2 3 4 5 6 7 8 9 10 11 12 NJ 10 8 8 5 12 12 9 6 12 9 8 12 x1J 4 6 7 9 4 7 10 8 7 9 5 6 x2J 2 5 3 7 3 7 5 4 8 4 3 6 x3J 5 3 5 1 4 6 3 2 3 0 4 3 Determinare il valore totale della provvigione legnosa del rimboschimento e la varianza dello stimatore. 98 Svolgimento dell’esercizio 2 Lo stimatore del valore totale della provvigione legnosa è: X DS dove: xj ∑ = nj x i =1 ij M = m m ∑N j =1 j xj è lo stimatore della media dell’attributo x nella j-esima unità nj primaria campione; xij = valore dell’attributo x nella i-esima unità secondaria campione della j-esima unità primaria campione; Nj = numero totale di unità secondarie nella j-esima unità primaria campione; nj = numero di unità secondarie campione nella j-esima unità primaria campione. Quindi, essendo: ∑i=1 xi1 nj x1 = n1 ∑i=1 xi 2 nj x2 = n2 ∑i=1 xi3 4+2+5 = = 3.7 3 6+5+3 = = 4 .7 3 nj x3 = n3 = 7 + 3+5 =5 3 x4 = x5 = x6 = ∑ nj x = 9 + 7 +1 = 5.7 3 x = 4+ 3+ 4 = 3 .7 3 x = 7+7+6 = 6.7 3 i =1 i 4 n4 ∑ nj i =1 i 5 n5 ∑ nj i =1 i 6 n6 99 x7 ∑ = x8 ∑ = x9 ∑ = nj x i =1 i 7 n7 nj x i =1 i 8 n8 nj x i =1 i 9 n9 10 + 5 + 3 = =6 3 8+ 4+ 2 = = 4.7 3 7+8+3 = =6 3 x10 ∑ = x11 ∑ = x12 ∑ = nj x i =1 i10 n10 nj x i =1 i11 n11 nj x i =1 i12 n12 = 9+4+0 = 4 .3 3 = 5+3+ 4 =4 3 = 6+6+3 =5 3 Il valore totale della provvigione legnosa è: X DS M = m m ∑ N jxj = j =1 25 (10 × 3.7 + 8 × 4.7 + ... + 12 × 5) = 1151.67 m3 12 100 La varianza di XDS può essere stimata pari a: s 2 X DS m 2 ( ) X X − ∑ j up s2xj M m j =1 = (M − m ) + ∑ j =1 N j (N j − n j ) m m −1 nj dove X j è il valore totale dell’attributo x nella j-esimia unità primaria campione, X up è la media del valore totale dell’attributo x nelle unità primarie campione e s 2 x j è lo stimatore della varianza dell’attributo x nella j-esima unità primaria campione . (x ∑ = nj Essendo X j = N j x j e s2xj i =1 ij − xj ) n j −1 2 si ha: 101 X 1 = N1 x1 = 10 × 3.7 = 37 X 2 = N 2 x2 = 8 × 4.7 = 37.6 X 3 = N 3 x3 = 8 × 5 = 40 X 7 = N 7 x7 = 9 × 6 = 54 X 8 = N 8 x8 = 6 × 4.7 = 28.2 X 4 = N 4 x4 = 5 × 5.7 = 28.5 X 5 = N 5 x5 = 12 × 3.7 = 44.4 X 10 = N10 x10 = 9 × 4 = 38.7 X 6 = N 6 x6 = 12 × 6.7 = 80.4 X 12 = N12 x12 = 12 × 5 = 60 2 ( ) − x x ∑i=1 i1 1 X 9 = N 9 x9 = 12 × 6 = 72 X 11 = N11 x11 = 8 × 4 = 32 nj s 2 x1 = nj s 2 x4 i =1 i4 = 2.3 − x4 ) s 2 x2 = n4 − 1 2 ∑i=1 (xi 7 − x7 ) n7 − 1 (x ∑ = = 17.3 s 2 x5 = 13 2 ∑i =1 (xi10 − x10 ) n10 − 1 i =1 i5 − x5 ) = 2.3 s 2 x3 = 2 ∑i =1 (xi8 − x8 ) s 2 x8 = n8 − 1 s 2 x6 − x6 ) s 2 x9 (x ∑ = − x9 ) s 2 x12 (x ∑ = nj = 0.3 s 2 x11 = = 9.3 2 ∑i =1 (xi11 − x11 ) n11 − 1 i =1 i =1 = 0.3 n6 − 1 2 i9 =7 n9 − 1 nj =1 =4 2 i6 nj nj = 20.3 n3 − 1 (x ∑ = 2 n5 − 1 2 ( ) − x x ∑i =1 i 3 3 nj nj nj s 2 x10 = n2 − 1 nj 2 nj s 2 x7 = 2 ( ) − x x ∑i =1 i 2 2 nj n1 − 1 (x ∑ = X up = 46.06 i =1 i12 − x12 ) n12 − 1 2 =3 102 Pertanto, il valore della varianza di XDS è pari a: s s 2 X DS 2 X DS m 2 ( ) X X − ∑ j up s2xj M m j =1 = (M − m ) + ∑ j =1 N j (N j − n j ) m m −1 nj 2 2 2 ( 3 2.3 2.3 37 − 46.06) + (37.6 − 46.06) + ... + (60 − 46.06) 25 + 10(10 − 3) + 8(8 − 3) + ... + 12(12 − 3) = 1437.13 (m3)2 = (25 − 12) 3 3 3 12 − 1 12 103 STIMA SECONDO I METODI DELLA REGRESSIONE 104 Gli schemi di campionamento finora osservati fanno tutti riferimento a procedure di stima basate solamente sui valori dell’attributo oggetto d’interesse, mentre in alcuni casi l’utilizzo di informazioni su variabili ausiliarie, cioè su attributi i cui valori sono correlati con quelli dell’attributo oggetto di interesse, può consentire, sotto opportune condizioni, di procedere alla stima dei parametri statistici della variabile principale in modo più efficiente. Posto che siano noti senza errore la media e il valore totale della variabile ausiliaria q nella popolazione considerata, per stimare la media e il valore totale della variabile principale x sfruttando la relazione esistente tra x e q possono essere adottati vari approcci. Di seguito verrà esaminato il metodo di stima per regressione lineare. 105 Stima per regressione lineare In ambito inventariale sono relativamente frequenti i casi in cui la relazione tra x e q è approssimativamente di tipo lineare e non passante per l’origine. In questi casi, per esprimere la relazione tra x e q è possibile fare riferimento a equazioni di regressione del tipo x = b0+b1q, i cui coefficienti b0 e b1 possono essere stimati mediante l’utilizzo di fogli di calcolo elettronico. Nel caso in cui la media vera µq della variabile ausiliaria q sia nota senza errore, su un campione casuale semplice di numerosità n vengono misurati ambedue gli attributi x e q, dopodiché si procede alla determinazione dei coefficienti di regressione: x = b0+b1q Assumendo che la stima della media della variabile a livello di popolazione sia pari a: xRL = b0 + b1µ q e dato che b0 = x − b1q , dove x è il valore della media campionaria di x e q è il valore della media campionaria di q, si ha che: xRL = x − b1 (q − µ q ) 106 La varianza di xRL di può essere stimata tramite la formula: s 2 xRL 2 ( ) − q µ N −n 2 1 q = s x ,q + n n ∑ (qi − q )2 N i =1 dove: s2x,q = stimatore della varianza dei valori predetti di x = s2x(1-r2xq); rxq = stimatore del coefficiente di correlazione tra x e q; s2x = stimatore della varianza di x. Il valore totale di XRL può essere stimato pari a: X RL = NxRL = Nx − b1( Nq − Θ ) con varianza pari a: s 2 X RL = N 2 s 2 xRL dove: Θ = valore totale dell’attributo q nella popolazione. 107 Ai fini del dimensionamento del campione, il numero no di unità campionarie necessarie per non superare la soglia massima tollerata ec0 xRL dell’errore di campionamento di xRL può essere calcolato sulla base di una stima a priori del valore presunto di s2x,q ottenuta tramite un campionamento pilota: t 2 s 2 x ,q N n0 = 2 ec 0 xRL N + t 2 s 2 x ,q Analogamente,il numero no di unità campionarie necessarie per non superare la soglia massima tollerata ec0 XRL dell’errore di campionamento di X RL può essere stimato pari a: t 2 s 2 x ,q N 2 n0 = 2 ec 0 X RL N + t 2 s 2 x ,q N NB: La stima per regressione lineare risulta efficiente se il campione è sufficientemente numeroso e se la correlazione tra x e q è sufficientemente stretta: in linea di massima, con n>30, valori di rx,q>0.8-0.9 conducono quasi sempre a stime per regressione più efficienti 108 del campionamento casuale semplice ESERCIZIO 1 Un rilievo di campo è stato condotto su n=20 aree selezionate in modo casuale da una popolazione di N=1000 aree per determinare la quantità di prodotto coltivato danneggiato da un inquinante aereo. I risultati dei rilievi riportano che il valor medio di prodotto danneggiato (in peso) è pari a x =10 e il valor medio di livello di inquinante (in parti per milione) è pari a q = 6. A seguito dei rilievi è stata individuata una regressione lineare tra la quantità di inquinante aereo (variabile ausiliaria) e la quantità di prodotto danneggiato (variabile principale), il cui coefficiente b1= -2. Assumendo che il livello medio di inquinante è pari a 5: stimare la quantità media di prodotto danneggiato a livello di popolazione. 109 Svolgimento dell’esercizio 1 Lo stimatore della media della variabile a livello di popolazione pari a: xRL = x − b1 (q − µ q ) = 10 + 2(6 − 5) = 12 110 ESERCIZIO 2 In un pioppeto viene condotto un rilievo con stima a vista dell’altezza delle 350 piante che costituiscono l’impianto. La misura viene poi effettuata con ipsometro su un campione di 75 piante. Sulla base dei dati viene istituita la seguente regressione lineare: hmis=5.43+0.75hstim, con un coefficiente di correlazione pari a 0.68. Dai rilievi di altezza stimati a vista per l’intera popolazione si ottiene un valor medio di 9.7 m. Dai rilievi di campo misurati con ipsometro si ottiene un valor medio di 9.1 m e varianza 2.1 m2, mentre per quelli stimati a vista il valor medio è 9.4 m e la varianza 8.2 m2. Stimare l’altezza media del pioppeto e la rispettiva varianza. 111 Svolgimento dell’esercizio 2 L’altezza media del pioppeto viene stimata con la formula: xRL = x − b1 (q − µ q ) = 9.1 − 0.75(9.4 − 9.7) = 9.3m Dove: x è il valor medio delle altezze campione misurate con ipsometro; q è il valor medio delle altezze campione stimate a vista; µ q è il valor medio delle altezze stimate a vista per l’intero impianto; 112 La varianza è pari a: s 2 xRL 2 ( ) − q µ N − n 1 2 q = s x ,q + n n ∑ (qi − q )2 N i =1 = (varianza) x (n-1) dove: s2x,q = stimatore della varianza dei valori predetti di x = s2x(1-r2xq) dove rxq = stimatore del coefficiente di correlazione tra x e q; s2x = stimatore della varianza dei valori di x misurati sul campione. s 2 xRL 2 ( ) 1 9 . 4 − 9 . 7 350 − 75 2 = 0.012 = 2.1(1 − 0.68 ) + 8.2 × 74 350 75 113 114