21/05/2014 Esame di Gestione delle Foreste e dei Parchi, insegnamento di Misure e tecnologie forestali (parte di misure) AA 2013-2014 Una parte del materiale riprodotto è relativo al corso di "Dendrometria e Selvicoltura" del Prof. Carlo Urbinati, SFA UNIVPM-Ancona Dott. Rodolfo Picchio 7 cfu 56 ore di lezioni frontali Dipartimento di Scienze e Tecnologie per l’Agricoltura la Natura le Foreste e l’Energia e-mail: [email protected] Richiami di statistica La descrizione delle popolazioni 1 21/05/2014 Richiami di statistica La descrizione delle popolazioni Richiami di statistica La descrizione delle popolazioni 2 21/05/2014 Richiami di statistica La descrizione delle popolazioni Media = 2 Varianza = 1,33 Media = 2 Varianza = 4 Richiami di statistica La descrizione delle popolazioni 3 21/05/2014 Richiami di statistica Correlazione e regressione La costruzione della curva ipsometrica implica la conoscenza della correlazione e della regressione !!!Tecniche per analizzare la relazione tra 2 o più variabili continue (casuali) Correlazione: associazione lineare tra 2 variabili. La forza dell’associazione è data dal coefficiente di correlazione. Regressione: dipendenza di una variabile (dipendente) da un’altra variabile (indipendente). Graficamente la variabile dipendente (y, ordinate) è quella oggetto di stima mentre la variabile indipendente è rappresentata sull’asse delle x (ascisse) Richiami di statistica Correlazione e regressione IN ALTRI TERMINI Correlazione: analizza se esiste una relazione tra due variabili (come e quanto due variabili variano insieme) Regressione: analizza la forma della relazione tra variabili 4 21/05/2014 Richiami di statistica Correlazione Richiami di statistica Correlazione e regressione Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda. Risponde alla domanda: esiste un’associazione lineare tra le variabili? Sostanzialmente è rappresenta la tendenza di una variabile a variare linearmente in funzione di un'altra. 5 21/05/2014 Richiami di statistica Correlazione e regressione PROCEDIMENTO 1. Dimensionamento del campione Variabilità di x Variabilità di y 2. Analisi dei dati riportati su assi cartesiani Esame della nebulosa Andamento 1) Lineare 2) Curvilineo 3. Tipo e grado di correlazione Richiami di statistica Coefficiente di Correlazione Coefficiente di correlazione = espressione numerica del grado e del tipo di correlazione Con: •r = -1 max corr. inversa •r = +1 max corr. diretta •r = 0 corr. nulla La significatività di r è verificata con il Test di Pearson (r²) = R= coefficiente di determinazione 6 21/05/2014 Richiami di statistica Il coefficiente di correlazione Il coefficiente r riflette la dispersione e la direzione della relazione lineare (in alto) ma non la sua pendenza (in mezzo) né la non linearità Richiami di statistica Caratteristiche principali 1. è a-dimensionale 2. varia da –1 a + 1 3. è positivo quando i valori delle variabili crescono insieme 4. è negativo quando i valori di una variabile crescono al decrescere dei valori dell’altra 5. non è influenzato dalle unità di misure 6. ci consente di verificare l’ipotesi che r sia zero, cioè se l’ associazione fra le variabili possa essere dovuta al caso. 7 21/05/2014 Richiami di statistica Regressione Accertata la correlazione tra due o più variabili si procede alla compensazione dei dati, ovvero la determinazione della relazione funzionale tra x e y –grafica = dati su sistema assi cartesiani (nebulosa, spezzata, retta) N.B.: metodo soggettivo, non stima la qualità della relazione –analitica = metodo dei minimi quadrati; N.B.:oggettivo; stima la qualità della relazione I modelli perequativi Lineari (retta) Curvilinei (Parabola, Iperbole, Logaritmica) Richiami di statistica La regressione semplice considera una sola variabile indipendente, la regressione multipla considera due o più variabili indipendenti Casi di dipendenza funzionale di due o più variabili in Dendrometria 1. H delle piante in funzione del diametro a 1.30 m (curva ipsometrica) 2. Volume mediamente ritraibile dal fusto di una pianta in piedi in funzione del diametro a 1.30 m (tavola di cubatura ad una entrata) 3. Volume mediamente ritraibile dal fusto di una pianta in funzione del diametro a 1.30 m e dell’altezza (tavola di cubatura a doppia entrata) 4. Diametro a 1.30 m in funzione del diametro alla base (ceppaia) 5. Tavole alsometriche o tavole di produzione 8 21/05/2014 Richiami di statistica Esempi: 1. H delle piante in funzione del diametro a 1.30 m (curva ipsometrica) 2. Volume mediamente ritraibile dal fusto di una pianta in piedi in funzione del diametro a 1.30 m (tavola di cubatura ad una entrata) Richiami di statistica Regressione mediante una retta (regressione lineare semplice) con la regressione stimiamo i valori a e b b rappresenta il coefficiente angolare della retta o inclinazione in altre parole b (detto anche coefficiente di regressione lineare) esprime la variazione di unità di y sulla variazione delle corrispondenti unità di x calcolo dell’intercetta dell’asse y espressa da a: noto b e definite le coordinate (x1 e y1) di un punto, dall’equazione canonica della retta 9 21/05/2014 Richiami di statistica Regressione Regressione semplice y = f(x) y = a + bx a = Intercetta (ordinata all’origine) b = coefficiente angolare (tg) Richiami di statistica Regressione Nebulosa e compensazione grafica y = f(x) y = a + bx a = Intercetta (ordinata all’origine) b = coefficiente angolare (tgα) 10 21/05/2014 Richiami di statistica Regressione Perché è importante: 1) Ci permette di costruire un modello funzionale della risposta di una variabile (effetto) ad un’altra (causa) 2) Conoscendo la forma della relazione funzionale tra variabile indipendente e dipendente è possibile stimare il valore della variabile dipendente conoscendo quello della variabile indipendente (interpolazione) solo nel range di dati X usato per la regressione (non è molto corretto estrapolare, almeno in alcuni casi. Es. gli alberi non crescono all’infinito!!!) Richiami di statistica Regressione Dall’ Esempio precedente: Coefficiente di determinazione r2= (R) : proporzione di variazione di una variabile che è “spiegata”dall’altra: Esempio se : R= 0.7523 ; r = 0.87 11 21/05/2014 Richiami di statistica Le più usate parabola Y = aX²+bX +c potenza Y = aXb logaritmica Log (Y) = a + b Log (X) semilogaritmica Y = a + b Ln(X) Schemi di campionamento statistico Permettono una stima delle incertezze che accompagnano le informazioni prodotte. L'insieme delle unità di campionamento deve essere statisticamente rappresentativo della popolazione. soggettiva Estrazione del campione campionamento statistico (su basi oggettive) intervallo di confidenza della stima 24 12 21/05/2014 Intervallo di confidenza di una stima o intervallo fiduciario: intervallo all’interno del quale si ha una data probabilità che ricada il valore vero del parametro statistico considerato. La probabilità è in genere espressa in termini di sicurezza statistica. A parità di sicurezza statistica, tanto maggiore è l’intervallo di confidenza tanto maggiore è l’errore di campionamento, e tanto minore è la precisione statistica della stima. Campione: insieme di n unità estratto da una data popolazione (la collettività oggetto di indagine) al fine di rappresentare la popolazione stessa. Il rapporto tra la numerosità n delle unità campionarie e la numerosità complessiva N degli elementi della popolazione è detto frazione di campionamento (= n/N). 25 Attributo: variabile per la quale, mediante campionamento, si inferisce uno o più parametri statistici (media, varianza, valore totale, ...) riferiti all’intera popolazione indagata. Disegno campionario: regole per l’estrazione delle unità campionarie dalla popolazione; algoritmi di determinazione degli stimatori richiesti; definizione del numero di unità campionarie necessario al fine di conseguire i prefissati margini di attendibilità delle stime. 26 13 21/05/2014 Unità campionarie all’interno di un soprassuolo forestale da inventariare: • piccole aree: i rilevamenti campionari sono condotti tramite aree di saggio; • punti: i rilevamenti campionari sono generalmente condotti tramite prove di numerazione angolare. 27 Campionamento casuale L’estrazione delle unità campionarie dalla popolazione avviene strettamente secondo le leggi del caso. Le unità campionarie sono scelte in modo indipendente l'una dall'altra cosicchè l’estrazione di una data unità non dà alcuna indicazione sull’identità di qualunque altra unità campionaria estratta. La localizzazione delle unità campionarie con criteri di pura casualità, nella maggior parte dei casi, rende il rilevamento campionario eccessivamente oneroso. 28 14 21/05/2014 Campionamento sistematico Le unità campionarie sono selezionate secondo uno schema preordinato: l’estrazione della prima unità campionaria, che peraltro dovrebbe sempre avvenire in modo casuale, determina automaticamente la dislocazione di tutte le altre unità incluse nel campione. Gli schemi sistematici sono configurati a reticolo con maglie quadrate (o, più raramente, rettangolari). Nel caso di territori non troppo vasti (a esempio, inventari a livello aziendale), per la loro implementazione viene generalmente utilizzato il metodo delle linee di percorrenza orientate. 29 Metodo delle linee di percorrenza orientate: (1) determinazione delle dimensioni della maglia del reticolo in base alla superficie del soprassuolo e al numero di unità campionarie che si intende realizzare; (2) individuazione dell'orientamento delle linee parallele di percorrenza (orientamento geomagnetico, compartimentale, fisiografico, topografico per linee di quota costante); (3) individuazione del punto di partenza, nei pressi di un elemento facilmente rintracciabile sul terreno; 30 15 21/05/2014 (4) esecuzione del percorso sulla prima linea di percorrenza, con determinazione delle distanze sulla linea a passi o rotella metrica (e altimetro) o con GPS; (5) ripetizione della medesima procedura per le altre linee di percorrenza (l’interdistanza tra linee è determinata preferibilmente con rotella metrica e altimetro o con GPS), prestando particolare attenzione all'individuazione dei singoli punti iniziali. 31 Evitare condizionamenti soggettivi nella scelta del singolo punto di sondaggio. Per maggior cautela può essere utile che una volta determinato speditivamente ciascun singolo punto di sondaggio, si percorrano altri 4 metri misurati con rotella in una direzione scelta in modo casuale misurando con accuratezza quest’ultima distanza tramite nastro metrico (avendo poi cura, una volta finiti i rilievi dendrometrici, di tornare alla posizione preliminare del punto di sondaggio per riprendere l’allineamento di percorrenza). 32 16 21/05/2014 Non esiste un metodo esatto per quantificare l'errore di campionamento connesso a una stima ottenuta con un disegno inventariale su base sistematica. Margini di accuratezza delle stime migliori di quanto si possa ottenere con il campionamento casuale. I tempi e i costi di realizzazione sono generalmente minori nel campionamento sistematico, mentre l’espressione rigorosamente esatta dell'intervallo fiduciario della stima operata è un requisito proprio unicamente del campionamento casuale. 33 Suddivisione della popolazione in sottopopolazioni per aumentare l’efficienza del rilevamento campionario: 1) campionamento stratificato, 2) campionamento per gruppi, 3) campionamento a due stadi. I criteri di suddivisione della popolazione in sottopopolazioni devono essere definiti in forma chiara e dettagliata. Nell’inventariazione delle risorse forestali, le suddivisioni sono generalmente stabilite in base a: limiti amministrativi, delimitazioni geografiche naturali (a esempio, bacini idrografici), tipi fisionomici, forme di governo, ecc. 34 17 21/05/2014 (A) campionamento casuale semplice; (B) campionamento sistematico semplice; (C) campionamento casuale stratificato; (D) campionamento casuale per gruppi; (E) campionamento casuale a due stadi. 35 La scelta tra gli schemi di campionamento dipende dal criterio adottato nella suddivisione della popolazione e dal tipo di sottopopolazioni ottenute, in relazione alle caratteristiche della popolazione indagata e agli obiettivi dell’inventario: il campionamento stratificato è generalmente il metodo di campionamento più efficiente quando si ha un numero ridotto di sottopopolazioni, relativamente grandi e omogenee al loro interno; 36 18 21/05/2014 il campionamento per gruppi risulta efficiente quando il numero di sottopopolazioni è relativamente grande, le sottopopolazioni sono piccole ed eterogenee al loro interno e i costi per lo spostamento da una sottopopolazione all’altra sono relativamente alti se comparati ai costi di spostamento entro le sottopopolazioni e ai costi di rilievo nelle singole unità campionarie; il campionamento a due stadi risulta vantaggioso quando si ha un gran numero di sottopopolazioni, relativamente grandi e non eccessivamente eterogenee al loro interno. 37 Dimensionamento della numerosità del fattore A parità di altri fattori, tanto più il campione è numeroso tanto maggiore è la precisione di stima, cioè tanto minore è il cosiddetto errore di campionamento. Per stabilire l’intensità del campionamento occorre disporre di informazioni preliminari su: •variabilità degli attributi oggetto di interesse nella popolazione indagata; •valore massimo tollerato dell’errore di campionamento; •livello di sicurezza statistica con cui si accettano le stime prodotte. 38 19 21/05/2014 •Dimensionamento della numerosità del campione nel caso di inventari forestali in cui debbano essere rilevati più attributi: i. rispetto all’attributo che mostra variabilità massima tra tutti quelli di rilevante interesse (sovradimensionamento del campione per tutti gli altri attributi e aumento dei costi del rilievo); ii. rispetto all’attributo considerato più importante in assoluto (ciò conduce al sovracampionamento di alcuni attributi a variabilità relativamente bassa e al contemporaneo sottocampionamento degli altri); iii. rispetto alla varianza di tutti gli attributi considerati, impiegando un’idonea funzione di ottimizzazione oppure, più semplicemente, mediando i singoli valori di numerosità ottenuti rispetto a ciascuno degli attributi considerati (questa soluzione presuppone che gli attributi siano tutti rilevabili sulle stesse unità campionarie). 39 •Valore massimo tollerato dell’errore di campionamento: tra 5 e 15-20% Nel caso di attributi ad alta variabilità: può essere più opportuno rinunciare al campionamento e procedere al censimento completo delle popolazioni, accontentarsi di livelli di precisione inferiori, adottare schemi di campionamento più efficienti. 40 20 21/05/2014 •Livello di sicurezza statistica pari o non inferiori al 90-95% Stima di massa legnosa Livello di sicurezza statistica Soprassuolo o <= 90% particella forestale Compresa o grande <= 95% proprietà Soglia percentuale massima tollerata dell’errore di campionamento >= 15-20% >= 10 41 Nel caso di un campionamento casuale o sistematico semplice in grandi popolazioni, il numero minimo n0 di unità campionarie necessario per contenere probabilisticamente l’errore di campionamento della media entro una data soglia massima tollerata è pari a: t 2CV 2 n0 ecp 02 dove: CV = valore presunto del coefficiente di variazione, espresso in termini percentuali (= ), dell’attributo oggetto di inventario nella popolazione considerata; ecp0 = errore percentuale della media massimo tollerato; t = valore critico del t di Student, corrispondente al prescelto livello di sicurezza statistica e agli appropriati gradi di libertà della stima. 42 21