misure 1a - Didattica

21/05/2014
Esame di Gestione delle Foreste e dei Parchi,
insegnamento di Misure e tecnologie forestali
(parte di misure)
AA 2013-2014
Una parte del materiale riprodotto è relativo al corso di
"Dendrometria e Selvicoltura" del Prof. Carlo Urbinati, SFA
UNIVPM-Ancona
Dott. Rodolfo Picchio
7 cfu
56 ore di lezioni frontali
Dipartimento di Scienze e Tecnologie per l’Agricoltura la Natura
le Foreste e l’Energia
e-mail: [email protected]
Richiami di statistica
La descrizione delle popolazioni
1
21/05/2014
Richiami di statistica
La descrizione delle popolazioni
Richiami di statistica
La descrizione delle popolazioni
2
21/05/2014
Richiami di statistica
La descrizione delle popolazioni
Media = 2
Varianza = 1,33
Media = 2
Varianza = 4
Richiami di statistica
La descrizione delle popolazioni
3
21/05/2014
Richiami di statistica
Correlazione e regressione
La costruzione della curva ipsometrica implica la
conoscenza della correlazione e della regressione
!!!Tecniche per analizzare la relazione tra 2 o più
variabili continue (casuali)
 Correlazione: associazione lineare tra 2 variabili. La
forza dell’associazione è data dal coefficiente di
correlazione.
 Regressione: dipendenza di una variabile
(dipendente) da un’altra variabile (indipendente).
Graficamente la variabile dipendente (y, ordinate) è quella
oggetto di stima mentre la variabile indipendente è
rappresentata sull’asse delle x (ascisse)
Richiami di statistica
Correlazione e regressione
IN ALTRI TERMINI
 Correlazione: analizza se esiste una
relazione tra due variabili (come e quanto
due variabili variano insieme)
 Regressione: analizza la forma della
relazione tra variabili
4
21/05/2014
Richiami di statistica
Correlazione
Richiami di statistica
Correlazione e regressione
Per correlazione si intende una relazione tra due
variabili casuali tale che a ciascun valore della prima
variabile corrisponda con una certa regolarità un
valore della seconda.
Risponde alla domanda: esiste un’associazione
lineare tra le variabili?
Sostanzialmente è rappresenta la tendenza di una
variabile a variare linearmente in funzione di un'altra.
5
21/05/2014
Richiami di statistica
Correlazione e regressione
PROCEDIMENTO
1.
Dimensionamento del campione
Variabilità di x
Variabilità di y
2.
Analisi dei dati riportati su assi cartesiani
Esame della nebulosa
Andamento
1) Lineare
2) Curvilineo
3.
Tipo e grado di correlazione
Richiami di statistica
Coefficiente di Correlazione
Coefficiente di correlazione = espressione numerica
del grado e del tipo di correlazione
Con:
•r = -1 max corr. inversa
•r = +1 max corr. diretta
•r = 0 corr. nulla
La significatività di r è verificata con il Test di Pearson
(r²) = R= coefficiente di determinazione
6
21/05/2014
Richiami di statistica
Il coefficiente di correlazione
Il coefficiente r riflette la dispersione e la direzione
della relazione lineare (in alto) ma non la sua
pendenza (in mezzo) né la non linearità
Richiami di statistica
Caratteristiche principali
1. è a-dimensionale
2. varia da –1 a + 1
3. è positivo quando i valori delle variabili
crescono insieme
4. è negativo quando i valori di una variabile
crescono al decrescere dei valori dell’altra
5. non è influenzato dalle unità di misure
6. ci consente di verificare l’ipotesi che r sia
zero, cioè se l’ associazione fra le variabili
possa essere dovuta al caso.
7
21/05/2014
Richiami di statistica
Regressione
Accertata la correlazione tra due o più variabili si procede
alla compensazione dei dati, ovvero la determinazione
della relazione funzionale tra x e y
–grafica = dati su sistema assi cartesiani (nebulosa,
spezzata, retta)
N.B.: metodo soggettivo, non stima la qualità della relazione
–analitica = metodo dei minimi quadrati;
N.B.:oggettivo; stima la qualità della relazione
I modelli perequativi
Lineari (retta)
Curvilinei (Parabola, Iperbole, Logaritmica)
Richiami di statistica
La regressione semplice considera una sola variabile indipendente, la
regressione multipla considera due o più variabili indipendenti
Casi di dipendenza funzionale di due o più variabili in Dendrometria
1.
H delle piante in funzione del diametro a 1.30 m (curva
ipsometrica)
2.
Volume mediamente ritraibile dal fusto di una pianta in piedi in
funzione del diametro a 1.30 m (tavola di cubatura ad una entrata)
3.
Volume mediamente ritraibile dal fusto di una pianta in funzione
del diametro a 1.30 m e dell’altezza (tavola di cubatura a doppia
entrata)
4.
Diametro a 1.30 m in funzione del diametro alla base (ceppaia)
5.
Tavole alsometriche o tavole di produzione
8
21/05/2014
Richiami di statistica
Esempi:
1.
H delle piante in funzione del diametro a
1.30 m (curva ipsometrica)
2.
Volume mediamente ritraibile dal fusto
di una pianta in piedi in funzione del
diametro a 1.30 m (tavola di cubatura ad
una entrata)
Richiami di statistica
Regressione mediante una retta (regressione lineare semplice)
con la regressione stimiamo i valori a e b
b rappresenta il coefficiente angolare della retta o inclinazione
in altre parole b (detto anche coefficiente di regressione
lineare) esprime la variazione di unità di y sulla variazione
delle corrispondenti unità di x
calcolo dell’intercetta dell’asse y espressa da a:
noto b e definite le coordinate (x1 e y1) di un punto,
dall’equazione canonica della retta
9
21/05/2014
Richiami di statistica
Regressione
Regressione semplice
y = f(x)
y = a + bx
a = Intercetta (ordinata
all’origine)
b = coefficiente angolare (tg)
Richiami di statistica
Regressione
Nebulosa e compensazione
grafica
y = f(x)
y = a + bx
a = Intercetta (ordinata
all’origine)
b = coefficiente angolare (tgα)
10
21/05/2014
Richiami di statistica
Regressione
Perché è importante:
1)
Ci permette di costruire un modello funzionale della
risposta di una variabile (effetto) ad un’altra (causa)
2)
Conoscendo la forma della relazione funzionale tra
variabile indipendente e dipendente è possibile
stimare il valore della variabile dipendente
conoscendo quello della variabile indipendente
(interpolazione) solo nel range di dati X usato per la
regressione (non è molto corretto estrapolare,
almeno in alcuni casi. Es. gli alberi non crescono
all’infinito!!!)
Richiami di statistica
Regressione
Dall’ Esempio precedente:
Coefficiente di determinazione
r2= (R) : proporzione di variazione di una variabile che è
“spiegata”dall’altra:
Esempio se : R= 0.7523 ; r = 0.87
11
21/05/2014
Richiami di statistica
Le più usate
parabola Y = aX²+bX +c
potenza Y = aXb
logaritmica Log (Y) = a + b Log (X)
semilogaritmica Y = a + b Ln(X)
Schemi di campionamento statistico
Permettono una stima delle incertezze che accompagnano
le informazioni prodotte.
L'insieme delle unità di campionamento deve essere
statisticamente rappresentativo della popolazione.
soggettiva
Estrazione del campione
campionamento statistico
(su basi oggettive)
intervallo di confidenza della stima
24
12
21/05/2014
Intervallo di confidenza di una stima o intervallo fiduciario:
intervallo all’interno del quale si ha una data probabilità che
ricada il valore vero del parametro statistico considerato. La
probabilità è in genere espressa in termini di sicurezza
statistica. A parità di sicurezza statistica, tanto maggiore è
l’intervallo di confidenza tanto maggiore è l’errore di
campionamento, e tanto minore è la precisione statistica della
stima.
Campione:
insieme di n unità estratto da una data popolazione (la
collettività oggetto di indagine) al fine di rappresentare la
popolazione stessa. Il rapporto tra la numerosità n delle unità
campionarie e la numerosità complessiva N degli elementi
della popolazione è detto frazione di campionamento (= n/N).
25
Attributo:
variabile per la quale, mediante campionamento, si inferisce
uno o più parametri statistici (media, varianza, valore totale,
...) riferiti all’intera popolazione indagata.
Disegno campionario:
regole per l’estrazione delle unità campionarie dalla
popolazione; algoritmi di determinazione degli stimatori
richiesti; definizione del numero di unità campionarie
necessario al fine di conseguire i prefissati margini di
attendibilità delle stime.
26
13
21/05/2014
Unità campionarie all’interno di un soprassuolo forestale da
inventariare:
• piccole aree: i rilevamenti campionari sono condotti tramite
aree di saggio;
• punti: i rilevamenti campionari sono generalmente condotti
tramite prove di numerazione angolare.
27
Campionamento casuale
L’estrazione delle unità campionarie dalla popolazione
avviene strettamente secondo le leggi del caso.
Le unità campionarie sono scelte in modo indipendente
l'una dall'altra cosicchè l’estrazione di una data unità non dà
alcuna indicazione sull’identità di qualunque altra unità
campionaria estratta.
La localizzazione delle unità campionarie con criteri di pura
casualità, nella maggior parte dei casi, rende il rilevamento
campionario eccessivamente oneroso.
28
14
21/05/2014
Campionamento sistematico
Le unità campionarie sono selezionate secondo uno schema
preordinato: l’estrazione della prima unità campionaria, che
peraltro dovrebbe sempre avvenire in modo casuale,
determina automaticamente la dislocazione di tutte le altre
unità incluse nel campione.
Gli schemi sistematici sono configurati a reticolo con maglie
quadrate (o, più raramente, rettangolari).
Nel caso di territori non troppo vasti (a esempio, inventari a
livello aziendale), per la loro implementazione viene
generalmente utilizzato il metodo delle linee di percorrenza
orientate.
29
Metodo delle linee di percorrenza orientate:
(1) determinazione delle dimensioni della maglia del reticolo
in base alla superficie del soprassuolo e al numero di unità
campionarie che si intende realizzare;
(2) individuazione dell'orientamento delle linee parallele di
percorrenza (orientamento geomagnetico, compartimentale,
fisiografico, topografico per linee di quota costante);
(3) individuazione del punto di partenza, nei pressi di un
elemento facilmente rintracciabile sul terreno;
30
15
21/05/2014
(4) esecuzione del percorso sulla prima linea di percorrenza,
con determinazione delle distanze sulla linea a passi o rotella
metrica (e altimetro) o con GPS;
(5) ripetizione della medesima procedura per le altre linee di
percorrenza (l’interdistanza tra linee è determinata
preferibilmente con rotella metrica e altimetro o con GPS),
prestando particolare attenzione all'individuazione dei singoli
punti iniziali.
31
Evitare condizionamenti soggettivi nella scelta del singolo
punto di sondaggio.
Per maggior cautela può essere utile che una volta
determinato speditivamente ciascun singolo punto di
sondaggio, si percorrano altri 4 metri misurati con rotella in
una direzione scelta in modo casuale misurando con
accuratezza quest’ultima distanza tramite nastro metrico
(avendo poi cura, una volta finiti i rilievi dendrometrici, di
tornare alla posizione preliminare del punto di sondaggio per
riprendere l’allineamento di percorrenza).
32
16
21/05/2014
Non esiste un metodo esatto per quantificare l'errore di
campionamento connesso a una stima ottenuta con un disegno
inventariale su base sistematica.
Margini di accuratezza delle stime migliori di quanto si possa
ottenere con il campionamento casuale.
I tempi e i costi di realizzazione sono generalmente minori nel
campionamento
sistematico,
mentre
l’espressione
rigorosamente esatta dell'intervallo fiduciario della stima
operata è un requisito proprio unicamente del campionamento
casuale.
33
Suddivisione della popolazione in sottopopolazioni per
aumentare l’efficienza del rilevamento campionario:
1) campionamento stratificato,
2) campionamento per gruppi,
3) campionamento a due stadi.
I criteri di suddivisione della popolazione in sottopopolazioni devono
essere definiti in forma chiara e dettagliata. Nell’inventariazione delle
risorse forestali, le suddivisioni sono generalmente stabilite in base
a: limiti amministrativi, delimitazioni geografiche naturali (a esempio,
bacini idrografici), tipi fisionomici, forme di governo, ecc.
34
17
21/05/2014
(A) campionamento casuale semplice;
(B) campionamento sistematico semplice;
(C) campionamento casuale stratificato;
(D) campionamento casuale per gruppi;
(E) campionamento casuale a due stadi.
35
La scelta tra gli schemi di campionamento dipende dal criterio
adottato nella suddivisione della popolazione e dal tipo di
sottopopolazioni ottenute, in relazione alle caratteristiche della
popolazione indagata e agli obiettivi dell’inventario:
il campionamento stratificato è generalmente il metodo di
campionamento più efficiente quando si ha un numero ridotto
di sottopopolazioni, relativamente grandi e omogenee al loro
interno;
36
18
21/05/2014
il campionamento per gruppi risulta efficiente quando il
numero di sottopopolazioni è relativamente grande, le
sottopopolazioni sono piccole ed eterogenee al loro interno e i
costi per lo spostamento da una sottopopolazione all’altra
sono relativamente alti se comparati ai costi di spostamento
entro le sottopopolazioni e ai costi di rilievo nelle singole unità
campionarie;
il campionamento a due stadi risulta vantaggioso quando si
ha un gran numero di sottopopolazioni, relativamente grandi e
non eccessivamente eterogenee al loro interno.
37
Dimensionamento della numerosità del fattore
A parità di altri fattori, tanto più il campione è numeroso tanto
maggiore è la precisione di stima, cioè tanto minore è il
cosiddetto errore di campionamento.
Per stabilire l’intensità del campionamento occorre disporre di
informazioni preliminari su:
•variabilità degli attributi oggetto di interesse nella popolazione
indagata;
•valore massimo tollerato dell’errore di campionamento;
•livello di sicurezza statistica con cui si accettano le stime prodotte.
38
19
21/05/2014
•Dimensionamento della numerosità del campione nel caso di
inventari forestali in cui debbano essere rilevati più attributi:
i.
rispetto all’attributo che mostra variabilità massima tra tutti
quelli di rilevante interesse (sovradimensionamento del
campione per tutti gli altri attributi e aumento dei costi del
rilievo);
ii.
rispetto all’attributo considerato più importante in assoluto (ciò
conduce al sovracampionamento di alcuni attributi a variabilità
relativamente bassa e al contemporaneo sottocampionamento
degli altri);
iii. rispetto alla varianza di tutti gli attributi considerati,
impiegando un’idonea funzione di ottimizzazione oppure, più
semplicemente, mediando i singoli valori di numerosità ottenuti
rispetto a ciascuno degli attributi considerati (questa soluzione
presuppone che gli attributi siano tutti rilevabili sulle stesse
unità campionarie).
39
•Valore massimo tollerato dell’errore di
campionamento: tra 5 e 15-20%
Nel caso di attributi ad alta variabilità:
può essere più opportuno rinunciare al campionamento e
procedere al censimento completo delle popolazioni,
accontentarsi di livelli di precisione inferiori,
adottare schemi di campionamento più efficienti.
40
20
21/05/2014
•Livello di sicurezza statistica pari o non inferiori al 90-95%
Stima di massa
legnosa
Livello di sicurezza
statistica
Soprassuolo o
<= 90%
particella forestale
Compresa o grande <= 95%
proprietà
Soglia percentuale massima
tollerata dell’errore di
campionamento
>= 15-20%
>= 10
41
Nel caso di un campionamento casuale o sistematico semplice in
grandi popolazioni, il numero minimo n0 di unità campionarie
necessario per contenere probabilisticamente l’errore di
campionamento della media entro una data soglia massima
tollerata è pari a:
t 2CV 2
n0 
ecp 02
dove: CV = valore presunto del coefficiente di variazione, espresso in
termini percentuali (= ), dell’attributo oggetto di inventario nella
popolazione considerata; ecp0 = errore percentuale della media
massimo tollerato; t = valore critico del t di Student, corrispondente al
prescelto livello di sicurezza statistica e agli appropriati gradi di libertà
della stima.
42
21