Statistica e cartografia per la creazione e l’utilizzo di
basi di dati sull’uso del suolo
Statistics and Cartography for the Production and Utilisation of
a Land Cover/Land Use Database
Elisabetta Carfagna
Università di Bologna, Via Belle Arti 41-40126 Bologna, [email protected]
Pierpaolo Napolitano
ISTAT, Via A. Ravà 150 - 00142 Roma, [email protected]
Abstract: The relationships between statistics and cartography are investigated in
relation to the following problems: a) land use/land cover database quality control, b)
utilisation of a land use/land cover database in area frame sample designs.
Parole chiave: Land Cover, Land Use, Quality control, Remote Sensing, Spatial
sampling
1. Introduzione
Le relazioni tra carte tematiche (o banche dati sull’uso o la copertura del suolo) e la
statistica sono divenute via via più strette negli ultimi anni, con sempre maggiore
diffusione dei sistemi informativi geografici (GIS). Le carte tematiche sono uno
strumento importante per la costruzione e la stratificazione di basi di campionamento
areale finalizzate alla stima di parametri di variabili spaziali in campo agricolo o
forestale. In alcuni casi, carte tematiche derivanti da classificazione automatica di
immagini da satellite sono impiegate come variabili ausiliarie per migliorare la
precisione delle stime dei principali usi del suolo tramite lo stimatore per regressione
(FAO, 1998). Una stima delle superfici dei principali usi del suolo viene a volte
effettuata tramite la semplice misurazione delle aree dei poligoni classificati a tali usi.
Questo metodo fornisce stime distorte, in quanto sia gli errori di classificazione
automatica che quelli di fotointerpretazione tendono ad essere sistematici e a non
presentare compensazione tra errori di omissione e di commissione. Inoltre, l’unità
minima cartografabile condiziona fortemente la stima delle superfici: se molti poligoni
di un uso del suolo sono di superficie inferiore all’unità minima cartografabile, una
considerevole sottostima di tale superficie è altamente probabile.
D’altro canto, la statistica ha un ruolo crescente nella produzione di carte tematiche e di
banche dati geografiche. L’ISTAT, in particolare, ha avviato nel corso degli anni ‘90
diversi progetti che avevano al centro della propria riflessione il legame fra cartografia e
statistica. Ricordiamo in proposito l’Atlante statistico italiano, il progetto CENSUS finalizzato alla realizzazione delle basi territoriali del censimento della popolazione e
delle abitazioni del 1991 - e la carta di copertura del suolo realizzata nell’ambito delle
attività del Censimento dell’agricoltura del 1990. Nel corso del 1999, l’ISTAT ha
concluso un progetto pilota per la realizzazione di una banca dati sperimentale dell’uso
e copertura del suolo in scala 1:25.000, in provincia di Arezzo (Napolitano, Carbonetti,
1999), finalizzato allo studio di fattibilità di un sistema informativo sull’uso e copertura
del suolo a livello nazionale. Il sistema è volto a soddisfare esigenze molteplici; ma
principalmente, vuole essere un efficace strumento di analisi, gestione e pianificazione
del territorio.
2. Controllo di qualità e accuratezza di una banca dati sull’uso del
suolo
Organismi internazionali hanno avanzato proposte per la definizione e documentazione
dei vari aspetti della qualità ed accuratezza dei sistemi informativi geografici (Giordano,
Veregin, 1994 e Guptill, Morrison, 1995), con attenzione prevalentemente rivolta agli
aspetti informatici. La scala di una banca dati sull’uso del suolo fornisce soltanto
un’indicazione del dettaglio del materiale impiegato nell’acquisizione dei dati, ma non
può essere considerata come una valutazione della qualità della banca dati stessa. Tale
valutazione richiede l’impiego delle tecniche di controllo statistico della qualità. Si può
fare ricorso ad una verifica d’ipotesi parametrica: l’ipotesi nulla è che la qualità del
risultato di una specifica fase del processo di produzione della carta tematica o di una
base di dati rispetti i criteri specificati ed è sottoposta a verifica contro un’ipotesi
alternativa.
In verità, l’adattamento allo specifico contesto delle tecniche di controllo di qualità
sviluppate in ambito industriale presenta alcuni problemi legati all’individuazione dei
pezzi dei lotti ed al tipo di misurazione o di osservazione da effettuare per accettare o
rifiutare un lotto. I poligoni fotointerpretati sono difficilmente assimilabili ai pezzi di un
lotto, perché hanno diverse dimensioni e forme e tali aspetti influenzano la probabilità
di errata classificazione o delimitazione o georeferenziazione. In particolare, poligoni
grandi vengono generalmente identificati più facilmente rispetto a quelli piccoli ed in
alcuni casi i poligoni piccoli tendono ad essere inglobati nei grandi ricevendo lo stesso
codice di classe. Un’ulteriore complicazione del procedimento di controllo di qualità
deriva dal fatto che molte caratteristiche dei poligoni devono essere controllate: la
classe, la forma, la georeferenziazione. Inoltre, la probabilità di errata classificazione
varia considerevolmente in funzione della classe, in quanto alcune classi sono
facilmente discriminabili ed altre no e l’individuazione dei confini può essere
particolarmente difficoltosa in casi di transizione graduale da una classe all’altra. Un
ultimo aspetto rilevante è rappresentato dalla presenza di autocorrelazione spaziale
positiva nella probabilità di errata classificazione, in quanto i parametri geomorfologici
condizionano la discriminabilità delle classi e inoltre ciascun operatore fotointerpreta in
genere aree contigue di territorio ed il processo di fotointerpretazione risente di molti
aspetti di soggettività.
Una selezione tramite un grigliato regolare dei poligoni da sottoporre a controllo
garantisce una distribuzione spaziale uniforme, con conseguenti effetti sulle stime, in
presenza di autocorrelazione spaziale positiva; tuttavia essa dà luogo a sovrastima della
qualità del prodotto (poiché i poligoni vengono selezionati con probabilità
proporzionale alla loro superficie) e non consente di predeterminare il numero di
poligoni da estrarre per ciascuna classe della legenda, al fine di fornire una valutazione
della discriminabilità delle diverse classi della legenda ed eventualmente suggerire sue
modificazioni.
Per un progetto sperimentale come quello di Arezzo, la valutazione della legenda
adottata era un aspetto molto importante; si è quindi deciso di ricorrere a un
campionamento casuale stratificato. In una prima fase si è progettato di utilizzare come
variabili di stratificazione la classe, la superficie dei poligoni e il fotointerprete, in modo
da ottenere strati relativamente omogenei dal punto di vista della probabilità di errore.
Inoltre, per garantire che i poligoni selezionati fossero distribuiti sull’intera area del
progetto, fasce parallele di terreno di superficie comparabile sono state considerate
come dei lotti. Al momento dell’estrazione dei poligoni da controllare, il numero delle
classi per lotto è risultato estremamente elevato, tanto da dover rinunciare alle altre
variabili di stratificazione.
In ciascuno dei tre lotti, sono stati controllati 120 poligoni, numerosità determinata sulla
base delle risorse destinabili al controllo di qualità. Si sono scelte le percentuali di
errore corrispondenti all’ipotesi nulla (qualità accettabile 5%) ed all’ipotesi alternativa
(12,5%). Supposto che la distribuzione binomiale per la probabilità di avere poligoni
non corretti fosse una buona approssimazione della distribuzione ipergeometrica e
fissata la probabilità di commettere un errore di prima specie ( = 0,04), la probabilità
di errore di seconda specie è risultata pari a 0,10 e il numero massimo di poligoni errati
che dà luogo all’accettazione del lotto pari a 10. Poiché non soltanto la classe attribuita
al poligono, ma anche la forma e la posizione dovevano essere sottoposti a verifica, la
sola osservazione del poligono controllato non era sufficiente. Dunque, il controllore ha
fotointerpretato i poligoni selezionati ed un poligono è stato considerato errato se
sussisteva una qualsiasi delle seguenti condizioni:
 la classe attribuita dal fornitore risultava diversa da quella assegnata dal
fotointerprete controllore;
 la differenza tra le due aree del poligono era superiore all’unità minima
cartografabile;
 in seguito alla sovrapposizione delle due fotointerpretazioni del poligono, risultava
una distanza tra i due contorni superiore a 25 metri;
 all’interno del poligono selezionato risultavano presenti aree omogenee appartenenti
ad altre classi la cui superficie fosse superiore all’unità minima cartografabile.
Il numero di poligoni errati non è risultato superiore a 10 in alcun lotto, quindi nessun
lotto è stato rifiutato.
Un controllo di qualità del tipo descritto può garantire che la banca dati sia stata
realizzata in accordo con la metodologia scelta, ma non offre garanzie di un’adeguata
rappresentazione della realtà. Qualora la scala della banca dati lo consenta, una
valutazione dell’adeguatezza della rappresentazione può essere effettuata tramite il
confronto con rilevazioni al suolo basate su un campionamento areale. Se le rilevazioni
al suolo vengono condotte tenendo conto della scala, è possibile valutare l’accuratezza
della banca dati tramite la creazione di una matrice di contingenza (detta di confusione)
ed il calcolo di indici specifici. Se invece le rilevazioni al suolo vengono effettuate con
grande dettaglio, prescindendo dalla scala della banca dati, è possibile quantificare la
sottostima o la sovrastima delle superfici dei diversi usi del suolo derivanti dalla somma
delle aree dei poligoni corrispondenti. Degli stimatori che sfruttano tali matrici di
confusione possono poi essere impiegati per stimare le superfici dei diversi usi del suolo
(Card, 1982).
3. Possibili utilizzi di una banca dati sull’uso e la copertura del suolo
per la stima di superfici in ambito agricolo o forestale
Una banca dati sulla copertura o sull’uso del suolo può contribuire in vari modi alla
stima di superfici in campo agricolo o forestale. Il principale impiego riguarda la
creazione di una base di campionamento areale e della sua stratificazione. Infatti, la
stratificazione costituisce il principale metodo impiegato per garantire stime precise nel
campionamento areale e viene in genere realizzata tramite una carta dell’uso del suolo
ottenuta da fotointerpretazione di immagini da satellite o di foto aeree (FAO, 1998). Se
una banca dati sull’uso del suolo è stata prodotta principalmente con finalità
cartografiche, per rispondere ad esigenze informative sull’uso e copertura del suolo e
delle sue dinamiche, essa può ugualmente essere sfruttata per stratificare una base di
riferimento campionario areale. In verità, se si richiede che tale base presenti limiti
fisici, è necessario un lungo lavoro per adattare a limiti fisici permanenti i confini dei
poligoni della banca dati. Quando la base di riferimento campionario areale è creata
tramite un grigliato regolare, è invece soltanto necessario stabilire un criterio per
l’attribuzione di ciascuna unità areale ad uno strato; oppure si può utilizzare la base di
dati per creare un indice d’intensità agricola o forestale (Gallego et al., 2000).
Una banca dati sull’uso del suolo può infine essere utilizzata per stimare un
correlogramma per ciascun uso del suolo considerato. Oltre a fornire importanti
informazioni sulla distribuzione nello spazio, il correlogramma può essere impiegato
nell’individuazione di un disegno campionario areale ottimo, ed in particolare per
l’individuazione della dimensione ottimale delle unità areali che costituiscono la base di
campionamento e per la selezione di campioni areali (Carfagna, 1998).
Bibliografia
Card D. (1982) Using Known Map Category Marginal Frequencies to Improve
Estimates of Thematic Map Accuracy, Photogrammetric Engineering and Remote
Sensing 48 431-439.
Carfagna E. (1998) Area Frame Sample Designs: A Comparison with the MARS
Project, Proceedings of the Conference Agricultural Statistics 2000, ISI, Voorburg,
NL, 1998, pp.261-277. http://www.nass.usda.gov/as2000.
FAO (1998) Multiple frame agricultural surveys, Vol. 2, Food and Agriculture
Organization of the United Nations, Rome.
Gallego F. G., Carfagna E., Peedell S. (2000) The use of CORINE Land Cover to
improve area frame survey estimates, ROS, Research in Official Statistics (in corso
di stampa).
Giordano A., Veregin H. (1994) Il controllo di qualità nei sistemi informativi
territoriali, Il Cardo, Venezia.
Guptill S. C., Morrison J. L. (1995) Elements of Spatial Data Quality, Elsevier Science
Ltd.
Napolitano P., Carbonetti G. (1999) Le problematiche emergenti nell’ambito della
realizzazione del progetto di un database sull’uso e copertura del suolo nella
provincia di Arezzo, Convegno SIS: Verso i Censimenti del 2000, Udine 1999.
Muller W. G. (1998) Collecting Spatial Data. Optimum Design of Experiments for
Random Fields, Physica-Verlag, Heidelberg New York.