Statistica e cartografia per la creazione e l’utilizzo di basi di dati sull’uso del suolo Statistics and Cartography for the Production and Utilisation of a Land Cover/Land Use Database Elisabetta Carfagna Università di Bologna, Via Belle Arti 41-40126 Bologna, [email protected] Pierpaolo Napolitano ISTAT, Via A. Ravà 150 - 00142 Roma, [email protected] Abstract: The relationships between statistics and cartography are investigated in relation to the following problems: a) land use/land cover database quality control, b) utilisation of a land use/land cover database in area frame sample designs. Parole chiave: Land Cover, Land Use, Quality control, Remote Sensing, Spatial sampling 1. Introduzione Le relazioni tra carte tematiche (o banche dati sull’uso o la copertura del suolo) e la statistica sono divenute via via più strette negli ultimi anni, con sempre maggiore diffusione dei sistemi informativi geografici (GIS). Le carte tematiche sono uno strumento importante per la costruzione e la stratificazione di basi di campionamento areale finalizzate alla stima di parametri di variabili spaziali in campo agricolo o forestale. In alcuni casi, carte tematiche derivanti da classificazione automatica di immagini da satellite sono impiegate come variabili ausiliarie per migliorare la precisione delle stime dei principali usi del suolo tramite lo stimatore per regressione (FAO, 1998). Una stima delle superfici dei principali usi del suolo viene a volte effettuata tramite la semplice misurazione delle aree dei poligoni classificati a tali usi. Questo metodo fornisce stime distorte, in quanto sia gli errori di classificazione automatica che quelli di fotointerpretazione tendono ad essere sistematici e a non presentare compensazione tra errori di omissione e di commissione. Inoltre, l’unità minima cartografabile condiziona fortemente la stima delle superfici: se molti poligoni di un uso del suolo sono di superficie inferiore all’unità minima cartografabile, una considerevole sottostima di tale superficie è altamente probabile. D’altro canto, la statistica ha un ruolo crescente nella produzione di carte tematiche e di banche dati geografiche. L’ISTAT, in particolare, ha avviato nel corso degli anni ‘90 diversi progetti che avevano al centro della propria riflessione il legame fra cartografia e statistica. Ricordiamo in proposito l’Atlante statistico italiano, il progetto CENSUS finalizzato alla realizzazione delle basi territoriali del censimento della popolazione e delle abitazioni del 1991 - e la carta di copertura del suolo realizzata nell’ambito delle attività del Censimento dell’agricoltura del 1990. Nel corso del 1999, l’ISTAT ha concluso un progetto pilota per la realizzazione di una banca dati sperimentale dell’uso e copertura del suolo in scala 1:25.000, in provincia di Arezzo (Napolitano, Carbonetti, 1999), finalizzato allo studio di fattibilità di un sistema informativo sull’uso e copertura del suolo a livello nazionale. Il sistema è volto a soddisfare esigenze molteplici; ma principalmente, vuole essere un efficace strumento di analisi, gestione e pianificazione del territorio. 2. Controllo di qualità e accuratezza di una banca dati sull’uso del suolo Organismi internazionali hanno avanzato proposte per la definizione e documentazione dei vari aspetti della qualità ed accuratezza dei sistemi informativi geografici (Giordano, Veregin, 1994 e Guptill, Morrison, 1995), con attenzione prevalentemente rivolta agli aspetti informatici. La scala di una banca dati sull’uso del suolo fornisce soltanto un’indicazione del dettaglio del materiale impiegato nell’acquisizione dei dati, ma non può essere considerata come una valutazione della qualità della banca dati stessa. Tale valutazione richiede l’impiego delle tecniche di controllo statistico della qualità. Si può fare ricorso ad una verifica d’ipotesi parametrica: l’ipotesi nulla è che la qualità del risultato di una specifica fase del processo di produzione della carta tematica o di una base di dati rispetti i criteri specificati ed è sottoposta a verifica contro un’ipotesi alternativa. In verità, l’adattamento allo specifico contesto delle tecniche di controllo di qualità sviluppate in ambito industriale presenta alcuni problemi legati all’individuazione dei pezzi dei lotti ed al tipo di misurazione o di osservazione da effettuare per accettare o rifiutare un lotto. I poligoni fotointerpretati sono difficilmente assimilabili ai pezzi di un lotto, perché hanno diverse dimensioni e forme e tali aspetti influenzano la probabilità di errata classificazione o delimitazione o georeferenziazione. In particolare, poligoni grandi vengono generalmente identificati più facilmente rispetto a quelli piccoli ed in alcuni casi i poligoni piccoli tendono ad essere inglobati nei grandi ricevendo lo stesso codice di classe. Un’ulteriore complicazione del procedimento di controllo di qualità deriva dal fatto che molte caratteristiche dei poligoni devono essere controllate: la classe, la forma, la georeferenziazione. Inoltre, la probabilità di errata classificazione varia considerevolmente in funzione della classe, in quanto alcune classi sono facilmente discriminabili ed altre no e l’individuazione dei confini può essere particolarmente difficoltosa in casi di transizione graduale da una classe all’altra. Un ultimo aspetto rilevante è rappresentato dalla presenza di autocorrelazione spaziale positiva nella probabilità di errata classificazione, in quanto i parametri geomorfologici condizionano la discriminabilità delle classi e inoltre ciascun operatore fotointerpreta in genere aree contigue di territorio ed il processo di fotointerpretazione risente di molti aspetti di soggettività. Una selezione tramite un grigliato regolare dei poligoni da sottoporre a controllo garantisce una distribuzione spaziale uniforme, con conseguenti effetti sulle stime, in presenza di autocorrelazione spaziale positiva; tuttavia essa dà luogo a sovrastima della qualità del prodotto (poiché i poligoni vengono selezionati con probabilità proporzionale alla loro superficie) e non consente di predeterminare il numero di poligoni da estrarre per ciascuna classe della legenda, al fine di fornire una valutazione della discriminabilità delle diverse classi della legenda ed eventualmente suggerire sue modificazioni. Per un progetto sperimentale come quello di Arezzo, la valutazione della legenda adottata era un aspetto molto importante; si è quindi deciso di ricorrere a un campionamento casuale stratificato. In una prima fase si è progettato di utilizzare come variabili di stratificazione la classe, la superficie dei poligoni e il fotointerprete, in modo da ottenere strati relativamente omogenei dal punto di vista della probabilità di errore. Inoltre, per garantire che i poligoni selezionati fossero distribuiti sull’intera area del progetto, fasce parallele di terreno di superficie comparabile sono state considerate come dei lotti. Al momento dell’estrazione dei poligoni da controllare, il numero delle classi per lotto è risultato estremamente elevato, tanto da dover rinunciare alle altre variabili di stratificazione. In ciascuno dei tre lotti, sono stati controllati 120 poligoni, numerosità determinata sulla base delle risorse destinabili al controllo di qualità. Si sono scelte le percentuali di errore corrispondenti all’ipotesi nulla (qualità accettabile 5%) ed all’ipotesi alternativa (12,5%). Supposto che la distribuzione binomiale per la probabilità di avere poligoni non corretti fosse una buona approssimazione della distribuzione ipergeometrica e fissata la probabilità di commettere un errore di prima specie ( = 0,04), la probabilità di errore di seconda specie è risultata pari a 0,10 e il numero massimo di poligoni errati che dà luogo all’accettazione del lotto pari a 10. Poiché non soltanto la classe attribuita al poligono, ma anche la forma e la posizione dovevano essere sottoposti a verifica, la sola osservazione del poligono controllato non era sufficiente. Dunque, il controllore ha fotointerpretato i poligoni selezionati ed un poligono è stato considerato errato se sussisteva una qualsiasi delle seguenti condizioni: la classe attribuita dal fornitore risultava diversa da quella assegnata dal fotointerprete controllore; la differenza tra le due aree del poligono era superiore all’unità minima cartografabile; in seguito alla sovrapposizione delle due fotointerpretazioni del poligono, risultava una distanza tra i due contorni superiore a 25 metri; all’interno del poligono selezionato risultavano presenti aree omogenee appartenenti ad altre classi la cui superficie fosse superiore all’unità minima cartografabile. Il numero di poligoni errati non è risultato superiore a 10 in alcun lotto, quindi nessun lotto è stato rifiutato. Un controllo di qualità del tipo descritto può garantire che la banca dati sia stata realizzata in accordo con la metodologia scelta, ma non offre garanzie di un’adeguata rappresentazione della realtà. Qualora la scala della banca dati lo consenta, una valutazione dell’adeguatezza della rappresentazione può essere effettuata tramite il confronto con rilevazioni al suolo basate su un campionamento areale. Se le rilevazioni al suolo vengono condotte tenendo conto della scala, è possibile valutare l’accuratezza della banca dati tramite la creazione di una matrice di contingenza (detta di confusione) ed il calcolo di indici specifici. Se invece le rilevazioni al suolo vengono effettuate con grande dettaglio, prescindendo dalla scala della banca dati, è possibile quantificare la sottostima o la sovrastima delle superfici dei diversi usi del suolo derivanti dalla somma delle aree dei poligoni corrispondenti. Degli stimatori che sfruttano tali matrici di confusione possono poi essere impiegati per stimare le superfici dei diversi usi del suolo (Card, 1982). 3. Possibili utilizzi di una banca dati sull’uso e la copertura del suolo per la stima di superfici in ambito agricolo o forestale Una banca dati sulla copertura o sull’uso del suolo può contribuire in vari modi alla stima di superfici in campo agricolo o forestale. Il principale impiego riguarda la creazione di una base di campionamento areale e della sua stratificazione. Infatti, la stratificazione costituisce il principale metodo impiegato per garantire stime precise nel campionamento areale e viene in genere realizzata tramite una carta dell’uso del suolo ottenuta da fotointerpretazione di immagini da satellite o di foto aeree (FAO, 1998). Se una banca dati sull’uso del suolo è stata prodotta principalmente con finalità cartografiche, per rispondere ad esigenze informative sull’uso e copertura del suolo e delle sue dinamiche, essa può ugualmente essere sfruttata per stratificare una base di riferimento campionario areale. In verità, se si richiede che tale base presenti limiti fisici, è necessario un lungo lavoro per adattare a limiti fisici permanenti i confini dei poligoni della banca dati. Quando la base di riferimento campionario areale è creata tramite un grigliato regolare, è invece soltanto necessario stabilire un criterio per l’attribuzione di ciascuna unità areale ad uno strato; oppure si può utilizzare la base di dati per creare un indice d’intensità agricola o forestale (Gallego et al., 2000). Una banca dati sull’uso del suolo può infine essere utilizzata per stimare un correlogramma per ciascun uso del suolo considerato. Oltre a fornire importanti informazioni sulla distribuzione nello spazio, il correlogramma può essere impiegato nell’individuazione di un disegno campionario areale ottimo, ed in particolare per l’individuazione della dimensione ottimale delle unità areali che costituiscono la base di campionamento e per la selezione di campioni areali (Carfagna, 1998). Bibliografia Card D. (1982) Using Known Map Category Marginal Frequencies to Improve Estimates of Thematic Map Accuracy, Photogrammetric Engineering and Remote Sensing 48 431-439. Carfagna E. (1998) Area Frame Sample Designs: A Comparison with the MARS Project, Proceedings of the Conference Agricultural Statistics 2000, ISI, Voorburg, NL, 1998, pp.261-277. http://www.nass.usda.gov/as2000. FAO (1998) Multiple frame agricultural surveys, Vol. 2, Food and Agriculture Organization of the United Nations, Rome. Gallego F. G., Carfagna E., Peedell S. (2000) The use of CORINE Land Cover to improve area frame survey estimates, ROS, Research in Official Statistics (in corso di stampa). Giordano A., Veregin H. (1994) Il controllo di qualità nei sistemi informativi territoriali, Il Cardo, Venezia. Guptill S. C., Morrison J. L. (1995) Elements of Spatial Data Quality, Elsevier Science Ltd. Napolitano P., Carbonetti G. (1999) Le problematiche emergenti nell’ambito della realizzazione del progetto di un database sull’uso e copertura del suolo nella provincia di Arezzo, Convegno SIS: Verso i Censimenti del 2000, Udine 1999. Muller W. G. (1998) Collecting Spatial Data. Optimum Design of Experiments for Random Fields, Physica-Verlag, Heidelberg New York.