Facoltà di Architettura e Società Facoltà di Ingegneria Civile, Ambientale e Territoriale Centro per lo Sviluppo del Polo di Cremona, Politecnico di Milano Via Sesto 41 – 26100 Cremona Master universitario interfacoltà di II livello in Governo del territorio e delle risorse fisiche Ingegneria del suolo e delle acque http://www.cremona.polimi.it/msa Direzione del Master universitario: prof. Enrico Larcan (Facoltà di Ingegneria Civile, Ambientale e Territoriale, Politecnico di Milano) prof. Pier Luigi Paolillo (Facoltà di Architettura e Società, Politecnico di Milano) Commissione di Master universitario: prof. Enrico Larcan – Facoltà di Ingegneria Civile, Ambientale e Territoriale, Politecnico di Milano ing. Stefano Loffi – Direttore del Consorzio per l’Incremento dell’Irrigazione nel Territorio Cremonese prof. Claudio Maffezzoni – Presidente del Centro per lo Sviluppo del Polo di Cremona, Politecnico di Milano prof. Enrico Orsi – Facoltà di Ingegneria Civile, Ambientale e Territoriale, Politecnico di Milano prof. Pier Luigi Paolillo (presidente) – Facoltà di Architettura e Società, Politecnico di Milano Dispense dell’insegnamento di Laboratorio di GIS per la pianificazione Concorrono al Master universitario in Governo del territorio e delle risorse fisiche – Ingegneria del suolo e delle acque: Consorzio per l’incremento dell’irrigazione nel territorio cremonese http://www.consorzioirrigazioni.it Ordine degli ingegneri della provincia di Cremona http://www.ording.cr.it POLITECNICO DI MILANO Master universitario interfacoltà di II livello in Governo del territorio e delle risorse fisiche Ingegneria del suolo e delle acque http://www.cremona.polimi.it/msa Indice 140 140.1 140.2 140.3 140.4 140.5 141 141.1 141.2 142 143 143.1 143.2 1 La rilevanza dell’analisi multivariata come strumento di classificazione e di ausilio alla decisione Introduzione alla statistica descrittiva Le variabili statistiche unidirezionali Gli indici di posizione Gli indici di dispersione Gli indici di forma Strumenti e metodi per l’indagine - esplorazione dei dati Fenomenologia della statistica: causalità e correlazione Le tecniche multivariate, metodi di proiezione delle ipotesi. Analisi e statistica multivariata I passaggi canonici, da tradursi in pratica con Addati1 (software di analisi multivariata di dati territoriali), per il trattamento di variabili qualitative Il trattamento, mediante Addati, di alcune variabili qualitative della carta pedologica e successiva spazzializzazione delle risultanze con ArcView 3.x Impostazioni preliminari di Addati e formattazione del file di Input La creazione di tipologie 144 144 144 145 146 146 147 148 148 149 152 155 156 Si consiglia di leggere come integrazione l’ottimo manuale prodotto dal Prof. Griguolo, ideatore e scrittore di Addati, reperibile all’indirizzo http://cidoc.iuav.it/~silvio/addati_it.html 144 1401. La rilevanza dell’analisi multivariata come strumento di classificazione e di ausilio alla decisione La disciplina urbanistica ha quale suo scopo l’addivenire a scelte o decisioni che siano intimamente motivate. Ciò che da solidità e fondatezza all’impianto di analisi attraverso cui si giunge a formulare giudizi è, da una parte, la componente normativa e, dall’altra la scientificità dei metodi - modelli utilizzabili. La decisione, quindi, deve sempre confrontarsi con un’infinita di dati, il più delle volte, appartenenti ad una “realtà complessa”. Per ridurre di complessità l’assetto reale e ricondurlo a modelli interpretativi utilizzabili occorre rimettersi alla statistica multivariata. Con il termine multivariato si intende indicare una serie di fenomeni, di variazioni da uno stato iniziale, non tutte dello stesso ordine e genere e non consecutive, ma contemporanee. La realtà si può facilmente ascrivere a questa descrizione, si pensi, per esempio, allo stato di salute di un individuo o al suono di un violino. L’osservazione e la misurazione della realtà che può essere, dunque, diretta (la temperatura misurata attraverso un termometro) o indiretta (il livello di inquinamento di una falda, frutto di diverse pressioni, ognuna delle quali da valutare singolarmente per conoscere il fenomeno nel suo complesso). In statistica, le osservazioni, gli elementi costitutivi, si traducono in vettori chiamati variabili: convenzionalmente le variabili x sono quelle direttamente misurate o misurabili, mentre le variabili y sono le variabili da predire (frutto di ipotesi interpretative del fenomeno - in urbanistica, previsioni). Simmetricamente si intende p il numero delle variabili x e q il numero delle variabili y (sia n = numero degli elementi). … x11 … xn1 x1p y11 … yn1 … y1q 140.1. Introduzione alla statistica descrittiva Quello che ci si propone di realizzare è: i. organizzare i dati raccolti relativamente ad un certo fenomeno, in modo da descriverlo solo sulla base delle manifestazioni osservate del fenomeno stesso; ii. interpretare il fenomeno sulla base dei dati raccolti, per confronto con le variabili casuali, considerate strutture di riferimento. Al fine della descrizione del fenomeno occorre stabilire schemi di classificazione delle osservazioni. Tali schemi generano le variabili statistiche che rappresentano con quale frequenza si presenta un certo carattere del fenomeno in esame (distribuzione di frequenza). Le informazioni contenute nelle variabili statistiche possono essere sintetizzate con: i. misure di posizione (centro, media, mediana, moda); ii. misure di dispersione delle osservazioni rispetto al centro (indici di affidabilità o rappresentatività dei centri); iii. misure della forma della distribuzione (asimmetria, curtosi). 140.2. Le variabili statistiche unidirezionali Si supponga di avere a disposizione dati relativi ad un certo fenomeno, e che la loro numerosità sia N: che esistano, cioè, eseguite n osservazioni. Una prima classificazione elementare è quella che dà luogo ad una distribuzione di presenze: X 1 x1 x2 x3 xi xn valori dell’argomento, qualitativo o quantitativo n1 n2 n3 ni nn frequenze assolute (numero di volte che xi si è presentato) Capitolo tratto e rielaborato dalla monografia finale di laboratorio di progettazione ambientale II A.A. 2004 - 2005 Prof. Pier Luigi Paolillo, gruppo: Andrea Pastori, Chiara Cazzaniga, Francesca Bondioni. 145 Deve valere la condizione: n ∑n i =N i Si introducano ora le frequenze relative: fi = ni N La distribuzione di frequenza, quindi, si può scrivere come : X x1 x2 x3 xi xn valori dell’argomento, qualitativo o quantitativo f1 f2 f3 fi fn frequenze relative 140.3. Gli indici di posizione Supponiamo di dover risolvere il seguente problema: concentrare le informazioni contenute nella variabile statistica x in un unico numero C detto “centro”, in grado di esprimere la “posizione” o “tendenza centrale” del fenomeno studiato. In pratica C informa sulla posizione in cui il fenomeno si concentra. La condizione per determinare il centro C di una variabile statistica x è imporre che C stia alla minima distanza possibile dall’insieme dei valori argomentali, tenendo conto delle loro frequenze. La formulazione matematica che esprime questo concetto: “sia ricercato il valore di Cr che minimizza la funzione”: n Z = ∑ xi C r f i i Si definiscono così i “centri di ordine r”: r=2 r=1 r=0 C2 = media aritmetica C1 = mediana C0 = moda Da cui: media - ottenuta dividendo la somma per il numero di dati o conteggio: n E ( x) = ∑x i =1 i n mediana - il valore che divide a metà i dati dell’insieme; moda - il valore che si presenta con maggior frequenza nell’insieme di dati: 146 n V (x ) = ∑ ( x − E ( x) ) 2 i i =1 n −1 deviazione standard - la radice quadrata della varianza: n ∑ ( x − E ( x) ) σx = 2 i i =1 n −1 covarianza - tra due variabili, x e y è la misura della loro associazione lineare: n cov( x, y ) = ∑ [x − E (x )][y i i =1 i − E ( y )] n −1 errore standard - la misura dell’incertezza sulla media. E’ utilizzato per l’inferenza statistica (intervalli di confidenza e verifica delle ipotesi); correlazione - concetto statistico che si usa per le relazioni lineari, è una misura neutra del fenomeno; esprime il grado di correlazione tra due variabili in qualunque unità di misura esse siano espresse: ρ= cov( x, y ) σ xσ y 140.4. Gli indici di dispersione Danno informazioni sull’affidabilità o rappresentatività degli indici di posizione. Essi, infatti, sono tanto maggiori, quanto minore è la dispersione dei valori argomentali di una variabile statistica rispetto al suo centro, cioè quanto minore dal centro è la distanza delle osservazioni. Qui consideriamo la dispersione rispetto alla media, cioè la varianza - la misura della deviazione dei valori della variabile rispetto alla media: è il minimo valore della funzione (per r = 2) n Z = ∑ xi C r f i i 140.5. Gli indici di forma Per ricavare informazioni sulla forma di una variabile statistica si utilizzino gli indici di posizione e dispersione definiti precedentemente. Introduciamo ora il concetto di asimmetria e successivamente il grado di simmetria misurabile dall’indice di asimmetria. Asimmetria - una variabile statistica è simmetrica attorno alla media aritmetica della distribuzione se: 147 f (µ − δ ) = f (µ + δ ) Ne deriva che il grado di simmetria della distribuzione può essere misurato dall’indice di asimmetria (γ1 = indice adimensionale): n γ1 = ∑ i(x 1 − µ ) fi 3 1 ⎛ ⎜ ⎜ ⎝ ⎞ ∑1 i(x1 − µ ) f i ⎟⎟ ⎠ n 3 2 Di cui le principali proprietà: se γ 1 ≠ 0 se γ 1 = 0 distribuzione asimmetrica non è condizione sufficiente per provare la simmetria della variabile statistica 141. Strumenti e metodi per l’indagine - esplorazione dei dati L’utilizzo di tecniche chemiometriche permette di ottenere una razionalizzazione nel ciclo di produzione, in particolar modo nella pianificazione degli esperimenti: sono infatti in grado di ricercare informazioni effettivamente utili nei dati e di massimizzare le capacità e le performance predittive dei modelli. In presenza di dati multivariati (ovvero dati descritti da un elevato numero di variabili), l’analisi e la visualizzazione dell’informazione risultano difficoltose. L’analisi delle Componenti Principali (PCA) è la tecnica più diffusa per questa finalità: permette infatti di estrarre informazione utile dai dati multivariati e analizzare le relazioni tra campioni e variabili. E’ utile per ridurre il numero di variabili nel set di dati senza perdere informazioni, oppure per scoprire una o due combinazioni lineari di variabili che spieghino la variazione come se fossero l’intera serie di dati. L’analisi dei Cluster (Cluster Analysis) è un altro strumento chemiometrico molto importante, permette di gestire grandi quantità di serie di dati per identificare in gruppi di osservazioni le caratteristiche simili; è utile nello studio della similarità - diversità tra gli oggetti del sistema e nella ricerca di gruppi e outliers. La descrizione dei dati porta alla formulazione di ipotesi, per descrivere quantitativamente il valore di una o più variabili come funzione dei valori di altre variabili (modelli di regressione) o per provare a classificare oggetti in funzione dei valori delle variabili che li descrivono (modelli di classificazione). Per ottenere modelli (di classificazione o regressione) realmente applicabili, la selezione delle variabili gioca un ruolo decisivo. Esistono diverse tecniche di selezione delle variabili: gli Algoritmi Genetici (Genetic Algorithm) si sono dimostrati essere l’approccio più performante, in presenza di un elevato numero di variabili. L’Analisi Discriminante aiuta nel predire a quale gruppo appartengano i dati. Le finestre di dialogo conducono nel senso di una classificazione in uno o più gruppi, nel determinare quali variabili indipendenti contribuiscano maggiormente alla differenza e nel predire in quale gruppo si trovi un nuovo caso. 148 141.1. Fenomenologia della statistica: causalità e correlazione Si intenda, il termine correlazione come concetto statistico atto a misurare le relazioni lineari tra due variabili, essa è una misura neutra del fenomeno in oggetto. In particolare, le relazioni tra x e y non si possono ricondurre alla semplice funzione x - causa e y - effetto, nella statistica multivariata le relazioni non sono deterministiche, non afferiscono al campo della causalità. La statistica non interpreta le relazioni causali, ma è strumento per la descrizione dei fenomeni (per esempio, le relazioni tra altezza e peso corporei). 141.2. Le tecniche multivariate, metodi di proiezione delle ipotesi. Analisi e statistica multivariata Nella inferenza statistica e nella verifica di ipotesi è molto importante la parte relativa al rumore (o errore), mentre l’analisi multivariata è incentrata solo sulla struttura dei dati di interesse, il resto viene rimosso con metodologie opportune. Tuttavia eliminare l’informazione ridondante non deve essere un passaggio affrettato, infatti la struttura di tali dati potrebbe costituire la “prova del nove” rispetto alla bontà della metodologia adottata. I° OBIETTIVO Esplorare i dati II° OBIETTIVO III° OBIETTIVO Discriminare e classificare Regressione e predizione Statistica descrittiva Cluster Analysis Analisi in componenti principali Tecniche di classificazione Regressione ai minimi quadrati (PLS-R) Regressione in componenti principali (PCR) Regressione lineare multipla (MLR) 149 142. I passaggi canonici, da tradursi in pratica con Addati2 (software di analisi multivariata di dati territoriali), per il trattamento di variabili qualitative Il trattamento dell’informazione qualitativa, mediante analisi statistica multivariata, al fine di ottenere una distribuzione simulata di n punti su p dimensioni. A seguire verranno sinteticamente esposti i passaggi fondamentali. a) Riconversione delle variabili qualitative (o categoriali) in scala ordinale, quando gli elementi dell’insieme Xj sono ordinati senza che si possa operare alcun confronto quantitativo. La sua adozione può essere imposta dalla necessità di un livello omogeneo di misura delle variabili. Spesso le K modalità di una variabile ordinale sono contraddistinte dall’insieme dei numeri interi positivi da 1 ad K: i suoi elementi sono dotati di una struttura d’ordine, ma non hanno un significato metrico. Non sono pertanto lecite operazioni metriche come la media o la differenza; b) realizzazione della tavola logica X(n, p) ad n righe e p colonne. Il generico individuo i è rappresentato da p numeri interi positivi a cui si associa un vettore (o punto) xi = (xi1, …, xip) di uno spazio vettoriale Rp (vedi figura sottostante). c) si passa ad effettuare l’analisi delle tipologie mediante il comando3 di Addati. Come abbiamo già visto in precedenza, una tavola di variabili di tipo categoriale non può essere direttamente analizzata poiché su di essa non sono effettuabili calcoli di nessun genere. Quindi la tavola risultante conserverà il numero n di righe della tavola categoriale originaria, ma avrà un numero di colonne q pari al totale della somma di tutte le categorie assunte dalle p variabili categoriali considerate e potrà essere considerata una tavola di contingenza o di conteggio. In una tavola di conteggio è significativo effettuare i totali di riga e i totali di colonna, ossia ottenere i valori marginali. Nella tavola ottenuta, infatti, i marginali di riga assumeranno tutti il medesimo valore pari a p ove p è il numero di variabili originarie; i marginali di colonna, invece, rappresenteranno la frequenza di quella modalità j sul campione considerato. 1 1 2 .. .. q f(t) La nuova tavola derivante, (vedi figura a fianco) dunque, sarà una tavola formata da t righe - che solitamente, sono in numero sensibilmente inferiore rispetto alle n originali - rappresentanti le t tipologie e da q colonne pari al numero totale delle modalità assunte dalle variabili complessivamente oltre alla colonna relativa al peso di ogni tipologia, ossia relativa alla frequenza rilevata nella tavola dei dati di quel record vettore binario. t 2 Si consiglia di leggere come integrazione l’ottimo manuale prodotto dal Prof. Griguolo, ideatore e scrittore di Addati, reperibile all’indirizzo http://cidoc.iuav.it/~silvio/addati_it.html 3 Dalla schermata iniziale di Addati si seleziona il menu “Analisi” e successivamente si seleziona “Crea Tipologie”; Addati quindi caricherà l’applicativo TYPOLOG, proponendoci un’interfaccia di dialogo in modalità DOS. 150 d) La tavola di contingenza, sarà utilizzata per l’analisi delle corrispondenze mediante il comando4 di Addati che è un’analisi fattoriale che tende come risultato alla sostituzione delle variabili originali con nuove variabili derivate come combinazione delle prime, in numero inferiore per la perdita di una minima quota dell’inerzia originale, ossia mantenendo il più possibile integro il valore originario della tavola dei dati. Lo scopo del metodo è di analizzare la somiglianza tra le righe (rispetto alle colonne) e quella tra le colonne (rispetto alle righe) ed anche le relazioni che intercorrono tra righe e colonne. Calcolando i rispettivi valori marginali per righe e per colonne, si possono ottenere, dalla tavola categoriale di cui trattasi, due nuove tavole riguardanti le distribuzioni di probabilità condizionali (X e Y). Se si divide, rispettivamente, ogni riga i per il suo totale marginale fi, ovvero ogni colonna j per il suo totale marginale fj. La riga i della tavola X avrà dunque, come elementi: fi1/fi., .... fip/fi. e rappresenterà la distribuzione percentuale o profilo delle j modalità nella tipologia i, o, ancora, il vettore della tipologia i nello spazio Rp e il suo totale marginale darà la stessa informazione riferita all’intero sistema rappresentando la distribuzione globale della tipologia rispetto alla tipologia i-esima e, pertanto, il suo peso. Il medesimo ragionamento si potrà fare sulla colonna j-esima della tavola Y, nella quale però il vettore rappresenterà la probabilità di distribuzione di ogni tipologia rispetto ad ogni singola modalità e il suo totale marginale darà la stessa informazione riferita all’intero sistema rappresentando la distribuzione globale della tipologia rispetto alla modalità j-esima e, pertanto, il suo peso. Le tavole X e Y sono dunque diverse tra loro, ma i rispettivi significati sono simmetrici. La distanza tra due punti-profilo in Rp viene calcolata secondo una modificazione dell’usuale formula pitagorica nota come distanza del chi-quadro rappresentata dalla formula sotto riportata. χ2 = ∑ij (foij - feij)2 / feij e) Al fine di ridurre ulteriormente di complessità le informazioni a disposizione un’ulteriore passo da affrontare è quello dell’analisi cluster (o di classificazione). Lo scopo di una classificazione numerica è quello di raggruppare unità (o meglio le coordinate fattoriali ricavate dall’analisi delle corrispondenze) a comportamento simile in un numero limitato di gruppi chiamati anche classi o cluster. La similarità tra due unità può venire osservata direttamente o calcolata a partire da un insieme di variabili osservate che offrano una opportuna descrizione degli oggetti analizzati. La similarità, inoltre, dipende dalle variabili prese in considerazione e, quindi, dalla particolare descrizione adottata per gli oggetti dall’analisi intrapresa. Ci sono molti modi per definire il livello di similarità di due oggetti. In coerenza con quanto argomentato sino ad ora, si assumerà, per la classificazione, la stessa nozione di distanza utilizzata nelle analisi fattoriali e, in particolare la distanza del chi-quadro, in quanto si stanno trattando variabili qualitative. La distanza, quindi, rappresenta un indicatore complesso che deve essere calcolato attraverso i contributi di tutte le variabili poste in gioco e, convenzionalmente, può essere assunta come indicatore di dissimilarità. E’ quindi coerente considerare due unità più simili tra loro rispetto ad altre due, quando i loro punti rappresentativi giacciono più vicini (nello spazio di rappresentazione) di quelli che rappresentano le altre due unità. Si dimostra assai utile per lo scopo affrontare la classificazione utilizzando il metodo della classificazione non gerarchica o meglio il metodo delle nubi dinamiche di E. Diday. 4 Dalla schermata iniziale di Addati si seleziona il menu “Analisi” e successivamente si seleziona “Analisi delle Corrispondenze”; Addati quindi caricherà l’applicativo ACCOR, proponendoci un’interfaccia di dialogo in modalità DOS. 151 Tale metodologia si ritrova all’interno5 software Addati. Vediamo nel seguito la modalità di partizione proposta da Addati. Il metodo proposto e implementato procede in due fasi successive: la prima, denominata fase esplorativa, la seconda, denominata fase di ottimizzazione, che produce la partizione ottima finale. In particolare, nella fase esplorativa: vengono calcolate numerose partizioni di base (indicativamente da 4 a 10), ciascuna con un numero di classi definito dall’utente (per ogni partizione viene consigliato di chiedere un numero di classi pari a quello che si vorrebbe ottenere nella partizione finale); i centri iniziali sono scelti attraverso alcune alternative ma, per lo più, in modo casuale; le partizioni che presentano il valore più elevato della funzione-obiettivo vengono incrociate tra loro; la partizione/prodotto ottenuta avrà un numero di classi a priori indeterminato: per costruzione, gli elementi di una classe sono stati classificati congiuntamente (o, meglio, sono stati assegnati ad uno stesso gruppo) in tutte le partizioni di base incrociate e sussiste dunque una ragionevole convinzione sulla fondatezza della loro somiglianza. Proprio per tale motivo le classi della partizione/prodotto sono note come classi stabili o forme forti. Anche se spesso sono in numero eccessivo per gli scopi della ricerca, esse offrono una descrizione dettagliata e spesso esaustiva dei principali comportamenti ravvisabili nel contesto di analisi dato. viene ottimizzata la partizione/prodotto ottenuta e viene salvata su file una sua descrizione essenziale; viene operata una classificazione gerarchica sulle q classi ottenute attraverso iterazioni successive: aggregando le due classi tra loro più simili e calcolando la funzione-obiettivo ottenuta con un numero di classi j = q-1 e così continuando sino a che tutte le classi non saranno aggregate in un’unica classe; i differenti valori della funzione-obiettivo calcolati ad ogni aggregazione vengono proiettati su di un grafico che mostra l’andamento della funzione, sia in fase ascendente, sia in fase discendente (con la variazione del numero di classi ottenute). Nella fase di ottimizzazione, interviene l’utente che: osserva il grafico proiettato e identifica il numero di classi più promettenti, ossia quelle cui corrisponde un’alta perdita di inerzia quando il numero dei gruppi venga ulteriormente ridotto di una unità; chiede al programma di descrivere la partizione con il numero di classi identificato, o di descrivere diverse partizioni se il grafico identifica più punti di interesse; sceglie definitivamente la partizione di interesse attraverso la lettura e la valutazione delle descrizioni delle partizioni richieste al programma. 5 Dalla schermata iniziale di Addati si seleziona il menu “Analisi” e successivamente si seleziona “Classificazione non Gerarchica”; Addati quindi caricherà l’applicativo CLSSSIFICAZIONE GERARCHICA, proponendoci un’interfaccia di dialogo in modalità DOS. 152 1436. Il trattamento, mediante Addati, di alcune variabili qualitative della carta pedologica7 e successiva spazzializzazione delle risultanze con ArcView 3.x Come prima operazione, fondamentale per la corretta formazione della tabella dati ricodificati di variabili qualitative che successivamente verrà sottoposta ad analisi statistica multivariata con Addati, risulta essere l’allineamento rispetto alle necessita di Sw e informazioni. Impostazioni preliminari per ArcView Estensioni (Extensions) Script8 Files (*.shp) i. Spatial Analyst ii. Memo Tool i. Converts a grid to a point ii. Point to polygons i. Pedof2_CR.shp ii. comuni_cr.shp Avendo verificato la presenza di tutto quanto richiesto si effettui la prima operazione in ambiente ArcView e quindi la predisposizione uno stralcio dell’intera carta pedologica solo per il comune di Cremona, ottenendo una tabella attributi di dimensione 203 x 18. Successivamente alla produzione di uno shape derivato dall’operazione di clip (tra Pedof2_CR.shp e la selezione del comune di Cremona da comuni_cr.shp) effettuiamo il passaggio dalla dimensione continua a quella discreta mediante il comando Theme Æ Convert to Grid avendo cura di (si veda immagine a fianco riportata) di impostare correttamente i parametri di conversione (che nel prosieguo della dispensa chiameremo Grid). Successivamente a tale finestra verrà richiesto quale colonna prendere come valore per le celle Al fine di produrre una discretizzazione di tutto il territorio del comune di Cremona è fondamentale aver inserito precedentemente nella tabella attributi 203 x 18 una colonna “Id_Pl” ovvero un indice per ogni record presente da 1, .., 203. Successivamente alla domanda di unire le informazioni presenti nella tabella sorgente si risponda di si (yes) Quindi a passaggi ultimati la tabella attributi associata alla griglia prodotta sarà di dimensioni 148 x 18. Ora si deve effettuare il passaggio dalla dimensione discreta a quella puntuale, ovvero mediante uno script “Converts a grid to a point” verrà realizzato un punto collocato nel centroide di ogni cella, 6 Tale metodologia in ambiente ArcView 3.x è stata sviluppata in parte nel laboratorio di progettazione ambientale II A.A. 2004 - 2005 Prof. Pier Luigi Paolillo, in particolare con il gruppo:Piergiorgio Roveda e Alessandra Duina 7 Argomento ampiamente trattato nella dispensa n°6, cap. 80 pag. 85 e nell’allegato B entrambi presenti nel sito del Master 8 Recuperabili all’indirizzo www.esri.com 153 quindi facendo la somma della colonna Count sapremo che verranno prodotti 7.031 punti rappresentativi di 7.031 celle di lato 100 m. Con l’accortezza di impostare la Path desiderata, al fine di salvare nella posizione desiderata il risultato dell’esecuzione dello script, che come logicamente ci si attende sarà uno shape puntuale. L’informazione fondamentale che tale conversione produce è contenuta nella tabella attributi, la quale avrà una dimensione 7.031 x 3, dove la prima colonna sarà “Shape” la seconda “Pointid” (un identificativo progressivo 1, .., 7031) e la terza colonna fondamentale “Grid_code” la quale è la colonna chiave rispetto alla colonna “Value” contenuta nella tabella attributi della griglia (con dimensione della tabella attributi 148 x 18). L’obbiettivo imprescindibile per poter effettuare l’analisi multivariata è quello di ottenere l’indipendenza di cella ovvero 7.031 celle di lato 100 m (quindi 7.031 records) caratterizzate da più variabili (le colonne delle tabelle attributi), al fine di evitare quello che il comando di Saptial Analyst - Convert to Grid, produce ovvero l’aggregazione di records e quindi di celle. Ora mediante lo script “Point to polygons” rendendo attivo il tema puntuale, precedentemente creato, realizzeremo una cella di lato 100 m per ognuno dei 7.031 punti (che nel prosieguo della dispensa lo shape prodotto lo chiameremo Grid_pl). La tabella attributi sarà di dimensioni 7.031 x 3; avendo cura di inserire successivamente una colonna sostitutiva, avente come etichetta “Cell_Id” ovvero un numero progressivo 1, …,7.031 (mediante il comando rec+1) che sarà l’identificativo univoco per ogni cella fondamentale per tutte le possibili analisi producibili. Non dobbiamo dimenticare che all’interno della tabella attributi c’è la colonna “Grid_code” che utilizzeremo successivamente come colonna chiave per effettuare il Join con la tabella attributi della Grid (dimensioni della tabella 148 x 18) quindi si effettuerà un join da uno a molti. Risulta fondamentale poter effettuare il Join tra le tabelle attributi dei layers Grid e Grid_pl (Grid_pl ottenuto con lo script “Point to polygons”), immediatamente tale operazione non è possibile. Ora si deve utilizzare l’estensione “Memo Tool” la quale ci permetterà di esportare in formato *.dbf la tabella attributi della Grid. Quindi, si deve editare la tabella attributi della Grid e nella barra dei comandi alla voce MemoTab selezionare il comando Export sorted Table. Dopo aver salvato la tabella ed averla successivamente editata, risulta ora possibile effettuare il Join, ottenendo conseguentemente l’attribuzione dell’informazione qualitativa di alcune variabili della carta pedologica ad ognuna delle 7.031 celle di lato 10m. La tabella opportunamente formattata sarà di dimensioni 7.031 x 9, uguale all’immagine presente nella successiva pagina. 154 Le variabili che analizzeremo, quindi le colonne della tabella, sono: Variabile LCC_sotto Liquami Fanghi Acq_sup Acq_sot Descrizione variabile Codice della classe e sottoclasse di capacità d’uso in base al modello interpretativo Land Capability Classification Codice della classe di attitudine allo spandimento agronomico dei liquami in base al modello interpretativo Codice della classe di attitudine allo spandimento di fanghi di origine urbana in base al modello interpretativo Codice della classe di capacità protettiva nei confronti delle acque superficiali in base al modello interpretativo Codice della classe di capacità protettiva nei confronti delle acque sotterranee in base al modello interpretativo Ora rispettando quanto precedentemente descritto si deve effettuare la ricodifica delle singole informazioni qualitative, che popolano le colonne, in informazione quantitative mediante l’assegnazione di un numero intero positivo a partire da 1. Il criterio di recodifica sarà quindi: LCC_sotto 1 1/3s 2s 2s/3s 2w 2w/1 2ws/1 3s 3w 4w N.c. Rec. 1 1 2 2 2 2 2 3 3 3 4 Liquami S1 S2 S2d S3 S3/S2 S3dt S3t N.c. Rec. 1 2 2 3 3 3 3 4 Fanghi S1 S2 S3 N N.c. Rec. 1 2 3 3 4 Acq_sot E M M/B B N.c. Rec. 1 2 2 3 4 Acq_sup E E/M M B N.c. Rec. 1 1 2 3 4 155 Personalmente per la ricodifica preferisco esportare la tabella attributi in Excel e tramite la funzione trova e sostituisci effettuare l’assegnazione delle informazioni quantitative. Producendo una tabella di 5 variabili tutte con 4 modalità Comunque tale operazione è possibile realizzarla anche in ambiente ArcView mediante le funzioni descritte nelle scorse dispense. È opportuno anticipare che per la produzione della tabella dati di input per Addati si richiede un file in formato *.Txt. 143.1. Impostazioni preliminari di Addati e formattazione del file di Input Successivamente all’avventa installazione avviare Addati e nella barra dei comandi selezionare la voce file e successivamente il comando Directory attiva, in cui addati cercherà il file di Input e dove salverà i file Output di analisi. FILE DI INPUT FILE DI OUTPUT Successivamente è opportuno convertire il file “pedo.txt” prodotto dal fine di Excel, opportunamente depurato delle intestazioni delle colonne e della colonna “Grid_code”, in “pedo.dat” file formattato per consentire un’elaborazione ottimale in ambiente Addati 156 143.2. La creazione di tipologie Si effettua tale analisi perché una tavola di variabili di tipo categoriale non può essere direttamente analizzata poiché su di essa non sono effettuabili calcoli di nessun genere. Il primo passaggio per il trattamento di una simile tavola è quello di ricodificarla in forma disgiuntiva completa, ossa in forma binaria. Dal menu analisi attivare il comando Crea Tipologia Finestra DOS dell’estensione TYPOLOG Addati fino al termine di ogni analisi che effettueremo, in questo caso specifico per la creazione delle tipologie ci accompagnerà con delle finestre (vedi immagine in alto a destra) nelle quali dobbiamo rispondere alle opzioni che ci vengono fornite. Quindi dando avvio alla creazione delle tipologie dal menu di analisi di Addati; alla domanda: I parametri per l’analisi vanno letti Si prema invio per procedere. si digiti: uno (1) 157 Alla domanda: Titolo dell’analisi Si prema invio per procedere. si digiti: creazione di tipologie da variabili pedologiche Alla domanda: Nome del file dei dati si digiti il nome con cui si è salvato il file convertito precedentemente. Se si è impostata la Directory di lavoro, si deve inserire il nome del file completo di estensione, non è necessario fornire la path completa. Nel caso in esempio si digiti “pedo.dat” Alla domanda: Numero totale dei CASI Si prema invio per procedere. si digiti: tutti 158 Alla domanda: Numero totale delle analisi Si prema invio per procedere. si digiti: cinque (5) Alla domanda: Nel file d’ingresso le variabili sono codificate Si prema invio per procedere. Alla domanda: Lo scopo è di Si prema invio per procedere. si digiti: uno (1) si digiti: due (2) 159 Alla domanda: Numero delle MODALITA’ di tutte le variabili Si prema invio per procedere. si digiti: 4 4 4 4 4 Alla domanda: Confermi? si prema: s Si prema invio per procedere. Alla domanda: Fornisci una etichetta per le modalità delle variabili Fan1/4 Aso1/4 Asu1/4 Si prema invio per procedere. si digiti: Lcc1/4 Liq1/4 160 Alla domanda: Confermi? si prema: s Si prema invio per procedere. Alla domanda: Quante variabili SUPPLEMENTARI Si prema invio per procedere. Alla domanda: Ad ogni caso va assegnato Si prema invio per procedere. si digiti: zero (0) si digiti: uno (1) 161 Alla domanda: Fornisci un FORMATO per leggere il file in entrata Si prema invio per procedere. si prema: asterisco (*) Alla domanda: Premi a questo punto le impostazioni sono terminate, ma se ci siamo accorti di aver inserito delle informazioni non corrette prossimo ripercorrere l’analisi premendo uno (1) oppure passare all’esecuzione premendo il tasto due (2). La creazione delle tipologie è stata terminata in modo regolare, si osservi infatti che i casi letti corrispondono a quelli accertati. Ha prodotto 18 tipologie, una notevole riduzione di complessità. 162 Come si può leggere chiaramente, i 7.031 casi letti corrispondono alle 7.031 celle di lato 100 m attraverso le quali è stato suddiviso il comune di Cremona in analisi. Ogni cella è stata descritta attraverso 5 variabili categoriali nominali, assommanti a 20 modalità complessive. Le diverse combinazioni delle modalità assunte dalle celle analizzate, dunque, assommano a 18, e, pertanto, la nuova tavola (si osservi l’immagine sotto riportata) di descrizione delle cinque variabili assunte nell’area in studio, è così trasformata dal programma in una nuova tavola di 18 righe (pari al numero delle tipologie identificate) e di 21 colonne: le prime 20 rappresentano le modalità originali, pesate attraverso la relativa frequenza, la 21-esima colonna rappresenta la frequenza rilevata di ogni tipologia, all’interno della tavola dei dati analizzata. Ora è possibile fare alcune considerazioni sia sui files di output prodotti da Addati che della matrice formata da t righe - che solitamente, sono in numero sensibilmente inferiore rispetto alle n originali rappresentanti le t tipologie e da q colonne pari al numero totale delle modalità assunte dalle variabili complessivamente oltre alla colonna relativa al peso di ogni tipologia, ossia relativa alla frequenza rilevata nella tavola dei dati di quel record vettore binario. Quindi tutte le unità che presentano gli stessi valori letti sulle rispettive modalità sono considerate equivalenti e vengono assegnate ad una medesima tipologia. Si sottolinea l’estrema versatilità di Addati, poiché tutti i files prodotti ed utilizzati sono editabili con un semplicissimo editor di testo oppure sempre in ambiente Addati dal menu dei comandi File Æ Edita/Mostra file di testo. Nome file di Output Descrizione TYP.OUT Una descrizione degli eventuali errori cocessi la ritroviamo all’interno di tale file. Inoltre contiene tutta la descrizione dettagliata delle risposte data alle singole domande, La tavola che sarà utilizzata nell’analisi delle corrispondenze. Successivamente la editeremo e la commenteremo poiché si possono produrre delle validissime interpretazioni. All’interno di tale file sono registrate tutte le tipologie, nel nostro caso da 1, ..,18, in ordine assegnate ai records della tavola in entrata. ACORINP.LV TYPCLAS Commento della tavola presente nel file ACORINP.LV Nella prima riga troviamo una sequenza di numeri 18 7031 20 0 5 3, i quali nel ordine in cui sono stati trascritti si riferiscono: i. al numero totale delle tipologie individuate (18); ii. al numero totale dei casi letti (7.031) nel nostro caso si riferiscono a celle di lato 100 m; iii. modalità complessive utilizzate (20) per descrivere tutte e cinque le variabili, infatti sono state utilizzate quattro modalità per ogni variabile quindi (5*4 = 20); iv. numero di unità 163 supplementari che non ve ne sono quindi zero (0); v. numero di variabili utilizzate cinque (5); vi. Il numero di variabili attive. Nella riga successiva sono riportati le lables assegnate alle modalità si osservi la tabella riepilogativa sotto riportata. Variabile Lable Addati LCC_sotto Lcc Liquami Liq Fanghi Fan Acq_sup Asu Acq_sot Aso Descrizione variabile Codice della classe e sottoclasse di capacità d’uso in base al modello interpretativo Land Capability Classification Codice della classe di attitudine allo spandimento agronomico dei liquami in base al modello interpretativo Codice della classe di attitudine allo spandimento di fanghi di origine urbana in base al modello interpretativo Codice della classe di capacità protettiva nei confronti delle acque superficiali in base al modello interpretativo Codice della classe di capacità protettiva nei confronti delle acque sotterranee in base al modello interpretativo Risulta fondamentale per poter appieno interpretare i risultati ottenuti spazzializzare le 18 tipologie determinate (si veda immagine sopra riportata). Come anticipato (pagina precedente) nella tabella riassuntiva dei files di output prodotti da Addati, si rileva di fondamentale importanza per la spazzializzazione delle tipologie il file TYPCLAS, il quale se proviamo ad editarlo sarà un vettore colonna di numeri da 1, …,18 di 7.031 caratteri. Quindi non ci resta che importate questa colonna nella tabella attributi del layer “Grid_pl”.