Facoltà di Architettura e Società
Facoltà di Ingegneria Civile, Ambientale e Territoriale
Centro per lo Sviluppo del Polo di Cremona, Politecnico di Milano
Via Sesto 41 – 26100 Cremona
Master universitario interfacoltà di II livello in
Governo del territorio e delle risorse fisiche
Ingegneria del suolo e delle acque
http://www.cremona.polimi.it/msa
Direzione del Master universitario:
prof. Enrico Larcan (Facoltà di Ingegneria Civile, Ambientale e Territoriale, Politecnico di Milano)
prof. Pier Luigi Paolillo (Facoltà di Architettura e Società, Politecnico di Milano)
Commissione di Master universitario:
prof. Enrico Larcan – Facoltà di Ingegneria Civile, Ambientale e Territoriale, Politecnico di Milano
ing. Stefano Loffi – Direttore del Consorzio per l’Incremento dell’Irrigazione nel Territorio Cremonese
prof. Claudio Maffezzoni – Presidente del Centro per lo Sviluppo del Polo di Cremona, Politecnico di Milano
prof. Enrico Orsi – Facoltà di Ingegneria Civile, Ambientale e Territoriale, Politecnico di Milano
prof. Pier Luigi Paolillo (presidente) – Facoltà di Architettura e Società, Politecnico di Milano
Dispense dell’insegnamento di
Laboratorio di GIS per la pianificazione
Concorrono al Master universitario in Governo del territorio e delle risorse fisiche – Ingegneria del suolo e delle acque:
Consorzio per l’incremento dell’irrigazione nel territorio cremonese
http://www.consorzioirrigazioni.it
Ordine degli ingegneri della provincia di Cremona
http://www.ording.cr.it
POLITECNICO DI MILANO
Master universitario interfacoltà di II livello in
Governo del territorio e delle risorse fisiche
Ingegneria del suolo e delle acque
http://www.cremona.polimi.it/msa
Indice
140
140.1
140.2
140.3
140.4
140.5
141
141.1
141.2
142
143
143.1
143.2
1
La rilevanza dell’analisi multivariata come strumento di classificazione e di
ausilio alla decisione
Introduzione alla statistica descrittiva
Le variabili statistiche unidirezionali
Gli indici di posizione
Gli indici di dispersione
Gli indici di forma
Strumenti e metodi per l’indagine - esplorazione dei dati
Fenomenologia della statistica: causalità e correlazione
Le tecniche multivariate, metodi di proiezione delle ipotesi. Analisi e statistica
multivariata
I passaggi canonici, da tradursi in pratica con Addati1 (software di analisi
multivariata di dati territoriali), per il trattamento di variabili qualitative
Il trattamento, mediante Addati, di alcune variabili qualitative della carta
pedologica e successiva spazzializzazione delle risultanze con ArcView 3.x
Impostazioni preliminari di Addati e formattazione del file di Input
La creazione di tipologie
144
144
144
145
146
146
147
148
148
149
152
155
156
Si consiglia di leggere come integrazione l’ottimo manuale prodotto dal Prof. Griguolo, ideatore e scrittore di Addati,
reperibile all’indirizzo http://cidoc.iuav.it/~silvio/addati_it.html
144
1401. La rilevanza dell’analisi multivariata come strumento di classificazione e di ausilio alla decisione
La disciplina urbanistica ha quale suo scopo l’addivenire a scelte o decisioni che siano intimamente motivate.
Ciò che da solidità e fondatezza all’impianto di analisi attraverso cui si giunge a formulare giudizi è, da una
parte, la componente normativa e, dall’altra la scientificità dei metodi - modelli utilizzabili. La decisione,
quindi, deve sempre confrontarsi con un’infinita di dati, il più delle volte, appartenenti ad una “realtà
complessa”.
Per ridurre di complessità l’assetto reale e ricondurlo a modelli interpretativi utilizzabili occorre rimettersi
alla statistica multivariata.
Con il termine multivariato si intende indicare una serie di fenomeni, di variazioni da uno stato iniziale, non
tutte dello stesso ordine e genere e non consecutive, ma contemporanee. La realtà si può facilmente ascrivere
a questa descrizione, si pensi, per esempio, allo stato di salute di un individuo o al suono di un violino.
L’osservazione e la misurazione della realtà che può essere, dunque, diretta (la temperatura misurata
attraverso un termometro) o indiretta (il livello di inquinamento di una falda, frutto di diverse pressioni,
ognuna delle quali da valutare singolarmente per conoscere il fenomeno nel suo complesso).
In statistica, le osservazioni, gli elementi costitutivi, si traducono in vettori chiamati variabili:
convenzionalmente le variabili x sono quelle direttamente misurate o misurabili, mentre le variabili y sono le
variabili da predire (frutto di ipotesi interpretative del fenomeno - in urbanistica, previsioni).
Simmetricamente si intende p il numero delle variabili x e q il numero delle variabili y (sia n = numero degli
elementi).
…
x11
…
xn1
x1p
y11
…
yn1
…
y1q
140.1. Introduzione alla statistica descrittiva
Quello che ci si propone di realizzare è: i. organizzare i dati raccolti relativamente ad un certo fenomeno, in
modo da descriverlo solo sulla base delle manifestazioni osservate del fenomeno stesso; ii. interpretare il
fenomeno sulla base dei dati raccolti, per confronto con le variabili casuali, considerate strutture di
riferimento. Al fine della descrizione del fenomeno occorre stabilire schemi di classificazione delle
osservazioni. Tali schemi generano le variabili statistiche che rappresentano con quale frequenza si presenta
un certo carattere del fenomeno in esame (distribuzione di frequenza).
Le informazioni contenute nelle variabili statistiche possono essere sintetizzate con: i. misure di posizione
(centro, media, mediana, moda); ii. misure di dispersione delle osservazioni rispetto al centro (indici di
affidabilità o rappresentatività dei centri); iii. misure della forma della distribuzione (asimmetria, curtosi).
140.2. Le variabili statistiche unidirezionali
Si supponga di avere a disposizione dati relativi ad un certo fenomeno, e che la loro numerosità sia N: che
esistano, cioè, eseguite n osservazioni. Una prima classificazione elementare è quella che dà luogo ad una
distribuzione di presenze:
X
1
x1
x2
x3
xi
xn
valori dell’argomento, qualitativo o quantitativo
n1
n2
n3
ni
nn
frequenze assolute (numero di volte che xi si è presentato)
Capitolo tratto e rielaborato dalla monografia finale di laboratorio di progettazione ambientale II A.A. 2004 - 2005
Prof. Pier Luigi Paolillo, gruppo: Andrea Pastori, Chiara Cazzaniga, Francesca Bondioni.
145
Deve valere la condizione:
n
∑n
i
=N
i
Si introducano ora le frequenze relative:
fi =
ni
N
La distribuzione di frequenza, quindi, si può scrivere come :
X
x1
x2
x3
xi
xn
valori dell’argomento, qualitativo o quantitativo
f1
f2
f3
fi
fn
frequenze relative
140.3. Gli indici di posizione
Supponiamo di dover risolvere il seguente problema: concentrare le informazioni contenute nella variabile
statistica x in un unico numero C detto “centro”, in grado di esprimere la “posizione” o “tendenza centrale”
del fenomeno studiato. In pratica C informa sulla posizione in cui il fenomeno si concentra. La condizione
per determinare il centro C di una variabile statistica x è imporre che C stia alla minima distanza possibile
dall’insieme dei valori argomentali, tenendo conto delle loro frequenze. La formulazione matematica che
esprime questo concetto: “sia ricercato il valore di Cr che minimizza la funzione”:
n
Z = ∑ xi C r f i
i
Si definiscono così i “centri di ordine r”:
r=2
r=1
r=0
C2 = media aritmetica
C1 = mediana
C0 = moda
Da cui:
media - ottenuta dividendo la somma per il numero di dati o conteggio:
n
E ( x) =
∑x
i =1
i
n
mediana - il valore che divide a metà i dati dell’insieme;
moda - il valore che si presenta con maggior frequenza nell’insieme di dati:
146
n
V (x ) =
∑ ( x − E ( x) )
2
i
i =1
n −1
deviazione standard - la radice quadrata della varianza:
n
∑ ( x − E ( x) )
σx =
2
i
i =1
n −1
covarianza - tra due variabili, x e y è la misura della loro associazione lineare:
n
cov( x, y ) =
∑ [x − E (x )][y
i
i =1
i
− E ( y )]
n −1
errore standard - la misura dell’incertezza sulla media. E’ utilizzato per l’inferenza statistica (intervalli di
confidenza e verifica delle ipotesi);
correlazione - concetto statistico che si usa per le relazioni lineari, è una misura neutra del fenomeno;
esprime il grado di correlazione tra due variabili in qualunque unità di misura esse siano espresse:
ρ=
cov( x, y )
σ xσ y
140.4. Gli indici di dispersione
Danno informazioni sull’affidabilità o rappresentatività degli indici di posizione. Essi, infatti, sono tanto
maggiori, quanto minore è la dispersione dei valori argomentali di una variabile statistica rispetto al suo
centro, cioè quanto minore dal centro è la distanza delle osservazioni. Qui consideriamo la dispersione
rispetto alla media, cioè la varianza - la misura della deviazione dei valori della variabile rispetto alla media:
è il minimo valore della funzione (per r = 2)
n
Z = ∑ xi C r f i
i
140.5. Gli indici di forma
Per ricavare informazioni sulla forma di una variabile statistica si utilizzino gli indici di posizione e
dispersione definiti precedentemente. Introduciamo ora il concetto di asimmetria e successivamente il grado
di simmetria misurabile dall’indice di asimmetria.
Asimmetria - una variabile statistica è simmetrica attorno alla media aritmetica della distribuzione se:
147
f (µ − δ ) = f (µ + δ )
Ne deriva che il grado di simmetria della distribuzione può essere misurato dall’indice di asimmetria (γ1 =
indice adimensionale):
n
γ1 =
∑ i(x
1
− µ ) fi
3
1
⎛
⎜
⎜
⎝
⎞
∑1 i(x1 − µ ) f i ⎟⎟
⎠
n
3
2
Di cui le principali proprietà:
se γ 1 ≠ 0
se γ 1 = 0
distribuzione asimmetrica
non è condizione
sufficiente per provare la
simmetria della variabile
statistica
141. Strumenti e metodi per l’indagine - esplorazione dei dati
L’utilizzo di tecniche chemiometriche permette di ottenere una razionalizzazione nel ciclo di produzione, in
particolar modo nella pianificazione degli esperimenti: sono infatti in grado di ricercare informazioni
effettivamente utili nei dati e di massimizzare le capacità e le performance predittive dei modelli. In presenza
di dati multivariati (ovvero dati descritti da un elevato numero di variabili), l’analisi e la visualizzazione
dell’informazione risultano difficoltose.
L’analisi delle Componenti Principali (PCA) è la tecnica più diffusa per questa finalità: permette infatti di
estrarre informazione utile dai dati multivariati e analizzare le relazioni tra campioni e variabili. E’ utile per
ridurre il numero di variabili nel set di dati senza perdere informazioni, oppure per scoprire una o due
combinazioni lineari di variabili che spieghino la variazione come se fossero l’intera serie di dati.
L’analisi dei Cluster (Cluster Analysis) è un altro strumento chemiometrico molto importante, permette di
gestire grandi quantità di serie di dati per identificare in gruppi di osservazioni le caratteristiche simili; è utile
nello studio della similarità - diversità tra gli oggetti del sistema e nella ricerca di gruppi e outliers.
La descrizione dei dati porta alla formulazione di ipotesi, per descrivere quantitativamente il valore di una o
più variabili come funzione dei valori di altre variabili (modelli di regressione) o per provare a classificare
oggetti in funzione dei valori delle variabili che li descrivono (modelli di classificazione). Per ottenere
modelli (di classificazione o regressione) realmente applicabili, la selezione delle variabili gioca un ruolo
decisivo.
Esistono diverse tecniche di selezione delle variabili: gli Algoritmi Genetici (Genetic Algorithm) si sono
dimostrati essere l’approccio più performante, in presenza di un elevato numero di variabili. L’Analisi
Discriminante aiuta nel predire a quale gruppo appartengano i dati. Le finestre di dialogo conducono nel
senso di una classificazione in uno o più gruppi, nel determinare quali variabili indipendenti contribuiscano
maggiormente alla differenza e nel predire in quale gruppo si trovi un nuovo caso.
148
141.1. Fenomenologia della statistica: causalità e correlazione
Si intenda, il termine correlazione come concetto statistico atto a misurare le relazioni lineari tra due variabili,
essa è una misura neutra del fenomeno in oggetto. In particolare, le relazioni tra x e y non si possono
ricondurre alla semplice funzione x - causa e y - effetto, nella statistica multivariata le relazioni non sono
deterministiche, non afferiscono al campo della causalità. La statistica non interpreta le relazioni causali,
ma è strumento per la descrizione dei fenomeni (per esempio, le relazioni tra altezza e peso corporei).
141.2. Le tecniche multivariate, metodi di proiezione delle ipotesi. Analisi e statistica multivariata
Nella inferenza statistica e nella verifica di ipotesi è molto importante la parte relativa al rumore (o errore),
mentre l’analisi multivariata è incentrata solo sulla struttura dei dati di interesse, il resto viene rimosso con
metodologie opportune.
Tuttavia eliminare l’informazione ridondante non deve essere un passaggio affrettato, infatti la struttura di
tali dati potrebbe costituire la “prova del nove” rispetto alla bontà della metodologia adottata.
I° OBIETTIVO
Esplorare i dati
II° OBIETTIVO
III° OBIETTIVO
Discriminare e classificare Regressione e predizione
Statistica descrittiva
Cluster Analysis
Analisi in componenti
principali
Tecniche di classificazione Regressione ai minimi
quadrati (PLS-R)
Regressione in componenti
principali (PCR)
Regressione lineare multipla
(MLR)
149
142. I passaggi canonici, da tradursi in pratica con Addati2 (software di analisi multivariata di dati
territoriali), per il trattamento di variabili qualitative
Il trattamento dell’informazione qualitativa, mediante analisi statistica multivariata, al fine di ottenere una
distribuzione simulata di n punti su p dimensioni. A seguire verranno sinteticamente esposti i passaggi
fondamentali.
a)
Riconversione delle variabili qualitative (o categoriali) in scala ordinale, quando gli elementi
dell’insieme Xj sono ordinati senza che si possa operare alcun confronto quantitativo. La sua adozione può
essere imposta dalla necessità di un livello omogeneo di misura delle variabili. Spesso le K modalità di una
variabile ordinale sono contraddistinte dall’insieme dei numeri interi positivi da 1 ad K: i suoi elementi sono
dotati di una struttura d’ordine, ma non hanno un significato metrico. Non sono pertanto lecite operazioni
metriche come la media o la differenza;
b)
realizzazione della tavola logica X(n, p) ad n righe e p colonne. Il generico individuo i è
rappresentato da p numeri interi positivi a cui si associa un vettore (o punto) xi = (xi1, …, xip) di uno spazio
vettoriale Rp (vedi figura sottostante).
c)
si passa ad effettuare l’analisi delle tipologie mediante il
comando3 di Addati. Come abbiamo già visto in precedenza, una tavola
di variabili di tipo categoriale non può essere direttamente analizzata
poiché su di essa non sono effettuabili calcoli di nessun genere. Quindi
la tavola risultante conserverà il numero n di righe della tavola
categoriale originaria, ma avrà un numero di colonne q pari al totale
della somma di tutte le categorie assunte dalle p variabili categoriali
considerate e potrà essere considerata una tavola di contingenza o di
conteggio. In una tavola di conteggio è significativo effettuare i totali di
riga e i totali di colonna, ossia ottenere i valori marginali. Nella tavola
ottenuta, infatti, i marginali di riga assumeranno tutti il medesimo valore pari a p ove p è il numero di
variabili originarie; i marginali di colonna, invece, rappresenteranno la frequenza di quella modalità j sul
campione considerato.
1
1
2
..
..
q
f(t)
La nuova tavola derivante, (vedi figura a fianco) dunque, sarà una tavola formata da
t righe - che solitamente, sono in numero sensibilmente inferiore rispetto alle n
originali - rappresentanti le t tipologie e da q colonne pari al numero totale delle
modalità assunte dalle variabili complessivamente oltre alla colonna relativa al peso
di ogni tipologia, ossia relativa alla frequenza rilevata nella tavola dei dati di quel
record vettore binario.
t
2
Si consiglia di leggere come integrazione l’ottimo manuale prodotto dal Prof. Griguolo, ideatore e scrittore di Addati,
reperibile all’indirizzo http://cidoc.iuav.it/~silvio/addati_it.html
3
Dalla schermata iniziale di Addati si seleziona il menu “Analisi” e successivamente si seleziona “Crea Tipologie”;
Addati quindi caricherà l’applicativo TYPOLOG, proponendoci un’interfaccia di dialogo in modalità DOS.
150
d)
La tavola di contingenza, sarà utilizzata per l’analisi delle corrispondenze mediante il comando4 di
Addati che è un’analisi fattoriale che tende come risultato alla sostituzione delle variabili originali con nuove
variabili derivate come combinazione delle prime, in numero inferiore per la perdita di una minima quota
dell’inerzia originale, ossia mantenendo il più possibile integro il valore originario della tavola dei dati. Lo
scopo del metodo è di analizzare la somiglianza tra le righe (rispetto alle colonne) e quella tra le colonne
(rispetto alle righe) ed anche le relazioni che intercorrono tra righe e colonne. Calcolando i rispettivi valori
marginali per righe e per colonne, si possono ottenere, dalla tavola categoriale di cui trattasi, due nuove
tavole riguardanti le distribuzioni di probabilità condizionali (X e Y). Se si divide, rispettivamente, ogni riga i
per il suo totale marginale fi, ovvero ogni colonna j per il suo totale marginale fj.
La riga i della tavola X avrà dunque, come elementi: fi1/fi., .... fip/fi. e rappresenterà la distribuzione
percentuale o profilo delle j modalità nella tipologia i, o, ancora, il vettore della tipologia i nello spazio Rp e il
suo totale marginale darà la stessa informazione riferita all’intero sistema rappresentando la distribuzione
globale della tipologia rispetto alla tipologia i-esima e, pertanto, il suo peso.
Il medesimo ragionamento si potrà fare sulla colonna j-esima della tavola Y, nella quale però il vettore
rappresenterà la probabilità di distribuzione di ogni tipologia rispetto ad ogni singola modalità e il suo totale
marginale darà la stessa informazione riferita all’intero sistema rappresentando la distribuzione globale della
tipologia rispetto alla modalità j-esima e, pertanto, il suo peso.
Le tavole X e Y sono dunque diverse tra loro, ma i rispettivi significati sono simmetrici.
La distanza tra due punti-profilo in Rp viene calcolata secondo una modificazione dell’usuale formula
pitagorica nota come distanza del chi-quadro rappresentata dalla formula sotto riportata.
χ2 = ∑ij (foij - feij)2 / feij
e)
Al fine di ridurre ulteriormente di complessità le informazioni a disposizione un’ulteriore passo da
affrontare è quello dell’analisi cluster (o di classificazione).
Lo scopo di una classificazione numerica è quello di raggruppare unità (o meglio le coordinate fattoriali
ricavate dall’analisi delle corrispondenze) a comportamento simile in un numero limitato di gruppi chiamati
anche classi o cluster.
La similarità tra due unità può venire osservata direttamente o calcolata a partire da un insieme di variabili
osservate che offrano una opportuna descrizione degli oggetti analizzati.
La similarità, inoltre, dipende dalle variabili prese in considerazione e, quindi, dalla particolare descrizione
adottata per gli oggetti dall’analisi intrapresa.
Ci sono molti modi per definire il livello di similarità di due oggetti.
In coerenza con quanto argomentato sino ad ora, si assumerà, per la classificazione, la stessa nozione di
distanza utilizzata nelle analisi fattoriali e, in particolare la distanza del chi-quadro, in quanto si stanno
trattando variabili qualitative.
La distanza, quindi, rappresenta un indicatore complesso che deve essere calcolato attraverso i contributi di
tutte le variabili poste in gioco e, convenzionalmente, può essere assunta come indicatore di dissimilarità.
E’ quindi coerente considerare due unità più simili tra loro rispetto ad altre due, quando i loro punti
rappresentativi giacciono più vicini (nello spazio di rappresentazione) di quelli che rappresentano le altre due
unità.
Si dimostra assai utile per lo scopo affrontare la classificazione utilizzando il metodo della classificazione
non gerarchica o meglio il metodo delle nubi dinamiche di E. Diday.
4
Dalla schermata iniziale di Addati si seleziona il menu “Analisi” e successivamente si seleziona “Analisi delle
Corrispondenze”; Addati quindi caricherà l’applicativo ACCOR, proponendoci un’interfaccia di dialogo in modalità
DOS.
151
Tale metodologia si ritrova all’interno5 software Addati. Vediamo nel seguito la modalità di partizione
proposta da Addati. Il metodo proposto e implementato procede in due fasi successive: la prima, denominata
fase esplorativa, la seconda, denominata fase di ottimizzazione, che produce la partizione ottima finale.
In particolare, nella fase esplorativa:
vengono calcolate numerose partizioni
di base (indicativamente da 4 a 10), ciascuna
con un numero di classi definito dall’utente (per
ogni partizione viene consigliato di chiedere un
numero di classi pari a quello che si vorrebbe
ottenere nella partizione finale);
i centri iniziali sono scelti attraverso
alcune alternative ma, per lo più, in modo
casuale;
le partizioni che presentano il valore
più elevato della funzione-obiettivo vengono
incrociate tra loro;
la partizione/prodotto ottenuta avrà un
numero di classi a priori indeterminato: per
costruzione, gli elementi di una classe sono stati
classificati congiuntamente (o, meglio, sono
stati assegnati ad uno stesso gruppo) in tutte le
partizioni di base incrociate e sussiste dunque
una ragionevole convinzione sulla fondatezza
della loro somiglianza. Proprio per tale motivo
le classi della partizione/prodotto sono note
come classi stabili o forme forti. Anche se
spesso sono in numero eccessivo per gli scopi
della ricerca, esse offrono una descrizione dettagliata e spesso esaustiva dei principali comportamenti
ravvisabili nel contesto di analisi dato.
viene ottimizzata la partizione/prodotto ottenuta e viene salvata su file una sua descrizione
essenziale;
viene operata una classificazione gerarchica sulle q classi ottenute attraverso iterazioni successive:
aggregando le due classi tra loro più simili e calcolando la funzione-obiettivo ottenuta con un numero di
classi j = q-1 e così continuando sino a che tutte le classi non saranno aggregate in un’unica classe;
i differenti valori della funzione-obiettivo calcolati ad ogni aggregazione vengono proiettati su di un
grafico che mostra l’andamento della funzione, sia in fase ascendente, sia in fase discendente (con la
variazione del numero di classi ottenute).
Nella fase di ottimizzazione, interviene l’utente che:
osserva il grafico proiettato e identifica il numero di classi più promettenti, ossia quelle cui
corrisponde un’alta perdita di inerzia quando il numero dei gruppi venga ulteriormente ridotto di una unità;
chiede al programma di descrivere la partizione con il numero di classi identificato, o di descrivere
diverse partizioni se il grafico identifica più punti di interesse;
sceglie definitivamente la partizione di interesse attraverso la lettura e la valutazione delle descrizioni
delle partizioni richieste al programma.
5
Dalla schermata iniziale di Addati si seleziona il menu “Analisi” e successivamente si seleziona “Classificazione non
Gerarchica”; Addati quindi caricherà l’applicativo CLSSSIFICAZIONE GERARCHICA, proponendoci un’interfaccia di
dialogo in modalità DOS.
152
1436. Il trattamento, mediante Addati, di alcune variabili qualitative della carta pedologica7 e
successiva spazzializzazione delle risultanze con ArcView 3.x
Come prima operazione, fondamentale per la corretta formazione della tabella dati ricodificati di
variabili qualitative che successivamente verrà sottoposta ad analisi statistica multivariata con
Addati, risulta essere l’allineamento rispetto alle necessita di Sw e informazioni.
Impostazioni preliminari per ArcView
Estensioni (Extensions)
Script8
Files (*.shp)
i. Spatial Analyst
ii. Memo Tool
i. Converts a grid to a point
ii. Point to polygons
i. Pedof2_CR.shp
ii. comuni_cr.shp
Avendo verificato la presenza di tutto quanto richiesto si effettui la prima operazione in ambiente
ArcView e quindi la predisposizione uno stralcio dell’intera carta pedologica solo per il comune di
Cremona, ottenendo una tabella attributi di dimensione 203 x 18.
Successivamente alla produzione di uno shape
derivato
dall’operazione
di
clip
(tra
Pedof2_CR.shp e la selezione del comune di
Cremona da comuni_cr.shp) effettuiamo il
passaggio dalla dimensione continua a quella
discreta mediante il comando Theme Æ
Convert to Grid avendo cura di (si veda
immagine a fianco riportata) di impostare
correttamente i parametri di conversione (che
nel prosieguo della dispensa chiameremo Grid).
Successivamente a tale finestra verrà richiesto
quale colonna prendere come valore per le celle
Al fine di produrre una discretizzazione di
tutto il territorio del comune di Cremona è
fondamentale aver inserito precedentemente
nella tabella attributi 203 x 18 una colonna
“Id_Pl” ovvero un indice per ogni record
presente da 1, .., 203.
Successivamente alla domanda di unire le
informazioni presenti nella tabella sorgente si
risponda di si (yes)
Quindi a passaggi ultimati la tabella attributi
associata alla griglia prodotta sarà di
dimensioni 148 x 18.
Ora si deve effettuare il passaggio dalla dimensione discreta a quella puntuale, ovvero mediante uno
script “Converts a grid to a point” verrà realizzato un punto collocato nel centroide di ogni cella,
6
Tale metodologia in ambiente ArcView 3.x è stata sviluppata in parte nel laboratorio di progettazione ambientale II
A.A. 2004 - 2005 Prof. Pier Luigi Paolillo, in particolare con il gruppo:Piergiorgio Roveda e Alessandra Duina
7
Argomento ampiamente trattato nella dispensa n°6, cap. 80 pag. 85 e nell’allegato B entrambi presenti nel sito del
Master
8
Recuperabili all’indirizzo www.esri.com
153
quindi facendo la somma della colonna Count sapremo che verranno prodotti 7.031 punti
rappresentativi di 7.031 celle di lato 100 m.
Con l’accortezza di impostare la
Path desiderata, al fine di salvare
nella posizione desiderata il risultato
dell’esecuzione dello script, che
come logicamente ci si attende sarà
uno shape puntuale.
L’informazione fondamentale che
tale
conversione
produce
è
contenuta nella tabella attributi, la
quale avrà una dimensione 7.031 x
3, dove la prima colonna sarà “Shape” la seconda “Pointid” (un identificativo progressivo 1, ..,
7031) e la terza colonna fondamentale “Grid_code” la quale è la colonna chiave rispetto alla
colonna “Value” contenuta nella tabella attributi della griglia (con dimensione della tabella attributi
148 x 18). L’obbiettivo imprescindibile per poter effettuare l’analisi multivariata è quello di
ottenere l’indipendenza di cella ovvero 7.031 celle di lato 100 m (quindi 7.031 records)
caratterizzate da più variabili (le colonne delle tabelle attributi), al fine di evitare quello che il
comando di Saptial Analyst - Convert to Grid, produce ovvero l’aggregazione di records e quindi di
celle.
Ora mediante lo script “Point to polygons” rendendo attivo il tema puntuale, precedentemente
creato, realizzeremo una cella di lato 100 m per ognuno dei 7.031 punti (che nel prosieguo della
dispensa lo shape prodotto lo chiameremo Grid_pl). La tabella attributi sarà di dimensioni 7.031 x
3; avendo cura di inserire successivamente una colonna sostitutiva, avente come etichetta “Cell_Id”
ovvero un numero progressivo 1, …,7.031 (mediante il comando rec+1) che sarà l’identificativo
univoco per ogni cella fondamentale per tutte le possibili analisi producibili. Non dobbiamo
dimenticare che all’interno della tabella attributi c’è la colonna “Grid_code” che utilizzeremo
successivamente come colonna chiave per effettuare il Join con la tabella attributi della Grid
(dimensioni della tabella 148 x 18) quindi si effettuerà un join da uno a molti.
Risulta fondamentale poter effettuare il Join tra le tabelle attributi
dei layers Grid e Grid_pl (Grid_pl ottenuto con lo script “Point to
polygons”), immediatamente tale operazione non è possibile. Ora
si deve utilizzare l’estensione “Memo Tool” la quale ci
permetterà di esportare in formato *.dbf la tabella attributi della
Grid. Quindi, si deve editare la tabella attributi della Grid e nella
barra dei comandi alla voce MemoTab selezionare il comando
Export sorted Table.
Dopo aver salvato la tabella ed averla successivamente editata,
risulta ora possibile effettuare il Join, ottenendo
conseguentemente l’attribuzione dell’informazione qualitativa di
alcune variabili della carta pedologica ad ognuna delle 7.031 celle
di lato 10m.
La tabella opportunamente formattata sarà di dimensioni 7.031 x 9, uguale all’immagine presente
nella successiva pagina.
154
Le variabili che analizzeremo, quindi le colonne della tabella, sono:
Variabile
LCC_sotto
Liquami
Fanghi
Acq_sup
Acq_sot
Descrizione variabile
Codice della classe e sottoclasse di capacità d’uso in base al modello
interpretativo Land Capability Classification
Codice della classe di attitudine allo spandimento agronomico dei liquami in
base al modello interpretativo
Codice della classe di attitudine allo spandimento di fanghi di origine urbana in
base al modello interpretativo
Codice della classe di capacità protettiva nei confronti delle acque superficiali
in base al modello interpretativo
Codice della classe di capacità protettiva nei confronti delle acque sotterranee
in base al modello interpretativo
Ora rispettando quanto precedentemente descritto si deve effettuare la ricodifica delle singole
informazioni qualitative, che popolano le colonne, in informazione quantitative mediante
l’assegnazione di un numero intero positivo a partire da 1. Il criterio di recodifica sarà quindi:
LCC_sotto
1
1/3s
2s
2s/3s
2w
2w/1
2ws/1
3s
3w
4w
N.c.
Rec.
1
1
2
2
2
2
2
3
3
3
4
Liquami
S1
S2
S2d
S3
S3/S2
S3dt
S3t
N.c.
Rec.
1
2
2
3
3
3
3
4
Fanghi
S1
S2
S3
N
N.c.
Rec.
1
2
3
3
4
Acq_sot
E
M
M/B
B
N.c.
Rec.
1
2
2
3
4
Acq_sup
E
E/M
M
B
N.c.
Rec.
1
1
2
3
4
155
Personalmente per la ricodifica preferisco esportare la tabella attributi in Excel e tramite la funzione
trova e sostituisci effettuare l’assegnazione delle informazioni quantitative. Producendo una tabella
di 5 variabili tutte con 4 modalità
Comunque tale operazione è possibile realizzarla anche in ambiente ArcView mediante le funzioni
descritte nelle scorse dispense. È opportuno anticipare che per la produzione della tabella dati di
input per Addati si richiede un file in formato *.Txt.
143.1. Impostazioni preliminari di Addati e formattazione del file di Input
Successivamente all’avventa
installazione avviare Addati e
nella barra dei comandi
selezionare la voce file e
successivamente il comando
Directory attiva, in cui addati
cercherà il file di Input e dove
salverà i file Output di analisi.
FILE DI INPUT
FILE DI OUTPUT
Successivamente è opportuno
convertire il file “pedo.txt”
prodotto dal fine di Excel,
opportunamente depurato delle
intestazioni delle colonne e della
colonna “Grid_code”, in
“pedo.dat” file formattato per
consentire un’elaborazione
ottimale in ambiente Addati
156
143.2. La creazione di tipologie
Si effettua tale analisi perché una tavola di variabili di tipo categoriale non può essere direttamente analizzata poiché su di essa non sono effettuabili calcoli di
nessun genere. Il primo passaggio per il trattamento di una simile tavola è quello di ricodificarla in forma disgiuntiva completa, ossa in forma binaria.
Dal menu analisi attivare il comando Crea Tipologia
Finestra DOS dell’estensione TYPOLOG
Addati fino al termine di ogni analisi che effettueremo, in questo caso specifico per la creazione delle tipologie ci accompagnerà con delle finestre (vedi immagine
in alto a destra) nelle quali dobbiamo rispondere alle opzioni che ci vengono fornite.
Quindi dando avvio alla creazione delle tipologie dal menu di analisi di Addati;
alla domanda: I parametri per l’analisi vanno letti
Si prema invio per procedere.
si digiti: uno (1)
157
Alla domanda: Titolo dell’analisi
Si prema invio per procedere.
si digiti: creazione di tipologie da variabili pedologiche
Alla domanda: Nome del file dei dati
si digiti il nome con cui si è salvato il file convertito
precedentemente. Se si è impostata la Directory di lavoro, si deve inserire il nome del file completo
di estensione, non è necessario fornire la path completa. Nel caso in esempio si digiti “pedo.dat”
Alla domanda: Numero totale dei CASI
Si prema invio per procedere.
si digiti: tutti
158
Alla domanda: Numero totale delle analisi
Si prema invio per procedere.
si digiti: cinque (5)
Alla domanda: Nel file d’ingresso le variabili sono codificate
Si prema invio per procedere.
Alla domanda: Lo scopo è di
Si prema invio per procedere.
si digiti: uno (1)
si digiti: due (2)
159
Alla domanda: Numero delle MODALITA’ di tutte le variabili
Si prema invio per procedere.
si digiti: 4 4 4 4 4
Alla domanda: Confermi? si prema: s
Si prema invio per procedere.
Alla domanda: Fornisci una etichetta per le modalità delle variabili
Fan1/4 Aso1/4 Asu1/4
Si prema invio per procedere.
si digiti: Lcc1/4 Liq1/4
160
Alla domanda: Confermi? si prema: s
Si prema invio per procedere.
Alla domanda: Quante variabili SUPPLEMENTARI
Si prema invio per procedere.
Alla domanda: Ad ogni caso va assegnato
Si prema invio per procedere.
si digiti: zero (0)
si digiti: uno (1)
161
Alla domanda: Fornisci un FORMATO per leggere il file in entrata
Si prema invio per procedere.
si prema: asterisco (*)
Alla domanda: Premi
a questo punto le impostazioni sono terminate, ma se ci siamo accorti
di aver inserito delle informazioni non corrette prossimo ripercorrere l’analisi premendo uno (1)
oppure passare all’esecuzione premendo il tasto due (2).
La creazione delle tipologie è stata terminata in modo regolare, si osservi infatti che i casi letti
corrispondono a quelli accertati. Ha prodotto 18 tipologie, una notevole riduzione di complessità.
162
Come si può leggere chiaramente, i 7.031 casi letti corrispondono alle 7.031 celle di lato 100 m
attraverso le quali è stato suddiviso il comune di Cremona in analisi. Ogni cella è stata descritta
attraverso 5 variabili categoriali nominali, assommanti a 20 modalità complessive.
Le diverse combinazioni delle modalità assunte dalle celle analizzate, dunque, assommano a 18, e,
pertanto, la nuova tavola (si osservi l’immagine sotto riportata) di descrizione delle cinque variabili
assunte nell’area in studio, è così trasformata dal programma in una nuova tavola di 18 righe (pari al
numero delle tipologie identificate) e di 21 colonne: le prime 20 rappresentano le modalità originali,
pesate attraverso la relativa frequenza, la 21-esima colonna rappresenta la frequenza rilevata di ogni
tipologia, all’interno della tavola dei dati analizzata.
Ora è possibile fare alcune considerazioni sia sui files di output prodotti da Addati che della matrice
formata da t righe - che solitamente, sono in numero sensibilmente inferiore rispetto alle n originali rappresentanti le t tipologie e da q colonne pari al numero totale delle modalità assunte dalle variabili
complessivamente oltre alla colonna relativa al peso di ogni tipologia, ossia relativa alla frequenza rilevata
nella tavola dei dati di quel record vettore binario.
Quindi tutte le unità che presentano gli stessi valori letti sulle rispettive modalità sono considerate
equivalenti e vengono assegnate ad una medesima tipologia.
Si sottolinea l’estrema versatilità di Addati, poiché tutti i files prodotti ed utilizzati sono editabili
con un semplicissimo editor di testo oppure sempre in ambiente Addati dal menu dei comandi File
Æ Edita/Mostra file di testo.
Nome file di Output
Descrizione
TYP.OUT
Una descrizione degli eventuali errori cocessi la ritroviamo all’interno di
tale file. Inoltre contiene tutta la descrizione dettagliata delle risposte data
alle singole domande,
La tavola che sarà utilizzata nell’analisi delle corrispondenze.
Successivamente la editeremo e la commenteremo poiché si possono
produrre delle validissime interpretazioni.
All’interno di tale file sono registrate tutte le tipologie, nel nostro caso da 1,
..,18, in ordine assegnate ai records della tavola in entrata.
ACORINP.LV
TYPCLAS
Commento della tavola presente nel file ACORINP.LV
Nella
prima
riga
troviamo una sequenza di
numeri 18 7031 20 0 5 3,
i quali nel ordine in cui
sono stati trascritti si
riferiscono: i. al numero
totale delle tipologie
individuate (18); ii. al
numero totale dei casi
letti (7.031) nel nostro
caso si riferiscono a celle
di lato 100 m; iii.
modalità
complessive
utilizzate
(20)
per
descrivere tutte e cinque
le variabili, infatti sono
state utilizzate quattro modalità per ogni variabile quindi (5*4 = 20); iv. numero di unità
163
supplementari che non ve ne sono quindi zero (0); v. numero di variabili utilizzate cinque (5); vi. Il
numero di variabili attive.
Nella riga successiva sono riportati le lables assegnate alle modalità si osservi la tabella
riepilogativa sotto riportata.
Variabile
Lable Addati
LCC_sotto Lcc
Liquami
Liq
Fanghi
Fan
Acq_sup
Asu
Acq_sot
Aso
Descrizione variabile
Codice della classe e sottoclasse di capacità d’uso in base al
modello interpretativo Land Capability Classification
Codice della classe di attitudine allo spandimento agronomico dei
liquami in base al modello interpretativo
Codice della classe di attitudine allo spandimento di fanghi di
origine urbana in base al modello interpretativo
Codice della classe di capacità protettiva nei confronti delle acque
superficiali in base al modello interpretativo
Codice della classe di capacità protettiva nei confronti delle acque
sotterranee in base al modello interpretativo
Risulta fondamentale per poter appieno interpretare i risultati ottenuti
spazzializzare le 18 tipologie determinate (si veda immagine sopra riportata).
Come anticipato (pagina precedente) nella tabella riassuntiva dei files di output prodotti da Addati,
si rileva di fondamentale importanza per la spazzializzazione delle tipologie il file TYPCLAS, il
quale se proviamo ad editarlo sarà un vettore colonna di numeri da 1, …,18 di 7.031 caratteri.
Quindi non ci resta che importate questa colonna nella tabella attributi del layer “Grid_pl”.