Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno AUTOCORRELAZIONE SPAZIALE Nello studio di variabili statistiche spaziali, cioè con valori che rappresentano la variabile in aree territoriali, il tema dell’autocorrelazione spaziale si traduce nel verificare se la presenza di una particolare intensità di un fenomeno in una determinata area implichi la presenza dello stesso fenomeno nelle aree contigue. Per capire cosa s’intende per autocorrelazione spaziale esaminiamo il termine. L’elemento più importante è costituito dalla parola “correlazione”. In generale, la correlazione misura la relazione prevalente fra una coppia di variabili. I coefficienti utilizzati normalmente in statistica forniscono informazioni sulla sua natura e il suo grado. Il segno del coefficiente di correlazione informa sulla natura della relazione: il segno + indica una relazione diretta, il segno – indica una relazione inversa. Il valore numerico indica invece la forza della relazione. Se è il coefficiente: 1 La relazione è forte 0 La relazione è debole Nel caso in cui le variabili sono misurate su scala intervallo/rapporto, il coefficiente di correlazione è quello di Pearson. Nel termine autocorrelazione spaziale, è inoltre contenuto il suffisso auto: dato che si considera una sola variabile la correlazione, in questo caso, riguarda il legame tra coppie di osservazioni della stessa variabile. Questo tipo di correlazione si verifica perché le realizzazioni della variabile in questione sono ordinate in qualche modo. L’autocorrelazione può dunque essere definita come la relazione tra i valori di una certa variabile attribuibile a un qualche ordinamento dei suoi valori. Tale presupposto va contro l’analisi statistica classica, secondo la quale non esiste un tale ordinamento dei valori e dunque le osservazioni sono sempre, a coppie, indipendenti. Tuttavia, nella maggior parte dei casi, i dati spaziali non sono indipendenti: accade infatti che osservazioni che si riferiscono ad aree più vicine mostrino meno variabilità di dati relativi ad aree che risultano più lontane tra loro. L’esatta natura di questo modello, tuttavia, varia al variare dell’insieme di dati, poiché ciascun data-set ha la sua funzione di variabilità e distanza fra i dati. Tale variabilità è generalmente calcolata attraverso una funzione chiamata semi-varianza, descritta dalla: 2 z x h z x h nh i 1 n(h) , in cui z definisce un valore in una particolare localizzazione, h è la distanza fra i valori e n(h) è il numero di coppie di valori la cui distanza è pari ad h. La rappresentazione della funzione sul piano cartesiano è chiamata semi-variogramma (o semplicemente variogramma). L’ordinamento da cui dipende l’esistenza dell’autocorrelazione spaziale può essere descritto come una configurazione spaziale degli n valori osservati di una certa variabile X e può essere descritto da una matrice (n x n) di valori Wij , cioè la matrice W, in cui le etichette di riga e colonna sono le osservazioni. 223 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Gli 0 della matrice indicano che le osservazioni corrispondenti alle righe e alle colonne non sono contigue nell’ordine di associazione, mentre la presenza del valore 1 indica la contiguità tra le unità corrispondenti alla riga e alla colonna della matrice. Pertanto, nell’espressione autocorrelazione spaziale, il termine “spaziale” si riferisce al modo in cui i valori di una certa variabile X sono ordinati su una superficie piana. Ovviamente, se i dati raccolti sono punti, poiché i punti non possono essere contigui nel senso fisico del termine, è necessario trovare un sistema per trasformare la prossimità di coppie di punti in un ordinamento spaziale su di un piano. Tra questi metodi è particolarmente noto il metodo dei poligoni di Thiessen. Il metodo dei poligoni di Thiessen permette di suddividere geometricamente lo spazio in zone di pertinenza di ogni punto. A ciascuno di essi viene attribuita un’area che si trova più vicina a esso che a qualunque degli altri punti. Lo spazio viene così suddiviso da una serie di linee che sono equidistanti dai due punti a esse più vicini. Il risultato sarà, pertanto, una serie di poligoni, tanti quanti sono i punti, all’interno dei quali se ne troverà solo uno. La caratteristica dei poligoni di Thiessen è che ad ogni dato puntuale viene associata un’area; lo spazio all’interno di quell’area assume i valori più vicini a quelli del valore puntuale che a qualsiasi altro punto. Questo è un modo di mostrare aree individuali di influenza attorno ad ogni set di punti e può essere un potente strumento analitico di visualizzazione. I poligoni sono costruiti a partire dall’unione con linee rette dei punti vicini più vicini (si creano i triangoli di Delaunay); su tali connettori vengono costruite le rette perpendicolari bisettrici; il loro punto d’incontro (i baricentri dei triangoli di Delaunay) sono i vertici dei poligoni di Thiessen. A B D C E Pertanto, l’autocorrelazione spaziale può essere definita come la relazione tra i valori di una certa variabile che è attribuibile al modo in cui le corrispondenti unità areali sono disposte su una superficie piana.. A B C D E A 0 1 1 1 0 B 1 0 0 1 1 C 1 0 0 1 0 D 1 1 1 0 1 E 0 1 0 1 0 224 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno La matrice così costruita avrà valori 0 quando i poligoni non sono contigui (per definizione un’area non può essere contigua a se stessa), avrà invece valore 1 se le aree sono contigue. Un’importante proprietà della matrice W è che è simmetrica. Concetto e definizione operativa di contiguità Si può in primo luogo osservare come sostanzialmente la contiguità spaziale sia un fattore che interagisce con il fenomeno studiato, con ruoli ed effetti non molto diversi da quelli che si hanno nel campo della ricerca sperimentale (ad esempio l’interazione dovuta all’appartenenza delle cavie alla stessa nidiata, o l’interazione dovuta al sovrapporsi dei trattamenti). Una seconda osservazione riguarda il fatto che la prossimità spaziale è spesso un fattore che non è possibile tenere sotto controllo in maniera adeguata; ciò accade sia per le difficoltà connesse alla definizione (forma e dimensione) delle unità territoriali di rilevazione, sia perché i fenomeni sociodemografici sono rilevati su unità amministrative le quali hanno, come abbiamo visto, le più diverse forme ed estensioni, e sono pertanto assoggettate all’azione del fattore della contiguità con intensità anche notevolmente diversa. Possono inoltre sussistere, soprattutto nel campo socio-demografico, altri elementi di contatto tra le unità territoriali che giocano anch’essi il ruolo di fattori di interazione e che possono interagire con la contiguità spaziale. Ad esempio questi fattori possono essere identificati dalla lunghezza del confine tra due unità territoriali, da collegamenti stradali, ferroviari ed aerei esistenti tra le unità; e non è difficile immaginare che anche in altri campi di indagine possano presentarsi fattori di interazione che si aggiungono e si sovrappongono a quello della contiguità. Concettualmente la contiguità spaziale è una relazione che riguarda coppie di unità; date quindi n unità le relazioni di contiguità delle n2 possibili coppie ordinate di unità possono essere rappresentate sulla matrice W descritta più sopra. Nella sua forma generalizzata, gli elementi wij della matrice W sono numeri non negativi che esprimono l’intensità con cui la circostanza della contiguità agisce sulle determinazioni del fenomeno nelle unità i e j. Per quanto riguarda la definizione operativa di contiguità, nel caso più semplice in cui le unità territoriali sono individuate da una griglia regolare con celle quadrate la prossimità spaziale fra due celle può essere definita dall’avere uno dei lati in comune (caso della “torre”) o dall’avere uno dei vertici in comune (caso dell”alfiere”) o almeno uno di entrambi (caso della “regina”): Rooks Case Bishops Case Queen’s (King) Case Di questi, il modello più semplice e più comunemente usato è il Rooks Case (caso della torre), e in seguito, ad esso si farà riferimento ove non altrimenti specificato. Nel caso di unità di forma irregolare (unità amministrative) la contiguità fra due unità può essere data dall’esistenza di un confine in comune oppure può essere espressa in funzione della lunghezza di tale confine o della distanza fra i baricentri geografici (o ancora tra i centroidi di popolazione); inoltre, tale distanza può essere misurata in linea d’aria o seguendo le strade di collegamento oppure essere espressa da una funzione che tenga conto di più elementi insieme, come ad esempio, la funzione 225 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno g ij Dij a Bib( j ) wij dove Dij è la distanza tra le unità i-esima e j-esima, misurata tra due opportuni punti e Bi(j) è la proporzione del confine dell’unità i-esima che è anche confine dell’unità j-esima j (si ha però in generale wij ≠ wji). Nel definire la funzione g si potrebbe anche tener conto di elementi di natura non spaziale come il tempo di percorrenza per recarsi da una unità all’altra. Si può anzi dire che nel contesto del fenomeno studiato si dovrebbe tener conto di ogni circostanza che si ritenga capace di interagire con il fenomeno. Pertanto, al primitivo concetto di contiguo si è nel corso del tempo affiancato il concetto di interconnesso. La definizione del sistema di interconnessioni (cioè la matrice dei pesi wij) è dunque il problema di fondo per affrontare la misura dell’autocorrelazione. La matrice W è però soltanto una scelta del ricercatore, un’ipotesi di lavoro rispetto alla quale assume significato l’analisi della correlazione; se infatti dall’analisi non emerge la presenza di autocorrelazione spaziale vuol dire che il comportamento del fenomeno nelle unità interconnesse non si differenzia da quello riguardante il complesso delle coppie di unità e questo può indicare sia assenza di autocorrelazione, sia la non adeguatezza dello schema di interconnessioni introdotte nel contesto di indagine . Da ciò consegue l’importanza, nella fase preliminare alla conduzione di una analisi di autocorrelazione spaziale, della raccolta di tutte le informazioni utili a far luce sulle relazioni che legano le coppie di unità interconnesse. 226 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Misura dell’autocorrelazione spaziale In presenza di autocorrelazione spaziale positiva, valori simili della variabile risultano spazialmente raggruppati, mentre in presenza di autocorrelazione spaziale negativa, risultano spazialmente raggruppati i valori dissimili della variabile; l’assenza di autocorrelazione spaziale indica una distribuzione casuale dei valori nello spazio. Quali intervalli di valori assegnare ai termini “positiva”, “negativa” o “assenza” di autocorrelazione spaziale è un problema che trova infinite soluzioni. ESEMPIO Supponiamo che la variabile sia “caratteristica urbana del territorio”, e che questa variabile abbia solo due modalità, urbano (U) e rurale (R); vi sono allora 4 possibili tipi di adiacenza: UU UR RU RR Ciascuna delle possibili combinazioni ricorre casualmente 0,25 volte, quindi le aree con valori dissimili compariranno casualmente il 50% delle volte. Quando i valori reali coincidono con le frequenze attese, la distribuzione è casuale, se invece UR+RU>50%, significa che prevalgono le coppie dissimili e dunque si è in presenza di autocorrelazione negativa, viceversa, se UR+RU<50%, significa che prevalgono le coppie simili e dunque si ha autocorrelazione positiva. L'autocorrelazione spaziale misura il legame di dipendenza tra le manifestazioni di un fenomeno e il territorio su cui esso si realizza; in definitiva si parlerà di autocorrelazione positiva se, trovandosi intensità alta del carattere in una zona, anche le zone contigue presenteranno alta intensità (lo stesso in caso di bassa intensità), e di autocorrelazione negativa se ad una bassa intensità del carattere in una zona corrisponderà alta intensità nelle zone contigue; in caso non si verifichino tali situazioni, si avrà mancanza di autocorrelazione spaziale. Gli elementi necessari per il calcolo degli indici di autocorrelazione spaziale sono una misura della variabilità del fenomeno studiato e una matrice che rappresenti la configurazione del territorio considerato. La statistica cross product Tutti gli indici di autocorrelazione spaziale fanno riferimento ad una statistica cross-product. Wij Cij i j Dove Wij è la matrice di connessione (o di contiguità, o di ponderazione spaziale), i cui valori sono una funzione di una qualche misura di contiguità dei dati originali (ad es. Rooks Case ecc.). La Cij invece, è la misura della distanza tra i valori i e j di una certa variabile (distanza euclidea, di Manhattan ecc.). La statistica cross product può essere pensata come il modello lineare generale dell’autocorrelazione spaziale. 227 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Si consideri la seguente mappa delle aree e dei valori una certa variabile. Aree Valori a b c 9 6 3 d e f 8 5 2 g h i 7 4 1 Si determina la matrice Wij delle contiguità (seguendo il modello Rook Case): Wij a b c d e f g h i a 0 1 0 1 0 0 0 0 0 b 1 0 1 0 1 0 0 0 0 c 0 1 0 0 0 1 0 0 0 d 1 0 0 0 1 0 1 0 0 e 0 1 0 1 0 1 0 1 0 f 0 0 1 0 1 0 0 0 1 g 0 0 0 1 0 0 0 1 0 h 0 0 0 0 1 0 1 0 1 i 0 0 0 0 0 1 0 1 0 Calcoliamo ora la matrice Cij, che ha le stesse dimensioni della Wij, ma che contiene le distanze, ad esempio calcolate con il metodo delle distanza euclidea. Cij Vi V j 2 e osserviamo la matrice prodotto C ijWij (prodotto cella per cella) 228 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno a b c d e f g h i a 0 9 0 1 0 0 0 0 0 b 9 0 9 0 1 0 0 0 0 c 0 9 0 0 0 1 0 0 0 d 1 0 0 0 9 0 1 0 0 e 0 1 0 9 0 9 0 1 0 f 0 0 1 0 9 0 0 0 1 g 0 0 0 1 0 0 0 9 0 h 0 0 0 0 1 0 9 0 9 i 0 0 0 0 0 1 0 9 0 Totale 10 19 10 11 20 11 10 19 10 120 Per ottenere il valore della statistica cross-product si sommano i valori risultanti: Wij C ij i j Il valore definitivo della statistica cross-product è dunque 120. Come interpretare questo risultato?. Sappiamo che questo risultato è solo uno dei possibili risultati che si otterrebbero randomizzando le assegnazioni dei valori della variabile nelle 9 aree, possibili risultati che sono = 9!=362.880. Il valore ottenuto, 120, dovrebbe quindi essere confrontato con i valori della distribuzione che si otterrebbe se si producessero tutte le possibili combinazioni dei valori nelle diverse aree. In generale, per il modello della statistica non è possibile fare riferimento ad una distribuzione teorica (come invece accade per i particolari indici di Geary e Moran), proprio perché si è voluto che la definizione dei parametri di Cij fosse lasciata libera, con la possibilità di introdurre delle misure della distanza diverse da quella euclidea classica. 229 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno ESEMPIO: w1 w 3 w2 w4 1 2 3 4 Riassegniamo i valori casualmente P4=4!=24 1 3 2 4 1 4 2 3 1 2 3 4 1 4 3 2 1 2 4 3 1 3 4 2 2 3 1 4 2 4 1 3 2 1 3 4 2 4 3 1 2 1 4 3 2 3 4 1 3 2 1 4 3 4 1 2 3 1 2 4 3 4 2 1 3 1 4 2 3 2 4 1 4 2 1 3 4 3 1 2 4 1 2 3 4 3 2 1 4 1 3 2 4 2 3 1 Mi chiedo se l’osservazione sia dovuta all’esistenza di una particolare relazione tra le aree oppure se sia dovuta al caso; per rispondere a questa domanda devo calcolare la statistica scelta su tutti i casi possibili e verificare se l’osservazione mostra un valore interno o esterno alla distribuzione dei risultati calcolati su tutti i casi possibili: Se la statistica è V1 V2 V3 V4 2 2 Ottengo la seguente distribuzione di r f( r) 2 8 10 8 8 8 Il calcolo di per l’osservazione ( =2) rientra nella distribuzione pertanto non vi è ragione di affermare che la sua manifestazione sia inusuale; infatti la frequenza con cui compare è uguale a quella degli altri valori. 230 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Se invece utilizzo la statistica * V1 V2 V2 V3 V3 V4 2 2 2 Ottengo la seguente distribuzione dei valori di r* f(r*) 3 6 9 11 14 17 2 4 6 6 4 2 Il valore calcolato per la situazione osservata è *=3; confrontato con i valori della distribuzione il valore 3 ha una frequenza molto bassa. Ne deduco che la distribuzione dei valori sul territorio nel caso in esame è difficilmente attribuibile al caso. ESEMPIO a b c d 9 6 8 5 Cij Vi V j 2 a b c d a 0 1 1 0 Wij b 1 0 0 1 c 1 0 0 1 d 0 1 1 0 a b c d a b c d Cij a 0 9 1 16 b c 9 1 0 4 4 0 1 9 d 16 1 9 0 WijCij i j a 0 9 1 0 10 b 9 0 0 1 10 c d 1 0 0 9 10 0 1 9 0 10 40 P4 4! 24 f ( ) 40 8 44 8 76 8 231 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Il metodo di Monte Carlo Nelle situazioni reali, tuttavia, le possibili combinazioni spaziali dei valori sono troppe per arrivare a produrre l’intera distribuzione delle frequenze associate alla distribuzione dei risultati, quindi l’unico metodo per verificare se il valore della statistica cross-product risulta accettabile consiste nel costruire una distribuzione su un certo numero di campioni casuali i quali, per aumentarne il contenuto descrittivo, vengono cumulati. Uno dei metodi utilizzati a questo scopo è il metodo di Monte Carlo. Con il Metodo di Monte Carlo è possibile operare il confronto fra il valore osservato e la distribuzione casuale generata dal metodo attraverso approssimazioni successive. Il Metodo Monte Carlo fa parte della famiglia dei metodi statistici non parametrici. È utile per superare i problemi computazionali legati ai test esatti (ad esempio i metodi basati sulla distribuzione binomiale e calcolo combinatorio, che per grandi campioni generano un numero di permutazioni eccessivo). Il metodo è usato per trarre stime attraverso simulazioni. Si basa su un algoritmo che genera una serie di numeri tra loro incorrelati, che seguono la distribuzione di probabilità che si suppone abbia il fenomeno da indagare. L'incorrelazione tra i numeri è assicurata da un test chi quadrato. La simulazione Monte Carlo calcola una serie di realizzazioni possibili del fenomeno in esame, con il peso proprio della probabilità di tale evenienza, cercando di esplorare in modo denso tutto lo spazio dei parametri del fenomeno. Una volta calcolato questo campione rappresentativo, la simulazione esegue delle 'misure' delle grandezze di interesse su tale campione. La simulazione Monte Carlo è ben eseguita se il valore medio di queste misure sulle realizzazioni del sistema converge al valore vero. Da un altro punto di vista le simulazioni Monte Carlo non sono altro che una tecnica numerica per calcolare integrali. Le sue origini risalgono alla metà degli anni 40 all'interno del progetto Metropolis. I formalizzatori del metodo sono J.Von Neumann e S.Ulam, il nome Monte Carlo fu assegnato in seguito da N.Metropolis in riferimento al celebre casino. ESEMPIO: Si voglia stimare il rendimento mensile di un titolo azionario. Il titolo esiste da cinque anni, quindi si hanno a disposizione solo 60 rendimenti mensili. Supponiamo che i rendimenti si distribuiscano seguendo una variabile casuale normale. Calcoliamo: Media campionaria Scarto quadratico medio campionario, su base giornaliera (che poi si adatterà con la formula della radice quadrata del tempo al periodo mensile.) Con un modello di regressione lineare cercheremo di stimare la media a un mese. Successivamente, si andranno a generare attraverso l'algoritmo Monte Carlo una serie di medie "sperimentali" che saranno ricavate da una distribuzione normale (perché si è ipotizzato che i rendimenti seguano questa distribuzione) con media pari alla media stimata e scarto quadratico medio pari allo scarto quadratico medio campionario a un mese. Una strategia per procedere e stimare la vera media del fenomeno, a questo punto, può essere quella di ricavare la media generale di tutte le medie sperimentali ottenute. I dati ottenuti forniscono stime tanto migliori quanto maggiore è il numero delle prove fatte. 232 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Nel caso dell’autocorrelazione spaziale, si opera sostanzialmente nel modo seguente: ci sono n valori, ci sono n! permutazioni degli stessi; si scelgono casualmente un certo numero di permutazioni e si calcola la distribuzione di frequenza empirica cumulata, della quale è anche possibile calcolare il valore atteso e lo scarto quadratico medio. Tale funzione è il termine di confronto per il valore osservato, nel senso che, in base a tale funzione, è possibile verificare se esso può essere considerato un evento raro oppure no. Il metodo di Monte Carlo funziona per qualsiaisi statistica, per alcune statistiche, casi particolari della forma generica Cross Product (Join-count, Moran, Geary), è invece possibile fare riferimento ad una distribuzione teorica Normale, sempre che il numero delle unità geografiche sulle quali viene misurata l’autocorrelazione spaziale risulti abbastanza elevato. Se conosciamo la media e la varianza siamo dunque in grado di eseguire un test z E Var Per la statistica generale Cross-Product la media e la varianza hanno le seguenti forme: E S 0 0 nn 1 Var S11 S 2S1 2 21 S 02 S1 S 2 02 1 2 2 2 E T 2nn 1 4nn 1n 2 nn 1n 2n 3 dove: S0 Wij 0 Cij i j i i S1 Wij W ji 2Wij 2 2 j i i i j i S 2 Wi. W.i 2Wi. 2 i 2 i 1 j i 1 Cij C ji 2 Cij 2 2 i j i i j i 2 Ci. C.i 2Ci. 2 i 2 i 233 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Esempio: v1 v5 v9 v13 v2 v6 v19 v14 v3 v7 v11 v15 v4 v8 v12 v16 2 3 7 7 3 2 6 8 2 2 8 9 5 6 4 5 Wij v1 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v2 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 v3 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 v4 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 v5 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 v6 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 v7 0 1 0 0 1 0 1 0 0 1 0 0 0 0 0 0 v8 0 0 1 0 0 1 0 1 0 0 1 0 0 0 0 0 v9 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 v10 v11 v12 v13 v14 v15 v16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0 0 1 0 0 1 0 48=S0 Cij v1 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 0 0 0 0,1 0 0 0 0,2 0,3 0,2 0,4 0 0,3 0,4 0,5 0,1 v2 0 0 0 0 0 0 0 0,1 0,2 0,1 0,3 0 0,2 0,3 0,4 0 v3 0 0 0 0,1 0 0 0 0,2 0,3 0,2 0,4 0 0,3 0,4 0,5 0,1 v4 0,1 0 0,1 0 0 0,1 0,1 0 0 0 0,1 0 0 0,1 0,2 0 v5 0 0 0 0 0 0 0 0,1 0,2 0,1 0,3 0 0,2 0,3 0,4 0 v6 0 0 0 0,1 0 0 0 0,2 0,3 0,2 0,4 0 0,3 0,4 0,5 0,1 v7 0 0 0 0,1 0 0 0 0,2 0,3 0,2 0,4 0 0,3 0,4 0,5 0,1 v8 0,2 0,1 0,2 0 0,1 0,2 0,2 0 0 0 0 0 0 0 0,1 0 v9 0,3 0,2 0,3 0 0,2 0,3 0,3 0 0 0 0 0,1 0 0 0 0 v10 0,2 0,1 0,2 0 0,1 0,2 0,2 0 0 0 0 0 0 0 0,1 0 v11 0,4 0,3 0,4 0,1 0,3 0,4 0,4 0 0 0 0 0,2 0 0 0 0,1 v12 0 0 0 0 0 0 0 0 0,1 0 0,2 0 0,1 0,2 0,3 0 v13 0,3 0,2 0,3 0 0,2 0,3 0,3 0 0 0 0 0,1 0 0 0 0 v14 0,4 0,3 0,4 0,1 0,3 0,4 0,4 0 0 0 0 0,2 0 0 0 0,1 v15 0,5 0,4 0,5 0,2 0,4 0,5 0,5 0,1 0 0,1 0 0,3 0 0 0 0,2 v16 0,1 0 0,1 0 0 0,1 0,1 0 0 0 0,1 0 0 0,1 0,2 0 2,364583 1,552083 2,364583 0,927083 1,552083 2,364583 2,364583 1,114583 1,635417 1,114583 2,489583 1,072917 1,635417 2,489583 3,677083 0,927083 29,64583 29,64=0 Dove 234 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Cij 1 Vi V j 2 S0 2 Perciò: S0 Wij 48 i j i Trattandosi valori 0,1 0 Cij 29,6458 di j i i S1 1 Wij W ji 2 1 2Wij 2 2Wij2 2Wij 2S 0 96 2 i j i 2 i j i i j i i j i 1 1 Cij C ji 2 1 2Cij 2 2 Cij 2 15,9510 2 i j i 2 i j i i j i S 2 Wi. W.i 2Wi. 608 2 Poiché la matrice è simmetrica 2 i i 2 Ci. C.i 225,2153 2 i Allora: E S 0 0 48 29,6458 5,9292 nn 1 16 15 Var S 2S1 2 21 S11 2 2nn 1 4nn 1n 2 S 2 0 S1 S 2 02 1 2 2 E 1,1877 nn 1n 2n 3 235 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Wij*Cij v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v1 0,00 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 v2 0,01 0,00 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 v3 0,00 0,01 0,00 0,09 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 v4 0,00 0,00 0,09 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 v5 0,01 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,17 0,00 0,00 0,00 0,00 0,00 0,00 0,00 v6 0,00 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,17 0,00 0,00 0,00 0,00 0,00 0,00 v7 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,17 0,00 0,00 0,38 0,00 0,00 0,00 0,00 0,00 v8 0,00 0,00 0,00 0,01 0,00 0,00 0,17 0,00 0,00 0,00 0,00 0,04 0,00 0,00 0,00 0,00 v9 0,00 0,00 0,00 0,00 0,17 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 v10 0,00 0,00 0,00 0,00 0,00 0,17 0,00 0,00 0,01 0,00 0,04 0,00 0,00 0,04 0,00 0,00 v11 0,00 0,00 0,00 0,00 0,00 0,00 0,38 0,00 0,00 0,04 0,00 0,17 0,00 0,00 0,01 0,00 v12 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,04 0,00 0,00 0,17 0,00 0,00 0,00 0,00 0,01 v13 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 v14 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,04 0,00 0,00 0,01 0,00 0,01 0,00 v15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,01 0,00 0,17 v16 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,17 0,00 0,02 0,03 0,10 0,10 0,19 0,19 0,54 0,22 0,18 0,26 0,59 0,22 0,01 0,06 0,19 0,18 3,08 Wij Cij 3,08 i j Applichiamo la standardizzazione: z* 3,08 5,9292 1,1877 2,61439 Applichiamo il test sulla Normale a due code: l’ipotesi nulla H0=non vi è autocorrelazione spaziale, cioè i valori sono distribuiti in modo casuale. Poiché al livello di significatività al 95%, i valori limite sono –1,96 e + 1,96, il valore osservato è nella zona di rifiuto. Concludiamo che si deve rifiutare l’ipotesi nulla, dunque vi è una significativa autocorrelazione spaziale NEGATIVA (cfr. z*=-2,61). 236 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno 237 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Analogamente alla correlazione, diversi coefficienti si devono calcolare a seconda che le variabili siano misurate su scala nominale, ordinale o di intervallo/rapporto. Tra i principali indici di autocorrelazione spaziale, gli indici di Moran, Geary e Join-Count, derivano dalla statistica cross-product. JOIN-COUNT (conteggio dei legami) Se la variabile è misurata su scala nominale, allora una unità areale possiede o non possiede la caratteristica in questione. La statistica join-count viene appunto usata per variabili dicotomiche (successo/insuccesso, bianco/nero). Siano allora n1 le unità che posseggono la caratteristica, tali unità saranno codificate con valore B, le altre (n2) con valore W. n1 n2 n P(B) n1 n ; P(W ) 2 n n Supponiamo ora che WW sia il numero di coppie di unità contigue con valore (W,W), BB sia il numero di coppie di unità contigue (B,B) e, infine, sia BW il numero di coppie di unità contigue in cui una delle due è B e una è W (B,W)+(W,B). Ovviamente, la somma BB+WW+BW=J è uguale al numero delle connessioni nella partizione del piano. Se si assume che le estrazioni delle unità sono indipendenti il numero totale di possibili configurazioni spaziali sul piano è 2n. Allora: Jn12 E ( BB ) 2 è il numero atteso di coppie BB se il numero di legami complessivi è J n 2 Jn1 n2 E ( BW ) n2 Jn 2 E (WW ) 22 n Questi valori sono derivati dal modello binomiale. Poiché si estraggono coppie di valori infatti, il modello è 2 n2 n n n2 n1 n2 12 2 1 2 22 n n n n n n dove il primo termine indica la probabilità di estrarre a caso una coppia di unità areali in modo tale che entrambe siano codificate con B; questo termine è sia una probabilità che una percentuale (infatti 12=1). Moltiplicando questa probabilità per il numero totale di coppie J si ottiene il valore indicato. Analogamente per quanto riguarda E(WW). Per E(BW) si deve tener conto del fatto che si considerano sia le coppie (B,W) che le coppie (W,B), ecco quindi il perché del 2. 238 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Se invece ipotizziamo assenza di indipendenza è possibile ottenere questo risultato partendo da un’altra prospettiva: il numero totale delle possibili configurazioni spaziali è n! n1!n 2 ! la probabilità di estrarre una unità codificata con B alla prima estrazione è n1 n rimangono pertanto n1 1 unità con valore B e complessivamente n 1 unità. La probabilità condizionata di estrarre una seconda unità codificata con B è pertanto Pertanto la probabilità congiunta in una estrazione casuale è n1 1 . n 1 n1 n1 1 , moltiplicando questo valore nn 1 per J si ottiene il corrispondente valore atteso. E ( BB ) J n1 n1 1 nn 1 Analogamente per E(WW). E ( BW ) 2 J n1 n2 nn 1 La probabilità condizionata di estrarre una seconda unità codificata con W è invece n2 . n 1 n1 n2 , moltiplicando nn 1 questo valore per J si ottiene il corrispondente valore atteso (poiché si considerano anche i legami WB, tale quantità andrà moltiplicata per 2). Pertanto la probabilità congiunta in una estrazione casuale del tipo (BW) è E ( BW ) 2 J n1 n2 nn 1 In definitiva, se le aree con la medesima codifica tendono a presentarsi in coppie contigue, allora il numero di coppie BW tende a diminuire mentre il numero di coppie BB o di coppie WW aumenta o entrambe (dipende dai valori di n1 e n2). D’altro canto, se invece tendono a presentarsi coppie di valori dissimili, allora BW tende a J e BB e WW tendono a 0. 239 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno ESEMPIO Si consideri una superficie piana che è stata ripartita in 4 unità areali. Siano n1/n e n2/n, t.c. n1=n2=2, con n1=numero di unità che posseggono una data caratteristica e n2 = numero di persone che non la posseggono. In tal caso J = 4, di conseguenza la corrispondente matrice di connessione W sarà 0 1 1 0 1 0 0 1 1 0 0 1 0 1 1 0 con J=(1,1)+(1,0)+(0,0) Assumendo l’ipotesi di indipendenza delle estrazioni casuali, lo spazio campionario delle possibili configurazioni spaziali è (24) il seguente: 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 A B 0 0 1 1 F C 1 0 1 0 G D 1 1 0 0 0 0 H E 1 0 1 1 I 1 0 J 1 0 1 1 1 0 0 1 1 1 0 1 0 1 1 1 1 1 1 0 K L 1 1 1 1 M N O P Distribuzione A B C D E F G H I J K L M N O BB 0 0 0 0 0 1 1 1 1 0 0 2 2 2 2 BW 0 2 2 2 2 2 2 2 2 4 4 2 2 2 2 WW 4 2 2 2 2 1 1 1 1 0 0 0 0 0 0 240 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno P 4 0 0 14 BB 12 BW 10 8 6 4 2 0 0 1 2 3 4 Il valore atteso Jn12 4 4 1 E (WW ); 2 16 n Jn n 4 2 2 32 E ( BW ) 2 12 2 2 2 16 16 n E ( BB ) Se invece si ipotizza l’assenza di indipendenza, allora lo spazio campionario delle possibili configurazioni è il seguente: 1 1 0 1 0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 1 Q 0 1 1 0 R S T U V Distribuzione Q R S T U V BB 1 1 1 1 0 0 BW 2 2 2 2 4 4 WW 1 1 1 1 0 0 Il valore atteso n n 1 2 1 2 E ( BB ) J 1 1 4 nn 1 43 3 E ( BW ) 2 J n1 n2 22 8 8 nn 1 43 3 241 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno I risultati più affidabili per questo tipo di statistica si verificano quando n>20 e preferibilmente n>30; E’ inoltre assai auspicabile che i valori n1 e n2 siano prossimi. Infine, se n2>n1 è preferibile basare il test su BB , se invece n1>n2 è preferibile considerare WW. Ipotesi di Normalità In generale, al crescere del numero delle osservazioni le precedenti distribuzioni (Binomiale e ipergeometrica) tendono alla Normale, pertanto è possibile fare riferimento alle seguenti formule riconducibili alla statistica Wij C ij : i j Ad esempio, si consideri la variabile codificata nel seguente modo: B,W I legami tra le aree confinanti saranno dunque del tipo BB, BW, WB, WW. La statistica Join Count consiste nel confrontare il numero di legami osservati del tipo BB (o WW) oppure i legami del tipo BW (e WB) con quelli attesi. La misura dei legami osservati è Il numero di legami BB risulta = */2 dove * Wij C ij i j C ij ViV j 1 i j 1 Wij 0 altrimenti (definizione del modello di contiguità di tipo “rook)” analogamente, il numero di legami WW sarà * Wij C ij i j C ij 1 Vi 1 V j 1 i j 1 Wij 0 altrimenti Il numero di legami BW risulta = /2 dove Wij C ij i j C ij Vi V j 2 1 i j 1 Wij 0 altrimenti 242 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno 243 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Nell’ipotesi di indipendenza delle estrazioni, il numero dei legami attesi 1 n12 S0 2 n2 n n E ( BW ) S 0 1 2 2 n 1 n2 1 E (WW ) S 0 22 S 0 E ( BB ) E ( BW ) 2 n 2 dove: E ( BB ) S 0 wij i j i Inoltre, la varianza è 1 n n n n Var ( BB ) 1 1 1 S1 1 1 S 2 1 4 n n n n 2 Var ( BW ) S1 1 n1 n1 n1 n1 n1 n1 4 S1 1 S 2 1 1 4 1 4 n n n n n n 1 wij w ji 2 2 i j i S 2 wi. w.i 2 i Con le informazioni a disposizione è possibile applicare il test Z. 244 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno ESEMPIO V1 V2 1 1 V3 V4 0 0 Si desidera verificare l’esistenza di autocorrelazione spaziale nei dati; si utilizza la statistica JOIN COUNT per il calcolo del numero di legami “discordi” (del tipo 0,1); il confronto fra il numero osservato di tali legami e quello atteso informa sulla presenza di autocorrelazione spaziale (infatti, se la frequenza osservata di legami “discordi” è superiore a quella attesa, significa che valori dissimili di una stessa variabili tendono a presentarsi in unità contigue, quindi si è in presenza di autocorrelazione spaziale negativa). Wij C ij i j C ij Vi V j 2 1 i j 1 Wij 0 altrimenti Quindi stiamo cercando il numero di legami di tipo (0,1) Wij Cij V1 V2 V3 V4 V1 0 1 1 0 V2 1 0 0 V3 1 0 V4 0 1 WijCij V1 V2 V3 V4 V1 0 0 1 0 1 1 V2 0 0 0 1 1 0 0 V3 1 0 0 0 1 0 0 V4 0 1 0 0 1 V1 V2 V3 V4 V1 0 0 1 1 1 V2 0 0 1 0 1 V3 1 1 1 0 V4 1 1 =4; pertanto il numero osservato di legami di tipo (0,1) è /2=2. 4 Poiché n1=2 ; n=4 S 0 wij i j i =2 E(BW)=2*(2*2)/4=2 Il numero dei legami “discordi” (0,1) osservati è uguale a quello atteso pertanto vi è assenza di autocorrelazione spaziale. 245 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno ESEMPIO: un approccio grafico all’autocorrelazione con la statistica join-count Nella mappa dell’ipotetica regione sopra riportata, vi sono 5 aree: quelle con carattere urbano sono colorate di rosso, quelle rurali sono colorate di giallo. Un qualsiasi oggetto spaziale composto di un’area e di un confine con altre aree può essere rappresentato con un grafico di nodi e collegamenti tra nodi. Quando le aree sono colorate i nodi possono essere anch’essi colorati. La mappa sopra riportata può essere rappresentata così: La descrizione dei legami tra i nodi colorati può essere rappresentata semplicemente usando una matrice di connessione. I nodi sono allineati (ad esempio) in ordine alfabetico: a ciascun nodo corrisponde un colore, i colori dietro i numeri corrispondono alle combinazioni, il numero 1 corrisponde ad adiacenza, il numero 0 corrisponde a non adiacenza. A B C D E A 0 1 1 1 0 B 1 0 1 0 0 C 1 1 0 1 1 D 1 0 1 0 1 E 0 0 1 1 0 246 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno A questo punto possiamo riordinare le celle della tabella in modo tale che siano distinte le zone urbane da quelle rurali A C B D E A 0 1 1 1 0 C 1 0 1 1 1 B 1 1 0 0 0 D 1 1 0 0 1 E 0 1 0 1 0 Siamo così in grado di vedere dalla matrice quali sono le aree connesse che sono “pure” e quali le “ibride”. Infatti, dalla matrice indicata, delle 14 celle in cui vi è connessione, si ricava: UU = 2 RR = 2 UR = 5 RU = 5 Quindi UR+RU=10>14/2, e dunque l’autocorrelazione è negativa, cioè tendono a raggrupparsi aree con valori dissimili. Con riferimento all’esempio precedente: V1 V2 1 1 V3 V4 0 0 I legami che abbiamo trovato sono questi: V1 V2 V3 V4 247 Università degli Studi di Milano - Bicocca Corso di Popolazione e territorio A.A. 2007-2008 Appunti ad uso interno Vediamo invece come si può applicare il modello ai dati reali a 1 b 0 c 1 d 0 e 0 =WijCij Cij=(Vi-Vj)2 Wij a b c d e a b c d e a 0 1 1 1 0 b 1 0 1 0 c 1 1 0 d 1 0 e 0 0 a b c d e a 0 1 0 1 1 a 0 1 0 1 0 2 0 b 1 0 1 0 0 b 1 0 1 0 0 2 1 1 c 0 1 0 1 1 c 0 1 0 1 1 3 1 0 1 d 1 0 1 0 0 d 1 0 1 0 0 2 1 1 0 e 1 0 1 0 0 e 0 0 1 0 0 1 10 Il numero dei legami BW è infatti =/2=5 Invece Wij =WijCij Cij=(Vi*Vj) a b c d e a b c d e a 0 1 1 1 0 b 1 0 1 0 c 1 1 0 d 1 0 e 0 0 a b c d e a 0 0 1 0 0 a 0 0 1 0 0 1 0 b 0 0 0 0 0 b 0 0 0 0 0 0 1 1 c 1 0 0 0 0 c 1 0 0 0 0 1 1 0 1 d 0 0 0 0 0 d 0 0 0 0 0 0 1 1 0 e 0 0 0 0 0 e 0 0 0 0 0 0 2 fornisce il numero dei legami di tipo BB (o analogamente WW) =/2=1 Attenzione! L’approccio grafico conteggia i legami in maniera doppia, infatti ad esempio, in quest’ultimo caso si tratta del legame di A con C che nell’approccio grafico viene considerato due volte: (C;A) e (A;C). 248 Università degli Studi di Milano - Bicocca