Lezione 9 - statistica@unimib

annuncio pubblicitario
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
INTRODUZIONE ALL’AUTOCORRELAZIONE SPAZIALE
Lo studio dell’autocorrelazione spaziale di variabili statistiche osservate su aree territoriali,
consiste nel verificare se la presenza di una particolare intensità di un fenomeno in una
determinata area comporti la medesima intensità del fenomeno nelle aree a essa contigue.
Per capire cosa s’intende per autocorrelazione spaziale conviene partire dalla definizione stessa.
L’elemento più importante è costituito dalla parola “correlazione”. In generale, la correlazione
misura la relazione prevalente fra una coppia di variabili. I coefficienti utilizzati normalmente
in statistica forniscono informazioni sulla sua natura e il suo grado. Il segno del coefficiente di
correlazione informa sul verso della relazione: il segno + indica una relazione diretta (cioè al
crescere dei valori di una si osserva l’aumento dei valori dell’altra), il segno – indica una
relazione inversa. L’intensità numerica indica invece la forza della relazione.
Se  è il coefficiente:
  1 La relazione è forte
  0 La relazione è debole
Nel caso in cui le variabili sono misurate su scala intervallo/rapporto, il coefficiente di
correlazione è quello di Pearson.
Nel termine autocorrelazione spaziale compare, inoltre, il suffisso “auto”: in questo caso,
infatti, poiché si considera una sola variabile, la correlazione riguarda il legame tra coppie di
osservazioni della stessa variabile.
Questo tipo di correlazione presuppone, dunque, un certo “ordinamento” delle osservazioni
della variabile. L’autocorrelazione allora può essere definita come la relazione tra i valori di
una certa variabile, attribuibile a un qualche ordinamento dei suoi valori.
Tale presupposto è in contraddizione con la statistica classica, secondo la quale non esiste un
tale ordinamento dei valori e dunque le osservazioni sono sempre, a coppie, indipendenti.
Tuttavia, nella maggior parte dei casi, i dati spaziali non sono indipendenti: accade infatti che
osservazioni che si riferiscono ad aree più vicine mostrino meno variabilità di dati relativi ad
aree che risultano più lontane tra loro. L’esatta natura di questo modello, tuttavia, varia al
variare dell’insieme di dati, poiché ciascun dataset ha la sua funzione di variabilità e distanza
fra i dati.
Tale variabilità è generalmente calcolata attraverso una funzione chiamata semi-varianza,
descritta dalla:
zx  h  zx 2
nh 
i 1
n(h)
 h   
,
in cui z definisce un valore in una particolare localizzazione x, h è la distanza fra i valori e n(h)
è il numero di coppie di valori la cui distanza è pari ad h.
La rappresentazione della funzione sul piano cartesiano è chiamata semi-variogramma (o
semplicemente variogramma).
L’ordinamento da cui dipende l’esistenza dell’autocorrelazione spaziale può essere descritto
come una configurazione spaziale degli n valori osservati di una certa variabile X e può essere
descritto da una matrice (n x n) di valori Wij , cioè la matrice W, in cui le etichette di riga e
colonna sono le osservazioni.
151
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Gli 0 della matrice indicano che le osservazioni corrispondenti alle righe e alle colonne non
sono contigue nell’ordine di associazione, mentre la presenza del valore 1 indica la contiguità
tra le unità corrispondenti alla riga e alla colonna della matrice.
Pertanto, nell’espressione autocorrelazione spaziale, il termine “spaziale” si riferisce al modo in
cui i valori di una certa variabile X sono ordinati su una superficie piana.
Ovviamente, se i dati raccolti sono punti, poiché i punti non possono essere contigui nel senso
fisico del termine, è necessario trovare un sistema per trasformare la prossimità di coppie di
punti in un ordinamento spaziale su di un piano.
Tra questi metodi è particolarmente noto il metodo dei poligoni di Thiessen.
Il metodo dei poligoni di Thiessen permette di suddividere geometricamente lo spazio in zone
di pertinenza di ogni punto. A ciascun punto (osservazione originaria) viene attribuita un’area
costituita dall’insieme dei punti dello spazio che risultano pertanto più vicini al punto stesso
che a qualunque altra osservazione. Lo spazio viene così suddiviso da una serie di linee che
sono equidistanti dalle due osservazioni ad esse più vicine. Il risultato sarà, quindi, una serie di
poligoni, tanti quanti sono le osservazioni, all’interno dei quali si troverà una sola osservazione.
La caratteristica dei poligoni di Thiessen consiste nel fatto che ad ogni dato puntuale viene
associata un’area: lo spazio all’interno di quell’area assume i valori più simili a quelli del
valore puntuale che a qualsiasi altro punto. Tale strumento si propone quindi come un modo per
rappresentare aree individuali di influenza attorno ad ogni set di punti e può essere un potente
strumento di visualizzazione e analitico.
I poligoni vengono costruiti a partire dall’unione dei punti vicini più vicini con linee rette (si
creano cioè i triangoli di Delaunay); su tali connettori vengono poi costruite le rette
perpendicolari bisettrici; il loro punto d’incontro (i baricentri dei triangoli di Delaunay)
costituiscono i vertici dei poligoni di Thiessen.
A
B
D
E
C
Pertanto, l’autocorrelazione spaziale può essere definita come la relazione tra i valori di una
A
B
C
D
E
A
0
1
1
1
0
B
1
0
0
1
1
C
1
0
0
1
0
D
1
1
1
0
1
E
0
1
0
1
0
152
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
certa variabile che è attribuibile al modo in cui le corrispondenti unità areali sono disposte su
una superficie piana.
La matrice così costruita avrà valori 0 quando i poligoni non sono contigui (per definizione
un’area non può essere contigua a se stessa), avrà invece valore 1 se le aree sono contigue.
Un’importante proprietà della matrice W è che è simmetrica.
Concetto e definizione operativa di contiguità
Si può in primo luogo osservare come sostanzialmente la contiguità spaziale sia un fattore che
interagisce con il fenomeno studiato, con ruoli ed effetti non molto diversi da quelli che si
hanno nel campo della ricerca sperimentale (ad esempio l’interazione dovuta all’appartenenza
delle cavie alla stessa nidiata, o l’interazione dovuta al sovrapporsi dei trattamenti).
Una seconda osservazione riguarda il fatto che la prossimità spaziale è spesso un fattore che
non è possibile tenere sotto controllo in maniera adeguata; ciò accade sia per le difficoltà
connesse alla definizione (forma e dimensione) delle unità territoriali di rilevazione, sia perché
i fenomeni socio-demografici sono rilevati su unità amministrative le quali hanno, come
abbiamo visto, le più diverse forme ed estensioni, e sono pertanto assoggettate all’azione del
fattore della contiguità con intensità anche notevolmente diversa.
Possono inoltre sussistere, soprattutto nel campo socio-demografico, altri elementi di contatto
tra le unità territoriali che giocano anch’essi il ruolo di fattori di interazione e che possono
interagire con la contiguità spaziale. Ad esempio questi fattori possono essere identificati dalla
lunghezza del confine tra due unità territoriali, da collegamenti stradali, ferroviari ed aerei
esistenti tra le unità; e non è difficile immaginare che anche in altri campi di indagine possano
presentarsi fattori di interazione che si aggiungono e si sovrappongono a quello della
contiguità.
Concettualmente la contiguità spaziale è una relazione che riguarda coppie di unità; date quindi
n unità le relazioni di contiguità delle n2 possibili coppie ordinate di unità possono essere
rappresentate sulla matrice W descritta più sopra.
Nella sua forma generalizzata, gli elementi wij della matrice W sono numeri non negativi che
esprimono l’intensità con cui la circostanza della contiguità agisce sulle determinazioni del
fenomeno nelle unità i e j.
Per quanto riguarda la definizione operativa di contiguità, nel caso più semplice in cui le unità
territoriali sono individuate da una griglia regolare con celle quadrate la prossimità spaziale fra
due celle può essere definita dall’avere uno dei lati in comune (caso della “torre”) o dall’avere
uno dei vertici in comune (caso dell”alfiere”) o almeno uno di entrambi (caso della “regina”):
Rooks Case
Bishops Case
Queen’s (King) Case
Di questi, il modello più semplice e più comunemente usato è il Rooks Case (caso della
torre), e in seguito, ad esso si farà riferimento ove non altrimenti specificato.
153
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Nel caso di unità di forma irregolare (unità amministrative) la contiguità fra due unità può
essere data dall’esistenza di un confine in comune oppure può essere espressa in funzione della
lunghezza di tale confine.
Diverso è il concetto di connessione tra le aree, come misura della distanza fra i baricentri
geografici (o tra i centroidi di popolazione); tale distanza può inoltre essere misurata in linea
d’aria o seguendo le strade di collegamento oppure essere espressa da una funzione che tenga
conto di più elementi insieme, come ad esempio, la funzione
g ij  Dij a Bib( j )
dove Dij è la distanza tra le unità i-esima e j-esima, misurata tra due opportuni punti e Bi(j) è la
proporzione del confine dell’unità i-esima che è anche confine dell’unità j-esima j.
Nel definire la funzione g si potrebbe anche tener conto di elementi di natura non spaziale come
il tempo di percorrenza per recarsi da una unità all’altra. Si può anzi dire che nel contesto del
fenomeno studiato si dovrebbe tener conto di ogni circostanza che si ritenga capace di
interagire con il fenomeno. Pertanto, al primitivo concetto di contiguo si è nel corso del tempo
affiancato il concetto di interconnesso.
La definizione del sistema di interconnessioni è dunque il problema di fondo per affrontare la
misura dell’autocorrelazione. La matrice delle interconnessioni è però soltanto una tra le
possibili scelte del ricercatore, un’ipotesi di lavoro rispetto alla quale assume significato
l’analisi della correlazione. Se infatti dall’analisi non emerge la presenza di autocorrelazione
spaziale vuol dire che il comportamento del fenomeno nelle unità interconnesse non si
differenzia da quello riguardante il complesso delle coppie di unità e questo può indicare sia
assenza di autocorrelazione, sia la non adeguatezza dello schema di interconnessioni introdotte
nel contesto di indagine .
Da ciò consegue l’importanza, nella fase preliminare alla conduzione di una analisi di
autocorrelazione spaziale, della raccolta di tutte le informazioni utili a far luce sulle relazioni
che legano le coppie di unità interconnesse.
154
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Misura dell’autocorrelazione spaziale
In presenza di autocorrelazione spaziale positiva, valori simili della variabile risultano
spazialmente raggruppati, mentre in presenza di autocorrelazione spaziale negativa, risultano
spazialmente raggruppati i valori dissimili della variabile; l’assenza di autocorrelazione
spaziale indica una distribuzione casuale dei valori nello spazio.
Quali intervalli di valori assegnare ai termini “positiva”, “negativa” o “assenza” di
autocorrelazione spaziale è un problema che trova infinite soluzioni.
ESEMPIO
Supponiamo che la variabile sia “caratteristica urbana del territorio”, e che questa variabile
abbia solo due modalità, urbano (U) e rurale (R); vi sono allora 4 possibili tipi di adiacenza:
UU
UR
RU
RR
Ciascuna delle possibili combinazioni ricorre casualmente 0,25 volte, quindi le aree con valori
dissimili compariranno casualmente il 50% delle volte.
Quando i valori reali coincidono con le frequenze attese, la distribuzione è casuale, se invece
UR+RU>50%, significa che prevalgono le coppie dissimili e dunque si è in presenza di
autocorrelazione negativa, viceversa, se UR+RU<50%, significa che prevalgono le coppie
simili e dunque si ha autocorrelazione positiva.
L'autocorrelazione spaziale misura il legame di dipendenza tra le manifestazioni di un
fenomeno e il territorio su cui esso si realizza; in definitiva si parlerà di autocorrelazione
positiva se, trovandosi intensità alta del carattere in una zona, anche le zone contigue
presenteranno alta intensità (lo stesso in caso di bassa intensità), e di autocorrelazione negativa
se ad una bassa intensità del carattere in una zona corrisponderà alta intensità nelle zone
contigue; in caso non si verifichino tali situazioni, si avrà mancanza di autocorrelazione
spaziale.
Gli elementi necessari per il calcolo degli indici di autocorrelazione spaziale sono una misura
della variabilità del fenomeno studiato e una matrice che rappresenti la configurazione del
territorio considerato.
La statistica cross product
Tutti gli indici di autocorrelazione spaziale fanno riferimento ad una statistica cross-product.
  Wij Cij
i
j
Dove Wij è la matrice di connessione (o di contiguità, o di ponderazione spaziale), i cui valori
sono una funzione di una qualche misura di contiguità dei dati originali (ad es. Rooks Case
ecc.).
La Cij invece, è la misura della distanza tra i valori i e j di una certa variabile (distanza euclidea,
di Manhattan ecc.).
La statistica cross product può essere pensata come il modello lineare generale
dell’autocorrelazione spaziale.
155
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Si consideri la seguente mappa delle aree e dei valori una certa variabile.
Aree
Valori
a
b
c
9
6
3
d
e
f
8
5
2
g
h
i
7
4
1
Si determina la matrice Wij delle contiguità (seguendo il modello Rook Case):
Wij
a
b
c
d
e
f
g
h
i
a
0
1
0
1
0
0
0
0
0
b
1
0
1
0
1
0
0
0
0
c
0
1
0
0
0
1
0
0
0
d
1
0
0
0
1
0
1
0
0
e
0
1
0
1
0
1
0
1
0
f
0
0
1
0
1
0
0
0
1
g
0
0
0
1
0
0
0
1
0
h
0
0
0
0
1
0
1
0
1
i
0
0
0
0
0
1
0
1
0
Calcoliamo ora la matrice Cij, che ha le stesse dimensioni della Wij, ma che contiene le
distanze, ad esempio calcolate con il metodo delle distanza euclidea.
Cij  Vi  V j 
2
e osserviamo la matrice prodotto C ijWij (prodotto cella per cella)
156
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
a
b
c
d
e
f
g
h
i
a
0
9
0
1
0
0
0
0
0
b
9
0
9
0
1
0
0
0
0
c
0
9
0
0
0
1
0
0
0
d
1
0
0
0
9
0
1
0
0
e
0
1
0
9
0
9
0
1
0
f
0
0
1
0
9
0
0
0
1
g
0
0
0
1
0
0
0
9
0
h
0
0
0
0
1
0
9
0
9
i
0
0
0
0
0
1
0
9
0
Totale
10
19
10
11
20
11
10
19
10
120
Per ottenere il valore della statistica cross-product si sommano i valori risultanti:
   Wij C ij
i
j
Il valore definitivo della statistica cross-product è dunque 120.
Come interpretare questo risultato?.
Sappiamo che questo risultato è solo uno dei possibili risultati che si otterrebbero
randomizzando le assegnazioni dei valori della variabile nelle 9 aree, possibili risultati che sono
= 9!=362.880.
Il valore ottenuto, 120, dovrebbe quindi essere confrontato con i valori della distribuzione che
si otterrebbe se si producessero tutte le possibili combinazioni dei valori nelle diverse aree.
In generale, per il modello della statistica  non è possibile fare riferimento ad una
distribuzione teorica (come invece accade per i particolari indici di Geary e Moran), proprio
perché si è voluto che la definizione dei parametri di Cij fosse lasciata libera, con la possibilità
di introdurre delle misure della distanza diverse da quella euclidea classica.
157
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
ESEMPIO:
 w1
w
 3
w2 
w4 
1 2
3 4


Riassegniamo i valori casualmente P4=4!=24
1
3
2
4
1
4
2
3
1
2
3
4
1
4
3
2
1
2
4
3
1
3
4
2
2
3
1
4
2
4
1
3
2
1
3
4
2
4
3
1
2
1
4
3
2
3
4
1
3
2
1
4
3
4
1
2
3
1
2
4
3
4
2
1
3
1
4
2
3
2
4
1
4
2
1
3
4
3
1
2
4
1
2
3
4
3
2
1
4
1
3
2
4
2
3
1
Mi chiedo se l’osservazione sia dovuta all’esistenza di una particolare relazione tra le aree
oppure se sia dovuta al caso; per rispondere a questa domanda devo calcolare la statistica scelta
su tutti i casi possibili e verificare se l’osservazione mostra un valore interno o esterno alla
distribuzione dei risultati calcolati su tutti i casi possibili:
Se la statistica è
  V1  V2   V3  V4 
2
2
Ottengo la seguente distribuzione di 
r
f( r)
2
8
10
8
8
8
Il calcolo di  per l’osservazione ( =2) rientra nella distribuzione pertanto non vi è ragione di
affermare che la sua manifestazione sia inusuale; infatti la frequenza con cui compare è uguale
a quella degli altri valori.
158
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Se invece utilizzo la statistica
*  V1  V2   V2  V3   V3  V4 
2
2
2
Ottengo la seguente distribuzione dei valori di 

r*
f(r*)
3
6
9
11
14
17
2
4
6
6
4
2
Il valore calcolato per la situazione osservata è *=3; confrontato con i valori della
distribuzione il valore 3 ha una frequenza molto bassa.
Ne deduco che la distribuzione dei valori sul territorio nel caso in esame è difficilmente
attribuibile al caso.
ESEMPIO
a b 
c d 


9 6
8 5


Cij  Vi  V j 
2
a b c d
a 0 1 1 0
Wij
b 1 0 0 1
c 1 0 0 1
d
0 1 1 0
a b c d
a b c d
Cij
a
0
9 1 16
b
c
9
1
0 4
4 0
1
9
d 16 1 9
0
   WijCij
i
j
a 0 9 1 0 10
b 9 0 0 1 10
c
d
1 0 0 9 10
0 1 9 0 10
40
P4  4! 24

f ( )
40 8
44 8
76 8
159
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Il metodo di Monte Carlo
Nelle situazioni reali, tuttavia, le possibili combinazioni spaziali dei valori sono troppe per
arrivare a produrre l’intera distribuzione delle frequenze associate alla distribuzione dei
risultati, quindi l’unico metodo per verificare se il valore della statistica cross-product risulta
accettabile consiste nel costruire una distribuzione su un certo numero di campioni casuali i
quali, per aumentarne il contenuto descrittivo, vengono cumulati.
Uno dei metodi utilizzati a questo scopo è il metodo di Monte Carlo. Con il Metodo di Monte
Carlo è possibile operare il confronto fra il valore osservato e la distribuzione casuale generata
dal metodo attraverso approssimazioni successive. Il Metodo Monte Carlo fa parte della
famiglia dei metodi statistici non parametrici. È utile per superare i problemi computazionali
legati ai test esatti (ad esempio i metodi basati sulla distribuzione binomiale e calcolo
combinatorio, che per grandi campioni generano un numero di permutazioni eccessivo).
Il metodo è usato per trarre stime attraverso simulazioni. Si basa su un algoritmo che genera
una serie di numeri tra loro incorrelati, che seguono la distribuzione di probabilità che si
suppone abbia il fenomeno da indagare. L'incorrelazione tra i numeri è assicurata da un test chi
quadrato.
La simulazione Monte Carlo calcola una serie di realizzazioni possibili del fenomeno in esame,
con il peso proprio della probabilità di tale evenienza, cercando di esplorare in modo denso
tutto lo spazio dei parametri del fenomeno. Una volta calcolato questo campione
rappresentativo, la simulazione esegue delle 'misure' delle grandezze di interesse su tale
campione. La simulazione Monte Carlo è ben eseguita se il valore medio di queste misure sulle
realizzazioni del sistema converge al valore vero.
Da un altro punto di vista le simulazioni Monte Carlo non sono altro che una tecnica numerica
per calcolare integrali.
Le sue origini risalgono alla metà degli anni 40 all'interno del progetto Metropolis. I
formalizzatori del metodo sono J.Von Neumann e S.Ulam, il nome Monte Carlo fu assegnato in
seguito da N.Metropolis in riferimento al celebre casino.
ESEMPIO:
Si voglia stimare il rendimento mensile di un titolo azionario. Il titolo esiste da cinque anni,
quindi si hanno a disposizione solo 60 rendimenti mensili. Supponiamo che i rendimenti si
distribuiscano seguendo una variabile casuale normale.
Calcoliamo:

Media campionaria

Scarto quadratico medio campionario, su base giornaliera (che poi si adatterà con la
formula della radice quadrata del tempo al periodo mensile.)
Con un modello di regressione lineare cercheremo di stimare la media a un mese.
Successivamente, si andranno a generare attraverso l'algoritmo Monte Carlo una serie di medie
"sperimentali" che saranno ricavate da una distribuzione normale (perché si è ipotizzato che i
rendimenti seguano questa distribuzione) con media pari alla media stimata e scarto quadratico
medio pari allo scarto quadratico medio campionario a un mese.
Una strategia per procedere e stimare la vera media del fenomeno, a questo punto, può essere
quella di ricavare la media generale di tutte le medie sperimentali ottenute. I dati ottenuti
forniscono stime tanto migliori quanto maggiore è il numero delle prove fatte.
160
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Nel caso dell’autocorrelazione spaziale, si opera sostanzialmente nel modo seguente: ci sono n
valori, ci sono n! permutazioni degli stessi; si scelgono casualmente un certo numero di
permutazioni e si calcola la distribuzione di frequenza empirica cumulata, della quale è anche
possibile calcolare il valore atteso e lo scarto quadratico medio. Tale funzione è il termine di
confronto per il valore osservato, nel senso che, in base a tale funzione, è possibile verificare se
esso può essere considerato un evento raro oppure no.
Il metodo di Monte Carlo funziona per qualsiaisi statistica, per alcune statistiche, casi
particolari della forma generica Cross Product (Join-count, Moran, Geary), è invece possibile
fare riferimento ad una distribuzione teorica Normale, sempre che il numero delle unità
geografiche sulle quali viene misurata l’autocorrelazione spaziale risulti abbastanza elevato.
Se conosciamo la media e la varianza siamo dunque in grado di eseguire un test
z
  E  
Var  
Per la statistica generale Cross-Product la media e la varianza hanno le seguenti forme:
E   
S 0 0
nn  1





Var   
S11
S  2S1 2  21  S 02  S1  S 2 02  1  2
2
 2

 E T 
2nn  1
4nn  1n  2
nn  1n  2n  3
dove:
S0   Wij
0   Cij
i j i
i
S1   Wij  W ji   2Wij 
2
2
j i
i
i
j i
S 2   Wi.  W.i    2Wi. 
2
i
1 
j i
1
Cij  C ji   2   Cij 2

2 i j i
i j i
2
i
2   Ci.  C.i    2Ci. 
2
i
2
i
161
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Esempio:
v1
v5
v9
v13
v2
v6
v19
v14
v3
v7
v11
v15
v4
v8
v12
v16
v1
v2
v3
2
3
7
7
3
2
6
8
2
2
8
9
5
6
4
5
Wij
v1
v2
v3
v4
v5
v6
v7
v8
v9
v10
v11
v12
v13
v14
v15
v16
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
v4
0
1
0
1
0
0
1
0
0
0
0
0
0
0
0
0
v5
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
v6
1
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
v7
0
1
0
0
1
0
1
0
0
1
0
0
0
0
0
0
v8
0
0
1
0
0
1
0
1
0
0
1
0
0
0
0
0
v9
0
0
0
1
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
1
0
0
0
v10 v11 v12 v13 v14 v15 v16
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
1
0
1
0
0
1
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
1
0
0
1
0
1
0
0
1
0
0
1
0
1
0
0
1
0
0
1
0
48=S0
Cij
v1
v1
v2
v3
v4
v5
v6
v7
v8
v9
v10
v11
v12
v13
v14
v15
v16
0
0
0
0,1
0
0
0
0,2
0,3
0,2
0,4
0
0,3
0,4
0,5
0,1
v2
0
0
0
0
0
0
0
0,1
0,2
0,1
0,3
0
0,2
0,3
0,4
0
v3
0
0
0
0,1
0
0
0
0,2
0,3
0,2
0,4
0
0,3
0,4
0,5
0,1
v4
0,1
0
0,1
0
0
0,1
0,1
0
0
0
0,1
0
0
0,1
0,2
0
v5
0
0
0
0
0
0
0
0,1
0,2
0,1
0,3
0
0,2
0,3
0,4
0
v6
0
0
0
0,1
0
0
0
0,2
0,3
0,2
0,4
0
0,3
0,4
0,5
0,1
v7
0
0
0
0,1
0
0
0
0,2
0,3
0,2
0,4
0
0,3
0,4
0,5
0,1
v8
0,2
0,1
0,2
0
0,1
0,2
0,2
0
0
0
0
0
0
0
0,1
0
v9
0,3
0,2
0,3
0
0,2
0,3
0,3
0
0
0
0
0,1
0
0
0
0
v10
0,2
0,1
0,2
0
0,1
0,2
0,2
0
0
0
0
0
0
0
0,1
0
v11
0,4
0,3
0,4
0,1
0,3
0,4
0,4
0
0
0
0
0,2
0
0
0
0,1
v12
0
0
0
0
0
0
0
0
0,1
0
0,2
0
0,1
0,2
0,3
0
v13
0,3
0,2
0,3
0
0,2
0,3
0,3
0
0
0
0
0,1
0
0
0
0
v14
0,4
0,3
0,4
0,1
0,3
0,4
0,4
0
0
0
0
0,2
0
0
0
0,1
v15
0,5
0,4
0,5
0,2
0,4
0,5
0,5
0,1
0
0,1
0
0,3
0
0
0
0,2
v16
0,1
0
0,1
0
0
0,1
0,1
0
0
0
0,1
0
0
0,1
0,2
0
2,364583
1,552083
2,364583
0,927083
1,552083
2,364583
2,364583
1,114583
1,635417
1,114583
2,489583
1,072917
1,635417
2,489583
3,677083
0,927083
29,64583
29,64=0
Dove
162
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Cij 

1
Vi  V j
2  S0
2
Perciò:
S0   Wij  48
i j i
Trattandosi di
valori 0,1
0   Cij  29,6458
j i
i
S1 
1
Wij  W ji 2  1  2Wij 2  2Wij2  2Wij  2S 0  96

2 i j i
2 i j i
i j i
i j i
1 
1
Cij  C ji 2  1  2Cij 2  2 Cij 2  15,9510

2 i j i
2 i j i
i j i
S 2   Wi.  W.i    2Wi.   608
2
Poiché la matrice
è simmetrica
2
i
i
2   Ci.  C.i   225,2153
2
i
Allora:
E   
S 0 0
48  29,6458

 5,9292
nn  1
16  15
Var   
S  2S1   2  21 
S11
 2

2nn  1
4nn  1n  2
S

2
0


 S1  S 2  02  1  2
2
 E    1,1877
nn  1n  2n  3
163
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Wij*Cij
v1
v2
v3
v4
v5
v6
v7
v8
v9
v10
v11
v12
v13
v14
v15
v16
v1
0,00
0,01
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
v2
0,01
0,00
0,01
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
v3
0,00
0,01
0,00
0,09
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
v4
0,00
0,00
0,09
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
v5
0,01
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,17
0,00
0,00
0,00
0,00
0,00
0,00
0,00
v6
0,00
0,01
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,17
0,00
0,00
0,00
0,00
0,00
0,00
v7
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,17
0,00
0,00
0,38
0,00
0,00
0,00
0,00
0,00
v8
0,00
0,00
0,00
0,01
0,00
0,00
0,17
0,00
0,00
0,00
0,00
0,04
0,00
0,00
0,00
0,00
v9
0,00
0,00
0,00
0,00
0,17
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
v10
0,00
0,00
0,00
0,00
0,00
0,17
0,00
0,00
0,01
0,00
0,04
0,00
0,00
0,04
0,00
0,00
v11
0,00
0,00
0,00
0,00
0,00
0,00
0,38
0,00
0,00
0,04
0,00
0,17
0,00
0,00
0,01
0,00
v12
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,04
0,00
0,00
0,17
0,00
0,00
0,00
0,00
0,01
v13
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,00
v14
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,04
0,00
0,00
0,01
0,00
0,01
0,00
v15
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,01
0,00
0,17
v16
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,17
0,00
0,02
0,03
0,10
0,10
0,19
0,19
0,54
0,22
0,18
0,26
0,59
0,22
0,01
0,06
0,19
0,18
3,08
  Wij Cij 3,08
i
j
Applichiamo la standardizzazione:
z* 
3,08  5,9292
1,1877
 2,61439
Applichiamo il test sulla Normale a due code:
l’ipotesi nulla H0=non vi è autocorrelazione spaziale, cioè i valori sono distribuiti in modo
casuale.
Poiché al livello di significatività al 95%, i valori limite sono –1,96 e + 1,96, il valore osservato
è nella zona di rifiuto.
Concludiamo che si deve rifiutare l’ipotesi nulla, dunque vi è una significativa autocorrelazione
spaziale che, osservando i dati, è positiva.
Analogamente alla correlazione, diversi coefficienti si devono calcolare a seconda che le
variabili siano misurate su scala nominale, ordinale o di intervallo/rapporto.
Tra i principali indici di autocorrelazione spaziale, gli indici di Moran, Geary e Join-Count,
derivano dalla statistica cross-product.
164
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
JOIN-COUNT (conteggio dei legami)
Se la variabile è misurata su scala nominale, allora una unità areale possiede o non possiede la
caratteristica in questione. La statistica join-count viene appunto usata per variabili dicotomiche
(successo/insuccesso, bianco/nero). Siano allora n1 le unità che posseggono la caratteristica, tali
unità saranno codificate con valore B, le altre (n2) con valore W.
n1  n2  n
P(B) 
n1
n
; P(W )  2
n
n
Supponiamo ora che WW sia il numero di coppie di unità contigue con valore (W,W), BB sia il
numero di coppie di unità contigue (B,B) e, infine, sia BW il numero di coppie di unità
contigue in cui una delle due è B e una è W (B,W)+(W,B).
Ovviamente, la somma
BB+WW+BW=J
è uguale al numero delle connessioni nella partizione del piano.
Se si assume che le estrazioni delle unità sono indipendenti il numero totale di possibili
configurazioni spaziali sul piano è 2n.
Allora:
Jn12
E ( BB )  2 è il numero atteso di coppie BB se il numero di legami complessivi è J
n
2 Jn1 n2
E ( BW ) 
n2
Jn 2
E (WW )  22
n
Questi valori sono derivati dal modello binomiale.
Poiché si estraggono coppie di valori infatti, il modello è
2
n2
n n
n2
 n1 n2 
    12  2 1 2  22
n n n
n
n n
dove il primo termine indica la probabilità di estrarre a caso una coppia di unità areali in modo
tale che entrambe siano codificate con B; questo termine è sia una probabilità che una
percentuale (infatti 12=1). Moltiplicando questa probabilità per il numero totale di coppie J si
ottiene il valore indicato. Analogamente per quanto riguarda E(WW). Per E(BW) si deve tener
conto del fatto che si considerano sia le coppie (B,W) che le coppie (W,B), ecco quindi il
perché del 2.
Se invece ipotizziamo assenza di indipendenza è possibile ottenere questo risultato partendo da
un’altra prospettiva: il numero totale delle possibili configurazioni spaziali è
165
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
n!
n1!n 2 !
la probabilità di estrarre una unità codificata con B alla prima estrazione è
n1
n
rimangono pertanto n1  1 unità con valore B e complessivamente n  1 unità.
n1  1
.
n  1
La probabilità condizionata di estrarre una seconda unità codificata con B è pertanto
Pertanto la probabilità congiunta in una estrazione casuale è
n1 n1  1
, moltiplicando questo
nn  1
valore per J si ottiene il corrispondente valore atteso.
E ( BB )  J
n1 n1  1
nn  1
Analogamente per E(WW).
E ( BW )  2 J
n1 n2
nn  1
La probabilità condizionata di estrarre una seconda unità codificata con W è invece
n2
.
n  1
n1 n2
,
nn  1
moltiplicando questo valore per J si ottiene il corrispondente valore atteso (poiché si
considerano anche i legami WB, tale quantità andrà moltiplicata per 2).
Pertanto la probabilità congiunta in una estrazione casuale del tipo (BW) è
E ( BW )  2 J
n1 n2
nn  1
In definitiva, se le aree con la medesima codifica tendono a presentarsi in coppie contigue,
allora il numero di coppie BW tende a diminuire mentre il numero di coppie BB o di coppie
WW aumenta o entrambe (dipende dai valori di n1 e n2). D’altro canto, se invece tendono a
presentarsi coppie di valori dissimili, allora BW tende a J e BB e WW tendono a 0.
166
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
ESEMPIO
Si consideri una superficie piana che è stata ripartita in 4 unità areali.
Siano n1/n e n2/n, t.c. n1=n2=2, con n1=numero di unità che posseggono una data caratteristica
e n2 = numero di persone che non la posseggono.
In tal caso J = 4, di conseguenza la corrispondente matrice di connessione W sarà
0 1 1 0
1 0 0 1
1 0 0 1
0 1 1 0
con J=(1,1)+(1,0)+(0,0)
Assumendo l’ipotesi di indipendenza delle estrazioni casuali, lo spazio campionario delle
possibili configurazioni spaziali è (24) il seguente:
0
0
0
0
0
0
1
0
0
1
0
0
0
1
1
0
0
0
0
0
A
B
C
D
E
0
0
1
0
1
1
0
1
0
1
1
1
1
0
0
0
0
1
1
0
F
G
H
I
J
1
0
1
1
1
0
0
1
1
1
0
1
0
1
1
1
1
1
1
0
K
L
1
1
1
1
M
N
O
P
Distribuzione
BB
BW
WW
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
0
0
0
0
0
1
1
1
1
0
0
2
2
2
2
4
0
2
2
2
2
2
2
2
2
4
4
2
2
2
2
0
4
2
2
2
2
1
1
1
1
0
0
0
0
0
0
0
167
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
14
BB
12
BW
10
8
6
4
2
0
0
1
2
3
4
Il valore atteso
Jn12
4
E ( BB )  2  4  1  E (WW );
16
n
Jn n
4  2  2 32
E ( BW )  2  12 2  2 

2
16
16
n
Se invece si ipotizza l’assenza di indipendenza, allora lo spazio campionario delle possibili
configurazioni è il seguente:
1
1
0
1
0
0
1
0
1
0
0
0
0
1
1
1
1
0
0
1
Q
0
1
1
0
R
S
T
U
V
Distribuzione
BB
BW
WW
Q
R
S
T
U
V
1
1
1
1
0
0
2
2
2
2
4
4
1
1
1
1
0
0
Il valore atteso
n n  1
2 1 2
E ( BB )  J 1 1
4

nn  1
43 3
E ( BW )  2 J
n1 n2
22 8
8

nn  1
43 3
I risultati più affidabili per questo tipo di statistica si verificano quando n>20 e preferibilmente
n>30; E’ inoltre assai auspicabile che i valori n1 e n2 siano prossimi. Infine, se n2>n1 è
preferibile basare il test su BB , se invece n1>n2 è preferibile considerare WW.
Ipotesi di Normalità
168
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
In generale, al crescere del numero delle osservazioni le precedenti distribuzioni (Binomiale e
ipergeometrica) tendono alla Normale, pertanto è possibile fare riferimento alle seguenti
formule riconducibili alla statistica    Wij C ij :
i
j
Ad esempio, si consideri la variabile codificata nel seguente modo: B,W
I legami tra le aree confinanti saranno dunque del tipo BB, BW, WB, WW.
La statistica Join Count consiste nel confrontare il numero di legami osservati del tipo BB (o
WW) oppure i legami del tipo BW (e WB) con quelli attesi.
Il numero di legami BB risulta = */2
dove
*   Wij C ij
i
j
C ij  ViV j
1 i  j  1 (definizione del modello di contiguità di tipo “rook)”
Wij  
0 altrimenti
analogamente, il numero di legami WW sarà */2
*   Wij C ij
i
j
C ij  1  Vi 1  V j 
1 i  j  1
Wij  
0 altrimenti
Il numero di legami BW risulta = /2
dove
   Wij C ij
i
j
C ij  Vi  V j 
2
1 i  j  1
Wij  
0 altrimenti
169
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Nell’ipotesi di indipendenza delle estrazioni, il numero dei legami attesi
1 n12
S0
2 n2
n n
E ( BW )  S 0 1 2 2
n
1 n2 1
E (WW )  S 0 22  S 0  E ( BB )  E ( BW )
2 n
2
dove:
E ( BB ) 
S 0   wij
i
j i
Inoltre, la varianza è
1  n   n   n 
 n 
Var ( BB )   1  1  1   S1 1  1   S 2  1 
4 n  
n  
n
 n 
2
Var ( BW ) 
S1 
1   n1  n1 
 n1  n1 
 n1  n1  
4 S1  1    S 2  1  1  4 1   
4   n 
n
n 
n  
 n 
 n 
1
wij  w ji 2

2 i j i
S 2   wi.  w.i 
2
i
Con le informazioni a disposizione è possibile applicare il test Z.
170
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
ESEMPIO
V1
V2
1
1
V3
V4
0
0
Si desidera verificare l’esistenza di autocorrelazione spaziale nei dati; si utilizza la statistica
JOIN COUNT per il calcolo del numero di legami “discordi” (del tipo 0,1); il confronto fra il
numero osservato di tali legami e quello atteso informa sulla presenza di autocorrelazione
spaziale (infatti, se la frequenza osservata di legami “discordi” è superiore a quella attesa,
significa che valori dissimili di una stessa variabili tendono a presentarsi in unità contigue,
quindi si è in presenza di autocorrelazione spaziale negativa).
   Wij C ij
i
j
C ij  Vi  V j 
2
1 i  j  1
Wij  
0 altrimenti
Quindi stiamo cercando il numero di legami di tipo (0,1)
Wij
Cij
V1
V2
V3
V4
V1
0
1
1
0
V2
1
0
0
V3
1
0
V4
0
1
WijCij
V1
V2
V3
V4
V1
0
0
1
0
1
1
V2
0
0
0
1
1
0
0
V3
1
0
0
0
1
0
0
V4
0
1
0
0
1
V1
V2
V3
V4
V1
0
0
1
1
1
V2
0
0
1
0
1
V3
1
1
1
0
V4
1
1
4
=4;
pertanto il numero osservato di legami di tipo (0,1) è /2=2.
Poiché
n1=2 ; n=4
S 0   wij
i
j i
=2
E(BW)=2*(2*2)/4=2
Il numero dei legami “discordi” (0,1) osservati è uguale a quello atteso pertanto vi è assenza di
autocorrelazione spaziale.
171
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
ESEMPIO: un approccio grafico all’autocorrelazione con la statistica join-count
Nella mappa dell’ipotetica regione sopra riportata, vi sono 5 aree: quelle con carattere urbano
sono colorate di rosso, quelle rurali sono colorate di giallo.
Un qualsiasi oggetto spaziale composto di un’area e di un confine con altre aree può essere
rappresentato con un grafico di nodi e collegamenti tra nodi.
Quando le aree sono colorate i nodi possono essere anch’essi colorati. La mappa sopra riportata
può essere rappresentata così:
La descrizione dei legami tra i nodi colorati può essere rappresentata semplicemente usando
una matrice di connessione.
I nodi sono allineati (ad esempio) in ordine alfabetico: a ciascun nodo corrisponde un colore, i
colori dietro i numeri corrispondono alle combinazioni, il numero 1 corrisponde ad adiacenza,
il numero 0 corrisponde a non adiacenza.
A
B
C
D
E
A
0
1
1
1
0
B
1
0
1
0
0
C
1
1
0
1
1
D
1
0
1
0
1
E
0
0
1
1
0
172
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
A questo punto possiamo riordinare le celle della tabella in modo tale che siano distinte le zone
urbane da quelle rurali
A
C
B
D
E
A
0
1
1
1
0
C
1
0
1
1
1
B
1
1
0
0
0
D
1
1
0
0
1
E
0
1
0
1
0
Siamo così in grado di vedere dalla matrice quali sono le aree connesse che sono “pure” e quali
le “ibride”.
Infatti, dalla matrice indicata, delle 14 celle in cui vi è connessione, si ricava:
UU = 2
RR = 2
UR = 5
RU = 5
Quindi UR+RU=10>14/2, e dunque l’autocorrelazione è negativa, cioè tendono a raggrupparsi
aree con valori dissimili.
Con riferimento all’esempio precedente:
V1
V2
1
1
V3
V4
0
0
I legami che abbiamo trovato sono questi:
V1
V2
V3
V4
173
Università Degli Studi di Milano - Bicocca
Corso di Popolazione, Territorio e Società 1
A.A. 2013-2014
Appunti a uso interno
Vediamo invece come si può applicare il modello ai dati reali
a
1
b
0
c
1
d
0
e
0
Cij=(Vi-Vj)2
Wij
a
b
c
d
e
a
b
c
d
e
a
b
c
d
e
a
0
1
1
1
0
a
0
1
0
1
1
a
0
1
0
1
0
2
b
1
0
1
0
0
b
1
0
1
0
0
b
1
0
1
0
0
2
c
1
1
0
1
1
c
0
1
0
1
1
c
0
1
0
1
1
3
d
1
0
1
0
1
d
1
0
1
0
0
d
1
0
1
0
0
2
e
0
0
1
1
0
e
1
0
1
0
0
e
0
0
1
0
0
1
10
Invece
Wij
Cij=(Vi*Vj)
a
b
c
d
e
a
b
c
d
e
a
0
1
1
1
0
b
1
0
1
0
c
1
1
0
d
1
0
e
0
0
a
b
c
d
e
a
0
0
1
0
0
a
0
0
1
0
0
1
0
b
0
0
0
0
0
b
0
0
0
0
0
0
1
1
c
1
0
0
0
0
c
1
0
0
0
0
1
1
0
1
d
0
0
0
0
0
d
0
0
0
0
0
0
1
1
0
e
0
0
0
0
0
e
0
0
0
0
0
0
2
Attenzione!
L’approccio grafico conteggia i legami in maniera doppia, infatti ad esempio, in quest’ultimo
caso si tratta del legame di A con C che nell’approccio grafico viene considerato due volte:
(C;A) e (A;C).
174
Università Degli Studi di Milano - Bicocca
Scarica