Analisi dei dati direzionali

annuncio pubblicitario
09/07/2012
Analisi di dati vettoriali
Direzioni e orientazioni
• In tal caso, i dati sono misurati in termini di angoli e
spesso sono riferiti al nord geografico (statistica
circolare)
Sono rappresentati su una circonferenza
• Dati di direzione:
flusso in una specifica direzione,
faglie
L’inizio e la fine di una linea sono facilmente
distinguibili
1
09/07/2012
I dati di orientazione sono tipici di quei fenomeni che non presentano un verso particolare (esempio: fratture, scanalature…)
La più semplice rappresentazione per dati direzionali
è rappresentata da punti posti sul
limite di una circonferenza, in alcuni casi
congiunti con una linea al centro
Diagramma a rosa
• La scala (0-360) viene suddivisa in classi.
• Per ogni classe viene rappresentata la
frequenza usando settori di circonferenza
aventi raggio proporzionale alla frequenza.
Istogramma circolare
2
09/07/2012
Esempio: Supponiamo di considerare un campione di direzioni del vento, raccolte in un periodo di 12 ore
45 90 90 45 360 335 360 270 335 270 335 335
in gradi azimuth .
L’istogramma in staview ha la forma:
3
09/07/2012
Per effettuare questo grafico in MATLAB, è necessario trasformare i
dati in radianti
>> wdir = [45 90 90 45 360 335 360 270 335 270 335 335];
>> wdir = wdir * pi/180;
e poi usare la funzione rose del matlab
>> rose(wdir)
90
4
120
60
3
2
150
Sono grafici che hanno gli
stessi problemi che abbiamo
visto per gli istogrammi
30
1
180
0
210
330
240
300
270
90
4
120
60
3
Archi in gradi
2
150
30
1
180
0
210
330
240
300
270
4
09/07/2012
90
4
120
60
3
2
150
30
CON 50 CLASSI
1
180
0
210
CON 20 CLASSI
330
240
300
270
90
4
120
60
3
2
150
Bisogna costruire settori che hanno
area proporzionale alla frequenza
per evitare di mettere in risalto visivamente frequenze maggiori rispetto a frequenze minori.
30
1
180
0
330
210
240
300
270
Per scaricare
lo script
5
09/07/2012
Seguire le istruzioni del file README.
6
09/07/2012
Vengono aperte 3 finestre grafiche.
7
09/07/2012
DIAGRAMMA CIRCOLARE
Analysis of vectorial data:
0
330
30
300
60
90
270
240
120
210
150
180
Analysis of vectorial data:
ROSE DIAGRAM.
0
330
30
10
300
60
5
90
270
240
120
210
150
180
N = 12
Frequencies plotted
R-bar = 0.5870
Vector mean (Theta, deg.) = 357.7
Concentration (Kappa) = 1.35
Altezza delle barre proporzionale alla frequenza, 5 classi.
Ciò può condurre ad una falsa impressione sulla presenza di direzioni
preferenziali laddove i dati sono orientati casualmente.
CI sono vari software ad hoc per la costruzione di questi grafici,
variando i criteri.
8
09/07/2012
Questi problemi “visivi” si risolvono costruendo diagrammi a rosa con
raggi
rf = ru
f
dove
f è la frequenza delle osservazioni in una classe;
rf è il raggio del settore delle classi;
ru è il raggio unitario - o che
rappresenta una osservazione oppure 0.01.
ESEMPIO 2: misure in azimuth di 51 striature glaciali in un’area pari a
35 km^2 nel sud della Finlandia
Dati numerici
Mappa che mostra la locazione
e la direzione dei dati
9
09/07/2012
Rose diagram: ogni dato è rappresentato
da un raggio di lunghezza unitaria.
90
15
120
60
10
150
30
5
Rose diagram prodotto
con il MATLAB.
180
0
330
210
Function: rose
240
300
270
Rose diagram: lunghezza dei petali
proporzionale alla frequenza
Rose diagram: area dei petali
proporzionale alla frequenza
10
09/07/2012
Il peso dei petali può variare:
a) 5°, outer ring 20%;
b) 15°, outer ring 30%;
c) 30°, outer ring 40%;
d) cambio origine 10°.
Grafico realizzato con le altezze
proporzionali alla radice quadrata
della frequenza.
Grafico realizzato con le altezze
GRAFICI REALIZZATI IN MATLAB proporzionali alla frequenza.
11
09/07/2012
Il test di Kuiper
Quando si lavora con dati direzionali, è necessario in primo luogo
stabilire se il campione ha un trend specifico oppure è caotico.
H 0 : il campione casuale proviene da una popolazione con legge uniforme
su [0,360] (distribuzione uniforme azimutale)
Con il file finlandia.xls
1,2
1
0,8
0,6
Dati/360
F.cumul.
0,4
0,2
23
58
85
99
113
117
125
126
128
132
134
144
146
155
163
172
186
0
Il grafico confronta la funzione di ripartizione teorica
della distribuzione uniforme
azimutale con quella empirica
La funzione test calcola la differenza tra lo scostamento massimo positivo e lo scostamento massimo negativo.
Con lo script del MATLAB ….
12
09/07/2012
i
i 1
 x
 x
Vn = max  i −  − min  i −  +
 360 n 
 360 n  n
Massimo scostamento
positivo
Massimo scostamento
negativo
Il valore critico è calcolato come segue:
Vα =
1.75 α = 0.05
dove V * = 
0.24 

2.00 α = 0.01
n
+
0.155
+


n 

V*
Se Vn ≥ Vα ⇒ H 0 va rigettata
Effettuare il test sui dati
del file finlandia.xls
Il test chi-quadrato di uniformità
E’ un test che raggruppa i dati in classi e poi confronta le frequenze osservate nelle classi con le cosiddette frequenze
attese.
E’ possibile costruire le frequenze attese immaginando che la
popolazione da cui proviene il campione sia azimutale uniforme, ma è anche possibile cambiare distribuzione.
Utile anche per valutare la distribuzione di dati sulle mappe.
H 0 : il campione proviene da una popolazione azimutale uniforme
Si assuma di avere un campione casuale di n dati. Questi vengano suddivisi in k classi con
n
n
n
≥5 e
≤k≤
k
15
5
13
09/07/2012
Ad esempio, supponiamo di voler suddividere i dati nel file
finlandia.xls in classi.
Trattandosi di 51 dati, possiamo scegliere k=10.
CLASSI
FREQUENZE
OSSERVATE
FREQUENZE ATTESE
0-36
36-72
72-108
108-144
144-180
180-216
216-252
252-288
288-324
324-360
Per costruire le frequenze attese in Excel
14
09/07/2012
Pertanto la tabella può essere completata come segue:
CLASSI
FREQUENZE
OSSERVATE
FREQUENZE ATTESE
0-36
2
5,1
36-72
3
5,1
72-108
7
5,1
108-144
22
5,1
144-180
13
5,1
180-216
4
5,1
216-252
0
5,1
252-288
0
5,1
288-324
0
5,1
324-360
0
5,1
Se il campione avesse una distribuzione azimutale, in ogni classe dovrebbe cadere lo stesso numero di dati: n/k. (frequenze attese)
La funzione
test è
k
χ =∑
2
i =1
( Oi − Ei )
2
Ei
15
09/07/2012
Il p-value è l’area a destra
della statistica test, che
segue una legge chi-quadrato con gradi di libertà k-1 .
Pertanto
L’ipotesi nulla si rigetta.
Per le mappe…
La distribuzione dei punti su di una mappa può essere convenientemente classificata in tre tipologie: regolare, random e in cluster.
16
09/07/2012
ESEMPIO: Dislocazione di 123 fori di esplorazione trivellati in alto su
alcune rocce in Kansas.
Il numero di fori attesi per sottoarea è 123/12. La tavola riporta le frequenze osservate ed il valore della statistica test.
Per riconoscere una dislocazione random, può tornare utile la distribuzione di Poisson.
ESEMPIO: La figura si riferisce a 168 pozzi dislocati in una certa regione
di 160 mikm^2.
In questo caso per determinare il parametro
della legge di Poisson
168
λ=
= 1.05
160
Questo valore restituisce il numero medio
di pozzi per sottoarea (1mikm^2).
E’ necessario contare quante sottoaree non
contengono pozzi, quante ne contengono
uno, quante ne contengono due e così via.
17
09/07/2012
Numero di pozzi
per sottoarea
Frequenze
osservate
0
70
1
42
2
26
3
17
4
3
5
1
6
1
Per il calcolo delle frequenze attese
è necessario ripartire la taglia del
campione nelle classi, secondo delle
percentuali che tengano conto del
peso della classe in termini probabilistici.
In EXCEL
Ei = npi = nP ( X = i )
Massa di probabilità
Quando i parametri si stimano dal campione, i DF scendono di un intero pari al no.
dei parametri stimati.
18
09/07/2012
Test di Rayleigh per verificare se i dati azimutali hanno una legge
gaussiana circolare – per dati unimodali…
Una variabile aleatoria gaussiana circolare ha densità
f ( x; κ , µ ) = cost × exp (κ ( x − µ ) ) , x ∈ [0, 2π ]
κ concentrazione, µ media
n
n
R = c + s dove c=∑ cos x e s=∑ sin xi°
2
°
i
2
i =1
i =1
α
Queste coordinate sono i vettori direzionali seno e coseno.
19
09/07/2012
n
n
R = c + s dove c=∑ cos x e s=∑ sin xi°
2
°
i
2
i =1
i =1
Se si considera R=R/n, detta
lunghezza media risultante,
si ha R ∈ [ 0,1].
Come la varianza, ma in
senso opposto
R
1 n
1 n
2
2
°
R = = c + s dove c= ∑ cos xi e s= ∑ sin xi°
n
n i =1
n i =1
Con lo script del MATLAB….
Dal QQ plot, si vede che la
legge di Von-Mises
ben si adatta ai dati
20
09/07/2012
H0 : κ = 0

 H1 : κ > 0
Il test usa la statistica:
1 n
1 n
°
R = c + s dove c= ∑ cos xi e s= ∑ sin xi°
n i =1
n i =1
2
2
Il test usa i seguenti valori critici: se n ≥ 15
 R0.10 = 2.35 / n se α =0.10

 R0.05 = 3.00 / n se α =0.05

 R0.01 = 4.61/ n se α =0.01
Per n<15, i valori sono assegnati nella tavola che segue:
n
0.10
0.05
0.01
3
0.86
0.96
1.13
4
0.75
0.84
1.03
5
0.67
0.75
0.94
6
0.62
0.69
0.87
7
0.57
0.64
0.82
8
0.53
0.60
0.77
9
0.50
0.57
0.73
10
0.48
0.54
0.70
11
0.46
0.52
0.67
12
0.44
0.49
0.64
13
0.42
0.48
0.62
14
0.40
0.46
0.60
Esercizio: effettuare il test per i dati nel file finlandia.xls
21
09/07/2012
Con lo
script del
MATLAB….
22
09/07/2012
Considerazioni generali
Risultato test
uniformità
Risultato test di
Rayleigh
Conclusioni
Ho rigettata
Ho rigettata
Normale-circolare
Ho rigettata
Ho accettata
Bimodale o
polimodale
Ho acettata
Ho accettata
uniforme
ESERCIZIO: I dati si riferiscono alle direzioni delle paleocorrenti nell’
unità sabbiosa di Bearraraig, Scozia. Le direzioni non presentano un
trend preferenziale; si vuole però indagare sulla uniformità della distribuzione delle direzioni.
33, 44, 45, 54, 58, 59, 85, 97, 105, 113, 113, 118, 121, 128, 128, 145,
146, 155, 169, 169, 172, 175, 176, 177, 192, 197, 199, 199, 208, 208,
215, 220, 256, 283, 295, 299, 321, 328, 333, 334, 335, 335, 338, 338,
339, 342, 354
23
Scarica