09/07/2012 Analisi di dati vettoriali Direzioni e orientazioni • In tal caso, i dati sono misurati in termini di angoli e spesso sono riferiti al nord geografico (statistica circolare) Sono rappresentati su una circonferenza • Dati di direzione: flusso in una specifica direzione, faglie L’inizio e la fine di una linea sono facilmente distinguibili 1 09/07/2012 I dati di orientazione sono tipici di quei fenomeni che non presentano un verso particolare (esempio: fratture, scanalature…) La più semplice rappresentazione per dati direzionali è rappresentata da punti posti sul limite di una circonferenza, in alcuni casi congiunti con una linea al centro Diagramma a rosa • La scala (0-360) viene suddivisa in classi. • Per ogni classe viene rappresentata la frequenza usando settori di circonferenza aventi raggio proporzionale alla frequenza. Istogramma circolare 2 09/07/2012 Esempio: Supponiamo di considerare un campione di direzioni del vento, raccolte in un periodo di 12 ore 45 90 90 45 360 335 360 270 335 270 335 335 in gradi azimuth . L’istogramma in staview ha la forma: 3 09/07/2012 Per effettuare questo grafico in MATLAB, è necessario trasformare i dati in radianti >> wdir = [45 90 90 45 360 335 360 270 335 270 335 335]; >> wdir = wdir * pi/180; e poi usare la funzione rose del matlab >> rose(wdir) 90 4 120 60 3 2 150 Sono grafici che hanno gli stessi problemi che abbiamo visto per gli istogrammi 30 1 180 0 210 330 240 300 270 90 4 120 60 3 Archi in gradi 2 150 30 1 180 0 210 330 240 300 270 4 09/07/2012 90 4 120 60 3 2 150 30 CON 50 CLASSI 1 180 0 210 CON 20 CLASSI 330 240 300 270 90 4 120 60 3 2 150 Bisogna costruire settori che hanno area proporzionale alla frequenza per evitare di mettere in risalto visivamente frequenze maggiori rispetto a frequenze minori. 30 1 180 0 330 210 240 300 270 Per scaricare lo script 5 09/07/2012 Seguire le istruzioni del file README. 6 09/07/2012 Vengono aperte 3 finestre grafiche. 7 09/07/2012 DIAGRAMMA CIRCOLARE Analysis of vectorial data: 0 330 30 300 60 90 270 240 120 210 150 180 Analysis of vectorial data: ROSE DIAGRAM. 0 330 30 10 300 60 5 90 270 240 120 210 150 180 N = 12 Frequencies plotted R-bar = 0.5870 Vector mean (Theta, deg.) = 357.7 Concentration (Kappa) = 1.35 Altezza delle barre proporzionale alla frequenza, 5 classi. Ciò può condurre ad una falsa impressione sulla presenza di direzioni preferenziali laddove i dati sono orientati casualmente. CI sono vari software ad hoc per la costruzione di questi grafici, variando i criteri. 8 09/07/2012 Questi problemi “visivi” si risolvono costruendo diagrammi a rosa con raggi rf = ru f dove f è la frequenza delle osservazioni in una classe; rf è il raggio del settore delle classi; ru è il raggio unitario - o che rappresenta una osservazione oppure 0.01. ESEMPIO 2: misure in azimuth di 51 striature glaciali in un’area pari a 35 km^2 nel sud della Finlandia Dati numerici Mappa che mostra la locazione e la direzione dei dati 9 09/07/2012 Rose diagram: ogni dato è rappresentato da un raggio di lunghezza unitaria. 90 15 120 60 10 150 30 5 Rose diagram prodotto con il MATLAB. 180 0 330 210 Function: rose 240 300 270 Rose diagram: lunghezza dei petali proporzionale alla frequenza Rose diagram: area dei petali proporzionale alla frequenza 10 09/07/2012 Il peso dei petali può variare: a) 5°, outer ring 20%; b) 15°, outer ring 30%; c) 30°, outer ring 40%; d) cambio origine 10°. Grafico realizzato con le altezze proporzionali alla radice quadrata della frequenza. Grafico realizzato con le altezze GRAFICI REALIZZATI IN MATLAB proporzionali alla frequenza. 11 09/07/2012 Il test di Kuiper Quando si lavora con dati direzionali, è necessario in primo luogo stabilire se il campione ha un trend specifico oppure è caotico. H 0 : il campione casuale proviene da una popolazione con legge uniforme su [0,360] (distribuzione uniforme azimutale) Con il file finlandia.xls 1,2 1 0,8 0,6 Dati/360 F.cumul. 0,4 0,2 23 58 85 99 113 117 125 126 128 132 134 144 146 155 163 172 186 0 Il grafico confronta la funzione di ripartizione teorica della distribuzione uniforme azimutale con quella empirica La funzione test calcola la differenza tra lo scostamento massimo positivo e lo scostamento massimo negativo. Con lo script del MATLAB …. 12 09/07/2012 i i 1 x x Vn = max i − − min i − + 360 n 360 n n Massimo scostamento positivo Massimo scostamento negativo Il valore critico è calcolato come segue: Vα = 1.75 α = 0.05 dove V * = 0.24 2.00 α = 0.01 n + 0.155 + n V* Se Vn ≥ Vα ⇒ H 0 va rigettata Effettuare il test sui dati del file finlandia.xls Il test chi-quadrato di uniformità E’ un test che raggruppa i dati in classi e poi confronta le frequenze osservate nelle classi con le cosiddette frequenze attese. E’ possibile costruire le frequenze attese immaginando che la popolazione da cui proviene il campione sia azimutale uniforme, ma è anche possibile cambiare distribuzione. Utile anche per valutare la distribuzione di dati sulle mappe. H 0 : il campione proviene da una popolazione azimutale uniforme Si assuma di avere un campione casuale di n dati. Questi vengano suddivisi in k classi con n n n ≥5 e ≤k≤ k 15 5 13 09/07/2012 Ad esempio, supponiamo di voler suddividere i dati nel file finlandia.xls in classi. Trattandosi di 51 dati, possiamo scegliere k=10. CLASSI FREQUENZE OSSERVATE FREQUENZE ATTESE 0-36 36-72 72-108 108-144 144-180 180-216 216-252 252-288 288-324 324-360 Per costruire le frequenze attese in Excel 14 09/07/2012 Pertanto la tabella può essere completata come segue: CLASSI FREQUENZE OSSERVATE FREQUENZE ATTESE 0-36 2 5,1 36-72 3 5,1 72-108 7 5,1 108-144 22 5,1 144-180 13 5,1 180-216 4 5,1 216-252 0 5,1 252-288 0 5,1 288-324 0 5,1 324-360 0 5,1 Se il campione avesse una distribuzione azimutale, in ogni classe dovrebbe cadere lo stesso numero di dati: n/k. (frequenze attese) La funzione test è k χ =∑ 2 i =1 ( Oi − Ei ) 2 Ei 15 09/07/2012 Il p-value è l’area a destra della statistica test, che segue una legge chi-quadrato con gradi di libertà k-1 . Pertanto L’ipotesi nulla si rigetta. Per le mappe… La distribuzione dei punti su di una mappa può essere convenientemente classificata in tre tipologie: regolare, random e in cluster. 16 09/07/2012 ESEMPIO: Dislocazione di 123 fori di esplorazione trivellati in alto su alcune rocce in Kansas. Il numero di fori attesi per sottoarea è 123/12. La tavola riporta le frequenze osservate ed il valore della statistica test. Per riconoscere una dislocazione random, può tornare utile la distribuzione di Poisson. ESEMPIO: La figura si riferisce a 168 pozzi dislocati in una certa regione di 160 mikm^2. In questo caso per determinare il parametro della legge di Poisson 168 λ= = 1.05 160 Questo valore restituisce il numero medio di pozzi per sottoarea (1mikm^2). E’ necessario contare quante sottoaree non contengono pozzi, quante ne contengono uno, quante ne contengono due e così via. 17 09/07/2012 Numero di pozzi per sottoarea Frequenze osservate 0 70 1 42 2 26 3 17 4 3 5 1 6 1 Per il calcolo delle frequenze attese è necessario ripartire la taglia del campione nelle classi, secondo delle percentuali che tengano conto del peso della classe in termini probabilistici. In EXCEL Ei = npi = nP ( X = i ) Massa di probabilità Quando i parametri si stimano dal campione, i DF scendono di un intero pari al no. dei parametri stimati. 18 09/07/2012 Test di Rayleigh per verificare se i dati azimutali hanno una legge gaussiana circolare – per dati unimodali… Una variabile aleatoria gaussiana circolare ha densità f ( x; κ , µ ) = cost × exp (κ ( x − µ ) ) , x ∈ [0, 2π ] κ concentrazione, µ media n n R = c + s dove c=∑ cos x e s=∑ sin xi° 2 ° i 2 i =1 i =1 α Queste coordinate sono i vettori direzionali seno e coseno. 19 09/07/2012 n n R = c + s dove c=∑ cos x e s=∑ sin xi° 2 ° i 2 i =1 i =1 Se si considera R=R/n, detta lunghezza media risultante, si ha R ∈ [ 0,1]. Come la varianza, ma in senso opposto R 1 n 1 n 2 2 ° R = = c + s dove c= ∑ cos xi e s= ∑ sin xi° n n i =1 n i =1 Con lo script del MATLAB…. Dal QQ plot, si vede che la legge di Von-Mises ben si adatta ai dati 20 09/07/2012 H0 : κ = 0 H1 : κ > 0 Il test usa la statistica: 1 n 1 n ° R = c + s dove c= ∑ cos xi e s= ∑ sin xi° n i =1 n i =1 2 2 Il test usa i seguenti valori critici: se n ≥ 15 R0.10 = 2.35 / n se α =0.10 R0.05 = 3.00 / n se α =0.05 R0.01 = 4.61/ n se α =0.01 Per n<15, i valori sono assegnati nella tavola che segue: n 0.10 0.05 0.01 3 0.86 0.96 1.13 4 0.75 0.84 1.03 5 0.67 0.75 0.94 6 0.62 0.69 0.87 7 0.57 0.64 0.82 8 0.53 0.60 0.77 9 0.50 0.57 0.73 10 0.48 0.54 0.70 11 0.46 0.52 0.67 12 0.44 0.49 0.64 13 0.42 0.48 0.62 14 0.40 0.46 0.60 Esercizio: effettuare il test per i dati nel file finlandia.xls 21 09/07/2012 Con lo script del MATLAB…. 22 09/07/2012 Considerazioni generali Risultato test uniformità Risultato test di Rayleigh Conclusioni Ho rigettata Ho rigettata Normale-circolare Ho rigettata Ho accettata Bimodale o polimodale Ho acettata Ho accettata uniforme ESERCIZIO: I dati si riferiscono alle direzioni delle paleocorrenti nell’ unità sabbiosa di Bearraraig, Scozia. Le direzioni non presentano un trend preferenziale; si vuole però indagare sulla uniformità della distribuzione delle direzioni. 33, 44, 45, 54, 58, 59, 85, 97, 105, 113, 113, 118, 121, 128, 128, 145, 146, 155, 169, 169, 172, 175, 176, 177, 192, 197, 199, 199, 208, 208, 215, 220, 256, 283, 295, 299, 321, 328, 333, 334, 335, 335, 338, 338, 339, 342, 354 23