le serie storiche dei dati meteorologici - Arpae Emilia

LE SERIE STORICHE DEI DATI
METEOROLOGICI
Rodica Tomozeiu
Outline
•Definizione di serie storica
•I problemi nell’analisi delle serie storiche
•Variabilità temporale, spaziale
•Esempio di analisi di serie storiche
Che cosa e’ una serie storica?
Le serie storiche possono essere definite come
un set di dati climatici consecutivi nel tempo,
relativi ad una certa area geografica e ad uno
specifico intervallo di tempo (generalmente
lungo).
su singole serie di dati
Lo studio …
Su un insieme di serie d
dati relative alle stazioni
localizzate in una certa
area
Quali sono i problemi nell’analisi dei
dati?
1. DISTRIBUZIONE SPAZIALE DELLE STAZIONI
SUL TERRITORIO
2. LUNGHEZZA DELLA SERIE TEMPORALE
3. COMPLETEZZA DELLA SERIE TEMPORALE
4. QUALITÀ DEI DATI
5. OMOGENEITÀ DEI DATI
1. DISTRIBUZIONE DELLE STAZIONI
•uniformità
•
densità delle stazioni? …dipende
dal parametro analizzato
Esempio: rete di stazioni giornalieri di temperatura e
precipitazioni in Emilia-Romagna
1719
1707
1744
1797
1837
1808
1783
1747
1778 1754
1777
1828
1773
1750
1756 1810
1753
1748
1713
2207
1885
2221
2288
1993
1942
2281
2283
2282
2338 2350
2337
1985
2276
2301
2327
1937
2349
1921
2346
22602271
2296
23872390
2358
2330
1932 1973 2259
2341
2388
2248
2320
2408
2353
2414
2351
2405
2380
2361
2377
2375
44 stazioni- temperature giornaliere(1956-2000)
62 stazioni –precipitazione giornaliere(1951-2000)
2-3. Lunghezza e completezza delle
serie temporale
•La lunghezza delle serie deve essere adeguata agli scopi
degli studi
•OMM raccomanda di studiare le proprietà statistiche dei
dati meteorologici usando serie temporali di almeno 30 ani:
1901-1930, 1931-1960,1961-1990.
•Completezza =stazioni con più del 80% di dati sono prese in
considerazione (STARDEX project)
4. Qualità dei dati
•Controlli logici
•Controlli climatologici
•Controlli temporali
V.Pavan, R.Tomozeiu,A.Selvini, S.Marchesi, C.Marsigli, 2003.
“Controllo di qualità dei dati giornalieri di temperatura minima e
massima e di precipitazione”,Quaderno
Tecnico ARPA,No.15
precipitazione
(http://www.arpa.emr.it/smr/archivio/downloads/quaderni)
5. OMOGENEITÀ DEI DATI
Una serie temporale di
una variabile si
definisce omogenea se
le sue variazioni sono
dovute unicamente alle
modificazioni del tempo
meteorologico e/o del
clima.
Perché studiare
l’omogeneità dei dati?
• ..per eliminare le
eventuali influenze di
fattori esterni che
possono cambiare
l’analisi dei dati
(spostamento della
stazione,
cambiamento dello
strumento…)
Tipi di errore
Test statistici
- sono strumenti
per decidere se accettare o
rifiutare l’ipotesi formulata.
(Ho -ipotesi nulla, H1 -ipotesi
alternativa)
Classificazione:
• test parametrici - sono quelli
in cui si fa un’ipotesi sulla
distribuzione della popolazione
dei dati.
•test non parametrici - sono
indipendenti dalla distribuzione
della popolazione
I tipo:
tipo rigettare H0 quando è
vera, cioè rigettare tutti quei
valori X tali che hanno una
probabilità cumulata P(x <= X)
> 1-a; a è detto livello di
significatività del test,
e di solito è posto uguale a
0.05 o 0.01.
II tipo:
tipo accettare H0 quando
è falsa; supponendo di
conoscere la distribuzione
alternativa H1,
che non è sempre vero,
significa accettare tutti quei
valori X tali che hanno una
probabilità cumulata
P(x <= X) > b; 1- b è detto
potenza del test.
test di omogeneità -SNHT
Come si verifica ipotesi di omogeneità ???
Una serie è omogenea se il rapporto o la
differenza (Q) tra i valori della serie campione e
quelli
della
serie
di
riferimento
è
approssimativamente costante nel tempo.
Referenze
•Alexandersson H, Moberg A (1997) Homogenization of Swedish temperature
data. Part I: a homogeneity test for linear trends. Int. J. Climatol 17: 25-34
•Hanssen-Bauer I, Forland E, and Nordli PO, (1991) Homogeneity test of
precipitation data, descriptions of the methods used at DNMI’, DNMI Report
13/91 Norwegian Meteorological Institute, pp 28
Criteri di accetazione di una non omogeneità:
Una serie è classificata come non omogenea se almeno uno dei
seguenti criteri è soddisfatto (Hanssen –Bauer,1993):
1)la serie contiene una non omogenità significativa al 95%
2) la seria contiene una non omogenità significativa al 90%,
confermata dal “metadata”
SERIE NONOMOGENEA
SERIE “AGIUSTATA”
T-adjusted data
T-unadjasted data
60
T statistics
T
10
40
20
0
1900
8
6
4
2
0
1920
1940
1960
1980
1900
Years
1915
1930
1945
1960
1975
1990
Years
v
Studio delle serie storichevariabilità, temporale
Cosa guardiamo ad una serie temporale?
•tipo di distribuzione +
(media,mediana, varianza…);
momenti
di
•tendenza (tipo di tendenza+ significatività)
• punti di cambiamento (test di Student…);
•ciclicità (analisi spettrale);
vari
ordine
…
•per stimare la tendenza degli parametri: regressione
lineare - metodo dei minimi quadrati;
•per stimare la significatività delle tendenze: test
statistico non-parametrici (Mann-Kendall test).
Referenze:
Sneyers R (1975) Sur l’analyse statistique des series d’observations. Note
technique OMM, 143: 189 pp
Wilks, S.D., 1995: Statistical Methods in the Atmospheric Sciences, vol. 59,
International Geophysics Series, Academic Press, 467pp.
…analisi della variabilità spaziale
Lo scopo: identificare delle zone con caratteristiche simile
Metodi: analisi cluster;
empirical orthogonal function (EOF)
Referenze
Wilks, S.D., 1995: Statistical Methods in the Atmospheric
Sciences, vol. 59, International Geophysics Series, Academic Press, 467pp
Esempio di analisi della
variabilità temporale e spaziale
Dati:
•temperatura massima giornaliera-estate
• 44 stazioni(Emilia-Romagna) , periodo 1958-2000
Nr Indice
1. 90mo percentile Tmax
2. Onde di calore(HWD)
Trends della Tmax(GLA) in EmiliaRomagna
Distribuzione del coefficiente del trend per Tmax (°C/stagione)
derivati nel periodo 1960-2000
0.04
0.07
0.06
0.1
0.051
0.08
0.01
-0.01
0.03
0.09
0.1
-0.01
0.04
0.05
0.087
0.02
0.044
0.0360.07
0.023
0.049
0.07
0.07
0.07
-0.01
0.122
Il colore rappresenta la significatività del trend (95% rosso
chiaro-99% rosso scuro
Distribuzione 90mo percentile di Tmax estiva (GLA) con il
trend (°C/stagione) associato
Periodo 1958-2000
32.4
33
31.9
32.8
33.7
33.2
27.8
30.7
34
32.9
33.8
34.2
28.8
33.8
25.6
26.8
31.8
29.1
33.1
33.1 30.9
33.2
33.4
32.5
32.1
32.7
32.6
31.1
30.4
28.6
29.4
-0.03
-0.01
0.01
0.03
0.05
0.07
0.09
Le stazioni contrassegnate da un cerchio sono caratterizzate da valori di
tendenza significativi, l’ombreggiatura indica il valore della tendenza e i valori
presso le stazioni indica i valori medi(1960-2000) estivi del indice
Distribuzione del HWD (numero di giorni) con il
trend (giorno/stagione) associato 1958-2000
0.5
0.97
2.6
1.7
1.4
0
2.6
1
0.55
2.1
0.35
2.5
2.6
3.1
0.53
2.2
1.2
1.2
2.7
2
0.91
0.51
1.8
2.9
2.6
0.25
1.5
6.5
4.4
4.5
0.0
0.1
0.2
0.3
0.4
0.5
Giorno/stagione
Cerchio rosso=trend significativo al 95%, l’ombreggiatura
indica il valore della tendenza, i valori presso le stazioni
indica i valori medi(1960-2000) estivi del HWD
Variabilità spaziale –cluster 90mo percentile
Tmax
Cluster 2
1719
2221
2207
1713
2288
2281
1750
2338
1808
1921
1937
2276
2327
2346
2271
1973
2248
2358
2341
2388
2353
2375
Cluster 1
2350
Analisi da sviluppare –analisi spettrale…..
GRAZIE PER LA PAZIENZA
...
Test SNHT - un solo punto di non omogeneità
Z i ∈ N (0,1) i ∈{1,..., n}
• Ipotesi nulla (H0)
• Ipotesi alternativa (H1)
•Statistica del test SNHT
se
 Z i ∈ N ( µ1 ,1) i ∈{1,..., a} 
Z ∈ N ( µ ,1) i ∈{a + 1,..., n}
 i

2
{ }
{
a= anno di non
omogeneità
S
Tmax
= max TaS = max az12 + (n − a ) z 22
1≤ a ≤ n −1
S > T teor
Tmax
max
1≤ a ≤ n −1
Si rigetta l’ipotesi nulla
•Fattore di correzione FA=
q 2 / q1
(P)
FA=
q2 − q1
(T)
q1 = σ Q z1 + Q
dove
La correzione si applica nell’intervallo (1…..a)
q2 = σ Q z 2 + Q
}
TEST di MANN-KENDALL
Ipotesi del test:
H0 - assenza di una tendenza nella serie dei dati
H1 - presenza di una tendenza
Sia x1..........xn una serie di dati.
Per ogni elemento della serie si determina il numero ni di elementi
che lo precedono, ossia tali che xi> xj
t = ∑ ni La funzione di distribuzione di t e asintoticamente normale con media e varianza:
i
E(t)= n(n-1)/4
statistica del test:
e
Var(t) = n(n-1)(2n+5)/72
u( t ) = [t − E ( t )] /
var( t )
se u(t) >1.96 si rigetta l’ipotesi nulla al livello di significatività del 95%
La seria presenta una tendenza positiva