Modelli stocastici e analisi dei segnali Analisi dei modelli

Programma Operativo Nazionale “Ricerca e Competitività 2007-2013”
Regioni Convergenza
ASSE I Sostegno ai mutamenti strutturali
Azione Interventi di sostegno della ricerca industriale
Progetto di Ricerca Sistemi integrati per il monitoraggio, l’early warning e la mitigazione del rischio idrogeologico lungo le grandi vie di comunicazione
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico
Progetto di Ricerca “Sistemi integrati per il monitoraggio, l’early warning e la mitigazione del rischio
idrogeologico lungo le grandi vie di comunicazione
Modelli stocastici e analisi dei segnali
Analisi dei modelli
dott. ing. Vincenzo Marco Nicolosi
Università degli Studi di Catania
Programma Operativo Nazionale “Ricerca e Competitività 2007-2013”
Luglio, 2013
Pianificazione del modulo
Data
16/07/2013
Orario
14:00-17:00
9:00-13:00
n. Ore
3
4
Contenuti
Titolo
Teoria
Analisi dei modelli e
software
Esercitazione 1
Determinazione delle
curve capacità-domandaaffidabilità tramite
simulazione Montecarlo
Esercitazione 2
Stima del tempo di ritorno
della mobilizzazione di un
versante mediante
simulazione Montecarlo e
modello FLaIR
17/07/2013
14:00-17:00
3
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Contenuti del modulo teorico (non in ordine cronologico!!!)
•
•
•
•
•
•
•
•
•
Introduzione alle serie temporali e ai processi stocastici
Strumenti di analisi delle serie temporali
Trasformazione di serie temporali
Principali modelli di serie temporali
Modelli di disaggregazione
Generazione di random input
Costruzione di modelli stocastici
Software per l’analisi e la generazione di serie temporali sintetiche
Simulazione Montecarlo
Per rompere gli schemi… iniziamo dalla fine!
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Simulazione Montecarlo
Al fine di meglio comprendere l'utilità di uno strumento
matematico in grado di generare serie temporali sintetiche
di una variabile (precipitazioni, deflussi superficiali,…) può
essere opportuno introdurre un esempio di applicazione di
simulazione Montecarlo
Tecnica che consente di derivare la distribuzione di
probabilità di un output di un sistema generico sulla base
della distribuzioni di probabilità degli input
• Tre fasi
– Identificazione e caratterizzazione degli input
– Definizione della trasformazione input-output (simulazione)
– Analisi degli output
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
A che cosa possono servire i modelli di generazione?
Si consideri il problema della determinazione della capacità
da assegnare ad un serbatoio di regolazione
1. assegnata una serie di deflussi
2. fissato il livello di domanda
sono disponibili numerose tecniche che consentono di
determinare la capacità del serbatoio affinché, con
riferimento alla serie di deflussi assegnata, la domanda risulti
sempre soddisfatta. Deflussi [I ]
Evaporazione [E ]
t
t
Sfiori [Sft]
Volume invasato [St]
Erogazioni
[Rt]
Perdite [Pt]
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Simulazione Montecarlo
Il problema riguarda la determinazione della capacità da
assegnare affinché nel futuro sia soddisfatta una certa
domanda, ma, ovviamente, in questo caso la serie di deflussi
non è nota.
Tradizionalmente si è
ipotizzato che la capacità
necessaria con riferimento
alle serie future, sia uguale
a quella determinata sulla
base delle serie passate.
Lago di Campotosto (AQ) 1380 m l.m.m. Estate…
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Simulazione Montecarlo
In mancanza di altre informazioni si ipotizza cioè che la serie
che si presenterà nel futuro, pur non coincidendo
perfettamente con quella passata, abbia caratteristiche tali
richiedere lo stesso valore di capacità.
Lago di Campotosto (AQ)
1380 m l.m.m.
inverno…
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Simulazione Montecarlo
L'ipotesi che la serie futura si presenti con caratteristiche tali
da determinare la stessa capacità rispetto a quella storica, è
ovviamente, soltanto un artificio che consente di risolvere il
problema.
Domanda
Futuro =Serie storica
Algoritmo per il
dimensionamento
INPUT
MODELLO
Capacità
OUTPUT
Da un punto di vista formale, la capacità da assegnare può
essere vista come l'output di un algoritmo per il
dimensionamento soggetto ad un input di tipo stocastico
(casuale), e più precisamente la serie di deflussi.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Simulazione Montecarlo (esempio…)
Conseguentemente, è da attendersi che al variare dell'input
(le serie di deflussi), vari anche l'output (la capacità da
assegnare), e che quindi la capacità abbia essa stessa un
carattere casuale.
Se da un lato non è possibile conoscere con esattezza il
valore della capacità da assegnare per soddisfare la
domanda nel futuro (in quanto casuale), si può pensare che
essa sia distribuita secondo una certa legge, la cui conoscenza
consente, se non di risolvere il problema in maniera esatta,
almeno da un punto di vista probabilistico.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Previsione del futuro…
Se si dispone di uno strumento in grado di generare
numerose serie sintetiche dei deflussi, ciascuna delle
quali può essere vista come una realizzazione del
processo stocastico che
sottintende i deflussi,
allora è pensabile che ciascuna
serie generata rappresenti una
delle possibili serie che possono
verificarsi nel futuro.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Popolazione di variabili…
Determinando quindi diverse capacità in corrispondenza a
diverse serie di deflussi in ingresso le capacità risultanti
possono essere considerate come estratte dalla popolazione
di tutte le capacità necessarie, e quindi, attraverso una
analisi di frequenza, ovvero inferenziale, è possibile definire la
relativa distribuzione di probabilità.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Simulazione Montecarlo (esempio…)
•Fissato quindi un valore di capacità…
•È possibile calcolare la probabilità che nel futuro la serie
che effettivamente si verificherà sia tale da richiedere una
capacità maggiore di quella fissata, ovvero che la capacità
fissata risulti insufficiente.
In altre parole, attraverso la conoscenza della distribuzione di
probabilità della capacità, è possibile effettuare una
dimensionamento sulla base della probabilità che la
capacità fissata sia o non sia sufficiente a soddisfare la
domanda assegnata, e quindi prendere una decisione basata
sul…
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Esempio di simulazione Monte Carlo per il dimensionamento
di un serbatoio
Serie storica
domanda
Futuro =Serie storica
Algoritmo per il
dimensionamento
Modello di
generazione
Serie generata 1
domanda
Algoritmo per il
dimensionamento
Serie generata 2
capacità
Capacità 1
Distribuzione di
probabilità delle
capacità
domanda
1
0.8
Algoritmo per il
dimensionamento
Capacità 2
0.6
0.4
0.2
0
0
Serie generata N
250
500
750
1000
1250
domanda
Algoritmo per il
dimensionamento
Capacità N
Capacità
corrispondente
ad una prefissata
probabilità di non
superamento
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Caratteristiche di una serie temporale
Si evince che, affinché i risultati della tecnica Montecarlo
possano essere considerati validi, occorre disporre di uno
strumento per la generazione dell’input al sistema al sistema
in esame (ovvero della variabile in ingresso), che sia in grado
di riprodurre alcune (o tutte) le caratteristiche stocastiche
della serie osservata.
Soltanto così infatti, le serie generate possono essere pensate
come realizzazioni estratte dalla stessa popolazione da cui
proviene la serie osservata, e da cui, a meno di non
stazionarietà, proverrà la serie futura.
Universo
delle possibili
serie future
Unica realizzazione
nel “nostro” futuro
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Serie temporali
Le serie storiche (o serie temporali) si riferiscono alla possibilità
di considerare un fenomeno in relazione alla sua evoluzione
nel tempo.
Definizioni:
– la serie storica è una collezione di numeri reali, ordinati secondo la variabile
tempo, la quale costituisce una parte finita di una realizzazione di un processo
stocastico.
– per processo stocastico, a parametro discreto, si intende una successione di
variabili casuali la cui completa conoscenza è assicurata solo dalla conoscenza
della famiglia delle ripartizioni finite.
Annual Series (original)
350
300
Flow
– un modello stocastico
costituisce una
parametrizzazione di un
processo stocastico in termini di
una funzione esplicita di
parametri noti.
250
200
Un modello può essere stimato a
partire dai dati, ovvero dalla serie
storica osservata
150
1930
1935
1940
1945
1950
1955
1960
1965
1970
Year
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Categorie di serie temporali
Alcune possibili categorie di serie temporali, riferibili ad altrettante
categorie di processi stocastici sono le seguenti:
– processi a fenomeno discreto ed a parametro discreto
(n. di frane in un versante in un anno)
– processi a fenomeno discreto ed a parametro continuo
(lampi durante un temporale registrati da un sensore
fotosensibile)
– processi a fenomeno continuo ed a parametro discreto
(portate giornaliere in un corso d’acqua)
– processi a fenomeno continuo ed a parametro continuo
(elettroencefalogramma)
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Caratterizzazione probabilistica degli input
• Viene generalmente effettuata adattando alla serie
temporale degli input un modello stocastico in grado di
generare serie sintetiche che conservano alcune
caratteristiche della serie originale
• Diversi modelli possono essere applicati a seconda delle
caratteristiche delle serie da simulare
– Modelli autoregressivi
•
•
•
•
Univariati
Multivariati
Stazionari
Stagionali
– Modelli di disaggregazione
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Memoria delle serie naturali…
– Una caratteristica molto importante che si osserva in molte
serie naturali, è la dipendenza temporale
– I valori osservati presentano una certa dipendenza statistica
da quelli che li hanno preceduti
– Tale dipendenza temporale dei processi, spesso trova
giustificazione nei meccanismi fisici di accumulo, che
introducono quindi una sorta di “memoria”
– Nell'analisi delle serie temporali,
generalmente viene analizzata una
dipendenza di tipo lineare, attraverso
l'utilizzo del coefficiente di correlazione
di Pearson.
– Poiché però in questo caso, la
correlazione cercata è tra gli stessi
valori della serie, opportunamente
traslati nel tempo, si utilizza il termine
autocorrelazione.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Caratteristiche delle serie temporali
Autocorrelazione e Correlazione incrociata
•
•
•
•
•
•
Correlazione
incrociata
Autocorrelazione
Singole, multiple
Correlate, non correlate
Intermittenti
Stazionarie
Non stazionarie
Periodiche
Autocorrelazione
n
∑(x − x)(x
rk =
t −k
t
t =k +1
n −k
∑(xt − x)
t =1
− x)
n
2
2
(
x
−
x
)
∑ t −k
t =k
Correlazione incrociata
n
rkx, y =
∑( x − x )( y
t =k
n−k
− y)
t −k
t
n
∑( x − x ) ∑( y
2
t
t −k
− y )2
t =1
t =k
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Autocorrelogrammi
Africani
LONG MEMORY
INTERMEDIATE MEMORY
SHORT MEMORY
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Esempi di correlogrammi
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Periodicità
Molte serie naturali presentano una forte componente
periodica quando sono aggregate ad una scala inferiore
all'anno, generalmente causata dalla presenza del ciclo
solare.
In figura è riportata la serie mensile dei deflussi del F. Salso a
Pozzillo, nel periodo 1959-2000 da cui si evince una marcata
periodicità, con deflussi elevati durante i mesi invernali, e
deflussi ridotti nei mesi estivi.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modelli di generazione
Consentono di generare numericamente serie casuali a
partire da serie osservate
• Le serie generate dovrebbero conservare in media
esplicitamente o implicitamente alcune caratteristiche delle
serie originali, quali ad esempio:
–
–
–
–
–
–
Media
Scarto quadratico medio
Autocorrelazione (dipendenza nel tempo)
Correlazione incrociata (dipendenza nello spazio)
Caratteristiche di siccità
Etc..
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Verifica e validazione di un modello di generazione
Serie storica
Distribuzione di
probabilità di una
statistica/proprietà
Calcolo delle principali
statistiche/proprietà
Modello di
generazione
Serie generata 1
1
0.8
Calcolo delle principali
statistiche/proprietà
0.6
Valore 1
0.4
0.2
0
0
Serie generata 2
Calcolo delle principali
statistiche/proprietà
Valore 2
Calcolo delle principali
statistiche/proprietà
Valore N
250
500
750
1000
Statistica
corrispondente ad
una prefissata
probabilità di non
superamento
Serie generata N
Confronto con il
valore osservato
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
1250
Modelli autoregressivi
• Sono basati su una combinazione lineare dei valori della
variabile in intervalli precedenti e di una componente
casuale (rumore)
• I valori della variabile in intervalli precedenti tengono conto
della "memoria" del processo mentre il rumore introduce
una variabilità casuale
Esempio: ARMA(p,q)
p
q
i =1
j =1
yt = µ + ∑φi ( yt −i − µ) − ∑θ jε t − j + ε t
Modello semplice AR(1)
yt = µ + φ1( yt −1 − µ ) + εt
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modello AR(1): stima dei parametri
yt = µ + φ1( yt −1 − µ ) + εt
yt
valore della variabile al tempo t
εt
processo rumore bianco, non autocorrelato, non correlato con yt
µ
avente media=0 e s.q.m.=
σ ε = σ (1 − φ 2 )
Parametro 1 = media della variabile
1 n
y = ∑ yt
n t =1
n
φ
Parametro 2 = coefficiente di
autocorrelazione a lag 1
φ=
∑( y − y)( y
t =2
n−1
∑( yt − y)
t =1
t −1
t
− y)
n
2
2
(
y
−
y
)
∑ t −1
t =2
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Autocorrelogramma di un processo AR(k)
se per un processo AR(1) il parametro
per un processo a lag k AR(k) il parametro
Cov[ yt , yt −1 ]
φ = ρ (1) =
Var[ yt ]
φ k = ρ (k )
quindi
l’autocorrelogramma
di un processo AR(1)
presenta un
decadimento
esponenziale al
crescere del lag k
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modelli autoregressivi stagionali
• Consentono di tenere conto di una variabilità periodica (ad esempio
dati mensili)
• Modello PARMA(p,q) Periodic AutoRegressive
p
q
i =1
j =1
periodo
τ , (τ = 1,...,ω )
yν ,τ = µτ + ∑φi,τ ( yν ,τ −i − µτ ) − ∑θ j ,τ εν ,τ − j + εν ,τ
anno
µτ
φτ
ν
parametri che si ripetono con periodicità
ω
Ovviamente è possibile stimare i momenti di vario ordine e ottenere i
parametri del modello…
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modelli multivariati
• Consentono di generare contemporaneamente più variabili collegate
tra loro.
• Esempio:
– Precipitazioni in una regione
– Deflussi in diverse stazioni dello stesso corso d'acqua e/o di bacini
vicini
• Particolarmente utili per l'analisi di sistemi complessi con più fonti di
approvvigionamento
i
j
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modelli di disaggregazione
• A volte è più semplice generare il valore aggregato di una
variabile tramite modelli autoregressivi
• Esempio
– Precipitazione media su una regione
– Deflusso annuo
• I modelli di disaggregazione consentono di ripartire (nel
tempo e/o nello spazio) il valore aggregato di una variabile
• Particolarmente utili nel caso di analisi a diverse scale
temporali e/o spaziali
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Esempio di disaggregazione
Valore mese 1
Valore annuo
Valore mese 2
X
Valore mese 3
Valore mese 11
Valore mese 12
Valori trimestrali
Valore mese 1
Valore mese 2
Valore annuo
X
Valore mese 12
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Adattamento di un modello stocastico ad una serie osservata
La scelta e l'adattamento di un modello stocastico ad una serie di dati
costituisce un delicato problema decisionale, in quanto da essi dipende
la capacità del modello di riprodurre il carattere stocastico di una serie
osservata.
In termini generali possiamo distinguere le seguenti fasi, tra di loro
fortemente interconnesse:
• Analisi preliminare della serie
osservata
• Identificazione del modello(i) più
appropriato per la serie in esame
e per il problema da affrontare
• Stima dei parametri
• Verifica del modello
• Validazione del modello
4
3
2
1
0
-1
-2
-3
-4
0
100
200
300
400
500
600
700
800
900
1000
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Analisi preliminare della serie osservata
•
L'analisi preliminare della serie osservata ha l'obiettivo
principale di calcolare tutte le statistiche che possono
essere utili ai fini delle fasi successive.
•
Oltre al calcolo delle statistiche principali (media,
varianza, coefficienti di autocorrelazione), è opportuno
effettuare anche alcune verifiche, volte ad accertare, tra
l'altro, se la serie possa considerarsi distribuita secondo
una distribuzione normale. L'ipotesi di normalità per la
serie è necessaria in quanto in questo caso è garantita la
stazionarietà in senso stretto del modello.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Analisi preliminare della serie osservata
• Media aritmetica:
1 n
x = ∑ xt
n t =1
• Mediana: valore che non viene superato nel 50%
dei casi
– Ordinati i dati in ordine crescente, valore
corrispondente al valore centrale se N è dispari,
alla media dei due valori centrali se N è pari
• Moda: valore che si presenta con maggiore
frequenza
– Se la variabile è continua può essere calcolata
come la media degli estremi della classe cui
corrisponde la massima frequenza assoluta o
relativa
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Analisi preliminare della serie osservata – Indici di dispersione
Misurano la dispersione dei dati attorno ai valori centrali:
•
Ampiezza del campione o range:
– Indica la variabilità totale dei dati, cioè
gli estremi dell’intervallo di valori che la
variabile assume
•
Scarto assoluto medio:
– Indica lo scostamento medio (in valore
assoluto) dalla media aritmetica
•
Varianza campionaria:
– Indica la dispersione attorno alla media
•
1 n
D = ∑ xt − x
n t =1
1 n
2
S =
∑ (xt − x )
n − 1 t =1
2
Scarto quadratico medio:
– E’ l’operatore di dispersione per eccellenza
e misura la dispersione attorno alla media
(stesse dimensioni)
•
R = xmax − xmin
Coefficiente di variazione:
– Coefficiente adimensionale di dispersione
1 n
2
S=
∑ (xt − x )
n − 1 t =1
S
Cv =
x
Analisi preliminare della serie osservata
Oltre al calcolo delle statistiche principali (media, varianza, coefficienti di
autocorrelazione), è opportuno effettuare anche alcune verifiche, volte ad
accertare, tra l'altro, se la serie possa considerarsi distribuita secondo una
distribuzione normale.
L'ipotesi di normalità per la serie è necessaria in quanto in questo caso è
garantita la stazionarietà in senso stretto del modello.
La verifica di normalità può essere condotta attraverso uno dei numerosi test
disponibili in letteratura basati sulla distribuzione empirica (KolmogorovSmirnov, c2, etc.), ovvero attraverso test basati sul calcolo di semplici
statistiche.
Tra questi ultimi, è di particolare utilità quello basato sul coefficiente di
asimmetria. E' noto infatti che la distribuzione normale ha asimmetria
nulla, e pertanto è lecito attendersi che se una serie
è distribuita normalmente,
il suo coefficiente di asimmetria sarà nullo.
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Analisi preliminare della serie osservata
Qualora il coefficiente di asimmetria della serie risulti significativamente
diverso da zero (ovvero un altro test rigetti l'ipotesi di normalità per i
dati), occorre procedere ad una trasformazione normalizzante dei
dati.
La scelta della trasformata più appropriata, viene generalmente
condotta per tentativi, scegliendo quella che restituisce valori cui
corrisponde il minimo valore del coefficiente di asimmetria.
La sequenza di operazione potrebbe dunque essere:
1. Trasformazione dati originali
2. Adattamento del modello nel dominio trasformato
3. Generazione di serie sintetiche
4. Ri-trasformazione nel dominio originale, attraverso l'inversa della
particolare espressione utilizzata.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Identificazione del modello
La fase di identificazione consiste nel definire, sulla base delle
caratteristiche osservate sulla serie storica, la tipologia o le
tipologie di modelli più appropriata.
Ad esempio, con riferimento ad una serie stazionaria, volendo
utilizzare un modello della classe ARMA, il problema
dell'identificazione è ricondotto alla scelta dell'ordine p e q
rispettivamente delle componenti autoregressive e media
mobile.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Identificazione del modello
Generalmente quindi si preferisce scegliere più modelli, che, una volta
stimati i parametri, possono essere confrontati sulla base di statistiche
oggettive, quali:
1. Akaike Information Criterion Corrected (AICC)
2. Schwarz Information Criterion (SIC)
Hirotugu Akaike, 1971
Jabba the Hutt, Star Wars 1983
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Identificazione del modello
In generale, il punto di partenza per l'identificazione del modello è
rappresentato dall'autocorrelogramma osservato.
A tal fine, una volta calcolati i coefficienti di autocorrelazione per alcuni
lag (generalmente una decina), per prima cosa occorre verificare
per quanti e quali lag, tali coefficienti risultano significativamente diversi
da zero.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Identificazione del modello
Per verificare “quanto significativamente” diversi da zero siano i valori di
autocorrelazione ai diversi lag si possono calcolare i limiti di
Anderson:
− 1 ± uβ n − k − 1
~
ρk =
n−k
Dove ub è il quantile di una variabile normale standardizzata
corrispondente ad una probabilità di non superamento b
n è il numero di dati e k il numero di parametri del modello (per un
modello ARMA(p,q) k=p+q)
ACF Annual Series (original)
1
Valori del coefficiente di
autocorrelazione esterni ai predetti
limiti devono essere considerati
significativamente diversi da zero.
ACF
0.5
0
-0.5
-1
0
3
6
9
12
15
LAG
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Identificazione del modello
Dalla forma dell'autocorrelogramma, tenendo conto dei coefficienti
non significativi, si può effettuare una identificazione preliminare.
Al fine dell'identificazione dell'ordine p della componente
autoregressiva, se i primi valori dei coefficienti di autocorrelazione
seguono un decadimento esponenziale, allora si può ipotizzare che il
modello appropriato sia un AR(1).
Se invece l'autocorrelogramma si presenta come una combinazione di
un decadimento esponenziale e di un andamento sinusoidale
smorzato, allora un modello autoregressivo di ordine superiore
potrebbe essere appropriato.
In questo caso, al fine di identificare l'ordine p, può essere di aiuto
ricorrere alla cosidetta Partial AutoCorrelation Function (funzione di
autocorrelazione parziale) che, per un processo AR(p), ha la proprietà
di annullarsi per lag k>p.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Identificazione del modello – alcune indicazioni
Sulla base della forma dell'autocorrelogramma, si possono dare le seguenti
indicazioni sul modello più appropriato:
1. Decadimento esponenziale a zero: modello autoregressivo AR(p).
Utilizzare la funzione di autocorrelazione parziale per identificare l'ordine
p.
2. Andamento alternato positivo/negativo, con decadimento a zero:
Modello autoregressivo ARMA(p,0). Utilizzare la funzione di
autocorrelazione parziale per identificare l'ordine p.
3. Uno o più valori diversi da zero, ed il resto essenzialmente uguale a zero:
Modello a media mobile ARMA(0,q). L'ordine q è dato in corrispondenza
del primo valore nullo.
4. Decadimento esponenziale, solo dopo alcuni lag: Modello ARMA(p,q).
5. Valori nulli o pressocché nulli: La serie è puramente casuale.
6. Valori elevati che si presentano periodicamente: Utilizzare un modello
periodico.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Identificazione del modello – modelli ARMA
Le precedenti indicazioni suggeriscono le modalità di individuazione
(ARMA(p,0)) ovvero
degli ordini p e q dei modelli autoregressivi
a media mobile
(ARMA(0,q)).
Per contro, l'individuazione degli ordini di un modello
ARMA(p,q)
non è così semplice.
In pratica, una volta individuato che il modello appartiene a questa
classe, si preferisce selezionare diverse coppie di valori (p,q) e
confrontare i modelli risultanti, una volta effettuata la stima dei
parametri, sulla base di alcune statistiche.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri
La stima dei parametri consiste nella
determinazione dei valori da attribuire ai
parametri del modello affinché, sulla base di
un prefissato criterio,
criterio, esso si adatti "al
meglio" alla serie di dati osservata.
Al variare del criterio adottato, quindi, si
otterranno diverse equazioni (dette
stimatori) che restituiscono i valori dei
parametri (dette stime) sulla base di alcune
caratteristiche della serie osservata
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri – criteri di stima
Tra i possibili criteri, forse il più utilizzato in campo
ingegneristico è il cosiddetto
"metodo dei momenti“
Con riferimento ad un generico modello statistico,
esso consiste nel trovare i valori dei parametri tali che
alcuni dei momenti teorici del modello coincidano con
quelli osservati sulla serie.
serie.
Ovviamente, il numero dei momenti da considerare (e
conseguentemente il numero degli stimatori risultanti)
dovrà coincidere con il numero dei parametri del
modello..
modello
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
yt = µ + φ1( yt −1 − µ ) + εt
Ad esempio, con riferimento ad un modello AR(1), i parametri da stimare sono
σ ε2 , per un totale di tre parametri.
µ , φ e la
varianza del rumore bianco
La scelta dei momenti da utilizzare viene generalmente fatta preferendo i momenti di ordine
inferiore, le cui stime sul campione risultano generalmente più affidabili.
In questo caso quindi appare preferibile utilizzare i momenti del primo e del secondo ordine
media, varianza e coefficiente di autocorrelazione a lag-1, le cui espressioni in funzione dei
parametri sono date rispettivamente dalle equazioni ottenute a partire dal campione
disponibile:
1 n
µ = y = ∑ yt
n t =1
media della variabile
σ ε2 = σ (1 − φ 2 )
varianza del rumore bianco
n
φ = r(1) =
∑( y − y)( y
t =2
t −1
t
n−1
n
t =1
t =2
− y)
coefficiente di autocorrelazione a lag 1
2
2
(
y
−
y
)
(
y
−
y
)
∑ t ∑ t −1
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri
Uno dei pregi del metodo dei momenti è che esso assicura che
le serie generate attraverso il modello risultante abbiano,
in media,
gli stessi momenti del campione utilizzati per la stima.
• Sebbene questa possa essere una proprietà desiderabile in un
metodo di stima, tuttavia è da rilevare che da un punto di
vista statistico il metodo risulta poco efficiente, a causa della
poca affidabilità delle stime campionarie dei momenti,
generalmente affette da distorsione (bias). Inoltre il metodo
non consente di derivare in maniera agevole le proprietà
statistiche degli stimatori stessi, quale errore di stima e bias.
• Pertanto appare preferibile ricorrere ad altri metodi di stima,
più robusti e meno soggetti ad errori, quale ad esempio il
metodo della massima verosimiglianza.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri – consistenza e distorsione
Si chiama stima di un parametro generico ϑ una
grandezza statistica t il cui valore numerico,
calcolato sulla base delle osservazioni che
costituiscono il campione disponibile, si assume
come valore di ϑ.
• La stima t è quindi una variabile casuale, perché è
funzione delle osservazioni, i cui valori variano
casualmente, a seconda del campione.
• La scelta della stima t deve essere fatta in modo che
il valore da essa fornito per il parametro ϑ sia il più
vicino possibile a quello reale “nella stragrande
maggioranza dei casi”
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri – consistenza e distorsione
Una stima non si respinge perché fornisce un cattivo
risultato in un caso particolare cioè perché in un
caso particolare il valore di t differisce molto da
quello di ϑ, si respinge se continua a dare cattivi
risultati a lungo andare…
• Cioè se la popolazione dei possibili valori di t è
sensibilmente lontana dal valore di ϑ
• La bontà di una stima si giudica dunque dalla
distribuzione dei suoi possibili valori
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri – consistenza e distorsione
Sarebbe desiderabile che:
Informazione
disponibile
Incertezza della
stima
Ovvero che la stima t deve essere tanto migliore quanto
maggiore è la dimensione N del campione da cui la stima si
ricava (consistenza)
Si dice che la stima t è indistorta quando la sua media mt è
sempre uguale a ϑ quale che sia la dimensione N del
campione , in caso contrario si dice distorta (biased)
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri – consistenza e distorsione
Es: La varianza
N
1
2
s 2 ( x) = ∑[xi − m( x)]
N i =1
È una stima distorta della varianza s2x della popolazione
dalla quale provengono gli N elementi del campione.
Invece la grandezza:
N
1
N 2
2
2
[xi − m(x)] =
s N −1 ( x) =
s ( x)
∑
N −1 i =1
N −1
È una stima indistorta: la sua media è proprio uguale a s2x
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri – metodo max verosimiglianza
Sotto l'ipotesi di normalità, il metodo della massima verosimiglianza è
praticamente equivalente a determinare i valori dei parametri che
minimizzano la varianza del rumore bianco σ 2
ε
ovvero la somma dei quadrati dei residui εˆt
calcolati a partire dalle serie osservate xt sulla base del modello.
Ad esempio con riferimento ad un modello AR(1), ed ad una serie
osservata xt con t=1,2, … , n, la serie dei residui può essere calcolata
come:
εˆt = µ + φ (xt −1 − µ ) − xt
t = 2,...,n
la somma dei quadrati dei residui sarà data da:
n
n
SSQ = ∑εˆ = ∑(µ + φ (xt −1 − µ ) − xt )
t =2
2
t
2
t =2
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Stima dei parametri – metodo max verosimiglianza
da cui si evince che essa può essere vista come una funzione dei
parametri µ e φ cioè SSQ= SSQ(µ,φ )
La stima dei parametri quindi può essere effettuata sulla base della
minimizzazione della funzione
min[SSQ(µ,φ )]
In pratica si preferisce stimare il parametro m attraverso il metodo dei
momenti, mentre i restanti parametri possono essere trovati attraverso la
minimizzazione numerica (per es. tramite il metodo del gradiente) della
funzione SSQ.
In ogni caso, è sempre opportuno, ove possibile procedere con una stima
preliminare dei parametri attraverso il metodo dei momenti, da utilizzare
come valori iniziali nella procedura numerica. Ovviamente, una volta
minimizzata la SSQ, il suo valore fornisce la stima della varianza del rumore
bianco. In maniera del tutto analoga si può procedere in generale per un
modello ARMA(p,q) ovvero periodico PARMA(p,q).
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Verifica e validazione del modello
È possibile effettuare una distinzione formale tra verifica e validazione
di un modello stocastico:
Controllo che il modello sia in grado di
riprodurre le caratteristiche della serie
storica di cui si è tenuto esplicitamente in
conto durante la stima dei parametri.
Controllo se il modello sia in grado di
conservare altre caratteristiche della
serie storica, che non erano state prese
esplicitamente in conto durante la stima
dei parametri.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Verifica e validazione del modello
Ad esempio, dopo avere stimato i parametri attraverso il
metodo dei momenti, la verifica consiste nell'accertarsi,
attraverso la generazione di numerose serie sintetiche, che le
serie così generate abbiano gli stessi momenti utilizzati per la
stima dei parametri.
Conseguentemente, la fase di verifica si riduce
prevalentemente ad un controllo della corretta stima ed
implementazione del modello, mentre la validazione consente
di accertare le capacità del modello di riprodurre "al meglio",
le caratteristiche della serie storica.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Verifica e validazione del modello
Tuttavia, nella pratica, tale distinzione trova raramente applicazione
infatti si procede così:
1. Si stimano i parametri
2. Si procede alla generazione delle serie
3. Si calcolano numerose statistiche e proprietà
4. Si confrontano con quelle corrispondenti calcolate sul campione
senza distinzione tra quelle relative alla verifica e quelle relative alla
validazione.
Quindi come spesso avviene:
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Verifica e validazione del modello
Ripetendo la procedura con diversi modelli, è possibile quindi
selezionare quello che nel complesso, è in grado di riprodurre al
meglio le caratteristiche della serie originale. Generalmente, le
statistiche utilizzate a tale fine sono la media, lo scarto,
l'autocorrelogramma a diversi lag, il coefficiente di asimmetria il
valore massimo ed il valore minimo.
Da un punto di vista strettamente statistico, al fine del confronto tra diversi modelli alternativi, si
potrebbe utilizzare come criterio la somma dei quadrati dei residui.
Il modello preferibile cioè, dovrebbe essere quello che presenta il minor valore di tale statistica.
Quest'ultima però, risulta generalmente influenzata dal numero dei parametri, e
conseguentemente, essa tende a decrescere al crescere del numero dei parametri.
Quindi risulta impossibile confrontare modelli diversi
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Verifica e validazione del modello
Poichè invece in generale vale il principio di parsimonia dei parametri, e che pertanto, a parità di
prestazioni, è sempre preferibile un modello con il minor numero di parametri, sono state
proposte statistiche alternative, che nel valutare l'adattamento statistico del modello, tengono
anche conto del numero dei parametri presenti.
Tra queste, la più utilizzata è probabilmente il criterio di informazione di Akaike (AIC), che può
con riferimento ad esempio ad un modello ARMA(p,q) essere calcolata come:
2( p + q + 1)n
AIC( p, q) = n ln σˆε +
n− p−q−2
( )
2
Per campioni numerosi può essere utilizzato il SIC:
( )
2
ˆ
SIC( p, q) = n ln σ ε + n + p + q ln n
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Prima di sporcarsi le mani…
Infine è opportuno fare alcune precisazioni:
1. Qualora i dati abbiano subito una trasformazione preliminare alla stima dei
parametri, è opportuno calcolare le statistiche di confronto, sia nel dominio
originale che in quello trasformato.
2. La seconda invece riguarda la modalità di calcolo delle statistiche sulle serie
generate. Al fine di tenere conto della forte dipendenza di alcune statistiche con
la lunghezza della serie (si pensi, ad esempio al valore massimo), è opportuno
suddividere il campione generato in sotto-serie, ciascuna di lunghezza pari a
quella osservata e calcolare le statistiche per ognuna di esse. Il confronto, potrà
quindi essere fatto tra i valori medi di ciascuna delle statistiche così calcolate, ed i
corrispondenti valori osservati.
3. Si noti che, a volte, può essere opportuno riportare, oltre al valore medio, anche i
valori corrispondenti a più o meno uno scarto quadratico medio, al fine di valutare,
oltre all'andamento medio, anche l'inevitabile variabilità campionaria.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Principali software per l’analisi di processi stocastici
Generali (econometria, finanza, serie temporali, previsione)
http://www.roguewave.com/products/imsl-numerical-libraries.aspx
• IMSL
• STATGRAPHICS http://www.statgraphics.com/
http://www.springer.com/statistics/book/978-0-387-94337-4
• ITSM
http://www.minitab.com/en-IT/default.aspx?langType=2057
• MINITAB
http://www.sas.com/technologies/analytics/forecasting/ets/
• SAS/ETS
http://www.spss.it/
• SPSS
http://www.r-project.org/
• R
http://www.mathworks.it/products/matlab/
• MATLAB
Orientati alle serie idrologiche
http://www.hec.usace.army.mil/publications/ComputerProgramDocumentation/HEC• HEC-4
4_UsersManual_%28CPD-4%29.pdf ----- 1971
• LAST
Lane and Frevert, 1990 & USBR
Grygier and Stedinger, 1990
• SPIGOT
• SAMS
http://www.sams.colostate.edu/index.html
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Software per l’analisi, la modellazione e simulazione di processi
stocastici
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Download SAMS (2007)
http://www.sams.colostate.edu/index.html
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Principali caratteristiche del software SAMS (2007)
L’obiettivo principale di SAMS è la generazione di dati idrologici
sintetici, il software presenta inoltre le seguenti principali
caratteristiche:
1. Consente l’analisi delle caratteristiche stocastiche di dati annui e
stagionali
2. Presenta numerose metodologie per la trasformazione dei dati
originali ai fini della normalizzazione delle serie temporali
3. Include una grande varietà di modelli stocastici a singolo sito,
multisito compresi alcuni modelli di disaggregazione
4. Offre la possibilità di utilizzare due schemi principali di modelli di
generazione di serie sintetiche relative a complessi sistemi fluviali
5. Consente la generazione di un numero illimitato di serie
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Descrizione del software SAMS (2007)
SAMS è sostanzialmente un pacchetto software utile per l’analisi, la
modellazione e la simulazione di serie temporali idrologiche
Il software è scritto in C,
FORTRAN e C++ e gira sui
sistemi operativi
windows, consiste di tre
moduli principali:
1. Data Analysis (Analisi
dei dati)
2. Fit a model
(Calibrazione del
modello)
3. Generate series
(Generazione delle
serie)
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Descrizione del software SAMS (2007)
Accanto ai tre moduli principali vi sono i moduli:
1. Model (Modello)
2. Plot properties
(Proprietà dei grafici)
Utili rispettivamente per
la visualizzazione dei
parametri del modello e
per la rappresentazione
grafica delle
caratteristiche della serie
originale e delle serie
generate
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Preparazione e caricamento del file delle serie storiche
Il primo passo consiste nell’importazione dei file dei dati originali
I dati devono essere salvati su un file ASCII (.dat)
secondo un preciso schema ad es.:
station
1
2
KEECHELUS RESERVOIR
KACHESS RESERVOIR
tot_num_stats
Years
Annual
2
48
Station
Station_id
1
KEECHELUS_RESERVOIR
Duration
1926
183.1
234.4
251.2
156.2
……….
160.4
Station
Station_id
Duration
2
KACHESS_RESERVOIR
1926
1973
158.1
220.3
233.6
134.7
………..
240.2
1973
File
Import Flow File…
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis
Il modulo Data Analysis costituisce una delle principali applicazioni di SAMS.
Le funzioni incluse in questo modulo consentono una moltitudine di operazioni
quali:
1. Rappresentazione grafica dei dati
2. Controllo della «normalità» dei dati
3. Trasformazione dei dati
4. Calcolo e rappresentazione delle caratteristiche statistiche e stocastiche
dei dati
La rappresentazione grafica dei dati può essere utile per la rilevazione
di trends, shifts, outliers e errori potenzialmente presenti nei dati
originali. L'analisi preliminare della serie osservata ha l'obiettivo
principale di calcolare tutte le statistiche che possono essere utili ai fini
delle fasi successive.
Il controllo della «normalità» dei dati può essere effettuato anche
mediante appositi test e strumenti grafici
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis
3. Trasformazione dei dati
4. Calcolo e rappresentazione delle caratteristiche statistiche e
stocastiche dei dati
La trasformazione dei dati può essere effettuata mediante diverse tecniche di
trasformazione quali quella logaritmica, di potenza, gamma e Box-Cox.
Il Calcolo e rappresentazione delle caratteristiche statistiche e stocastiche dei
dati consiste nella possibilità di calcolare statiche di base:
• Media
• Deviazione standard
• Skewness
• Correlazioni tra serie (dati annuali)
• Spettri
• Correlazioni stagionali
• Correlazioni incrociate per dati mutlisito
• Statistiche di siccità, surplus e di invaso
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis – Statistical analysis of data
Attraverso il Data analysis menu è possibile effettuare una analisi
statistica dei dati sia annuali che stagionali con riferimento sia alle serie
storiche sia a quelle generate
In particolare è possibile
effettuare le seguenti
attività:
• Ottenere un grafico
della serie
• Trasformare la serie
• Ottenere le statistiche
in formato tabellare o
grafico
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis – Plot time series
Plot time series consente di ottenere i grafici relativi alle serie originali o
trasformate, annuali o stagionali e effettuare operazioni funzionali di
zoom, esporta, …
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis – Transformation to Normal
Transformation to Normal consente di trasformare le serie originali ai
fini di «normalizzarle» qualora queste non verifichino opportuni test di
normalità.
Oltre al calcolo delle statistiche principali (media, varianza, coefficienti
di autocorrelazione), è opportuno effettuare anche alcune verifiche,
volte ad accertare, tra l'altro, se la serie possa considerarsi distribuita
secondo una distribuzione normale.
L'ipotesi di normalità per la serie è necessaria in quanto in questo caso è
garantita la stazionarietà in senso stretto del modello
Inoltre essa consente di stimare in maniera relativamente agevole i
parametri del modello attraverso il metodo della massima
verosimiglianza.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Cenni sulla distribuzione normale
In teoria delle probabilità la distribuzione normale (Gaussiana) è una distribuzione di probabilità
continua definita dalla funzione:
PDF
CDF
Il parametro μ corrisponde alla media (e anche alla mediana e alla moda) della distribuzione.
Il parametro σ è la deviazione standard (e varianza σ2).
Se μ = 0 e σ = 1, la distribuzione si dice distribuzione normale standard
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Cenni sulla distribuzione normale
La distribuzione normale è considerata il caso base delle distribuzioni di probabilità continue a
causa del suo ruolo nel teorema del limite centrale.
In estrema semplificazione, assumendo certe deboli condizioni, la media di un elevato numero
di variabili casuali provenienti indipendentemente dalla stessa distribuzione di probabilità è
distribuita secondo una distribuzione normale indipendentemente da quale sia la distribuzione
originale dei dati.
Di conseguenza, grandezze fisiche la cui realizzazione scaturisce dalla somma di diversi processi
indipendenti (teoria degli errori) spesso presentano una distribuzione di probabilità
significativamente vicina alla distribuzione normale.
Ovvero somma di n variabili casuali con media e varianza finite tende a una distribuzione
normale al tendere di n all'infinito. Grazie a questo teorema, la distribuzione normale si
incontra spesso nelle applicazioni pratiche, venendo usata in statistica e nelle scienze naturali e
sociali come un semplice modello per fenomeni complessi.
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Digressione sulla… Analisi di frequenza (utile per normal
transformation)
• L’analisi di frequenza si pone l’obiettivo di valutare la
frequenza con cui le osservazioni tendono a ripetersi
• Se la variabile è discreta, le frequenza di ciascuno dei valori
della variabile può essere calcolata contando le occorrenze
delle osservazioni nel campione
• Tali frequenze possono essere riportate nell’istogramma di
frequenza
7
6
Numero di osservazioni
Esempio: lancio di un dado
non truccato 30 volte
– No. di 1: 5
– No. di 2: 4
– No. di 3: 5
– No. di 4: 6
– No. di 5: 5
– No. di 6: 5
5
4
3
2
1
0
1
2
3
4
Faccia
5
6
Cenni di Analisi di frequenza
• Se la variabile è continua (come è il caso in molti fenomeni
naturali) non ha senso contare il ripetersi di ciascun valore
poiché ciascuna occorrenza è generalmente unica
• E’ preferibile quindi suddividere il campo di variazione delle
osservazioni in classi di ampiezza finita e contare il numero
di osservazioni ricadenti in ciascuna classe
Cenni di Analisi di frequenza
Esempio: serie di precipitazione annue osservate nella stazione di Caltanissetta nel
periodo 1971-2000 (30 anni)
Anno
Precipitazione (mm)
1971
501.8
1972
604.4
1973
735
1974
421.6
1975
426
1976
1028.2
1977
373.3
1978
399.8
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
594.2
454.0
356.2
645.4
409.8
458.6
487.2
387.6
452.6
565.8
332.8
475.0
687.6
533.2
376.2
335.8
357.2
822.2
618.4
385.0
390.2
473.6
250-350
Consideriamo 8 classi di
ampiezza 100 mm:
250-350,
350-450,
450-550,
550-650,
650-750,
750-850,
850-950,
950-1050
350-450
450-550
550-650
650-750
750-850
950-1050
332.8
335.8
356.2
357.2
373.3
376.2
385.0
387.6
390.2
399.8
409.8
421.6
426
452.6
454.0
458.6
473.6
475.0
487.2
501.8
533.2
565.8
594.2
604.4
618.4
645.4
687.6
735
822.2
1028.2
2
11
8
5
2
1
1
Cenni di Analisi di frequenza
Istogramma di frequenza assoluta e relativa
Numero di osservazioni
Frequenza assoluta
L’istogramma di frequenza
assoluta riporta il numero di
osservazioni che ricadono in
ciascuna classe
12
10
8
6
4
2
0
250350
350450
450550
550650
650750
750850
850950
9501050
Classi
L’istogramma di frequenza
relativa riporta il numero di
osservazioni che ricadono in
ciascuna classe in rapporto al
numero totale di osservazioni
Frequenza
Frequenza relativa
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
250350
350450
450550
550650
650750
Classi
750850
850950
9501050
Cenni di Analisi di frequenza
Istogramma di frequenza assoluta e relativa cumulata
Numero di osservazioni
Frequenza assoluta cumulata
L’istogramma di frequenza
assoluta cumulata è la
cumulata delle frequenze
assolute
30
25
20
15
10
5
0
250350
350450
450550
550650
650750
750850
850950
9501050
Classi
Frequenza relativa cumulata
L’istogramma di frequenza
relativa cumulata è la
cumulata delle frequenze
relative
Frequenza
1.00
0.80
0.60
0.40
0.20
0.00
250350
350- 450450 550
550650
650750
Classi
750- 850- 950850 950 1050
Analisi di frequenza
Calcolo delle frequenze assoluta e relativa
Ordinati i dati in ordine
crescente, la frequenza
di non superamento
dell’i-esimo valore è
data da:
Fi=i/(n+1)
con n dimensione del campione
F r e q u e n z a d i W e ib u l F i
• Ordinare i dati in ordine crescente
• Suddividere il campione in k classi di uguale ampiezza in cui k può essere calcolato
con:
Precipitazione (mm)
Fi
1
332.8
0.032
– Formula di Sturges K=1+3.3*Log(N)
2
335.8
0.065
– K=N1/2
3
356.2
0.097
4
357.2
0.129
– 5≤K ≤25
5
373.3
0.161
6
376.2
0.194
• Contare il numero di osservazioni ni
7
385.0
0.226
8
387.6
0.258
che ricadono nella i-esima classe
9
390.2
0.290
10
399.8
0.323
• Frequenza assoluta: ni
11
409.8
0.355
12
421.6
0.387
• Frequenza relativa: fi= ni/N
13
426
0.419
14
452.6
0.452
Frequenza di Weibull consente di calcolare la frequenza di
15
454.0
0.484
16
458.6
0.516
non superamento di un dato osservato
17
473.6
0.548
1.000
0.800
0.600
0.400
0.200
0.000
200
300
400
500
600
700
Precipitazione (mm)
800
900
1000
1100
18
19
20
21
22
23
24
25
26
27
28
29
30
475.0
487.2
501.8
533.2
565.8
594.2
604.4
618.4
645.4
687.6
735
822.2
1028.2
0.581
0.613
0.645
0.677
0.710
0.742
0.774
0.806
0.839
0.871
0.903
0.935
0.968
Modulo Data Analysis – Transformation - Plotting position
Se si è in possesso di un set di dati con diversi valori, per costruire un diagramma
delle frequenze cumulate, e quindi per poter valutare il loro comportamento, si
dovrà assegnare una frequenza relativa ad ognuno di questi dati.
L'azione che permette di assegnare una frequenza relativa al set di dati è la plotting
position. Esistono vari tipi di distribuzioni che effettuano plotting position. Una
formula generale per la plotting position ha la seguente espressione:
p=
(
(i − a )
)
n + 1− 2a
In cui
• i è la posizione del dato nella serie ordinata in ordine crescente
• 0≤a≤0.5
• n è la lunghezza della serie
Alcune delle formule maggiormente usate sono:
SAMS
consente
di
utilizzare le formule di
Weibull e di Cunnane
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis – Transformation to Normal
SAMS consente di verificare la normalità dei dati originali qualitativamente rappresentandoli su
un cartogramma probabilistico normale e quantitativamente attraverso i test di normalità
basati sul coefficiente di simmetria e sul test di Filliben.
Il cartogramma a sx
presenta i dati originali
mentre a dx vengono
rappresentati i dati nel
dominio trasformato.
È possibile scegliere la
serie da trasformare e
eventualmente
la
particolare «stagione».
I punti rappresentano la
frequenza empirica dei
dati ordinati secondo
Weibull o Cunnane e la
linea
continua
la
distribuzione
teorica
normale basata sulla
trasformazione corrente.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis – Transformation to Normal
Se la distribuzione dei dati originali non dovesse soddisfare il requisito di normalità è possibile
operare le seguenti trasformazioni:
Trasformazione
Logaritmica
Y = ln ( X + a )
Gamma
Y = Γ( X )
Potenza
Y = (X + a)
Box Cox
b
(
(
X + a ) − 1)
Y=
b
b
con a e b coefficienti
I risultati della trasformazione sono visibili sia in forma grafica che in forma
tabellare relativamente ai citati test di normalità basati sul coefficiente di
asimmetria e sul test di Filliben che possono risultare rispettivamente
ACCEPT
REJECT
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Data Analysis – Transformation to Normal
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Test di normalità…
SAMS consente di verificare la normalità dei dati originali o trasformati attraverso i
test di normalità basati sul coefficiente di asimmetria e sul test di Filliben.
Lo skewness test of Normality è un test a due code mentre il Filliben test of
Normality è un test ad una coda, entrambi vengono effettuati di default da SAMS
per un livello di significatività a=10%.
REMINDER…Si dice livello di significatività del test e
si indica comunemente con a la probabilità di
commettere, nell’esecuzione del test, un errore del I
tipo, consistente nel rigettare una ipotesi vera. Il
complemento ad uno (1-a) del livello di
significatività è la probabilità di accettare l’ipotesi
quando è vera.
Test di normalità basato sul coefficiente di asimmetria
Il test basato sul coefficiente di asimmetria prende spunto dal fatto che la distribuzione
normale ha asimmetria nulla, e pertanto è lecito attendersi che, se una serie è distribuita
normalmente, il suo coefficiente di asimmetria sarà nullo.
Distribuzione
asimmetrica a
sinistra
Distribuzione
asimmetrica a
destra
Gli indici di asimmetria caratterizzano la forma della distribuzione dei dati intorno alla moda,
uno degli indici più utilizzati è dato dalla seguente espressione:
sk =
m3
3
m2 2
che su un campione osservato può essere riscritto come:
n
g 1=
1
3
(
)
x
−
x
∑
i
n
i =1
 1
2
 ∑ (xi − x ) 
 i =1 n

n
3
2
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Cenni sugli indici di asimmetria (skewness)
•
Se la distribuzione è simmetrica (g1=0):
Moda=media=mediana
•
Se la distribuzione è asimmetrica a sinistra (maggiore estensione dell’istogramma per valori
maggiori della moda) (g1>0):
Moda < mediana < media
•
Se la distribuzione è asimmetrica a destra (maggiore estensione dell’istogramma per valori
minori della moda) (g1<0):
Moda > mediana > media
In pratica, una volta calcolato il coefficiente di asimmetria occorre verificare se esso possa considerarsi
significativamente diverso da zero.
Nell’ipotesi che il campione sia estratto da una popolazione normalmente distribuita, Snedecor e Cochran
(1967) hanno fornito il seguente intervallo di confidenza di probabilità b valido per n>150

− u β

6
, uβ
N
6

N
Dove u β è il quantile di una variabile normale standardizzata
corrispondente ad una probabilità di non superamento b
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Digressione sui….Quantili
• Si definisce quantile corrispondente ad una frequenza q il
valore della variabile osservata che non viene superato o
eguagliato nel q% dei casi
• La mediana è il quantile 50%
• Per calcolare il quantile corrispondente ad una data
frequenza q occorre:
– ordinare gli n dati in ordine crescente
– il quantile xq è la media tra valori con numero d’ordine q*(n+1)-1 e
q*(n+1) (approssimati per eccesso)
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Calcolo dei quantili
Esempio: serie di precipitazioni annue osservate nella stazione di Caltanissetta nel
periodo 1980-2000 (21 anni)
Anno
Precipitazione (mm) Numero d'ordine
1980
454.0
1
1981
356.2
2
1982
645.4
3
1983
409.8
4
1984
458.6
5
1985
487.2
6
1986
387.6
7
1987
452.6
8
1988
565.8
9
1989
332.8
10
1990
475.0
11
1991
687.6
12
1992
533.2
13
1993
376.2
14
1994
453.7
15
1995
357.2
16
1996
822.2
17
1997
618.4
18
1998
385.0
19
1999
390.2
20
2000
473.6
21
Precipitazione (mm)
332.8
356.2
357.2
376.2
385.0
387.6
390.2
409.8
452.6
453.7
454.0
458.6
473.6
475.0
487.2
533.2
565.8
618.4
645.4
687.6
822.2
Quantile x25 (detto quartile)
i1=q∙(n+1)=.25 ∙ 22=5.5≈6
i2=i1-1=5
x25=(385+387.6)/2=386.3
MATLAB: quantile(a,y) 0≤y≤1
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Box plot
• Il box and whisker plot (letteralmente grafico a scatola e baffi) è
una rappresentazione sintetica ed efficace della distribuzione
dei dati
• Presenta il vantaggio di potere facilmente confrontare diverse
distribuzioni relative a diverse serie di dati
• La sua costruzione è basata sui tre quantili
– Mediana (x50)
– x25
– x75
•
•
•
Si calcola H= x75 - x25 e si stabiliscono due intervalli di ampiezza
1.5H
Si rappresentano gli ultimi valori all’interno di tali intervalli per
definire i whiskers
Si rappresentano i valori fuori dagli intervalli per definire gli
outliers
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Costruzione Box plot
Precipitazione (mm)
332.8
356.2
357.2
376.2
385.0
387.6
390.2
409.8
452.6
453.7
454.0
458.6
473.6
475.0
487.2
533.2
565.8
618.4
645.4
687.6
822.2
1000
900
Precipitazio ne (mm)
Numero d'ordine
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
772.9
800
700
600
500
400
Valore più alto
osservato minore
di 772.9
1.5H
x75
x50
H
x25
300
MATLAB: boxplot(a)
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Confronto tra le precipitazioni annue delle stazioni di
Caltanissetta, Catania e Linguaglossa nel periodo 1921-2000
Precipitazio ne (mm)
2500
2000
1500
1000
500
1
Caltanissetta
2
Catania
3
Linguaglossa
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Filliben test di normalità
Il test ad una coda è basato
sul calcolo di:
rc = Corr ( x, M )
In cui M è una grandezza
funzione della inversa
cumulata della distribuzione
normale.
Opportune tabelle possono
essere utilizzate in
corrispondenza del numero di
dati a disposizione e del livello
di significatività.
SAMS - Test di normalità
(Singola stazione, tutti i mesi)
SAMS – Sample statistics su dati annuali o stagionali della serie
originale o di quella trasformata
Media
Deviazione standard
Coefficiente di asimmetria
Coefficienti di
autocorrelazione (lag k)
ACF
Si possono visualizzare inoltre:
• Coefficiente di variazione
• Minimo e massimo
Sample statistics
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
SAMS – Sample statistics su dati annuali o stagionali della serie
originale o di quella trasformata
Cross-correlazione (multisito a lag k)
in cui:
e
jj
Sono le varianze campionarie per i siti i e j
i
j
Modulo Fit Model
Consente la stima dei parametri e il test dei modelli stocastici
univariati e multivariati, è possibile considerare i seguenti modelli:
•
•
•
•
•
•
•
•
•
•
•
ARMA (p,q) univariato con 1 ≤ p,q ≤ 10
GAR (1) univariato
PARMA (p,q) periodico univariato
Shifting Mean univariato
Modello univariato di disaggregazione stagionale
MAR (p) multivariato autoregressivo
CARMA (p,q) multivariato contemporaneo con 1 ≤ p,q ≤ 10
MPAR (p) multivariato periodico
CSM-CARMA (p,q) multivariato
Modello multivariato di disaggregazione annuale (spaziale)
Modello multivariato di disaggregazione temporale
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Fit Model
Nel caso di una rete idrografica è possibile ottenere un approccio multivariato
di modellazione diretta basata su modelli MAR e CARMA per dati annuali e
MPAR per dati stagionali.
Possibile
schema
multivariato
di
generazione di serie stagionali:
a) Un modello multivariato, ad es. AR(p)
viene utilizzato per generare deflussi
annuali alle stazioni principali
b) Un modello di disaggregazione
spaziale utilizzato per disaggregare i
deflussi annuali generati per le
stazioni principali in deflussi annuali
per le sotto stazioni seguito in
cascata da altre disaggregazioni
spaziali sino a giungere alle stazioni
più a monte
c) Un modello di disaggregazione
temporale per ottenere deflussi
stagionali per una stazione o per un
gruppo di stazioni a partire dai dati
annuali
Sotto Stazioni 2
Sotto Stazioni 1
Stazione principale
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Generate series
Il modulo di generazione di serie sintetiche utilizza i modelli
precedentemente calibrati.
Le caratteristiche statistiche delle serie
generate possono essere presentate in forma
grafica o tabellare insieme alle serie storiche
originali che sono state utilizzate per
calibrare il modello scelto.
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
Modulo Generate series e Compare
Confronto tra serie originale e serie generate…
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli
È giunto il momento di
Sporcarsi le mani con modelli e software…
ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli