Programma Operativo Nazionale “Ricerca e Competitività 2007-2013” Regioni Convergenza ASSE I Sostegno ai mutamenti strutturali Azione Interventi di sostegno della ricerca industriale Progetto di Ricerca Sistemi integrati per il monitoraggio, l’early warning e la mitigazione del rischio idrogeologico lungo le grandi vie di comunicazione ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico Progetto di Ricerca “Sistemi integrati per il monitoraggio, l’early warning e la mitigazione del rischio idrogeologico lungo le grandi vie di comunicazione Modelli stocastici e analisi dei segnali Analisi dei modelli dott. ing. Vincenzo Marco Nicolosi Università degli Studi di Catania Programma Operativo Nazionale “Ricerca e Competitività 2007-2013” Luglio, 2013 Pianificazione del modulo Data 16/07/2013 Orario 14:00-17:00 9:00-13:00 n. Ore 3 4 Contenuti Titolo Teoria Analisi dei modelli e software Esercitazione 1 Determinazione delle curve capacità-domandaaffidabilità tramite simulazione Montecarlo Esercitazione 2 Stima del tempo di ritorno della mobilizzazione di un versante mediante simulazione Montecarlo e modello FLaIR 17/07/2013 14:00-17:00 3 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Contenuti del modulo teorico (non in ordine cronologico!!!) • • • • • • • • • Introduzione alle serie temporali e ai processi stocastici Strumenti di analisi delle serie temporali Trasformazione di serie temporali Principali modelli di serie temporali Modelli di disaggregazione Generazione di random input Costruzione di modelli stocastici Software per l’analisi e la generazione di serie temporali sintetiche Simulazione Montecarlo Per rompere gli schemi… iniziamo dalla fine! ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Simulazione Montecarlo Al fine di meglio comprendere l'utilità di uno strumento matematico in grado di generare serie temporali sintetiche di una variabile (precipitazioni, deflussi superficiali,…) può essere opportuno introdurre un esempio di applicazione di simulazione Montecarlo Tecnica che consente di derivare la distribuzione di probabilità di un output di un sistema generico sulla base della distribuzioni di probabilità degli input • Tre fasi – Identificazione e caratterizzazione degli input – Definizione della trasformazione input-output (simulazione) – Analisi degli output ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli A che cosa possono servire i modelli di generazione? Si consideri il problema della determinazione della capacità da assegnare ad un serbatoio di regolazione 1. assegnata una serie di deflussi 2. fissato il livello di domanda sono disponibili numerose tecniche che consentono di determinare la capacità del serbatoio affinché, con riferimento alla serie di deflussi assegnata, la domanda risulti sempre soddisfatta. Deflussi [I ] Evaporazione [E ] t t Sfiori [Sft] Volume invasato [St] Erogazioni [Rt] Perdite [Pt] ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Simulazione Montecarlo Il problema riguarda la determinazione della capacità da assegnare affinché nel futuro sia soddisfatta una certa domanda, ma, ovviamente, in questo caso la serie di deflussi non è nota. Tradizionalmente si è ipotizzato che la capacità necessaria con riferimento alle serie future, sia uguale a quella determinata sulla base delle serie passate. Lago di Campotosto (AQ) 1380 m l.m.m. Estate… ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Simulazione Montecarlo In mancanza di altre informazioni si ipotizza cioè che la serie che si presenterà nel futuro, pur non coincidendo perfettamente con quella passata, abbia caratteristiche tali richiedere lo stesso valore di capacità. Lago di Campotosto (AQ) 1380 m l.m.m. inverno… ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Simulazione Montecarlo L'ipotesi che la serie futura si presenti con caratteristiche tali da determinare la stessa capacità rispetto a quella storica, è ovviamente, soltanto un artificio che consente di risolvere il problema. Domanda Futuro =Serie storica Algoritmo per il dimensionamento INPUT MODELLO Capacità OUTPUT Da un punto di vista formale, la capacità da assegnare può essere vista come l'output di un algoritmo per il dimensionamento soggetto ad un input di tipo stocastico (casuale), e più precisamente la serie di deflussi. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Simulazione Montecarlo (esempio…) Conseguentemente, è da attendersi che al variare dell'input (le serie di deflussi), vari anche l'output (la capacità da assegnare), e che quindi la capacità abbia essa stessa un carattere casuale. Se da un lato non è possibile conoscere con esattezza il valore della capacità da assegnare per soddisfare la domanda nel futuro (in quanto casuale), si può pensare che essa sia distribuita secondo una certa legge, la cui conoscenza consente, se non di risolvere il problema in maniera esatta, almeno da un punto di vista probabilistico. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Previsione del futuro… Se si dispone di uno strumento in grado di generare numerose serie sintetiche dei deflussi, ciascuna delle quali può essere vista come una realizzazione del processo stocastico che sottintende i deflussi, allora è pensabile che ciascuna serie generata rappresenti una delle possibili serie che possono verificarsi nel futuro. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Popolazione di variabili… Determinando quindi diverse capacità in corrispondenza a diverse serie di deflussi in ingresso le capacità risultanti possono essere considerate come estratte dalla popolazione di tutte le capacità necessarie, e quindi, attraverso una analisi di frequenza, ovvero inferenziale, è possibile definire la relativa distribuzione di probabilità. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Simulazione Montecarlo (esempio…) •Fissato quindi un valore di capacità… •È possibile calcolare la probabilità che nel futuro la serie che effettivamente si verificherà sia tale da richiedere una capacità maggiore di quella fissata, ovvero che la capacità fissata risulti insufficiente. In altre parole, attraverso la conoscenza della distribuzione di probabilità della capacità, è possibile effettuare una dimensionamento sulla base della probabilità che la capacità fissata sia o non sia sufficiente a soddisfare la domanda assegnata, e quindi prendere una decisione basata sul… ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Esempio di simulazione Monte Carlo per il dimensionamento di un serbatoio Serie storica domanda Futuro =Serie storica Algoritmo per il dimensionamento Modello di generazione Serie generata 1 domanda Algoritmo per il dimensionamento Serie generata 2 capacità Capacità 1 Distribuzione di probabilità delle capacità domanda 1 0.8 Algoritmo per il dimensionamento Capacità 2 0.6 0.4 0.2 0 0 Serie generata N 250 500 750 1000 1250 domanda Algoritmo per il dimensionamento Capacità N Capacità corrispondente ad una prefissata probabilità di non superamento ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Caratteristiche di una serie temporale Si evince che, affinché i risultati della tecnica Montecarlo possano essere considerati validi, occorre disporre di uno strumento per la generazione dell’input al sistema al sistema in esame (ovvero della variabile in ingresso), che sia in grado di riprodurre alcune (o tutte) le caratteristiche stocastiche della serie osservata. Soltanto così infatti, le serie generate possono essere pensate come realizzazioni estratte dalla stessa popolazione da cui proviene la serie osservata, e da cui, a meno di non stazionarietà, proverrà la serie futura. Universo delle possibili serie future Unica realizzazione nel “nostro” futuro ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Serie temporali Le serie storiche (o serie temporali) si riferiscono alla possibilità di considerare un fenomeno in relazione alla sua evoluzione nel tempo. Definizioni: – la serie storica è una collezione di numeri reali, ordinati secondo la variabile tempo, la quale costituisce una parte finita di una realizzazione di un processo stocastico. – per processo stocastico, a parametro discreto, si intende una successione di variabili casuali la cui completa conoscenza è assicurata solo dalla conoscenza della famiglia delle ripartizioni finite. Annual Series (original) 350 300 Flow – un modello stocastico costituisce una parametrizzazione di un processo stocastico in termini di una funzione esplicita di parametri noti. 250 200 Un modello può essere stimato a partire dai dati, ovvero dalla serie storica osservata 150 1930 1935 1940 1945 1950 1955 1960 1965 1970 Year ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Categorie di serie temporali Alcune possibili categorie di serie temporali, riferibili ad altrettante categorie di processi stocastici sono le seguenti: – processi a fenomeno discreto ed a parametro discreto (n. di frane in un versante in un anno) – processi a fenomeno discreto ed a parametro continuo (lampi durante un temporale registrati da un sensore fotosensibile) – processi a fenomeno continuo ed a parametro discreto (portate giornaliere in un corso d’acqua) – processi a fenomeno continuo ed a parametro continuo (elettroencefalogramma) ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Caratterizzazione probabilistica degli input • Viene generalmente effettuata adattando alla serie temporale degli input un modello stocastico in grado di generare serie sintetiche che conservano alcune caratteristiche della serie originale • Diversi modelli possono essere applicati a seconda delle caratteristiche delle serie da simulare – Modelli autoregressivi • • • • Univariati Multivariati Stazionari Stagionali – Modelli di disaggregazione ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Memoria delle serie naturali… – Una caratteristica molto importante che si osserva in molte serie naturali, è la dipendenza temporale – I valori osservati presentano una certa dipendenza statistica da quelli che li hanno preceduti – Tale dipendenza temporale dei processi, spesso trova giustificazione nei meccanismi fisici di accumulo, che introducono quindi una sorta di “memoria” – Nell'analisi delle serie temporali, generalmente viene analizzata una dipendenza di tipo lineare, attraverso l'utilizzo del coefficiente di correlazione di Pearson. – Poiché però in questo caso, la correlazione cercata è tra gli stessi valori della serie, opportunamente traslati nel tempo, si utilizza il termine autocorrelazione. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Caratteristiche delle serie temporali Autocorrelazione e Correlazione incrociata • • • • • • Correlazione incrociata Autocorrelazione Singole, multiple Correlate, non correlate Intermittenti Stazionarie Non stazionarie Periodiche Autocorrelazione n ∑(x − x)(x rk = t −k t t =k +1 n −k ∑(xt − x) t =1 − x) n 2 2 ( x − x ) ∑ t −k t =k Correlazione incrociata n rkx, y = ∑( x − x )( y t =k n−k − y) t −k t n ∑( x − x ) ∑( y 2 t t −k − y )2 t =1 t =k ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Autocorrelogrammi Africani LONG MEMORY INTERMEDIATE MEMORY SHORT MEMORY ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Esempi di correlogrammi ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Periodicità Molte serie naturali presentano una forte componente periodica quando sono aggregate ad una scala inferiore all'anno, generalmente causata dalla presenza del ciclo solare. In figura è riportata la serie mensile dei deflussi del F. Salso a Pozzillo, nel periodo 1959-2000 da cui si evince una marcata periodicità, con deflussi elevati durante i mesi invernali, e deflussi ridotti nei mesi estivi. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modelli di generazione Consentono di generare numericamente serie casuali a partire da serie osservate • Le serie generate dovrebbero conservare in media esplicitamente o implicitamente alcune caratteristiche delle serie originali, quali ad esempio: – – – – – – Media Scarto quadratico medio Autocorrelazione (dipendenza nel tempo) Correlazione incrociata (dipendenza nello spazio) Caratteristiche di siccità Etc.. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Verifica e validazione di un modello di generazione Serie storica Distribuzione di probabilità di una statistica/proprietà Calcolo delle principali statistiche/proprietà Modello di generazione Serie generata 1 1 0.8 Calcolo delle principali statistiche/proprietà 0.6 Valore 1 0.4 0.2 0 0 Serie generata 2 Calcolo delle principali statistiche/proprietà Valore 2 Calcolo delle principali statistiche/proprietà Valore N 250 500 750 1000 Statistica corrispondente ad una prefissata probabilità di non superamento Serie generata N Confronto con il valore osservato ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli 1250 Modelli autoregressivi • Sono basati su una combinazione lineare dei valori della variabile in intervalli precedenti e di una componente casuale (rumore) • I valori della variabile in intervalli precedenti tengono conto della "memoria" del processo mentre il rumore introduce una variabilità casuale Esempio: ARMA(p,q) p q i =1 j =1 yt = µ + ∑φi ( yt −i − µ) − ∑θ jε t − j + ε t Modello semplice AR(1) yt = µ + φ1( yt −1 − µ ) + εt ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modello AR(1): stima dei parametri yt = µ + φ1( yt −1 − µ ) + εt yt valore della variabile al tempo t εt processo rumore bianco, non autocorrelato, non correlato con yt µ avente media=0 e s.q.m.= σ ε = σ (1 − φ 2 ) Parametro 1 = media della variabile 1 n y = ∑ yt n t =1 n φ Parametro 2 = coefficiente di autocorrelazione a lag 1 φ= ∑( y − y)( y t =2 n−1 ∑( yt − y) t =1 t −1 t − y) n 2 2 ( y − y ) ∑ t −1 t =2 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Autocorrelogramma di un processo AR(k) se per un processo AR(1) il parametro per un processo a lag k AR(k) il parametro Cov[ yt , yt −1 ] φ = ρ (1) = Var[ yt ] φ k = ρ (k ) quindi l’autocorrelogramma di un processo AR(1) presenta un decadimento esponenziale al crescere del lag k ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modelli autoregressivi stagionali • Consentono di tenere conto di una variabilità periodica (ad esempio dati mensili) • Modello PARMA(p,q) Periodic AutoRegressive p q i =1 j =1 periodo τ , (τ = 1,...,ω ) yν ,τ = µτ + ∑φi,τ ( yν ,τ −i − µτ ) − ∑θ j ,τ εν ,τ − j + εν ,τ anno µτ φτ ν parametri che si ripetono con periodicità ω Ovviamente è possibile stimare i momenti di vario ordine e ottenere i parametri del modello… ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modelli multivariati • Consentono di generare contemporaneamente più variabili collegate tra loro. • Esempio: – Precipitazioni in una regione – Deflussi in diverse stazioni dello stesso corso d'acqua e/o di bacini vicini • Particolarmente utili per l'analisi di sistemi complessi con più fonti di approvvigionamento i j ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modelli di disaggregazione • A volte è più semplice generare il valore aggregato di una variabile tramite modelli autoregressivi • Esempio – Precipitazione media su una regione – Deflusso annuo • I modelli di disaggregazione consentono di ripartire (nel tempo e/o nello spazio) il valore aggregato di una variabile • Particolarmente utili nel caso di analisi a diverse scale temporali e/o spaziali ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Esempio di disaggregazione Valore mese 1 Valore annuo Valore mese 2 X Valore mese 3 Valore mese 11 Valore mese 12 Valori trimestrali Valore mese 1 Valore mese 2 Valore annuo X Valore mese 12 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Adattamento di un modello stocastico ad una serie osservata La scelta e l'adattamento di un modello stocastico ad una serie di dati costituisce un delicato problema decisionale, in quanto da essi dipende la capacità del modello di riprodurre il carattere stocastico di una serie osservata. In termini generali possiamo distinguere le seguenti fasi, tra di loro fortemente interconnesse: • Analisi preliminare della serie osservata • Identificazione del modello(i) più appropriato per la serie in esame e per il problema da affrontare • Stima dei parametri • Verifica del modello • Validazione del modello 4 3 2 1 0 -1 -2 -3 -4 0 100 200 300 400 500 600 700 800 900 1000 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Analisi preliminare della serie osservata • L'analisi preliminare della serie osservata ha l'obiettivo principale di calcolare tutte le statistiche che possono essere utili ai fini delle fasi successive. • Oltre al calcolo delle statistiche principali (media, varianza, coefficienti di autocorrelazione), è opportuno effettuare anche alcune verifiche, volte ad accertare, tra l'altro, se la serie possa considerarsi distribuita secondo una distribuzione normale. L'ipotesi di normalità per la serie è necessaria in quanto in questo caso è garantita la stazionarietà in senso stretto del modello. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Analisi preliminare della serie osservata • Media aritmetica: 1 n x = ∑ xt n t =1 • Mediana: valore che non viene superato nel 50% dei casi – Ordinati i dati in ordine crescente, valore corrispondente al valore centrale se N è dispari, alla media dei due valori centrali se N è pari • Moda: valore che si presenta con maggiore frequenza – Se la variabile è continua può essere calcolata come la media degli estremi della classe cui corrisponde la massima frequenza assoluta o relativa ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Analisi preliminare della serie osservata – Indici di dispersione Misurano la dispersione dei dati attorno ai valori centrali: • Ampiezza del campione o range: – Indica la variabilità totale dei dati, cioè gli estremi dell’intervallo di valori che la variabile assume • Scarto assoluto medio: – Indica lo scostamento medio (in valore assoluto) dalla media aritmetica • Varianza campionaria: – Indica la dispersione attorno alla media • 1 n D = ∑ xt − x n t =1 1 n 2 S = ∑ (xt − x ) n − 1 t =1 2 Scarto quadratico medio: – E’ l’operatore di dispersione per eccellenza e misura la dispersione attorno alla media (stesse dimensioni) • R = xmax − xmin Coefficiente di variazione: – Coefficiente adimensionale di dispersione 1 n 2 S= ∑ (xt − x ) n − 1 t =1 S Cv = x Analisi preliminare della serie osservata Oltre al calcolo delle statistiche principali (media, varianza, coefficienti di autocorrelazione), è opportuno effettuare anche alcune verifiche, volte ad accertare, tra l'altro, se la serie possa considerarsi distribuita secondo una distribuzione normale. L'ipotesi di normalità per la serie è necessaria in quanto in questo caso è garantita la stazionarietà in senso stretto del modello. La verifica di normalità può essere condotta attraverso uno dei numerosi test disponibili in letteratura basati sulla distribuzione empirica (KolmogorovSmirnov, c2, etc.), ovvero attraverso test basati sul calcolo di semplici statistiche. Tra questi ultimi, è di particolare utilità quello basato sul coefficiente di asimmetria. E' noto infatti che la distribuzione normale ha asimmetria nulla, e pertanto è lecito attendersi che se una serie è distribuita normalmente, il suo coefficiente di asimmetria sarà nullo. 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Analisi preliminare della serie osservata Qualora il coefficiente di asimmetria della serie risulti significativamente diverso da zero (ovvero un altro test rigetti l'ipotesi di normalità per i dati), occorre procedere ad una trasformazione normalizzante dei dati. La scelta della trasformata più appropriata, viene generalmente condotta per tentativi, scegliendo quella che restituisce valori cui corrisponde il minimo valore del coefficiente di asimmetria. La sequenza di operazione potrebbe dunque essere: 1. Trasformazione dati originali 2. Adattamento del modello nel dominio trasformato 3. Generazione di serie sintetiche 4. Ri-trasformazione nel dominio originale, attraverso l'inversa della particolare espressione utilizzata. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Identificazione del modello La fase di identificazione consiste nel definire, sulla base delle caratteristiche osservate sulla serie storica, la tipologia o le tipologie di modelli più appropriata. Ad esempio, con riferimento ad una serie stazionaria, volendo utilizzare un modello della classe ARMA, il problema dell'identificazione è ricondotto alla scelta dell'ordine p e q rispettivamente delle componenti autoregressive e media mobile. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Identificazione del modello Generalmente quindi si preferisce scegliere più modelli, che, una volta stimati i parametri, possono essere confrontati sulla base di statistiche oggettive, quali: 1. Akaike Information Criterion Corrected (AICC) 2. Schwarz Information Criterion (SIC) Hirotugu Akaike, 1971 Jabba the Hutt, Star Wars 1983 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Identificazione del modello In generale, il punto di partenza per l'identificazione del modello è rappresentato dall'autocorrelogramma osservato. A tal fine, una volta calcolati i coefficienti di autocorrelazione per alcuni lag (generalmente una decina), per prima cosa occorre verificare per quanti e quali lag, tali coefficienti risultano significativamente diversi da zero. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Identificazione del modello Per verificare “quanto significativamente” diversi da zero siano i valori di autocorrelazione ai diversi lag si possono calcolare i limiti di Anderson: − 1 ± uβ n − k − 1 ~ ρk = n−k Dove ub è il quantile di una variabile normale standardizzata corrispondente ad una probabilità di non superamento b n è il numero di dati e k il numero di parametri del modello (per un modello ARMA(p,q) k=p+q) ACF Annual Series (original) 1 Valori del coefficiente di autocorrelazione esterni ai predetti limiti devono essere considerati significativamente diversi da zero. ACF 0.5 0 -0.5 -1 0 3 6 9 12 15 LAG ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Identificazione del modello Dalla forma dell'autocorrelogramma, tenendo conto dei coefficienti non significativi, si può effettuare una identificazione preliminare. Al fine dell'identificazione dell'ordine p della componente autoregressiva, se i primi valori dei coefficienti di autocorrelazione seguono un decadimento esponenziale, allora si può ipotizzare che il modello appropriato sia un AR(1). Se invece l'autocorrelogramma si presenta come una combinazione di un decadimento esponenziale e di un andamento sinusoidale smorzato, allora un modello autoregressivo di ordine superiore potrebbe essere appropriato. In questo caso, al fine di identificare l'ordine p, può essere di aiuto ricorrere alla cosidetta Partial AutoCorrelation Function (funzione di autocorrelazione parziale) che, per un processo AR(p), ha la proprietà di annullarsi per lag k>p. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Identificazione del modello – alcune indicazioni Sulla base della forma dell'autocorrelogramma, si possono dare le seguenti indicazioni sul modello più appropriato: 1. Decadimento esponenziale a zero: modello autoregressivo AR(p). Utilizzare la funzione di autocorrelazione parziale per identificare l'ordine p. 2. Andamento alternato positivo/negativo, con decadimento a zero: Modello autoregressivo ARMA(p,0). Utilizzare la funzione di autocorrelazione parziale per identificare l'ordine p. 3. Uno o più valori diversi da zero, ed il resto essenzialmente uguale a zero: Modello a media mobile ARMA(0,q). L'ordine q è dato in corrispondenza del primo valore nullo. 4. Decadimento esponenziale, solo dopo alcuni lag: Modello ARMA(p,q). 5. Valori nulli o pressocché nulli: La serie è puramente casuale. 6. Valori elevati che si presentano periodicamente: Utilizzare un modello periodico. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Identificazione del modello – modelli ARMA Le precedenti indicazioni suggeriscono le modalità di individuazione (ARMA(p,0)) ovvero degli ordini p e q dei modelli autoregressivi a media mobile (ARMA(0,q)). Per contro, l'individuazione degli ordini di un modello ARMA(p,q) non è così semplice. In pratica, una volta individuato che il modello appartiene a questa classe, si preferisce selezionare diverse coppie di valori (p,q) e confrontare i modelli risultanti, una volta effettuata la stima dei parametri, sulla base di alcune statistiche. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri La stima dei parametri consiste nella determinazione dei valori da attribuire ai parametri del modello affinché, sulla base di un prefissato criterio, criterio, esso si adatti "al meglio" alla serie di dati osservata. Al variare del criterio adottato, quindi, si otterranno diverse equazioni (dette stimatori) che restituiscono i valori dei parametri (dette stime) sulla base di alcune caratteristiche della serie osservata ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri – criteri di stima Tra i possibili criteri, forse il più utilizzato in campo ingegneristico è il cosiddetto "metodo dei momenti“ Con riferimento ad un generico modello statistico, esso consiste nel trovare i valori dei parametri tali che alcuni dei momenti teorici del modello coincidano con quelli osservati sulla serie. serie. Ovviamente, il numero dei momenti da considerare (e conseguentemente il numero degli stimatori risultanti) dovrà coincidere con il numero dei parametri del modello.. modello ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli yt = µ + φ1( yt −1 − µ ) + εt Ad esempio, con riferimento ad un modello AR(1), i parametri da stimare sono σ ε2 , per un totale di tre parametri. µ , φ e la varianza del rumore bianco La scelta dei momenti da utilizzare viene generalmente fatta preferendo i momenti di ordine inferiore, le cui stime sul campione risultano generalmente più affidabili. In questo caso quindi appare preferibile utilizzare i momenti del primo e del secondo ordine media, varianza e coefficiente di autocorrelazione a lag-1, le cui espressioni in funzione dei parametri sono date rispettivamente dalle equazioni ottenute a partire dal campione disponibile: 1 n µ = y = ∑ yt n t =1 media della variabile σ ε2 = σ (1 − φ 2 ) varianza del rumore bianco n φ = r(1) = ∑( y − y)( y t =2 t −1 t n−1 n t =1 t =2 − y) coefficiente di autocorrelazione a lag 1 2 2 ( y − y ) ( y − y ) ∑ t ∑ t −1 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri Uno dei pregi del metodo dei momenti è che esso assicura che le serie generate attraverso il modello risultante abbiano, in media, gli stessi momenti del campione utilizzati per la stima. • Sebbene questa possa essere una proprietà desiderabile in un metodo di stima, tuttavia è da rilevare che da un punto di vista statistico il metodo risulta poco efficiente, a causa della poca affidabilità delle stime campionarie dei momenti, generalmente affette da distorsione (bias). Inoltre il metodo non consente di derivare in maniera agevole le proprietà statistiche degli stimatori stessi, quale errore di stima e bias. • Pertanto appare preferibile ricorrere ad altri metodi di stima, più robusti e meno soggetti ad errori, quale ad esempio il metodo della massima verosimiglianza. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri – consistenza e distorsione Si chiama stima di un parametro generico ϑ una grandezza statistica t il cui valore numerico, calcolato sulla base delle osservazioni che costituiscono il campione disponibile, si assume come valore di ϑ. • La stima t è quindi una variabile casuale, perché è funzione delle osservazioni, i cui valori variano casualmente, a seconda del campione. • La scelta della stima t deve essere fatta in modo che il valore da essa fornito per il parametro ϑ sia il più vicino possibile a quello reale “nella stragrande maggioranza dei casi” ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri – consistenza e distorsione Una stima non si respinge perché fornisce un cattivo risultato in un caso particolare cioè perché in un caso particolare il valore di t differisce molto da quello di ϑ, si respinge se continua a dare cattivi risultati a lungo andare… • Cioè se la popolazione dei possibili valori di t è sensibilmente lontana dal valore di ϑ • La bontà di una stima si giudica dunque dalla distribuzione dei suoi possibili valori ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri – consistenza e distorsione Sarebbe desiderabile che: Informazione disponibile Incertezza della stima Ovvero che la stima t deve essere tanto migliore quanto maggiore è la dimensione N del campione da cui la stima si ricava (consistenza) Si dice che la stima t è indistorta quando la sua media mt è sempre uguale a ϑ quale che sia la dimensione N del campione , in caso contrario si dice distorta (biased) ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri – consistenza e distorsione Es: La varianza N 1 2 s 2 ( x) = ∑[xi − m( x)] N i =1 È una stima distorta della varianza s2x della popolazione dalla quale provengono gli N elementi del campione. Invece la grandezza: N 1 N 2 2 2 [xi − m(x)] = s N −1 ( x) = s ( x) ∑ N −1 i =1 N −1 È una stima indistorta: la sua media è proprio uguale a s2x ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri – metodo max verosimiglianza Sotto l'ipotesi di normalità, il metodo della massima verosimiglianza è praticamente equivalente a determinare i valori dei parametri che minimizzano la varianza del rumore bianco σ 2 ε ovvero la somma dei quadrati dei residui εˆt calcolati a partire dalle serie osservate xt sulla base del modello. Ad esempio con riferimento ad un modello AR(1), ed ad una serie osservata xt con t=1,2, … , n, la serie dei residui può essere calcolata come: εˆt = µ + φ (xt −1 − µ ) − xt t = 2,...,n la somma dei quadrati dei residui sarà data da: n n SSQ = ∑εˆ = ∑(µ + φ (xt −1 − µ ) − xt ) t =2 2 t 2 t =2 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Stima dei parametri – metodo max verosimiglianza da cui si evince che essa può essere vista come una funzione dei parametri µ e φ cioè SSQ= SSQ(µ,φ ) La stima dei parametri quindi può essere effettuata sulla base della minimizzazione della funzione min[SSQ(µ,φ )] In pratica si preferisce stimare il parametro m attraverso il metodo dei momenti, mentre i restanti parametri possono essere trovati attraverso la minimizzazione numerica (per es. tramite il metodo del gradiente) della funzione SSQ. In ogni caso, è sempre opportuno, ove possibile procedere con una stima preliminare dei parametri attraverso il metodo dei momenti, da utilizzare come valori iniziali nella procedura numerica. Ovviamente, una volta minimizzata la SSQ, il suo valore fornisce la stima della varianza del rumore bianco. In maniera del tutto analoga si può procedere in generale per un modello ARMA(p,q) ovvero periodico PARMA(p,q). ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Verifica e validazione del modello È possibile effettuare una distinzione formale tra verifica e validazione di un modello stocastico: Controllo che il modello sia in grado di riprodurre le caratteristiche della serie storica di cui si è tenuto esplicitamente in conto durante la stima dei parametri. Controllo se il modello sia in grado di conservare altre caratteristiche della serie storica, che non erano state prese esplicitamente in conto durante la stima dei parametri. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Verifica e validazione del modello Ad esempio, dopo avere stimato i parametri attraverso il metodo dei momenti, la verifica consiste nell'accertarsi, attraverso la generazione di numerose serie sintetiche, che le serie così generate abbiano gli stessi momenti utilizzati per la stima dei parametri. Conseguentemente, la fase di verifica si riduce prevalentemente ad un controllo della corretta stima ed implementazione del modello, mentre la validazione consente di accertare le capacità del modello di riprodurre "al meglio", le caratteristiche della serie storica. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Verifica e validazione del modello Tuttavia, nella pratica, tale distinzione trova raramente applicazione infatti si procede così: 1. Si stimano i parametri 2. Si procede alla generazione delle serie 3. Si calcolano numerose statistiche e proprietà 4. Si confrontano con quelle corrispondenti calcolate sul campione senza distinzione tra quelle relative alla verifica e quelle relative alla validazione. Quindi come spesso avviene: ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Verifica e validazione del modello Ripetendo la procedura con diversi modelli, è possibile quindi selezionare quello che nel complesso, è in grado di riprodurre al meglio le caratteristiche della serie originale. Generalmente, le statistiche utilizzate a tale fine sono la media, lo scarto, l'autocorrelogramma a diversi lag, il coefficiente di asimmetria il valore massimo ed il valore minimo. Da un punto di vista strettamente statistico, al fine del confronto tra diversi modelli alternativi, si potrebbe utilizzare come criterio la somma dei quadrati dei residui. Il modello preferibile cioè, dovrebbe essere quello che presenta il minor valore di tale statistica. Quest'ultima però, risulta generalmente influenzata dal numero dei parametri, e conseguentemente, essa tende a decrescere al crescere del numero dei parametri. Quindi risulta impossibile confrontare modelli diversi ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Verifica e validazione del modello Poichè invece in generale vale il principio di parsimonia dei parametri, e che pertanto, a parità di prestazioni, è sempre preferibile un modello con il minor numero di parametri, sono state proposte statistiche alternative, che nel valutare l'adattamento statistico del modello, tengono anche conto del numero dei parametri presenti. Tra queste, la più utilizzata è probabilmente il criterio di informazione di Akaike (AIC), che può con riferimento ad esempio ad un modello ARMA(p,q) essere calcolata come: 2( p + q + 1)n AIC( p, q) = n ln σˆε + n− p−q−2 ( ) 2 Per campioni numerosi può essere utilizzato il SIC: ( ) 2 ˆ SIC( p, q) = n ln σ ε + n + p + q ln n ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Prima di sporcarsi le mani… Infine è opportuno fare alcune precisazioni: 1. Qualora i dati abbiano subito una trasformazione preliminare alla stima dei parametri, è opportuno calcolare le statistiche di confronto, sia nel dominio originale che in quello trasformato. 2. La seconda invece riguarda la modalità di calcolo delle statistiche sulle serie generate. Al fine di tenere conto della forte dipendenza di alcune statistiche con la lunghezza della serie (si pensi, ad esempio al valore massimo), è opportuno suddividere il campione generato in sotto-serie, ciascuna di lunghezza pari a quella osservata e calcolare le statistiche per ognuna di esse. Il confronto, potrà quindi essere fatto tra i valori medi di ciascuna delle statistiche così calcolate, ed i corrispondenti valori osservati. 3. Si noti che, a volte, può essere opportuno riportare, oltre al valore medio, anche i valori corrispondenti a più o meno uno scarto quadratico medio, al fine di valutare, oltre all'andamento medio, anche l'inevitabile variabilità campionaria. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Principali software per l’analisi di processi stocastici Generali (econometria, finanza, serie temporali, previsione) http://www.roguewave.com/products/imsl-numerical-libraries.aspx • IMSL • STATGRAPHICS http://www.statgraphics.com/ http://www.springer.com/statistics/book/978-0-387-94337-4 • ITSM http://www.minitab.com/en-IT/default.aspx?langType=2057 • MINITAB http://www.sas.com/technologies/analytics/forecasting/ets/ • SAS/ETS http://www.spss.it/ • SPSS http://www.r-project.org/ • R http://www.mathworks.it/products/matlab/ • MATLAB Orientati alle serie idrologiche http://www.hec.usace.army.mil/publications/ComputerProgramDocumentation/HEC• HEC-4 4_UsersManual_%28CPD-4%29.pdf ----- 1971 • LAST Lane and Frevert, 1990 & USBR Grygier and Stedinger, 1990 • SPIGOT • SAMS http://www.sams.colostate.edu/index.html ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Software per l’analisi, la modellazione e simulazione di processi stocastici ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Download SAMS (2007) http://www.sams.colostate.edu/index.html ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Principali caratteristiche del software SAMS (2007) L’obiettivo principale di SAMS è la generazione di dati idrologici sintetici, il software presenta inoltre le seguenti principali caratteristiche: 1. Consente l’analisi delle caratteristiche stocastiche di dati annui e stagionali 2. Presenta numerose metodologie per la trasformazione dei dati originali ai fini della normalizzazione delle serie temporali 3. Include una grande varietà di modelli stocastici a singolo sito, multisito compresi alcuni modelli di disaggregazione 4. Offre la possibilità di utilizzare due schemi principali di modelli di generazione di serie sintetiche relative a complessi sistemi fluviali 5. Consente la generazione di un numero illimitato di serie ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Descrizione del software SAMS (2007) SAMS è sostanzialmente un pacchetto software utile per l’analisi, la modellazione e la simulazione di serie temporali idrologiche Il software è scritto in C, FORTRAN e C++ e gira sui sistemi operativi windows, consiste di tre moduli principali: 1. Data Analysis (Analisi dei dati) 2. Fit a model (Calibrazione del modello) 3. Generate series (Generazione delle serie) ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Descrizione del software SAMS (2007) Accanto ai tre moduli principali vi sono i moduli: 1. Model (Modello) 2. Plot properties (Proprietà dei grafici) Utili rispettivamente per la visualizzazione dei parametri del modello e per la rappresentazione grafica delle caratteristiche della serie originale e delle serie generate ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Preparazione e caricamento del file delle serie storiche Il primo passo consiste nell’importazione dei file dei dati originali I dati devono essere salvati su un file ASCII (.dat) secondo un preciso schema ad es.: station 1 2 KEECHELUS RESERVOIR KACHESS RESERVOIR tot_num_stats Years Annual 2 48 Station Station_id 1 KEECHELUS_RESERVOIR Duration 1926 183.1 234.4 251.2 156.2 ………. 160.4 Station Station_id Duration 2 KACHESS_RESERVOIR 1926 1973 158.1 220.3 233.6 134.7 ……….. 240.2 1973 File Import Flow File… ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis Il modulo Data Analysis costituisce una delle principali applicazioni di SAMS. Le funzioni incluse in questo modulo consentono una moltitudine di operazioni quali: 1. Rappresentazione grafica dei dati 2. Controllo della «normalità» dei dati 3. Trasformazione dei dati 4. Calcolo e rappresentazione delle caratteristiche statistiche e stocastiche dei dati La rappresentazione grafica dei dati può essere utile per la rilevazione di trends, shifts, outliers e errori potenzialmente presenti nei dati originali. L'analisi preliminare della serie osservata ha l'obiettivo principale di calcolare tutte le statistiche che possono essere utili ai fini delle fasi successive. Il controllo della «normalità» dei dati può essere effettuato anche mediante appositi test e strumenti grafici ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis 3. Trasformazione dei dati 4. Calcolo e rappresentazione delle caratteristiche statistiche e stocastiche dei dati La trasformazione dei dati può essere effettuata mediante diverse tecniche di trasformazione quali quella logaritmica, di potenza, gamma e Box-Cox. Il Calcolo e rappresentazione delle caratteristiche statistiche e stocastiche dei dati consiste nella possibilità di calcolare statiche di base: • Media • Deviazione standard • Skewness • Correlazioni tra serie (dati annuali) • Spettri • Correlazioni stagionali • Correlazioni incrociate per dati mutlisito • Statistiche di siccità, surplus e di invaso ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis – Statistical analysis of data Attraverso il Data analysis menu è possibile effettuare una analisi statistica dei dati sia annuali che stagionali con riferimento sia alle serie storiche sia a quelle generate In particolare è possibile effettuare le seguenti attività: • Ottenere un grafico della serie • Trasformare la serie • Ottenere le statistiche in formato tabellare o grafico ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis – Plot time series Plot time series consente di ottenere i grafici relativi alle serie originali o trasformate, annuali o stagionali e effettuare operazioni funzionali di zoom, esporta, … ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis – Transformation to Normal Transformation to Normal consente di trasformare le serie originali ai fini di «normalizzarle» qualora queste non verifichino opportuni test di normalità. Oltre al calcolo delle statistiche principali (media, varianza, coefficienti di autocorrelazione), è opportuno effettuare anche alcune verifiche, volte ad accertare, tra l'altro, se la serie possa considerarsi distribuita secondo una distribuzione normale. L'ipotesi di normalità per la serie è necessaria in quanto in questo caso è garantita la stazionarietà in senso stretto del modello Inoltre essa consente di stimare in maniera relativamente agevole i parametri del modello attraverso il metodo della massima verosimiglianza. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Cenni sulla distribuzione normale In teoria delle probabilità la distribuzione normale (Gaussiana) è una distribuzione di probabilità continua definita dalla funzione: PDF CDF Il parametro μ corrisponde alla media (e anche alla mediana e alla moda) della distribuzione. Il parametro σ è la deviazione standard (e varianza σ2). Se μ = 0 e σ = 1, la distribuzione si dice distribuzione normale standard ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Cenni sulla distribuzione normale La distribuzione normale è considerata il caso base delle distribuzioni di probabilità continue a causa del suo ruolo nel teorema del limite centrale. In estrema semplificazione, assumendo certe deboli condizioni, la media di un elevato numero di variabili casuali provenienti indipendentemente dalla stessa distribuzione di probabilità è distribuita secondo una distribuzione normale indipendentemente da quale sia la distribuzione originale dei dati. Di conseguenza, grandezze fisiche la cui realizzazione scaturisce dalla somma di diversi processi indipendenti (teoria degli errori) spesso presentano una distribuzione di probabilità significativamente vicina alla distribuzione normale. Ovvero somma di n variabili casuali con media e varianza finite tende a una distribuzione normale al tendere di n all'infinito. Grazie a questo teorema, la distribuzione normale si incontra spesso nelle applicazioni pratiche, venendo usata in statistica e nelle scienze naturali e sociali come un semplice modello per fenomeni complessi. 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Digressione sulla… Analisi di frequenza (utile per normal transformation) • L’analisi di frequenza si pone l’obiettivo di valutare la frequenza con cui le osservazioni tendono a ripetersi • Se la variabile è discreta, le frequenza di ciascuno dei valori della variabile può essere calcolata contando le occorrenze delle osservazioni nel campione • Tali frequenze possono essere riportate nell’istogramma di frequenza 7 6 Numero di osservazioni Esempio: lancio di un dado non truccato 30 volte – No. di 1: 5 – No. di 2: 4 – No. di 3: 5 – No. di 4: 6 – No. di 5: 5 – No. di 6: 5 5 4 3 2 1 0 1 2 3 4 Faccia 5 6 Cenni di Analisi di frequenza • Se la variabile è continua (come è il caso in molti fenomeni naturali) non ha senso contare il ripetersi di ciascun valore poiché ciascuna occorrenza è generalmente unica • E’ preferibile quindi suddividere il campo di variazione delle osservazioni in classi di ampiezza finita e contare il numero di osservazioni ricadenti in ciascuna classe Cenni di Analisi di frequenza Esempio: serie di precipitazione annue osservate nella stazione di Caltanissetta nel periodo 1971-2000 (30 anni) Anno Precipitazione (mm) 1971 501.8 1972 604.4 1973 735 1974 421.6 1975 426 1976 1028.2 1977 373.3 1978 399.8 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 594.2 454.0 356.2 645.4 409.8 458.6 487.2 387.6 452.6 565.8 332.8 475.0 687.6 533.2 376.2 335.8 357.2 822.2 618.4 385.0 390.2 473.6 250-350 Consideriamo 8 classi di ampiezza 100 mm: 250-350, 350-450, 450-550, 550-650, 650-750, 750-850, 850-950, 950-1050 350-450 450-550 550-650 650-750 750-850 950-1050 332.8 335.8 356.2 357.2 373.3 376.2 385.0 387.6 390.2 399.8 409.8 421.6 426 452.6 454.0 458.6 473.6 475.0 487.2 501.8 533.2 565.8 594.2 604.4 618.4 645.4 687.6 735 822.2 1028.2 2 11 8 5 2 1 1 Cenni di Analisi di frequenza Istogramma di frequenza assoluta e relativa Numero di osservazioni Frequenza assoluta L’istogramma di frequenza assoluta riporta il numero di osservazioni che ricadono in ciascuna classe 12 10 8 6 4 2 0 250350 350450 450550 550650 650750 750850 850950 9501050 Classi L’istogramma di frequenza relativa riporta il numero di osservazioni che ricadono in ciascuna classe in rapporto al numero totale di osservazioni Frequenza Frequenza relativa 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 250350 350450 450550 550650 650750 Classi 750850 850950 9501050 Cenni di Analisi di frequenza Istogramma di frequenza assoluta e relativa cumulata Numero di osservazioni Frequenza assoluta cumulata L’istogramma di frequenza assoluta cumulata è la cumulata delle frequenze assolute 30 25 20 15 10 5 0 250350 350450 450550 550650 650750 750850 850950 9501050 Classi Frequenza relativa cumulata L’istogramma di frequenza relativa cumulata è la cumulata delle frequenze relative Frequenza 1.00 0.80 0.60 0.40 0.20 0.00 250350 350- 450450 550 550650 650750 Classi 750- 850- 950850 950 1050 Analisi di frequenza Calcolo delle frequenze assoluta e relativa Ordinati i dati in ordine crescente, la frequenza di non superamento dell’i-esimo valore è data da: Fi=i/(n+1) con n dimensione del campione F r e q u e n z a d i W e ib u l F i • Ordinare i dati in ordine crescente • Suddividere il campione in k classi di uguale ampiezza in cui k può essere calcolato con: Precipitazione (mm) Fi 1 332.8 0.032 – Formula di Sturges K=1+3.3*Log(N) 2 335.8 0.065 – K=N1/2 3 356.2 0.097 4 357.2 0.129 – 5≤K ≤25 5 373.3 0.161 6 376.2 0.194 • Contare il numero di osservazioni ni 7 385.0 0.226 8 387.6 0.258 che ricadono nella i-esima classe 9 390.2 0.290 10 399.8 0.323 • Frequenza assoluta: ni 11 409.8 0.355 12 421.6 0.387 • Frequenza relativa: fi= ni/N 13 426 0.419 14 452.6 0.452 Frequenza di Weibull consente di calcolare la frequenza di 15 454.0 0.484 16 458.6 0.516 non superamento di un dato osservato 17 473.6 0.548 1.000 0.800 0.600 0.400 0.200 0.000 200 300 400 500 600 700 Precipitazione (mm) 800 900 1000 1100 18 19 20 21 22 23 24 25 26 27 28 29 30 475.0 487.2 501.8 533.2 565.8 594.2 604.4 618.4 645.4 687.6 735 822.2 1028.2 0.581 0.613 0.645 0.677 0.710 0.742 0.774 0.806 0.839 0.871 0.903 0.935 0.968 Modulo Data Analysis – Transformation - Plotting position Se si è in possesso di un set di dati con diversi valori, per costruire un diagramma delle frequenze cumulate, e quindi per poter valutare il loro comportamento, si dovrà assegnare una frequenza relativa ad ognuno di questi dati. L'azione che permette di assegnare una frequenza relativa al set di dati è la plotting position. Esistono vari tipi di distribuzioni che effettuano plotting position. Una formula generale per la plotting position ha la seguente espressione: p= ( (i − a ) ) n + 1− 2a In cui • i è la posizione del dato nella serie ordinata in ordine crescente • 0≤a≤0.5 • n è la lunghezza della serie Alcune delle formule maggiormente usate sono: SAMS consente di utilizzare le formule di Weibull e di Cunnane ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis – Transformation to Normal SAMS consente di verificare la normalità dei dati originali qualitativamente rappresentandoli su un cartogramma probabilistico normale e quantitativamente attraverso i test di normalità basati sul coefficiente di simmetria e sul test di Filliben. Il cartogramma a sx presenta i dati originali mentre a dx vengono rappresentati i dati nel dominio trasformato. È possibile scegliere la serie da trasformare e eventualmente la particolare «stagione». I punti rappresentano la frequenza empirica dei dati ordinati secondo Weibull o Cunnane e la linea continua la distribuzione teorica normale basata sulla trasformazione corrente. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis – Transformation to Normal Se la distribuzione dei dati originali non dovesse soddisfare il requisito di normalità è possibile operare le seguenti trasformazioni: Trasformazione Logaritmica Y = ln ( X + a ) Gamma Y = Γ( X ) Potenza Y = (X + a) Box Cox b ( ( X + a ) − 1) Y= b b con a e b coefficienti I risultati della trasformazione sono visibili sia in forma grafica che in forma tabellare relativamente ai citati test di normalità basati sul coefficiente di asimmetria e sul test di Filliben che possono risultare rispettivamente ACCEPT REJECT ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Data Analysis – Transformation to Normal ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Test di normalità… SAMS consente di verificare la normalità dei dati originali o trasformati attraverso i test di normalità basati sul coefficiente di asimmetria e sul test di Filliben. Lo skewness test of Normality è un test a due code mentre il Filliben test of Normality è un test ad una coda, entrambi vengono effettuati di default da SAMS per un livello di significatività a=10%. REMINDER…Si dice livello di significatività del test e si indica comunemente con a la probabilità di commettere, nell’esecuzione del test, un errore del I tipo, consistente nel rigettare una ipotesi vera. Il complemento ad uno (1-a) del livello di significatività è la probabilità di accettare l’ipotesi quando è vera. Test di normalità basato sul coefficiente di asimmetria Il test basato sul coefficiente di asimmetria prende spunto dal fatto che la distribuzione normale ha asimmetria nulla, e pertanto è lecito attendersi che, se una serie è distribuita normalmente, il suo coefficiente di asimmetria sarà nullo. Distribuzione asimmetrica a sinistra Distribuzione asimmetrica a destra Gli indici di asimmetria caratterizzano la forma della distribuzione dei dati intorno alla moda, uno degli indici più utilizzati è dato dalla seguente espressione: sk = m3 3 m2 2 che su un campione osservato può essere riscritto come: n g 1= 1 3 ( ) x − x ∑ i n i =1 1 2 ∑ (xi − x ) i =1 n n 3 2 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Cenni sugli indici di asimmetria (skewness) • Se la distribuzione è simmetrica (g1=0): Moda=media=mediana • Se la distribuzione è asimmetrica a sinistra (maggiore estensione dell’istogramma per valori maggiori della moda) (g1>0): Moda < mediana < media • Se la distribuzione è asimmetrica a destra (maggiore estensione dell’istogramma per valori minori della moda) (g1<0): Moda > mediana > media In pratica, una volta calcolato il coefficiente di asimmetria occorre verificare se esso possa considerarsi significativamente diverso da zero. Nell’ipotesi che il campione sia estratto da una popolazione normalmente distribuita, Snedecor e Cochran (1967) hanno fornito il seguente intervallo di confidenza di probabilità b valido per n>150 − u β 6 , uβ N 6 N Dove u β è il quantile di una variabile normale standardizzata corrispondente ad una probabilità di non superamento b ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Digressione sui….Quantili • Si definisce quantile corrispondente ad una frequenza q il valore della variabile osservata che non viene superato o eguagliato nel q% dei casi • La mediana è il quantile 50% • Per calcolare il quantile corrispondente ad una data frequenza q occorre: – ordinare gli n dati in ordine crescente – il quantile xq è la media tra valori con numero d’ordine q*(n+1)-1 e q*(n+1) (approssimati per eccesso) ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Calcolo dei quantili Esempio: serie di precipitazioni annue osservate nella stazione di Caltanissetta nel periodo 1980-2000 (21 anni) Anno Precipitazione (mm) Numero d'ordine 1980 454.0 1 1981 356.2 2 1982 645.4 3 1983 409.8 4 1984 458.6 5 1985 487.2 6 1986 387.6 7 1987 452.6 8 1988 565.8 9 1989 332.8 10 1990 475.0 11 1991 687.6 12 1992 533.2 13 1993 376.2 14 1994 453.7 15 1995 357.2 16 1996 822.2 17 1997 618.4 18 1998 385.0 19 1999 390.2 20 2000 473.6 21 Precipitazione (mm) 332.8 356.2 357.2 376.2 385.0 387.6 390.2 409.8 452.6 453.7 454.0 458.6 473.6 475.0 487.2 533.2 565.8 618.4 645.4 687.6 822.2 Quantile x25 (detto quartile) i1=q∙(n+1)=.25 ∙ 22=5.5≈6 i2=i1-1=5 x25=(385+387.6)/2=386.3 MATLAB: quantile(a,y) 0≤y≤1 ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Box plot • Il box and whisker plot (letteralmente grafico a scatola e baffi) è una rappresentazione sintetica ed efficace della distribuzione dei dati • Presenta il vantaggio di potere facilmente confrontare diverse distribuzioni relative a diverse serie di dati • La sua costruzione è basata sui tre quantili – Mediana (x50) – x25 – x75 • • • Si calcola H= x75 - x25 e si stabiliscono due intervalli di ampiezza 1.5H Si rappresentano gli ultimi valori all’interno di tali intervalli per definire i whiskers Si rappresentano i valori fuori dagli intervalli per definire gli outliers ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Costruzione Box plot Precipitazione (mm) 332.8 356.2 357.2 376.2 385.0 387.6 390.2 409.8 452.6 453.7 454.0 458.6 473.6 475.0 487.2 533.2 565.8 618.4 645.4 687.6 822.2 1000 900 Precipitazio ne (mm) Numero d'ordine 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 772.9 800 700 600 500 400 Valore più alto osservato minore di 772.9 1.5H x75 x50 H x25 300 MATLAB: boxplot(a) ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Confronto tra le precipitazioni annue delle stazioni di Caltanissetta, Catania e Linguaglossa nel periodo 1921-2000 Precipitazio ne (mm) 2500 2000 1500 1000 500 1 Caltanissetta 2 Catania 3 Linguaglossa ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Filliben test di normalità Il test ad una coda è basato sul calcolo di: rc = Corr ( x, M ) In cui M è una grandezza funzione della inversa cumulata della distribuzione normale. Opportune tabelle possono essere utilizzate in corrispondenza del numero di dati a disposizione e del livello di significatività. SAMS - Test di normalità (Singola stazione, tutti i mesi) SAMS – Sample statistics su dati annuali o stagionali della serie originale o di quella trasformata Media Deviazione standard Coefficiente di asimmetria Coefficienti di autocorrelazione (lag k) ACF Si possono visualizzare inoltre: • Coefficiente di variazione • Minimo e massimo Sample statistics ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli SAMS – Sample statistics su dati annuali o stagionali della serie originale o di quella trasformata Cross-correlazione (multisito a lag k) in cui: e jj Sono le varianze campionarie per i siti i e j i j Modulo Fit Model Consente la stima dei parametri e il test dei modelli stocastici univariati e multivariati, è possibile considerare i seguenti modelli: • • • • • • • • • • • ARMA (p,q) univariato con 1 ≤ p,q ≤ 10 GAR (1) univariato PARMA (p,q) periodico univariato Shifting Mean univariato Modello univariato di disaggregazione stagionale MAR (p) multivariato autoregressivo CARMA (p,q) multivariato contemporaneo con 1 ≤ p,q ≤ 10 MPAR (p) multivariato periodico CSM-CARMA (p,q) multivariato Modello multivariato di disaggregazione annuale (spaziale) Modello multivariato di disaggregazione temporale ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Fit Model Nel caso di una rete idrografica è possibile ottenere un approccio multivariato di modellazione diretta basata su modelli MAR e CARMA per dati annuali e MPAR per dati stagionali. Possibile schema multivariato di generazione di serie stagionali: a) Un modello multivariato, ad es. AR(p) viene utilizzato per generare deflussi annuali alle stazioni principali b) Un modello di disaggregazione spaziale utilizzato per disaggregare i deflussi annuali generati per le stazioni principali in deflussi annuali per le sotto stazioni seguito in cascata da altre disaggregazioni spaziali sino a giungere alle stazioni più a monte c) Un modello di disaggregazione temporale per ottenere deflussi stagionali per una stazione o per un gruppo di stazioni a partire dai dati annuali Sotto Stazioni 2 Sotto Stazioni 1 Stazione principale ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Generate series Il modulo di generazione di serie sintetiche utilizza i modelli precedentemente calibrati. Le caratteristiche statistiche delle serie generate possono essere presentate in forma grafica o tabellare insieme alle serie storiche originali che sono state utilizzate per calibrare il modello scelto. ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli Modulo Generate series e Compare Confronto tra serie originale e serie generate… ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli È giunto il momento di Sporcarsi le mani con modelli e software… ESPRI – ESperto in Previsione/Prevenzione Rischio Idrogeologico _UD: Modelli stocastici e analisi dei segnali_Analisi dei modelli