FACOLTA’ DI INGEGNERIA Laurea Specialistica in Ingegneria Civile N.O. Giuseppe T. Aronica CORSO DI IDROLOGIA TECNICA PARTE II Analisi e previsione statistica delle variabili idrologiche Lezione X: Scelta di un modello probabilistico 2 Analisi e previsione statistica delle variabili idrologiche Scelta di un modello probabilistico Previsione del quantile G.T. Aronica, IDROLOGIA TECNICA Analisi statistica della grandezza x Inferenza statistica su un campione della variabile Il problema dell’inferenza statistica si traduce nella ricerca del modello probabilistico (CDF) più adatto 3 Analisi e previsione statistica delle variabili idrologiche Scelta di un modello probabilistico Previsione del quantile richiesto xT G.T. Aronica, IDROLOGIA TECNICA Tipo di grandezza Scelta del modello probabilistico teorico (LNII, EV1, GEV, ecc.) Verifica adattamento (plotting, position,carte probabilistiche, test statistici numerosità campionaria Stima dei parametri del modello probabilistico (momenti, ML, PWM) Analisi e previsione statistica delle variabili idrologiche 4 Scelta di un modello probabilistico G.T. Aronica, IDROLOGIA TECNICA Si consideri il campione di dimensione N e sulla base del tipo di grandezza (ed in parte anche sulla base della dimensione) si selezionino alcuni tipi di distribuzioni ragionevolmente più adatte allo scopo anno x (mm) anno x (mm) anno x (mm) 1953 17.6 1967 38.8 1979 78.2 1954 24.8 1968 35.6 1980 35.0 1955 60.6 1969 31.4 1981 24.0 1956 29.8 1970 36.4 1982 63.0 1959 35.6 1971 44.4 1983 28.6 1960 43.2 1972 22.8 1984 24.4 1961 26.0 1973 19.8 1985 24.0 1962 18.0 1974 17.6 1986 18.4 1964 40.8 1975 17.4 1987 27.4 1965 36.4 1976 24.8 1988 30.0 1966 36.2 1978 38.8 1990 22.0 Altezze di pioggia orarie massime annuali (N=33) Gumbel [ P(x) = exp − e − α (x −u) ] Analisi e previsione statistica delle variabili idrologiche 5 Scelta di un modello probabilistico Analisi di frequenza del campione attraverso l’uso di espressioni empiriche (plotting position) per la frequenza di non superamento Plotting position G.T. Aronica, IDROLOGIA TECNICA i − 0.44 F(x ) = N + 0.12 F(x ) = i N+1 i − 0 .5 N i − 0 .4 F(x ) = N + 0 .2 F(x ) = Formula di Gringorten Formula di Weibull Formula di Hazen I valori di frequenza di non superamento si ottengono ordinando preliminarmente in maniera crescente il campione, assegnando un numero d’ordine i a ciascun valore e calcolando i valori sulla base delle PP. Per tutte le relazioni F(xN) <1 Formula di Cunnane Postulato empirico del caso: la frequenza con cui un dato valore si presenta in un campione approssima la probabilità che gli corrisponde nella popolazione, tanto meglio quanto più il campione è numeroso. 6 Analisi e previsione statistica delle variabili idrologiche Scelta di un modello probabilistico Analisi di frequenza del campione attraverso l’uso di espressioni empiriche (plotting position) per la frequenza di non superamento 1 0.6 F G.T. Aronica, IDROLOGIA TECNICA 0.8 W eibull Hazen Cunnane Gringorten 0.4 0.2 0 0.0 20.0 40.0 60.0 x 80.0 100.0 Analisi e previsione statistica delle variabili idrologiche 7 Scelta di un modello probabilistico Sulla base della dimensione del campione si scelga il metodo più robusto e meno pesante per la stima dei parametri Momenti Momenti 1 . 283 1 . 283 = = 0 . 093 s( x ) 13 . 9 û = m ( x ) − 0 . 5772 = 26 . 24 αˆ Momenti pesati in probabilità PW M 4 y G.T. Aronica, IDROLOGIA TECNICA αˆ = 6 2 0 M0 = 32.5 ; M1 = 19.74 ln 2 αˆ = = 0 . 099 2 ⋅ M1 − M 0 û = M 0 − 0 . 5772 = 26 . 69 αˆ -2 0 20 40 x 60 80 Analisi e previsione statistica delle variabili idrologiche 8 Scelta di un modello probabilistico Verifica adattamento (plotting position) Si confrontano la PDF teorica e le frequenze di non superamento calcolate con una plotting position Parametri EV1 (PWM) Plotting position (Cunnane) 1 F(x) P(x) 0.6 F,P G.T. Aronica, IDROLOGIA TECNICA 0.8 0.4 La semplice analisi grafica manca di oggettività 0.2 0 0.0 20.0 40.0 x 60.0 80.0 Analisi e previsione statistica delle variabili idrologiche 9 Scelta di un modello probabilistico Verifica adattamento (carte probabilistiche) Diagrammi nei quali le CDF vengono rappresentate in forma ridotta o normalizzata che in molti casi è descritta da una retta y = α( x − u ) 6 F(x) P(x) 4 3 y G.T. Aronica, IDROLOGIA TECNICA 5 Carta probabilistica di Gumbel 2 I punti si dispongono lungo una retta solo se seguono la EV1 1 0 -1 -2 0.0 20.0 40.0 x 60.0 80.0 La semplice analisi grafica manca di oggettività 10 Analisi e previsione statistica delle variabili idrologiche Scelta di un modello probabilistico Verifica adattamento (test statistici) Un test statistico è una procedura che consente verificare la validità di una ipotesi statistica H0 e quindi di accettarla o rifiutarla G.T. Aronica, IDROLOGIA TECNICA Si definisce regione di accettazione del test la porzione dello spazio W a N dimensioni all’interno della quale è valida l’ipotesi statistica H0 per il campione di dimensione N Si chiama livello di significatività del test (α) la probabilità che il campione ricada fuori dalla regione di accettazione quando H0 è vera Test più utilizzati Test di Kolgomorov-Smirnov Test di Pearson o del χ2 11 Analisi e previsione statistica delle variabili idrologiche Scelta di un modello probabilistico Test di Kolgomorov-Smirnov Test non parametrico (è nota sia la distribuzione sia i suoi parametri) È basato su una misura di deviazione fra la CDF teorica e la frequenza empirica del campione G.T. Aronica, IDROLOGIA TECNICA d = max F(x ) − P(x ) d ≤ DN,α DN,α è una variabile la cui PDF a parametro N è stata ricavata da Smirnov (1948) 1.3581 α = 0.05 N 1.6276 DN,α = α = 0.01 N DN,α = Test più stringente Test meno stringente Valide per n > 40 per n minori la funzione è tabellata Analisi e previsione statistica delle variabili idrologiche 12 Scelta di un modello probabilistico Esempio: ipotesi statistica H0 = campione in esame segua un fissata legge di distribuzione (Gumbel) livello di significatività del test α = 0.05 Per N = 33 DN,0.05 = 0.231 DN,0.01 = 0.277 d = 0.080 0.08 |P(x)-F(x)| G.T. Aronica, IDROLOGIA TECNICA 0.1 0.06 0.04 0.02 L’ipotesi H0 non è rigettata 0 0 10 20 n 30 40 13 Analisi e previsione statistica delle variabili idrologiche Scelta di un modello probabilistico Test di Pearson o del χ2 Test non parametrico (è nota sia la distribuzione sia i suoi parametri) G.T. Aronica, IDROLOGIA TECNICA È basato sull’uso della variabile χ2 per controllare l’ipotesi che il campione provenga da una data distribuzione Sia x la variabile aleatoria di cui è nota la PDF P(x). Consideriamo un campione di dimensione N suddiviso in un numero finito di intervalli di dimensione Ni. Indichiamo con pi la probabilità che un valore qualsiasi della x ricada nell’i-esimo intervallo. Si può allora definire una variabile casuale: k (N − Np )2 2 i X = ∑ i Npi i =1 Test: P[X2≤χ2] = 1-α X 2 ≤ χ 2α Al crescere di N la grandezza X2 è distribuita come un χ2 con k-1 gradi di libertà Analisi e previsione statistica delle variabili idrologiche 14 Scelta di un modello probabilistico Esempio: ipotesi statistica H0 = campione in esame segua un fissata legge di distribuzione (Gumbel) G.T. Aronica, IDROLOGIA TECNICA livello di significatività del test α = 0.05 pi P(xi) xi Ni Npi (Ni-Npi)2 0.2 0.2 21.9 6 6.6 0.4 0.055 0.2 0.4 27.6 9 6.6 5.8 0.873 0.2 0.6 33.5 4 6.6 6.8 1.024 0.2 0.8 41.8 9 6.6 5.8 0.873 0.2 1.0 +∞ 5 6.6 2.6 0.388 33 k (N − Np )2 2 i X = ∑ i = 3 .2 Npi i =1 χ2 = 9.49 0.05 3.2 Npi ≥5 k=4 L’ipotesi H0 non è rigettata 15 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi I MODELLI SINTETICI REGRESSIVI G.T. Aronica, IDROLOGIA TECNICA y(t ) = f [x1(t ), x 2 (t ),...., xn (t )] + ε(t ) Parte deterministica Parte stocastica La funzione f si definisce funzione di regressione della variabile y sulle variabili x1,x2,… xn Il legame espresso dalla funzione f è di tipo statistico nel senso che ad una ennupla di valori x1,x2,… xn non corrisponde uno ed un solo valore del deflusso, cosa che avverrebbe se il legame fosse di tipo funzionale, bensì possono corrispondere infiniti valori di y. 16 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi LA CORRELAZIONE La covarianza Si definisce covarianza della y sulla x il momento del primo ordine per entrambe le variabili calcolato rispetto alle proprie medie G.T. Aronica, IDROLOGIA TECNICA n σ( y , x) = ∑ {[y i − µ( y )]⋅ [xi − µ( x )]} i =1 Il coefficiente di correlazione lineare ρ( x, y ) = σ( y , x ) σ( x ) ⋅ σ( y ) Varia tra 0 (variabili non correlate) e 1 (variabili perfettamente correlate) 17 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi REGRESSIONE LINEARE SEMPLICE Definizione del modello G.T. Aronica, IDROLOGIA TECNICA y = b 0 + b1x + ε ¾ b0 e b1 sono parametri incogniti, coefficienti di regressione; ¾ b0 è l’intercetta e b1 è il coefficiente angolare (relazione lineare tra y e x); ¾ y variabile dipendente, x variabile indipendente; ¾ La variabile stocastica ε rappresenta la differenza tra la variabile aleatoria y e la componente deterministica (termine di errore) distribuita con legge Gaussiana (rumore bianco); ¾ E[ε] = 0 e Var[ε] = σ2, costante e indipendente da x 18 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi REGRESSIONE LINEARE SEMPLICE G.T. Aronica, IDROLOGIA TECNICA Stima dei parametri deterministici ε$ i ε$ j 60 ε$ k ε$ l y E’ possibile stimare i parametri della regressione lineare tracciando la retta che meglio approssima il cluster di punti. 70 50 Minimizzare la somma delle differenze in valore assoluto tra la linea retta e le osservazioni 40 2400 Minimizzare la somma dei quadrati delle differenze tra la linea retta e le osservazioni ( Gauss, Legendre, Eulero, 1800), Metodo dei minimi quadrati o Least Squares Method 2420 2440 2460 x 2480 3 2500 19 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi REGRESSIONE LINEARE SEMPLICE Metodo dei minimi quadrati n 2 n S = ∑ ε i = ∑ ( y i − b 0 − b1xi )2 i =1 i =1 G.T. Aronica, IDROLOGIA TECNICA 2 [ ] ∂ S2 =0 ∂b 0 [ ] ∂ S2 =0 ∂b1 Î Î n − 2 ∑ ( y i − b̂ 0 − b̂1xi ) = 0 i =1 n − 2 ∑ ( y i − b̂ 0 − b̂1xi )xi = 0 i =1 n ∑ ( y i − y )( xi − x ) b̂1 = i =1 n ∑ ( xi − x ) i =1 2 b̂0 = y − b̂1x dove n y = ∑ y i / n i =1 n x = ∑ xi / n i =1 Analisi e previsione statistica delle variabili idrologiche 20 I modelli regressivi REGRESSIONE LINEARE SEMPLICE Esempio: Afflussi e deflussi totali annui misurati alla stazione di Oreto a Parco (1923-1990) Di = b 0 + b1A i i = 1,2,..., n ρ(A, D) = 0.696 b0 = -91.57 b1 = 0.5195 R2 = 0.4846 σ2(ε) = 14769.7 900 D (mm) G.T. Aronica, IDROLOGIA TECNICA 1100 700 500 300 100 500 700 900 1100 1300 A (mm) 1500 1700 1900 Analisi e previsione statistica delle variabili idrologiche 21 I modelli regressivi REGRESSIONE LINEARE SEMPLICE L’indice di regressione (coefficiente di correlazione) G.T. Aronica, IDROLOGIA TECNICA R2 = 1 − σ( ε ) σ( y ) dove: n σ( ε ) = ∑ (y i − ŷ i ) i =1 2 n σ( y ) = ∑ (y i − y )2 i =1 Costituisce un misura del legame tra la variabile dipendente e quella indipendente attraverso la funzione di regressione • R2=1 perfetto adattamento del modello ai dati • R2=0 nessun adattamento del modello ai dati 22 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi REGRESSIONE LINEARE MULTIPLA G.T. Aronica, IDROLOGIA TECNICA Y è la variabile da spiegare, x1, x2,...,xp-1 sono p-1 variabili esplicative, β0, β1, β2,..., βp-1 sono p parametri (coefficienti di regressione). I parametri β1, β2,..., βp-1 sono chiamati coefficienti di regressione parziale. ε rappresenta il termine di errore, ε ∼ Ν(0, σ2) Y = β0 + β1x1 + β2x2 + ... + βp-1xp-1 + ε Regressione Lineare Multipla: stima dei parametri attraverso il metodo dei minimi quadrati Si rappresenti i p parametri incogniti β0, β1, β2,..., βp-1 attraverso il vettore colonna β di dimensione (p × 1) β0 β1 β = . . β p −1 23 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi REGRESSIONE LINEARE MULTIPLA G.T. Aronica, IDROLOGIA TECNICA Gli n termini di errore εi e le n Regressione Lineare Multipla: stima dei parametri osservazioni della variabile Y sono Le osservazioni xij sono contenute nella contenuti nei vettori ε and Y di matrice di dimensione (n × p) dimensione (n × 1) 1 x11 1 x 21 X = . . . . 1 xn1 x12 x22 . . xn 2 ... x1 p −1 ... x2 p −1 . . . . ... xnp −1 ε1 ε 2 ε = . . ε n y1 y 2 y = . . yn Il modello di regressione multipla può essere scritto in forma matriciale come y = Xβ + ε 24 Analisi e previsione statistica delle variabili idrologiche I modelli regressivi REGRESSIONE LINEARE MULTIPLA Regressione Lineare Multipla: stima dei parametri Il valore medio E[Y] di Y è E[Y] = Xβ n n i =1 i =1 G.T. Aronica, IDROLOGIA TECNICA S2 = ∑ εi2 = ∑ ( yi − β 0 − β1x i1... − βp −1x ip −1)2 n n n n i =1 i =1 i =1 i =1 nβˆ 0 + βˆ 1 ∑ xi1 + βˆ 2 ∑ xi 2 + ... + βˆ p −1 ∑ xip −1 = ∑ yi ∂S2/∂β0 = 0 n n n n n i =1 i =1 i =1 i =1 i =1 βˆ 0 ∑ xi1 + βˆ 1 ∑ xi1 xi1 + βˆ 2 ∑ xi1 xi 2 + ... + βˆ p −1 ∑ xi1 xip −1 = ∑ yi xi1 ∂S2/∂β1 = 0 …………. n …………. βˆ ∑ x 0 ∂S2/∂β p-1 i =1 n n n n i =1 i =1 i =1 i =1 ˆ ˆ ˆ ip −1 + β1 ∑ xi1 xip −1 + β 2 ∑ xi 2 xip −1 ... + β p −1 ∑ xip −1 xip −1 = ∑ yi xip −1 =0 XTX = β̂ XTy β̂ = (XTX)-1XTy