FACOLTA’ DI INGEGNERIA
Laurea Specialistica in Ingegneria Civile N.O.
Giuseppe T. Aronica
CORSO DI IDROLOGIA TECNICA
PARTE II
Analisi e previsione statistica delle
variabili idrologiche
Lezione X: Scelta di un modello probabilistico
2
Analisi e previsione statistica delle variabili
idrologiche
Scelta di un modello probabilistico
Previsione del quantile
G.T. Aronica, IDROLOGIA TECNICA
Analisi statistica della grandezza x
Inferenza statistica su un campione della variabile
Il problema dell’inferenza statistica si traduce
nella ricerca del modello probabilistico (CDF)
più adatto
3
Analisi e previsione statistica delle variabili
idrologiche
Scelta di un modello probabilistico
Previsione del quantile richiesto xT
G.T. Aronica, IDROLOGIA TECNICA
Tipo di grandezza
Scelta del modello probabilistico
teorico
(LNII, EV1, GEV, ecc.)
Verifica adattamento
(plotting, position,carte
probabilistiche, test statistici
numerosità
campionaria
Stima dei
parametri del
modello
probabilistico
(momenti, ML,
PWM)
Analisi e previsione statistica delle variabili
idrologiche
4
Scelta di un modello probabilistico
G.T. Aronica, IDROLOGIA TECNICA
Si consideri il campione di dimensione N e sulla base del tipo di
grandezza (ed in parte anche sulla base della dimensione) si
selezionino alcuni tipi di distribuzioni ragionevolmente più adatte
allo scopo
anno
x (mm)
anno
x (mm)
anno
x (mm)
1953
17.6
1967
38.8
1979
78.2
1954
24.8
1968
35.6
1980
35.0
1955
60.6
1969
31.4
1981
24.0
1956
29.8
1970
36.4
1982
63.0
1959
35.6
1971
44.4
1983
28.6
1960
43.2
1972
22.8
1984
24.4
1961
26.0
1973
19.8
1985
24.0
1962
18.0
1974
17.6
1986
18.4
1964
40.8
1975
17.4
1987
27.4
1965
36.4
1976
24.8
1988
30.0
1966
36.2
1978
38.8
1990
22.0
Altezze di pioggia orarie
massime annuali (N=33)
Gumbel
[
P(x) = exp − e − α (x −u)
]
Analisi e previsione statistica delle variabili
idrologiche
5
Scelta di un modello probabilistico
Analisi di frequenza del campione attraverso l’uso di espressioni
empiriche (plotting position) per la frequenza di non superamento
Plotting position
G.T. Aronica, IDROLOGIA TECNICA
i − 0.44
F(x ) =
N + 0.12
F(x ) =
i
N+1
i − 0 .5
N
i − 0 .4
F(x ) =
N + 0 .2
F(x ) =
Formula di Gringorten
Formula di Weibull
Formula di Hazen
I valori di frequenza di non
superamento
si
ottengono
ordinando preliminarmente in
maniera crescente il campione,
assegnando
un
numero
d’ordine i a ciascun valore e
calcolando i valori sulla base
delle PP.
Per tutte le relazioni F(xN) <1
Formula di Cunnane
Postulato empirico del caso: la frequenza con cui un dato valore si presenta in un
campione approssima la probabilità che gli corrisponde nella popolazione, tanto
meglio quanto più il campione è numeroso.
6
Analisi e previsione statistica delle variabili
idrologiche
Scelta di un modello probabilistico
Analisi di frequenza del campione attraverso l’uso di espressioni
empiriche (plotting position) per la frequenza di non superamento
1
0.6
F
G.T. Aronica, IDROLOGIA TECNICA
0.8
W eibull
Hazen
Cunnane
Gringorten
0.4
0.2
0
0.0
20.0
40.0
60.0
x
80.0
100.0
Analisi e previsione statistica delle variabili
idrologiche
7
Scelta di un modello probabilistico
Sulla base della dimensione del campione si scelga il metodo più
robusto e meno pesante per la stima dei parametri
Momenti
Momenti
1 . 283 1 . 283
=
= 0 . 093
s( x )
13 . 9
û = m ( x ) −
0 . 5772
= 26 . 24
αˆ
Momenti pesati in probabilità
PW M
4
y
G.T. Aronica, IDROLOGIA TECNICA
αˆ =
6
2
0
M0 = 32.5 ; M1 = 19.74
ln 2
αˆ =
= 0 . 099
2 ⋅ M1 − M 0
û = M 0 −
0 . 5772
= 26 . 69
αˆ
-2
0
20
40
x
60
80
Analisi e previsione statistica delle variabili
idrologiche
8
Scelta di un modello probabilistico
Verifica adattamento (plotting position)
Si confrontano la PDF teorica e le frequenze di non superamento
calcolate con una plotting position
Parametri EV1 (PWM)
Plotting position (Cunnane)
1
F(x)
P(x)
0.6
F,P
G.T. Aronica, IDROLOGIA TECNICA
0.8
0.4
La semplice
analisi grafica
manca di
oggettività
0.2
0
0.0
20.0
40.0
x
60.0
80.0
Analisi e previsione statistica delle variabili
idrologiche
9
Scelta di un modello probabilistico
Verifica adattamento (carte probabilistiche)
Diagrammi nei quali le CDF vengono rappresentate in forma ridotta o
normalizzata che in molti casi è descritta da una retta
y = α( x − u )
6
F(x)
P(x)
4
3
y
G.T. Aronica, IDROLOGIA TECNICA
5
Carta probabilistica di Gumbel
2
I punti si
dispongono lungo
una retta solo se
seguono la EV1
1
0
-1
-2
0.0
20.0
40.0
x
60.0
80.0
La semplice analisi
grafica manca di
oggettività
10
Analisi e previsione statistica delle variabili
idrologiche
Scelta di un modello probabilistico
Verifica adattamento (test statistici)
Un test statistico è una procedura che consente verificare la validità di
una ipotesi statistica H0 e quindi di accettarla o rifiutarla
G.T. Aronica, IDROLOGIA TECNICA
Si definisce regione di accettazione del test la porzione dello spazio W a
N dimensioni all’interno della quale è valida l’ipotesi statistica H0 per il
campione di dimensione N
Si chiama livello di significatività del test (α) la probabilità che il
campione ricada fuori dalla regione di accettazione quando H0 è vera
Test più utilizzati
‰ Test di Kolgomorov-Smirnov
‰ Test di Pearson o del χ2
11
Analisi e previsione statistica delle variabili
idrologiche
Scelta di un modello probabilistico
Test di Kolgomorov-Smirnov
Test non parametrico (è nota sia la distribuzione sia i suoi parametri)
È basato su una misura di deviazione fra la CDF teorica e la frequenza
empirica del campione
G.T. Aronica, IDROLOGIA TECNICA
d = max F(x ) − P(x )
d ≤ DN,α
DN,α è una variabile la cui PDF a parametro N è stata ricavata da Smirnov
(1948)
1.3581
α = 0.05
N
1.6276
DN,α =
α = 0.01
N
DN,α =
Test più stringente
Test meno stringente
Valide per n > 40
per n minori la
funzione è tabellata
Analisi e previsione statistica delle variabili
idrologiche
12
Scelta di un modello probabilistico
Esempio:
ipotesi statistica H0 = campione in esame segua un fissata legge di
distribuzione (Gumbel)
livello di significatività del test α = 0.05
Per N = 33
DN,0.05 = 0.231
DN,0.01 = 0.277
d = 0.080
0.08
|P(x)-F(x)|
G.T. Aronica, IDROLOGIA TECNICA
0.1
0.06
0.04
0.02
L’ipotesi H0 non è
rigettata
0
0
10
20
n
30
40
13
Analisi e previsione statistica delle variabili
idrologiche
Scelta di un modello probabilistico
Test di Pearson o del χ2
Test non parametrico (è nota sia la distribuzione sia i suoi parametri)
G.T. Aronica, IDROLOGIA TECNICA
È basato sull’uso della variabile χ2 per controllare l’ipotesi che il
campione provenga da una data distribuzione
Sia x la variabile aleatoria di cui è nota la PDF P(x). Consideriamo un
campione di dimensione N suddiviso in un numero finito di intervalli di
dimensione Ni. Indichiamo con pi la probabilità che un valore qualsiasi
della x ricada nell’i-esimo intervallo. Si può allora definire una variabile
casuale:
k (N − Np )2
2
i
X = ∑ i
Npi
i =1
Test: P[X2≤χ2] = 1-α
X 2 ≤ χ 2α
Al crescere di N la grandezza X2 è distribuita come un χ2 con k-1 gradi di
libertà
Analisi e previsione statistica delle variabili
idrologiche
14
Scelta di un modello probabilistico
Esempio:
ipotesi statistica H0 = campione in esame segua un fissata legge di
distribuzione (Gumbel)
G.T. Aronica, IDROLOGIA TECNICA
livello di significatività del test α = 0.05
pi
P(xi)
xi
Ni
Npi
(Ni-Npi)2
0.2
0.2
21.9
6
6.6
0.4
0.055
0.2
0.4
27.6
9
6.6
5.8
0.873
0.2
0.6
33.5
4
6.6
6.8
1.024
0.2
0.8
41.8
9
6.6
5.8
0.873
0.2
1.0
+∞
5
6.6
2.6
0.388
33
k (N − Np )2
2
i
X = ∑ i
= 3 .2
Npi
i =1
χ2
= 9.49
0.05
3.2
Npi ≥5
k=4
L’ipotesi H0 non è
rigettata
15
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
I MODELLI SINTETICI REGRESSIVI
G.T. Aronica, IDROLOGIA TECNICA
y(t ) = f [x1(t ), x 2 (t ),...., xn (t )] + ε(t )
Parte deterministica
Parte stocastica
La funzione f si definisce funzione di regressione della variabile y
sulle variabili x1,x2,… xn
Il legame espresso dalla funzione f è di tipo statistico nel senso che ad
una ennupla di valori x1,x2,… xn non corrisponde uno ed un solo valore
del deflusso, cosa che avverrebbe se il legame fosse di tipo
funzionale, bensì possono corrispondere infiniti valori di y.
16
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
LA CORRELAZIONE
La covarianza
Si definisce covarianza della y sulla x il momento del primo ordine per
entrambe le variabili calcolato rispetto alle proprie medie
G.T. Aronica, IDROLOGIA TECNICA
n
σ( y , x) = ∑ {[y i − µ( y )]⋅ [xi − µ( x )]}
i =1
Il coefficiente di correlazione lineare
ρ( x, y ) =
σ( y , x )
σ( x ) ⋅ σ( y )
Varia tra 0 (variabili non correlate) e 1 (variabili perfettamente correlate)
17
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
REGRESSIONE LINEARE SEMPLICE
Definizione del modello
G.T. Aronica, IDROLOGIA TECNICA
y = b 0 + b1x + ε
¾ b0 e b1 sono parametri incogniti, coefficienti di regressione;
¾ b0 è l’intercetta e b1 è il coefficiente angolare (relazione lineare tra y e x);
¾ y variabile dipendente, x variabile indipendente;
¾ La variabile stocastica ε rappresenta la differenza tra la variabile aleatoria
y e la componente deterministica (termine di errore) distribuita con legge
Gaussiana (rumore bianco);
¾ E[ε] = 0 e Var[ε] = σ2, costante e indipendente da x
18
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
REGRESSIONE LINEARE SEMPLICE
G.T. Aronica, IDROLOGIA TECNICA
Stima dei parametri deterministici
ε$ i
ε$ j
60
ε$ k
ε$ l
y
E’ possibile stimare i parametri
della regressione lineare tracciando
la retta che meglio approssima il
cluster di punti.
70
50
Minimizzare la somma delle differenze in
valore assoluto tra la linea retta e le
osservazioni
40
2400
Minimizzare la somma dei quadrati delle differenze
tra la linea retta e le osservazioni ( Gauss, Legendre,
Eulero, 1800), Metodo dei minimi quadrati o Least
Squares Method
2420
2440
2460
x
2480
3
2500
19
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
REGRESSIONE LINEARE SEMPLICE
Metodo dei minimi quadrati
n 2
n
S = ∑ ε i = ∑ ( y i − b 0 − b1xi )2
i =1
i =1
G.T. Aronica, IDROLOGIA TECNICA
2
[ ]
∂ S2
=0
∂b 0
[ ]
∂ S2
=0
∂b1
Î
Î
n
− 2 ∑ ( y i − b̂ 0 − b̂1xi ) = 0
i =1
n
− 2 ∑ ( y i − b̂ 0 − b̂1xi )xi = 0
i =1
n
∑ ( y i − y )( xi − x )
b̂1 = i =1
n
∑ ( xi − x )
i =1
2
b̂0 = y − b̂1x
dove
 n 
y =  ∑ y i  / n
 i =1 
 n 
x =  ∑ xi  / n
 i =1 
Analisi e previsione statistica delle variabili
idrologiche
20
I modelli regressivi
REGRESSIONE LINEARE SEMPLICE
Esempio:
Afflussi e deflussi totali annui misurati alla stazione di Oreto a Parco (1923-1990)
Di = b 0 + b1A i
i = 1,2,..., n
ρ(A, D) = 0.696
b0 = -91.57
b1 = 0.5195
R2 = 0.4846
σ2(ε) = 14769.7
900
D (mm)
G.T. Aronica, IDROLOGIA TECNICA
1100
700
500
300
100
500
700
900
1100
1300
A (mm)
1500
1700
1900
Analisi e previsione statistica delle variabili
idrologiche
21
I modelli regressivi
REGRESSIONE LINEARE SEMPLICE
L’indice di regressione (coefficiente di correlazione)
G.T. Aronica, IDROLOGIA TECNICA
R2 = 1 −
σ( ε )
σ( y )
dove:
n
σ( ε ) = ∑ (y i − ŷ i )
i =1
2
n
σ( y ) = ∑ (y i − y )2
i =1
Costituisce un misura del legame tra la variabile dipendente e quella indipendente
attraverso la funzione di regressione
• R2=1 perfetto adattamento del modello ai dati
• R2=0 nessun adattamento del modello ai dati
22
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
REGRESSIONE LINEARE MULTIPLA
G.T. Aronica, IDROLOGIA TECNICA
Y è la variabile da spiegare, x1, x2,...,xp-1 sono p-1 variabili esplicative, β0, β1, β2,..., βp-1
sono p parametri (coefficienti di regressione). I parametri β1, β2,..., βp-1 sono chiamati
coefficienti di regressione parziale.
ε rappresenta il termine di errore, ε ∼ Ν(0, σ2)
Y = β0 + β1x1 + β2x2 + ... + βp-1xp-1 + ε
Regressione Lineare Multipla: stima dei
parametri attraverso il metodo dei minimi
quadrati
Si rappresenti i p parametri incogniti
β0, β1, β2,..., βp-1 attraverso il vettore
colonna β di dimensione (p × 1)
β0 


β1 
β = . 


. 
β 
 p −1 
23
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
REGRESSIONE LINEARE MULTIPLA
G.T. Aronica, IDROLOGIA TECNICA
Gli n termini di errore εi e le n
Regressione Lineare Multipla: stima dei parametri
osservazioni della variabile Y sono
Le osservazioni xij sono contenute nella contenuti nei vettori ε and Y di
matrice di dimensione (n × p)
dimensione (n × 1)
1 x11
1 x
21

X = . .

. .
1 xn1

x12
x22
.
.
xn 2
... x1 p −1 
... x2 p −1 
.
. 

.
. 
... xnp −1 
ε1 
ε 
 2
ε = . 
 
. 
ε n 
 
 y1 
y 
 2
y = . 
 
. 
 yn 
 
Il modello di regressione multipla può essere scritto in forma
matriciale come
y = Xβ + ε
24
Analisi e previsione statistica delle variabili
idrologiche
I modelli regressivi
REGRESSIONE LINEARE MULTIPLA
Regressione Lineare Multipla: stima dei
parametri
Il valore
medio E[Y] di Y è
E[Y] = Xβ
n
n
i =1
i =1
G.T. Aronica, IDROLOGIA TECNICA
S2 = ∑ εi2 = ∑ ( yi − β 0 − β1x i1... − βp −1x ip −1)2
n
n
n
n
i =1
i =1
i =1
i =1
nβˆ 0 + βˆ 1 ∑ xi1 + βˆ 2 ∑ xi 2 + ... + βˆ p −1 ∑ xip −1 = ∑ yi
∂S2/∂β0 = 0
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
βˆ 0 ∑ xi1 + βˆ 1 ∑ xi1 xi1 + βˆ 2 ∑ xi1 xi 2 + ... + βˆ p −1 ∑ xi1 xip −1 = ∑ yi xi1
∂S2/∂β1 = 0
………….
n
………….
βˆ ∑ x
0
∂S2/∂β
p-1
i =1
n
n
n
n
i =1
i =1
i =1
i =1
ˆ
ˆ
ˆ
ip −1 + β1 ∑ xi1 xip −1 + β 2 ∑ xi 2 xip −1 ... + β p −1 ∑ xip −1 xip −1 = ∑ yi xip −1
=0
XTX
=
β̂
XTy
β̂
= (XTX)-1XTy