Determinazione della curva di probabilità

annuncio pubblicitario
Statistica idrologica
Determinazione della curva di probabilità
1.Si selezionano alcuni tipi di distribuzione, tra i quali sembra più
ragionevole effettuare la ricerca;
2.Si individua il tipo di distribuzione che meglio si presta a
interpretare le osservazioni.
L’attitudine di un dato tipo di legge (normale, lognormale etc.) a
interpretare le osservazioni disponibili si può valutare, prima ancora
di aver determinato i valori da assegnare ai parametri che la
caratterizzano, disegnando la spezzata della frequenza cumulata
relativa su carte speciali (carte probabilistiche) nelle quali tutte le
curve di probabilità di un certo tipo risultano rappresentate da rette.
Statistica idrologica
Le carte probabilistiche
Le carte probabilistiche sono specifiche per ogni tipo di funzione di
probabilità (log-normale, Gumbel, ..) e vengono costruite in modo
tale che le curve di probabilità della funzione corrispondente vi
vengono rappresentate da rette.
Possono essere utilizzate per verificare l’ammissibilità della funzione
di probabilità prescelta per descrivere il campione, ancor prima di
stimare i parametri:
se il tipo di funzione di distribuzione prescelto è adatto ad
interpretare le osservazioni, i punti devono addensarsi intorno ad una
retta.
Carte probabilistiche
Statistica idrologica
Le carte probabilistiche
Le carte probabilistiche sono dei grafici, nei quali è riportata in
ascissa la variabile casuale x, ed in ordinata il valore della
probabilità cumulata P(X≥x) o P(X≤x), il tempo di ritorno, o la
variabile ridotta della distribuzione, deformando opportunamente la
scala in modo tale che la funzione di ripartizione possa essere
rappresentata da una retta (ad esempio per la distribuzione normale
basta porre in ordinata la variabile normale standard).
Carte probabilistiche
Statistica idrologica
La carta probabilistica log-normale
Carte probabilistiche
Statistica idrologica
La carta probabilistica di Gumbel
Carte probabilistiche
Statistica idrologica
Carte probabilistiche e plotting position
Per riportare un punto sulla carta probabilistica, è necessario
conoscere di esso il valore x e la probabilità P(X≥x) o P(X≤x). Se i
parametri della distribuzione non sono stati ancora determinati, non
è possibile calcolare la probabilità attraverso le formule consuete.
Nelle
carte
probabilistiche
viene
quindi
utilizzata
un’approssimazione della probabilità di superamento, detta plotting
position.
Approssimazione normalmente utilizzata:
m
F( X ≥ x )=
N +1
dove
m:
N:
posizione del dato nella serie ordinata in
senso decrescente,
numerosità del campione
Carte probabilistiche
Statistica idrologica
Carte probabilistiche e plotting position
Dopo aver riportato i valori sulla carta probabilistica, ed avere
accertato che si addensano intorno ad una retta, è possibile:
•utilizzare direttamente il diagramma per identificare la retta che
meglio regolarizza i valori (p.es. tramite il metodo dei minimi
quadrati);
oppure:
•procedere in modo analitico alla determinazione dei parametri
(p. es. tramite il metodo dei momenti) e quindi riportare la retta
risultante sul grafico al fine di valutarne la capacità descrittiva
(questo metodo è preferibile).
Carte probabilistiche
Statistica idrologica
Applicazione: stazione pluviografica di Trento
Le rette introdotte nei grafici sono
quelle stimate tramite il metodo dei
momenti. Infatti nelle carte viene
riportata in ascissa la variabile
ridotta ed in ordinata il dato.
α
.25 .45 .65
.15 .35 .55
.75
.85
.99
.95
45
40
35
30
25
20
15
10
5
-3
-2
-1
0
1
2
3
4
5
Extr.Val
Expected
Observed
5
Extr.Val
Expected
Observed
y: variabile ridotta
Stazione di Trento - (1932-1990)
cartogramma probabilistico di GUMBEL
.05
⇒ x = y ·α + ε
Per es.: ε rappresenta il valore
dell’intercetta dall’applicazione del
metodo dei momenti si ricava
u (1h) = 17.7
u (24h) = 65.3
.01
50
.01
150
.25 .45 .65
.15 .35 .55
.75
.85
.99
.95
140
massimi annuali 24 ore (mm)
y=
x−ε
Cartogramma probabilistico di GUMBEL
.05
massimi annuali (1 ora)
Le figure riportano le carte
probabilistiche di Gumbel relative ai
valori di precipitazione massima
annuale di durata pari ad 1 e 24 ore.
Stazione pluviografica di Trento - 1932-1990
130
120
110
100
90
80
70
60
50
40
30
20
-3
-2
-1
0
1
y: variabile ridotta
2
3
4
Statistica idrologica
Stima dei parametri
• Metodo dei momenti successivi: si impone che i momenti
campionari coincidano con quelli della popolazione e quindi si
fissano i parametri della distribuzione.
• Metodo della massima verosimiglianza: si determinano i parametri
in modo che sia massima la probabilità che siano stati estratti i
campioni osservati dalla popolazione (migliore ma più complesso, a
volte coincidente col metodo dei momenti).
•Atri Metodi (metodo dei minimi quadrati, degli stimatori analoghi,
del minimo Chi-quadrato, della minima distanza)
Stima dei parametri
Statistica idrologica
Metodo dei Momenti
Data una distribuzione caratterizzata da k parametri incogniti, questi
vengono stimati esprimendoli come funzione dei primi k momenti
della popolazione e quindi sostituendo ai momenti della popolazione i
momenti campionari.
SI UGUAGLIANO I MOMENTI CAMPIONARI AI MOMENTI
TEORICI DELLE DISTRIBUZIONI
SI
ATTIBUISCE
A
CIASCUN
MOMENTO
DELLA
POPOLAZIONE IL VALORE DEL CORRISPONDENTE
MOMENTO DEL CAMPIONE ESTRATTO DA QUELLA
POPOLAZIONE
Metodo dei Momenti
Statistica idrologica
Metodo dei Momenti: Esempio
Si voglia stimare media µ e varianza σ2 di una popolazione
caratterizzata da una distribuzione normale.
• la media µ=µ1 è il momento di ordine uno e viene stimato ponendo
µ=m con
1 n
m=
xi
∑
n
i =1
• la varianza σ2= µ2−(µ1)2 è legata al momento di ordine due, viene
stimata ponendo σ2=s2 con
n
s2 =
∑ ( xi − m )
i =1
n−1
2
Metodo dei Momenti
Statistica idrologica
Metodo dei Momenti: osservazioni
VANTAGGI: la estrema semplicità che rende il metodo dei momenti
applicabile facilmente a situazioni in cui sarebbe troppo complesso
applicarne altri.
SVANTAGGI: se si deve stimare il valore della funzione di un
parametro è in generale meglio stimare tale valore direttamente
invece che il parametro e quindi applicare la funzione. Per queste
ragioni il metodo di massima verosimiglianza deve essere preferito,
quando possibile, al metodo dei momenti.
Metodo dei Momenti
Statistica idrologica
Metodo della Massima Verosimiglianza
Metodo della Massima Verosimiglianza
Statistica idrologica
Metodo della Massima Verosimiglianza
Metodo della Massima Verosimiglianza
Statistica idrologica
Metodo della Massima Verosimiglianza
Metodo della Massima Verosimiglianza
Statistica idrologica
Test Statistici
Per verificare la correttezza delle ipotesi: si esegue un frequency test
con:
– χ2 (grezzo ma semplice);
– Kolmogorov-Smirnov (migliore ma più complesso).
Test Statistici
Statistica idrologica
Test statistico di Pearson o del χ2
Per verificare l’adattamento del campione ad una distribuzione
teorica occorre che sia verificata la disuguaglianza:
k
( N i − Npi )2
i =1
Npi
Χ2=∑
≤ χ 12−α (k − s − 1)
k = numero di classi in cui si è diviso il campione
Ni = numero di valori del campione compreso nella i-esima classe,
N = numerosità del campione,
pi = probabilità teorica che un’osservazione sia compresa nella i-esima classe
pari alla differenza della funzione di ripartizione calcolate agli estremi di ciascuna
classe
s = numero dei parametri della distribuzione teorica che si considera
Χ1-α2(k-s-1)= valore di una variabile casuale Chi quadro con k-s-1 gradi di libertà
α=1-F/100
con F% il grado di fiducia che si ripone nel test
Test Statistici
Statistica idrologica
Test di Kolmogorov-Smirnov
Per verificare l’adattamento del campione ad una distribuzione
teorica occorre che sia verificata la disuguaglianza:
N
D = max [ P ( xi ) − FS ( xi ) ] ≤ Dα
i =1
P(xi): probabilità cumulate secondo il modello
Fs(xi): frequenze empiriche di non superamento calcolate utilizzando
la formula di Blom.
Per N maggiore di 35 valgono le seguenti statistiche:
α = 0.05
α = 0.01
Dα = 1.36 / n
Dα = 1.63 / n
Test Statistici
Statistica idrologica
Calcolo dei valori di assegnato tempo di
ritorno
IL TEMPO DI RITORNO E’ LEGATO ALLA CORRISPONDENTE
PROBABILITA’ DI NON SUPERAMENTO DALLA RELAZIONE
1
T( x ) =
1 − P( x )
Una volta determinato il tempo di ritorno Tr, si calcola il valore della
probabilità di non superamento P(x) corrispondente tramite la
seguente relazione:
1
P [ x ≤ xT ] = P ( x ) = 1 −
TR
Calcolo dei valori di assegnato tempo di ritorno
Statistica idrologica
Esempio di applicazione: distr. di Gumbel
Determinazione del valore di x caratterizzato da un tempo di ritorno
T
[
F ( x ) = exp − e
−α ( x − ε
]
) ⇒ α ( x − ε ) = − ln  ln  1

 F( x


) 
1
poiché è :
= P ( X ≥ xT ) = 1 − P ( X ≤ xT ) = 1 − F ( xT )
T
T −1
⇒ F ( xT ) =
T
1   T 
  T 
[α ( x − ε )]T = w T = − ln  ln 
x T = ε − ln  ln 


α   T − 1 
  T − 1 
Calcolo dei valori di assegnato tempo di ritorno
Statistica idrologica
Esempio di applicazione: distr. di Gumbel
STAZIONE PLUVIOGRAFICA DI TRENTO
principali statistici del campione e valori dei parametri della
distribuzione di probabilità di GUMBEL
Stima dei parametri ε e α con il metodo dei momenti.
Durata
(ore)
N casi
minimo
massimo
media
Deviazione
standard
ε
α
1
52
11.0
45.0
21.1
7.7
17.69288
6.00279
3
52
16.0
62.0
31.3
11.0
26.35318
8.59703
6
52
25.0
82.4
42.5
14.4
35.98954
11.23940
12
52
30.0
123.0
58.6
21.8
48.77891
17.02172
24
52
40.2
147.6
76.8
25.5
65.31335
19.89397
Calcolo dei valori di assegnato tempo di ritorno
Statistica idrologica
Esempio di applicazione: distr. di Gumbel
STAZIONE PLUVIOGRAFICA DI TRENTO
principali statistici del campione e valori dei parametri della
distribuzione di probabilità di GUMBEL
Stima dei parametri ε e α con il metodo dei momenti.
Tempo di ritorno (T)
T
w
Durata
2
5
20
50
100
2
0.36651
1
19.9
26.7
35.5
41.1
45.3
5
1.49994
3
29.5
39.2
51.9
59.9
65.9
20
2.97020
6
40.1
52.8
69.4
79.8
87.7
50
3.90194
12
55.0
74.3
99.3
115.2
127.1
100
4.60015
24
72.6
95.2
124.4
142.9
156.8
Calcolo dei valori di assegnato tempo di ritorno
Scarica