Problema tipico delle applicazioni idrologiche:
qual'è la portata con tempo di ritorno T ?
Il problema dell'inferenza:
dato un campione, individuare la distribuzione
di probabilità da cui ha avuto origine.
Il problema non può mai essere risolto con
esattezza: resta sempre un margine di errore.
Per descrivere un campione si introducono delle
grandezze che hanno un significato analogo a
quello delle grandezze introdotte per descrivere
una popolazione.
Il campione è per sua natura un'entità discreta:
quindi per definire le grandezze tipiche del
campione si prendono a modello le grandezze
introdotte per le distribuzioni di probabilità di
variabile discreta.
La grandezza del campione che corrisponde alla
probabilità di un valore è la f r e q u e n z a
f( x i ) =
ni
N
La frequenza di un valore è significativa solo nel
caso di variabile discreta.
La grandezza del campione che corrisponde alla
probabilità di non superamento è la f r e q u e n z a
di non superamento o frequenza cumulata o
frequenza
F (x a ) =
m
N
La frequenza cumulata è definita anche per
valori che non sono assunti da alcun elemento
del campione.
Somma delle letture di due dadi da gioco: distribuzione
di probabilità
0,20
p (x )
0,15
0,10
0,05
0,00
1
2
3
4
5
6
7
8
9
10 11 12 13
x
Somma delle letture di due dadi da gioco: esempio di
distribuzione di frequenza (N = 1 0 0 )
0,20
f (x )
0,15
0,10
0,05
0,00
1
2
3
4
5
6
7
x
8
9
10 11 12 13
Osservatorio di Brera (Milano). Totali annui di precipitazione del
trentennio 1921-1950. Distribuzione di frequenza.
0,08
0,07
0,06
f
0,05
0,04
0,03
0,02
0,01
0,00
300
600
900
x
1200
1500
Osservatorio di Brera (Milano). Totali annui di precipitazione
del trentennio 1921-1950.
____________________________________________________________
anno
x [mm]
anno
x [mm]
anno
x [mm]
____________________________________________________________
1921
426,6
1931
875,3
1941
1196,6
1922
948,8
1932
853,4
1942
737,4
1923
633,1
1933
1004,5
1943
771,7
1924
829,5
1934
1127,4
1944
709,1
1925
702,9
1935
1060,7
1945
806,4
1926
1203,9
1936
1175,3
1946
794,7
1927
930,4
1937
1354,7
1947
1012,6
1928
753,3
1938
860,0
1948
937,0
1929
739,5
1939
1021,5
1949
952,5
1930
1047,6
1940
887,3
1950
885,2
____________________________________________________________
Osservatorio di Brera (Milano). Totali annui di precipitazione del
trentennio 1921-1950. Osservazioni disposte in ordine crescente e valori
della frequenza di non superamento.
_______________________________________________________________
i
x [mm]
F
i
x [mm]
F
_______________________________________________________________
1
426,6
0,033
16
887,3
0,533
2
633,1
0,067
17
930,4
0,567
3
702,9
0,100
18
937,0
0,600
4
709,1
0,133
19
948,8
0,633
5
737,4
0,167
20
952,5
0,667
6
739,5
0,200
21
1004,5
0,700
7
753,3
0,233
22
1012,6
0,733
8
771,7
0,267
23
1021,5
0,767
9
794,7
0,300
24
1047,6
0,800
10
806,4
0,333
25
1060,7
0,833
11
829,5
0,367
26
1127,4
0,867
12
853,4
0,400
27
1175,3
0,900
13
860,0
0,433
28
1196,6
0,933
14
875,3
0,467
29
1203,9
0,967
15
885,2
0,500
30
1354,7
1,000
_______________________________________________________________
Totali annui di precipitazione registrati all'Osservatorio di Brera nel
trentennio 1921-50. Frequenza di non superamento.
1,2
1,0
F
0,8
0,6
0,4
0,2
0,0
0
200
400
600
800 1000 1200 1400 1600 1800
x
Totali annui di precipitazione registrati all'Osservatorio di Brera nel
trentennio 1921-50. Frequenza di non superamento.
1,20
1,00
F
0,80
0,60
0,40
0,20
0,00
0
200
400
600
800 1000 1200 1400 1600 1800
x
Il numeratore m è una variabile casuale discreta
distribuita secondo una distribuzione di
probabilità binomiale:
µ (m ) = N P (x a )
σ (m ) = √
NP(x a )[1 - P(x a )]

Quindi è anche
µ [F(x a )] =
σ [F(x a )] =
σ (m )
N
=
µ (m )
N
= P (x a )
√
P(x a )[1 - P(x a )]
N
Teorema di Bernoulli:
Pr{|P (x a ) - F (x a )| < ε } = 1
lim
N→∞
Postulato empirico del caso:
un evento avviene con frequenza circa uguale
alla sua probabilità.
La frequenza (cumulata) è un'approssimazione
della probabilità di non superamento:
F[(x a )] ≅ P(x a )
L'espressione
F (x a ) =
m
N
assegna il valore uno (certezza) alla probabilità
di non superamento del massimo valore del
campione.
Per evitare l'incongruenza si usa la formula di
Weibull
F (x a ) =
m
N+1
La formula di Weibull ha anche una base
teorica.
Il generico momento della popolazione è
m
µr' ( x ) =
∑[x i - x 0 ] r p (x i )
i= 1
Il corrispondente momento del campione è
m
m r' ( x ) =
∑[x i - x 0 ] r f(x i )
m
=
i= 1
∑[x i - x 0 ] r nNi
i= 1
m
=
∑[x i - x 0 ] r k=∑1
i= 1
Ed essendo
m
∑ni = N
i= 1
è anche
1
m r' ( x ) =
N
N
∑[x i - x 0 ] r
i= 1
ni
1
N
La determinazione della curva di probabilità:
1 ) interpolazione grafica delle osservazioni
2 ) determinazione della funzione di probabilità
di non superamento
Due fasi della determinazione della funzione di
probabilità di non superamento:
1 ) scelta della distribuzione:
esperienza
adattamento alle osservazioni
2 ) stima dei parametri della funzione di
probabilità di non superamento
Le due fasi possono anche sovrapporsi.
Per la scelta della distribuzione si possono
utilizzare le carte probabilistiche.
Per la stima dei parametri si adopererà il
metodo dei momenti.
La carta probabilistica si può costruire per tutte
le distribuzioni che si riconducono a un'unica
espressione analitica per mezzo di una
trasformazione lineare della variabile.
Esempio
La distribuzione di Gumbel
P(x) = exp{-exp[- α (x - u)]}
con la trasformazione lineare
y = α (x - u )
si riduce all'espressione
P(x) = exp{-exp(-y) }
La carta probabilistica di Gumbel è una carta
che ha sui due assi rispettivamente le variabili x
e y.
Sulla carta probabilistica ogni distribuzione di
Gumbel è rappresentata da una retta.
Carta probabilistica
Gumbel
della
distribuzione
6
0.995
0.99
4
0.90
2
0.80
0.50
0
0.20
0.10
0.005
-2
0
10
20
x
30
40
P(y)
y
0.95
di
La stima t di un parametro θ è una funzione
delle N osservazioni x 1 , x 2 , ..., x N del campione.
La stima t è una variabile casuale, il cui valore
dipende dal campione adoperato.
Caratteristiche della stima
consistente:
lim
Pr{|t - θ | < ε } = 1
N→∞
indistorta:
µ (t) = θ
asintoticamente indistorta:
lim µ (t) = θ
N→∞
(sotto condizioni molto generali una stima
consistente è anche asintoticamente indistorta)
efficiente:
quando la varianza di t tende, al
tendere di N a infinito, a essere
inferiore
alla
varianza
di
qualunque altra stima.
La media del campione
1
m (x ) =
N
N
∑xi
i= 1
è una stima
popolazione.
indistorta
della
media
della
varianza
della
La varianza del campione
1
s2(x ) =
N
N
∑[x i - m (x )] 2
i= 1
è una stima
popolazione.
distorta
della
Invece l'espressione
1
2 (x ) = N s 2 ( x ) =
sN
-1
N -1
N -1
N
∑[x i - m (x )] 2
i= 1
è una stima indistorta della varianza della
popolazione.
Il metodo dei momenti
Si assume il momento del campione come stima
del corrispondente momento della popolazione.
Si stimano tanti momenti quanti sono i
parametri della funzione di probabilità di non
superamento.
Il metodo dei momenti implica generalmente
l'uso della stima indistorta.
Per le distribuzioni a due parametri:
µ (x)
σ 2 (x)
→
→
1
N
N
∑x i = m (x )
media
i= 1
1
N- 1
N
∑[x i - m (x )] 2 = s 2 (x ) v a r i a n z a
i= 1
I valori dei parametri si ricavano utilizzando le
relazioni che li legano ai momenti.
Rappresentazione delle osservazioni sulla carta
probabilistica di Gumbel
E` dato un campione di N osservazioni della
variabile Q (massimo annuale della portata al
colmo dell'Adda a Fuentes).
Operazioni da svolgere:
1 ) ordinamento delle osservazioni Q 1 , Q 2 , ...,
Q N in ordine crescente
2 ) calcolo della frequenza di non superamento
d e l l ' i-esimo valore Q i con la formula di
Weibull
F (Q i ) =
i
N+1
3 ) assunzione
della
frequenza
approssimazione della probabilità
come
F(Q i) ≅ P(Q i)
4 ) disposizione dei punti che rappresentano le
osservazioni sulla carta probabilistica
5 ) controllo della linearità della disposizione
dei punti
Adda/dati
Mer, 31 mar 2004
1
2
3
4
5
Q
Q ord
F
Grandezze caratteristiche del campione
Valori
1
1163
225
0,04
Dimensione del campione
2
865
329
0,08
Minimo
3
502
334
0,12
Massimo
4
517
418
0,16
Media
5
517
429
0,2
6
581
443
0,24
7
688
457
0,28
8
429
502
0,32
9
1004
506
0,36
10
525
510
0,4
11
930
517
0,44
12
418
517
0,48
13
759
525
0,52
14
506
541
0,56
15
443
581
0,6
16
863
682
0,64
17
329
688
0,68
18
510
759
0,72
19
541
863
0,76
20
682
865
0,8
21
457
930
0,84
22
1060
1004
0,88
23
225
1060
0,92
24
334
1163
0,96
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
10:21
Varianza
Scarto quadratico medio
Page 1
24
225
1163
618,7
61458,1
247,9
Adda/dati
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
Mer, 31 mar 2004
10:21
1
2
3
4
5
Q
Q ord
F
Grandezze caratteristiche del campione
Valori
Page 2
Adda/dati
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
Mer, 31 mar 2004
10:21
1
2
3
4
5
Q
Q ord
F
Grandezze caratteristiche del campione
Valori
Page 3
Adda/dati
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
Mer, 31 mar 2004
10:21
1
2
3
4
5
Q
Q ord
F
Grandezze caratteristiche del campione
Valori
Page 4
Adda/dati
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
Mer, 31 mar 2004
10:21
1
2
3
4
5
Q
Q ord
F
Grandezze caratteristiche del campione
Valori
Page 5
Adda/dati
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
Mer, 31 mar 2004
10:21
1
2
3
4
5
Q
Q ord
F
Grandezze caratteristiche del campione
Valori
Page 6
Adda a Fuentes (1929-1950)
Massimi annuali della portata al colmo
1
P
0,75
0,5
0,25
0
0
500
1000
Q [m3 s -1 ]
1500
2000
Adda a Fuentes (1929-1950)
Massimi annuali della portata al colmo
P
0,01 0,1
0,50
0,90
0
2
0,99
2000
Q [m3 s -1]
1500
1000
500
0
-4
-2
4
y
Q = 193,050y + 507,100
6