Problema tipico delle applicazioni idrologiche: qual'è la portata con tempo di ritorno T ? Il problema dell'inferenza: dato un campione, individuare la distribuzione di probabilità da cui ha avuto origine. Il problema non può mai essere risolto con esattezza: resta sempre un margine di errore. Per descrivere un campione si introducono delle grandezze che hanno un significato analogo a quello delle grandezze introdotte per descrivere una popolazione. Il campione è per sua natura un'entità discreta: quindi per definire le grandezze tipiche del campione si prendono a modello le grandezze introdotte per le distribuzioni di probabilità di variabile discreta. La grandezza del campione che corrisponde alla probabilità di un valore è la f r e q u e n z a f( x i ) = ni N La frequenza di un valore è significativa solo nel caso di variabile discreta. La grandezza del campione che corrisponde alla probabilità di non superamento è la f r e q u e n z a di non superamento o frequenza cumulata o frequenza F (x a ) = m N La frequenza cumulata è definita anche per valori che non sono assunti da alcun elemento del campione. Somma delle letture di due dadi da gioco: distribuzione di probabilità 0,20 p (x ) 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 x Somma delle letture di due dadi da gioco: esempio di distribuzione di frequenza (N = 1 0 0 ) 0,20 f (x ) 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 x 8 9 10 11 12 13 Osservatorio di Brera (Milano). Totali annui di precipitazione del trentennio 1921-1950. Distribuzione di frequenza. 0,08 0,07 0,06 f 0,05 0,04 0,03 0,02 0,01 0,00 300 600 900 x 1200 1500 Osservatorio di Brera (Milano). Totali annui di precipitazione del trentennio 1921-1950. ____________________________________________________________ anno x [mm] anno x [mm] anno x [mm] ____________________________________________________________ 1921 426,6 1931 875,3 1941 1196,6 1922 948,8 1932 853,4 1942 737,4 1923 633,1 1933 1004,5 1943 771,7 1924 829,5 1934 1127,4 1944 709,1 1925 702,9 1935 1060,7 1945 806,4 1926 1203,9 1936 1175,3 1946 794,7 1927 930,4 1937 1354,7 1947 1012,6 1928 753,3 1938 860,0 1948 937,0 1929 739,5 1939 1021,5 1949 952,5 1930 1047,6 1940 887,3 1950 885,2 ____________________________________________________________ Osservatorio di Brera (Milano). Totali annui di precipitazione del trentennio 1921-1950. Osservazioni disposte in ordine crescente e valori della frequenza di non superamento. _______________________________________________________________ i x [mm] F i x [mm] F _______________________________________________________________ 1 426,6 0,033 16 887,3 0,533 2 633,1 0,067 17 930,4 0,567 3 702,9 0,100 18 937,0 0,600 4 709,1 0,133 19 948,8 0,633 5 737,4 0,167 20 952,5 0,667 6 739,5 0,200 21 1004,5 0,700 7 753,3 0,233 22 1012,6 0,733 8 771,7 0,267 23 1021,5 0,767 9 794,7 0,300 24 1047,6 0,800 10 806,4 0,333 25 1060,7 0,833 11 829,5 0,367 26 1127,4 0,867 12 853,4 0,400 27 1175,3 0,900 13 860,0 0,433 28 1196,6 0,933 14 875,3 0,467 29 1203,9 0,967 15 885,2 0,500 30 1354,7 1,000 _______________________________________________________________ Totali annui di precipitazione registrati all'Osservatorio di Brera nel trentennio 1921-50. Frequenza di non superamento. 1,2 1,0 F 0,8 0,6 0,4 0,2 0,0 0 200 400 600 800 1000 1200 1400 1600 1800 x Totali annui di precipitazione registrati all'Osservatorio di Brera nel trentennio 1921-50. Frequenza di non superamento. 1,20 1,00 F 0,80 0,60 0,40 0,20 0,00 0 200 400 600 800 1000 1200 1400 1600 1800 x Il numeratore m è una variabile casuale discreta distribuita secondo una distribuzione di probabilità binomiale: µ (m ) = N P (x a ) σ (m ) = √ NP(x a )[1 - P(x a )] Quindi è anche µ [F(x a )] = σ [F(x a )] = σ (m ) N = µ (m ) N = P (x a ) √ P(x a )[1 - P(x a )] N Teorema di Bernoulli: Pr{|P (x a ) - F (x a )| < ε } = 1 lim N→∞ Postulato empirico del caso: un evento avviene con frequenza circa uguale alla sua probabilità. La frequenza (cumulata) è un'approssimazione della probabilità di non superamento: F[(x a )] ≅ P(x a ) L'espressione F (x a ) = m N assegna il valore uno (certezza) alla probabilità di non superamento del massimo valore del campione. Per evitare l'incongruenza si usa la formula di Weibull F (x a ) = m N+1 La formula di Weibull ha anche una base teorica. Il generico momento della popolazione è m µr' ( x ) = ∑[x i - x 0 ] r p (x i ) i= 1 Il corrispondente momento del campione è m m r' ( x ) = ∑[x i - x 0 ] r f(x i ) m = i= 1 ∑[x i - x 0 ] r nNi i= 1 m = ∑[x i - x 0 ] r k=∑1 i= 1 Ed essendo m ∑ni = N i= 1 è anche 1 m r' ( x ) = N N ∑[x i - x 0 ] r i= 1 ni 1 N La determinazione della curva di probabilità: 1 ) interpolazione grafica delle osservazioni 2 ) determinazione della funzione di probabilità di non superamento Due fasi della determinazione della funzione di probabilità di non superamento: 1 ) scelta della distribuzione: esperienza adattamento alle osservazioni 2 ) stima dei parametri della funzione di probabilità di non superamento Le due fasi possono anche sovrapporsi. Per la scelta della distribuzione si possono utilizzare le carte probabilistiche. Per la stima dei parametri si adopererà il metodo dei momenti. La carta probabilistica si può costruire per tutte le distribuzioni che si riconducono a un'unica espressione analitica per mezzo di una trasformazione lineare della variabile. Esempio La distribuzione di Gumbel P(x) = exp{-exp[- α (x - u)]} con la trasformazione lineare y = α (x - u ) si riduce all'espressione P(x) = exp{-exp(-y) } La carta probabilistica di Gumbel è una carta che ha sui due assi rispettivamente le variabili x e y. Sulla carta probabilistica ogni distribuzione di Gumbel è rappresentata da una retta. Carta probabilistica Gumbel della distribuzione 6 0.995 0.99 4 0.90 2 0.80 0.50 0 0.20 0.10 0.005 -2 0 10 20 x 30 40 P(y) y 0.95 di La stima t di un parametro θ è una funzione delle N osservazioni x 1 , x 2 , ..., x N del campione. La stima t è una variabile casuale, il cui valore dipende dal campione adoperato. Caratteristiche della stima consistente: lim Pr{|t - θ | < ε } = 1 N→∞ indistorta: µ (t) = θ asintoticamente indistorta: lim µ (t) = θ N→∞ (sotto condizioni molto generali una stima consistente è anche asintoticamente indistorta) efficiente: quando la varianza di t tende, al tendere di N a infinito, a essere inferiore alla varianza di qualunque altra stima. La media del campione 1 m (x ) = N N ∑xi i= 1 è una stima popolazione. indistorta della media della varianza della La varianza del campione 1 s2(x ) = N N ∑[x i - m (x )] 2 i= 1 è una stima popolazione. distorta della Invece l'espressione 1 2 (x ) = N s 2 ( x ) = sN -1 N -1 N -1 N ∑[x i - m (x )] 2 i= 1 è una stima indistorta della varianza della popolazione. Il metodo dei momenti Si assume il momento del campione come stima del corrispondente momento della popolazione. Si stimano tanti momenti quanti sono i parametri della funzione di probabilità di non superamento. Il metodo dei momenti implica generalmente l'uso della stima indistorta. Per le distribuzioni a due parametri: µ (x) σ 2 (x) → → 1 N N ∑x i = m (x ) media i= 1 1 N- 1 N ∑[x i - m (x )] 2 = s 2 (x ) v a r i a n z a i= 1 I valori dei parametri si ricavano utilizzando le relazioni che li legano ai momenti. Rappresentazione delle osservazioni sulla carta probabilistica di Gumbel E` dato un campione di N osservazioni della variabile Q (massimo annuale della portata al colmo dell'Adda a Fuentes). Operazioni da svolgere: 1 ) ordinamento delle osservazioni Q 1 , Q 2 , ..., Q N in ordine crescente 2 ) calcolo della frequenza di non superamento d e l l ' i-esimo valore Q i con la formula di Weibull F (Q i ) = i N+1 3 ) assunzione della frequenza approssimazione della probabilità come F(Q i) ≅ P(Q i) 4 ) disposizione dei punti che rappresentano le osservazioni sulla carta probabilistica 5 ) controllo della linearità della disposizione dei punti Adda/dati Mer, 31 mar 2004 1 2 3 4 5 Q Q ord F Grandezze caratteristiche del campione Valori 1 1163 225 0,04 Dimensione del campione 2 865 329 0,08 Minimo 3 502 334 0,12 Massimo 4 517 418 0,16 Media 5 517 429 0,2 6 581 443 0,24 7 688 457 0,28 8 429 502 0,32 9 1004 506 0,36 10 525 510 0,4 11 930 517 0,44 12 418 517 0,48 13 759 525 0,52 14 506 541 0,56 15 443 581 0,6 16 863 682 0,64 17 329 688 0,68 18 510 759 0,72 19 541 863 0,76 20 682 865 0,8 21 457 930 0,84 22 1060 1004 0,88 23 225 1060 0,92 24 334 1163 0,96 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 10:21 Varianza Scarto quadratico medio Page 1 24 225 1163 618,7 61458,1 247,9 Adda/dati 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 Mer, 31 mar 2004 10:21 1 2 3 4 5 Q Q ord F Grandezze caratteristiche del campione Valori Page 2 Adda/dati 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 Mer, 31 mar 2004 10:21 1 2 3 4 5 Q Q ord F Grandezze caratteristiche del campione Valori Page 3 Adda/dati 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 Mer, 31 mar 2004 10:21 1 2 3 4 5 Q Q ord F Grandezze caratteristiche del campione Valori Page 4 Adda/dati 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 Mer, 31 mar 2004 10:21 1 2 3 4 5 Q Q ord F Grandezze caratteristiche del campione Valori Page 5 Adda/dati 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 Mer, 31 mar 2004 10:21 1 2 3 4 5 Q Q ord F Grandezze caratteristiche del campione Valori Page 6 Adda a Fuentes (1929-1950) Massimi annuali della portata al colmo 1 P 0,75 0,5 0,25 0 0 500 1000 Q [m3 s -1 ] 1500 2000 Adda a Fuentes (1929-1950) Massimi annuali della portata al colmo P 0,01 0,1 0,50 0,90 0 2 0,99 2000 Q [m3 s -1] 1500 1000 500 0 -4 -2 4 y Q = 193,050y + 507,100 6