Statistica idrologica Variabili casuali multiple Statistica idrologica Variabili casuali multiple Una v.c. doppia (X, Y), allora, è una funzione che ad ogni punto campionario associa una coppia ordinata di numeri reali, cioè: (X, Y): Ω→ R2 ω → (X(ω), Y(ω)), che soddisfa la proprietà che ogni insieme del tipo {ω∈Ω: X(ω) ≤ x, Y(ω) ≤ y}, dove (x, y) è un qualsiasi elemento di R2, è un evento, cioè un elemento di A. Anche per identificare una v.c. doppia (e più in generale una v.c. multipla) occorre indicare: 1. quali valori può assumere; 2. come la probabilità è distribuita su tali valori. Statistica idrologica Statistica idrologica Statistica idrologica Statistica idrologica Equivalenza tra le funzioni Statistica idrologica Statistica idrologica Statistica idrologica Statistica idrologica Variabile Casuale Condizionata Sia (X, Y) una v.c. doppia. La v.c. (Y | X = x) (che si legge “Y condizionata a X = x” oppure “Y dato X =x”) ha una distribuzione definita da: Statistica idrologica Indipendenza tra Variabili Casuali Sia (X, Y) una v.c. doppia. Allora X ed Y sono indipendenti se per ogni x e per ogni y vale una qualsiasi delle seguenti relazioni (le altre sono conseguenze): Statistica idrologica Indici Caratteristici Siano (X, Y) una v.c. doppia e g(X, Y) una generica trasformazione della v.c. doppia (X, Y). Allora il valore atteso di g(X, Y) è definito da Statistica idrologica Indici Caratteristici Statistica idrologica Covarianza La Covarianza può essere: • POSITIVA quando X e Y variano tendenzialmente nella stessa direzione, cioè al crescere della X tende a crescere anche Y e al diminuire della X tende a diminuire anche Y. • NEGATIVA quando le due variabili variano tendenzialmente in direzione opposta, cioè quando al crescere di una variabile l’altra variabile tende a diminuire (e viceversa). • NULLA quando non vi è alcuna tendenza delle 2 variabili a variare nella stessa direzione o in direzione opposta. Quando σXY = 0 si dice anche che X ed Y sono incorrelate o linearmente indipendenti. Statistica idrologica Covarianza La covarianza σXY, può essere ricavata anche a partire dai momenti dall’origine, secondo la relazione σXY = E(XY) – E(X) E(Y) Infatti σXY = E[(X − µX) (Y − µY)] = E(XY – X µY − µXY + µX µY)= = E(XY) – µX µY – µX µY + µX µY = E(XY) – E(X) E(Y) Si può, inoltre, dimostrare che: – σX σY ≤ σXY ≤ σX σY cioè la covarianza fra X e Y in valore assoluto è sempre minore o uguale al prodotto delle deviazioni standard di X e di Y. Statistica idrologica Momento Misto di Ordine r-s Standardizzato. Coefficiente di Correlazione è indicato anche con ρ, con ρXY, o con Corr(X, Y). Come la covarianza è “simmetrico” rispetto ai suoi argomenti, cioè Corr(X, Y) = Corr(Y, X), mentre Corr(X, X) è 1. Statistica idrologica Coefficiente di Correlazione ρXY = ±1 (ovvero σXY = ± σX σY) solo quando le due v.c. X ed Y sono linearmente dipendenti cioè quando esistono due costanti a e b tali che Y = a + bX. ρXY < 0 (che equivale a σXY < 0) si dice che X e Y sono correlati negativamente (o inversamente), cioè all’aumentare di uno l’altro tende a diminuire (e viceversa); ρXY > 0 (che equivale a σXY < 0) si dice che X e Y sono correlati positivamente (o direttamente), cioè all’aumentare di uno anche l’altro tende ad aumentare; ρXY = 0 si dice che X e Y sono incorrelati (o linearmente indipendenti). Statistica idrologica Distribuzioni di probabilità discrete Bernoulli La v.c. X ha una distribuzione di Bernoulli, in simboli X ~ Be(p), se la sua funzione di massa è: dove p∈[0,1] e q = 1 – p. La v.c. di Bernoulli assume quindi due soli valori: X = 1, con probabilità p; X = 0, con probabilità q. Statistica idrologica Funzione di massa e funzione di ripartizione per X ~ Be(p) (p = 0.1 a sinistra e p = 0.3 a destra). Statistica idrologica Distribuzioni di probabilità discrete Binomiale La v.c. X ha una distribuzione Binomiale, in simboli X ~ Bi(n,p), se la sua funzione di massa è: La v.c. binomiale può assumere allora solo valori interi da 0 a n, mentre la probabilità di ottenere una qualsiasi altra x è 0. Statistica idrologica Funzione di massa e funzione di ripartizione per X ~ Bi(n,p) (n=10; p = 0.8 a sinistra e p = 0.9 a destra). Statistica idrologica Distribuzioni di probabilità discrete Ipergeometrica La v.c. X ha una distribuzione Binomiale, in simboli X ~ IG(n,N,p), se la sua funzione di massa è: La v.c. ipergeometrica può assumere allora solo valori interi compresi fra un certo minimo, dato da max{0, n – (N – K)} e un certo massimo, dato da min{n, K}. Statistica idrologica Distribuzioni di probabilità discrete Poisson La v.c. X ha una distribuzione di Poisson, in simboli X ~ Po(λ), se la sua funzione di massa è: Ove λ ≥ 0 La v.c. di Poisson può assumere allora solo valori interi da 0 a +∞, mentre la probabilità di ottenere una qualsiasi altra x è 0. Statistica idrologica Funzione di massa e funzione di ripartizione per X ~ Po(λ) (λ = 0.9 a sinistra e λ = 2.3 a destra). Statistica idrologica Distribuzioni di probabilità continue Normale o di Gauss La v.c. X ha una distribuzione Normale, in simboli X ~ N(µ,σ2), se la sua funzione di densità è: dove x è un qualsiasi numero reale, µ ∈ R e σ ≥ 0. La v.c. Normale può assumere allora solo valori interi da 0 a +∞, mentre la probabilità di ottenere una qualsiasi altra x è 0. Distribuzione di Probabilità continue Statistica idrologica Normale o di Gauss La funzione di ripartizione della v.c normale è: Si può dimostrare che i principali indici caratteristici della v.c. normale sono dati da: E(X) = µ V(X) = σ2 γ1 = 0 γ2 = 3 Distribuzione di Probabilità continue Statistica idrologica Normale Standard La v.c. X ha una DISTRIBUZIONE NORMALE STANDARD se X ~ N(0, 1), cioè se è Normale con µ = 0 e σ2 = 1. Si ricorre alla v.c. standardizzata per poter calcolare l’integrale della la funzione di ripartizione (o comunque l’integrale della funzione di densità). X −µ Z= σ X è una v.c. con media µ e varianza σ2, allora qualsiasi sia la forma della sua distribuzione si ha che X −µ E =0 σ X −µ V =1 σ Distribuzione di Probabilità continue Statistica idrologica Funzione densità µ = 3, σ2 = 4; µ = 5, σ2 = 4; µ = 5, σ2 = 7.84). Funzione di ripartizione X ~ N(µ,σ2), Statistica idrologica Lognormale La distribuzione di probabilità lognormale a due parametri è caratterizzata dal fatto che a seguire la legge normale non è la variabile originaria x ma il suo logaritmo y = ln x 2 1 1 y − µ ( y ) f( y)= exp − x 2π σ ( y ) 2 σ ( y ) 1 σ 2 ( x ) µ ( y ) = ln µ ( x ) − ln 1 + 2 2 µ ( x ) 2 s σ ( y ) = ln 1 + 2 x 2 Distribuzione di Probabilità continue Statistica idrologica Funzione di densità di probabilità di due distribuzioni lognormali con diverso valore della media µ(y) ed uguale valore dello scarto quadratico medio σ(y) µ(y)a = 2, µ(y)b = 3, σ(y) = 0,25; Distribuzione di Probabilità lognormale Statistica idrologica Funzione di densità di probabilità di due distribuzioni lognormali con diverso valore dello scarto quadratico medio σ(y) ed uguale valore della media µ(y) σ(y)a = 0,25, σ(y)b = 0,50, µ(y) = 2; Distribuzione di Probabilità lognormale Statistica idrologica Distribuzioni di Gumbel La v.c. X ha una distribuzione di Gumbel ( o dist. asintotica del massimo valore di I tipo) se la sua funzione di densità è: [ ] f ( x ) = α ⋅ exp − e −α ( x −ε ) − α ( x − ε ) la funzione di probabilità cumulata, o funzione di ripartizione, è: [ F ( x ) = exp − e −α ( x −ε ) 1.2825 α= σ( x ) ] ε = µ ( x ) − 0.45006·σ ( x ) Distribuzione di Probabilità continue Statistica idrologica Funzione di densità di probabilità di due distribuzioni di Gumbel con diverso valore del parametro α ed uguale valore del parametro ε αa = 0,03, αb = 0,04, ε = 85; Il parametro α, che è inversamente proporzionale allo scarto quadratico medio σ(x), controlla la forma della funzione distribuzione di probabilità: tanto più α è grande tanto più addensata è la distribuzione. Distribuzione di Probabilità di Gumbel Statistica idrologica Funzione di densità di probabilità di due distribuzioni di Gumbel con diverso valore del parametro ε ed uguale valore del parametro α εa = 85, εb = 120, α = 0,03; Il parametro ε, che è coincide con la moda della distribuzione), controlla la posizione della funzione distribuzione di probabilità: aumentare il valore di e equivale a far scorrere il grafico verso destra senza deformarlo, lungo l’asse delle ascisse. Distribuzione di Probabilità di Gumbel Statistica idrologica Distribuzioni di Fréchet La v.c. X ha una distribuzione di Fréchet ( o dist. asintotica del massimo valore di II tipo) se la sua funzione di densità è: −α − 1 − x x e ε −α α f (x) = ε ε la funzione di probabilità cumulata, o funzione di ripartizione, è: P( x ) = 1.2825 α= σ [ln( X )] x − e ε −α ε = exp(µ [ln( X )] − 0.45006σ [ln( X )]) Distribuzione di Probabilità continue Statistica idrologica Distribuzioni Gamma La v.c. X ha una distribuzione Gamma (o di Pearson di tipo III a due parametri) se la sua funzione di densità è: β α α −1 − βx f (x) = x e Γ (α ) la funzione di probabilità cumulata, o funzione di ripartizione, è: β α x α −1 − βx F (x) = x e dx ∫ Γ (α ) 0 µ2( x ) α= 2 σ (x) µ( x ) β= 2 σ (x) Distribuzione di Probabilità continue Statistica idrologica Funzione di densità di probabilità di due distribuzioni Gamma con diverso valore del parametro α ed uguale valore del parametro β αa = 15, αb = 30, β = 2; Distribuzione di Probabilità Gamma Statistica idrologica Funzione di densità di probabilità di due distribuzioni di Gamma con diverso valore del parametro β ed uguale valore del parametro α βa = 2, βb = 1, α = 15; Distribuzione di Probabilità Gamma Statistica idrologica Distribuzioni GEV (General Extreme Value) La v.c. X ha una distribuzione GEV (General Extreme Value) se la funzione di probabilità cumulata, o funzione di ripartizione, è: 1/ k x −ε F ( x ) = exp − 1 − k a µ =ε + α k [1 − Γ (1 + k )] CA = sign(k ) ∞ 2 α [ ] σ 2 = Γ (1 + 2 k ) − Γ 2 (1 + k ) k − Γ (1 + 3 k ) + 3Γ (1 + k )Γ (1 + 2 k ) − 2 Γ [Γ (1 + 2k ) − Γ 2 (1 + k )] 3 2 3 (1 + k ) −1 Γ (α ) = ∫ σ α − 1e −σ ds 0 Distribuzione di Probabilità continue Statistica idrologica Distribuzioni TCEV (Two Components Extreme Value) QT = K T ξQ T= [ 1 1 − exp − Λ1e−ηKT − Λ*Λ11 / θ * e−ηKT / θ * ] Progetto VAPI, GNDCI Distribuzione di Probabilità continue Statistica idrologica Teoremi fondamentali Teorema di Bernoulli. Sia X ~ Bi(n, p). Allora Questo significa che siccome c può essere scelto piccolo a piacere, al crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la frequenza relativa di un evento X/n converge, in probabilità, alla probabilità p dell’evento stesso. Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più interessante è quella che estende il risultato ad una successione qualsiasi di variabili casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media E(Xi) = µ. Teoremi fondamentali della probabilità Statistica idrologica Teorema del limite centrale Sia x1, x2, …, xn, … una successione di v.c. indipendenti ed identicamente distribuite (i.i.d.) di media µ e varianza σ2 > 0 finita; si consideri la variabile casuale (media aritmetica dei primi n elementi della successione) che avrà valore medio E(X n ) = µ e varianza V( X n ) = σ2/n; allora la variabile casuale standardizzata per n → +∞ tende alla distribuzione normale standard. Teoremi fondamentali della probabilità Statistica idrologica Stima dei parametri Il problema centrale delle applicazioni idrologiche della statistica è quello di risalire dal campione alla funzione di probabilità che definisce la distribuzione della variabile (PROBLEMA DI INFERENZA) Il primo passo per l’analisi statistica di un certo fenomeno è, sempre, la scelta del modello più opportuno per rappresentare il “comportamento probabilistico” del fenomeno stesso. Detto infatti che questo può essere rappresentato da una v.c. X, si tratta di scegliere fra i modelli statistici, quello più adatto per rappresentare la distribuzione di X. Inferenza statistica Statistica idrologica Sia X una v.c., discreta o continua, che rappresenta il fenomeno oggetto di analisi e sia quindi f(x; θ) la funzione di massa o di densità della v.c. X, dove θ ∈ Θ indica i parametri caratteristici funzione scelta. In generale θ non è noto: l’unica cosa che si conosce è lo spazio parametrico Θ a cui appartiene. Per stimare θ si dispone dell’informazione contenuta in un campione di x = (x1, …, xn) della v.c. X che rappresenta il fenomeno studiato. La stima puntuale di θ si risolve allora nella ricerca di una funzione del campione θ = T(x1, …, xn) in modo da ottenere un valore θ che sia “più vicino possibile” al parametro incognito θ. Inferenza statistica Statistica idrologica Statistiche Campionarie Un campione, che è costituito da un numero finito N (dimensione del campione) di osservazioni tra loro distinte, caratterizzate da n valori x1, x2, … , xn che possono essere sia tutti diversi tra loro sia comuni a più osservazioni, è un entità per sua natura DISCRETA. In base alla definizione di probabilità, nel caso di un campione, la grandezza corrispondente alla probabilità di un dato valore è il rapporto tra il numero ni delle osservazioni del campione e il totale N delle osservazioni, ossia la FREQUENZA f(x). ni f( x)= N Statistiche campionarie Statistica idrologica Frequenza di una variabile discreta Statistica idrologica Frequenza di non superamento Dal momento che nel caso di variabili continue si utilizza la probabilità di non superamento, si introduce per un campione la nozione di FREQUENZA DI NON SUPERAMENTO Fs(xi) definita come il rapporto tra il numero delle osservazioni con valore non maggiore di quello assegnato e il valore totale delle osservazioni del campione: i−b P [ x ≥ xi ] ≅ FS ( xi ) = n + 1 − 2b con n, numerosità del campione e i ordine dei valori xi, ordinati in senso decrescente, per b sono possibili diversi valori (0: Weibull, 3/8: Blom, 0.5: Hazen; 1/3: Tukey; 0.44: Gringorten). Statistiche campionarie Statistica idrologica Frequenza di non superamento Statistiche campionarie Statistica idrologica Espressioni delle Statistiche Campionarie n = numerosità del campione e xi = i-esimo dato del campione • MEDIA CAMPIONARIA 1 n m = ∑ xi n i =1 n • VARIANZA s2 = ∑ ( xi − m ) i =1 n−1 n • S.Q.M. ∑ ( xi − m ) s= i =1 2 2 n−1 Statistiche campionarie Statistica idrologica Espressioni delle Statistiche Campionarie n = numerosità del campione e xi = i-esimo dato del campione • COEFFICIENTI DI VARIAZIONE s CV = m • COEFFICIENTE DI ASIMMETRIA CA = con M j = n j ( ) x − m ∑ i 1=1 • COEFFICIENTE DI CURTOSI CK = con M j = n ∑ ( xi − m ) j nM 3 (n − 1)(n − 2 )s 3 n(n + 1)M 4 − 3 M 2 2 (n − 1) (n − 1)(n − 2 )(n − 3)s 4 1=1 Statistiche campionarie