Variabili casuali multiple

annuncio pubblicitario
Statistica idrologica
Variabili casuali multiple
Statistica idrologica
Variabili casuali multiple
Una v.c. doppia (X, Y), allora, è una funzione che ad ogni punto
campionario associa una coppia ordinata di numeri reali, cioè:
(X, Y): Ω→ R2
ω → (X(ω), Y(ω)),
che soddisfa la proprietà che ogni insieme del tipo {ω∈Ω: X(ω) ≤ x,
Y(ω) ≤ y}, dove (x, y) è un qualsiasi elemento di R2, è un evento, cioè
un elemento di A.
Anche per identificare una v.c. doppia (e più in generale una v.c.
multipla) occorre indicare:
1. quali valori può assumere;
2. come la probabilità è distribuita su tali valori.
Statistica idrologica
Statistica idrologica
Statistica idrologica
Statistica idrologica
Equivalenza tra le funzioni
Statistica idrologica
Statistica idrologica
Statistica idrologica
Statistica idrologica
Variabile Casuale Condizionata
Sia (X, Y) una v.c. doppia. La v.c. (Y | X = x) (che si legge “Y
condizionata a X = x” oppure “Y dato X =x”) ha una distribuzione
definita da:
Statistica idrologica
Indipendenza tra Variabili Casuali
Sia (X, Y) una v.c. doppia. Allora X ed Y sono indipendenti se per
ogni x e per ogni y vale una qualsiasi delle seguenti relazioni (le altre
sono conseguenze):
Statistica idrologica
Indici Caratteristici
Siano (X, Y) una v.c. doppia e g(X, Y) una generica trasformazione
della v.c. doppia (X, Y). Allora il valore atteso di g(X, Y) è definito da
Statistica idrologica
Indici Caratteristici
Statistica idrologica
Covarianza
La Covarianza può essere:
• POSITIVA quando X e Y variano tendenzialmente nella stessa
direzione, cioè al crescere della X tende a crescere anche Y e al
diminuire della X tende a diminuire anche Y.
• NEGATIVA quando le due variabili variano tendenzialmente in
direzione opposta, cioè quando al crescere di una variabile l’altra
variabile tende a diminuire (e viceversa).
• NULLA quando non vi è alcuna tendenza delle 2 variabili a
variare nella stessa direzione o in direzione opposta. Quando
σXY = 0 si dice anche che X ed Y sono incorrelate o linearmente
indipendenti.
Statistica idrologica
Covarianza
La covarianza σXY, può essere ricavata anche a partire dai momenti
dall’origine, secondo la relazione
σXY = E(XY) – E(X) E(Y)
Infatti σXY = E[(X − µX) (Y − µY)] = E(XY – X µY − µXY + µX µY)=
= E(XY) – µX µY – µX µY + µX µY = E(XY) – E(X) E(Y)
Si può, inoltre, dimostrare che:
– σX σY ≤ σXY ≤ σX σY
cioè la covarianza fra X e Y in valore assoluto è sempre minore o
uguale al prodotto delle deviazioni standard di X e di Y.
Statistica idrologica
Momento Misto di Ordine r-s Standardizzato.
Coefficiente di Correlazione
è indicato anche con ρ, con ρXY, o con Corr(X, Y). Come la
covarianza è “simmetrico” rispetto ai suoi argomenti, cioè
Corr(X, Y) = Corr(Y, X), mentre Corr(X, X) è 1.
Statistica idrologica
Coefficiente di Correlazione
ρXY = ±1 (ovvero σXY = ± σX σY) solo quando le due v.c. X ed Y sono
linearmente dipendenti cioè quando esistono due costanti a e b tali
che Y = a + bX.
ρXY < 0 (che equivale a σXY < 0) si dice che X e Y sono correlati
negativamente (o inversamente), cioè all’aumentare di uno l’altro
tende a diminuire (e viceversa);
ρXY > 0 (che equivale a σXY < 0) si dice che X e Y sono correlati
positivamente (o direttamente), cioè all’aumentare di uno anche
l’altro tende ad aumentare;
ρXY = 0 si dice che X e Y sono incorrelati (o linearmente
indipendenti).
Statistica idrologica
Distribuzioni di probabilità discrete
Bernoulli
La v.c. X ha una distribuzione di Bernoulli, in simboli X ~ Be(p), se
la sua funzione di massa è:
dove p∈[0,1] e q = 1 – p.
La v.c. di Bernoulli assume quindi due soli valori: X = 1, con
probabilità p; X = 0, con probabilità q.
Statistica idrologica
Funzione di massa e funzione di ripartizione per X ~ Be(p)
(p = 0.1 a sinistra e p = 0.3 a destra).
Statistica idrologica
Distribuzioni di probabilità discrete
Binomiale
La v.c. X ha una distribuzione Binomiale, in simboli X ~ Bi(n,p), se
la sua funzione di massa è:
La v.c. binomiale può assumere allora solo valori interi da 0 a n,
mentre la probabilità di ottenere una qualsiasi altra x è 0.
Statistica idrologica
Funzione di massa e funzione di ripartizione per X ~ Bi(n,p)
(n=10; p = 0.8 a sinistra e p = 0.9 a destra).
Statistica idrologica
Distribuzioni di probabilità discrete
Ipergeometrica
La v.c. X ha una distribuzione Binomiale, in simboli X ~ IG(n,N,p),
se la sua funzione di massa è:
La v.c. ipergeometrica può assumere allora solo valori interi
compresi fra un certo minimo, dato da max{0, n – (N – K)} e un certo
massimo, dato da min{n, K}.
Statistica idrologica
Distribuzioni di probabilità discrete
Poisson
La v.c. X ha una distribuzione di Poisson, in simboli X ~ Po(λ), se la
sua funzione di massa è:
Ove λ ≥ 0
La v.c. di Poisson può assumere allora solo valori interi da 0 a +∞,
mentre la probabilità di ottenere una qualsiasi altra x è 0.
Statistica idrologica
Funzione di massa e funzione di ripartizione per X ~ Po(λ)
(λ = 0.9 a sinistra e λ = 2.3 a destra).
Statistica idrologica
Distribuzioni di probabilità continue
Normale o di Gauss
La v.c. X ha una distribuzione Normale, in simboli X ~ N(µ,σ2), se la
sua funzione di densità è:
dove x è un qualsiasi numero reale, µ ∈ R e σ ≥ 0.
La v.c. Normale può assumere allora solo valori interi da 0 a +∞,
mentre la probabilità di ottenere una qualsiasi altra x è 0.
Distribuzione di Probabilità continue
Statistica idrologica
Normale o di Gauss
La funzione di ripartizione della v.c normale è:
Si può dimostrare che i principali indici caratteristici della v.c.
normale sono dati da:
E(X) = µ
V(X) = σ2
γ1 = 0
γ2 = 3
Distribuzione di Probabilità continue
Statistica idrologica
Normale Standard
La v.c. X ha una DISTRIBUZIONE NORMALE STANDARD se
X ~ N(0, 1), cioè se è Normale con µ = 0 e σ2 = 1.
Si ricorre alla v.c. standardizzata per poter calcolare l’integrale della
la funzione di ripartizione (o comunque l’integrale della funzione di
densità).
X −µ
Z=
σ
X è una v.c. con media µ e varianza σ2, allora qualsiasi sia la forma
della sua distribuzione si ha che
 X −µ
E
=0
 σ 
 X −µ
V
=1
 σ 
Distribuzione di Probabilità continue
Statistica idrologica
Funzione densità
µ = 3, σ2 = 4;
µ = 5, σ2 = 4;
µ = 5, σ2 = 7.84).
Funzione
di ripartizione
X ~ N(µ,σ2),
Statistica idrologica
Lognormale
La distribuzione di probabilità lognormale a due parametri è
caratterizzata dal fatto che a seguire la legge normale non è la
variabile originaria x ma il suo logaritmo
y = ln x
2

1
 1  y − µ ( y ) 
f( y)=
exp  − 


x 2π σ ( y )
 2  σ ( y )  
1 
σ 2 ( x ) 
µ ( y ) = ln µ ( x ) − ln  1 + 2
2 
µ ( x ) 
2
 
s
σ ( y ) =  ln  1 + 2
x
 
2



 
Distribuzione di Probabilità continue
Statistica idrologica
Funzione di densità di probabilità di due distribuzioni lognormali con
diverso valore della media µ(y) ed uguale valore dello scarto
quadratico medio σ(y)
µ(y)a = 2,
µ(y)b = 3,
σ(y) = 0,25;
Distribuzione di Probabilità lognormale
Statistica idrologica
Funzione di densità di probabilità di due distribuzioni lognormali con
diverso valore dello scarto quadratico medio σ(y) ed uguale valore
della media µ(y)
σ(y)a = 0,25,
σ(y)b = 0,50,
µ(y) = 2;
Distribuzione di Probabilità lognormale
Statistica idrologica
Distribuzioni di Gumbel
La v.c. X ha una distribuzione di Gumbel ( o dist. asintotica del
massimo valore di I tipo) se la sua funzione di densità è:
[
]
f ( x ) = α ⋅ exp − e −α ( x −ε ) − α ( x − ε )
la funzione di probabilità cumulata, o funzione di ripartizione, è:
[
F ( x ) = exp − e −α ( x −ε )
1.2825
α=
σ( x )
]
ε = µ ( x ) − 0.45006·σ ( x )
Distribuzione di Probabilità continue
Statistica idrologica
Funzione di densità di probabilità di due distribuzioni di Gumbel con
diverso valore del parametro α ed uguale valore del parametro ε
αa = 0,03,
αb = 0,04,
ε = 85;
Il parametro α, che è inversamente proporzionale allo scarto quadratico medio
σ(x), controlla la forma della funzione distribuzione di probabilità: tanto più α è
grande tanto più addensata è la distribuzione.
Distribuzione di Probabilità di Gumbel
Statistica idrologica
Funzione di densità di probabilità di due distribuzioni di Gumbel con
diverso valore del parametro ε ed uguale valore del parametro α
εa = 85,
εb = 120,
α = 0,03;
Il parametro ε, che è coincide con la moda della distribuzione), controlla la
posizione della funzione distribuzione di probabilità: aumentare il valore di e
equivale a far scorrere il grafico verso destra senza deformarlo, lungo l’asse delle
ascisse.
Distribuzione di Probabilità di Gumbel
Statistica idrologica
Distribuzioni di Fréchet
La v.c. X ha una distribuzione di Fréchet ( o dist. asintotica del
massimo valore di II tipo) se la sua funzione di densità è:
−α − 1 − x 
x
e ε 
−α
α
f (x) =  
ε ε 
la funzione di probabilità cumulata, o funzione di ripartizione, è:
P( x ) =
1.2825
α=
σ [ln( X )]
 x
− 
e ε 
−α
ε = exp(µ [ln( X )] − 0.45006σ [ln( X )])
Distribuzione di Probabilità continue
Statistica idrologica
Distribuzioni Gamma
La v.c. X ha una distribuzione Gamma (o di Pearson di tipo III a due
parametri) se la sua funzione di densità è:
β α α −1 − βx
f (x) =
x
e
Γ (α )
la funzione di probabilità cumulata, o funzione di ripartizione, è:
β α x α −1 − βx
F (x) =
x e dx
∫
Γ (α ) 0
µ2( x )
α= 2
σ (x)
µ( x )
β= 2
σ (x)
Distribuzione di Probabilità continue
Statistica idrologica
Funzione di densità di probabilità di due distribuzioni Gamma con
diverso valore del parametro α ed uguale valore del parametro β
αa = 15,
αb = 30,
β = 2;
Distribuzione di Probabilità Gamma
Statistica idrologica
Funzione di densità di probabilità di due distribuzioni di Gamma con
diverso valore del parametro β ed uguale valore del parametro α
βa = 2,
βb = 1,
α = 15;
Distribuzione di Probabilità Gamma
Statistica idrologica
Distribuzioni GEV (General Extreme Value)
La v.c. X ha una distribuzione GEV (General Extreme Value) se la
funzione di probabilità cumulata, o funzione di ripartizione, è:
1/ k
 
x −ε 

F ( x ) = exp − 1 − k


a 
 

µ =ε +
α
k
[1 − Γ (1 + k )]
CA = sign(k )
∞
2
α
 
[
]
σ 2 =   Γ (1 + 2 k ) − Γ 2 (1 + k )
k
− Γ (1 + 3 k ) + 3Γ (1 + k )Γ (1 + 2 k ) − 2 Γ
[Γ (1 + 2k ) − Γ 2 (1 + k )]
3 2
3
(1 + k )
−1
Γ (α ) = ∫ σ α − 1e −σ ds
0
Distribuzione di Probabilità continue
Statistica idrologica
Distribuzioni TCEV (Two Components
Extreme Value)
QT = K T ξQ
T=
[
1
1 − exp − Λ1e−ηKT − Λ*Λ11 / θ * e−ηKT / θ *
]
Progetto VAPI, GNDCI
Distribuzione di Probabilità continue
Statistica idrologica
Teoremi fondamentali
Teorema di Bernoulli. Sia X ~ Bi(n, p). Allora
Questo significa che siccome c può essere scelto piccolo a piacere, al
crescere del numero delle prove (se le prove sono indipendenti e
ripetute in condizioni analoghe) la frequenza relativa di un evento
X/n converge, in probabilità, alla probabilità p dell’evento stesso.
Il teorema di Bernoulli è stato generalizzato in vario modo; la
generalizzazione più interessante è quella che estende il risultato ad
una successione qualsiasi di variabili casuali X1, X2, …, Xn, …
indipendenti, identicamente distribuite (i.i.d.) e con media E(Xi) = µ.
Teoremi fondamentali della probabilità
Statistica idrologica
Teorema del limite centrale
Sia x1, x2, …, xn, … una successione di v.c. indipendenti ed
identicamente distribuite (i.i.d.) di media µ e varianza σ2 > 0 finita; si
consideri la variabile casuale (media aritmetica dei primi n elementi
della successione)
che avrà valore medio E(X n ) = µ e varianza V( X n ) = σ2/n; allora la
variabile casuale standardizzata
per n → +∞ tende alla distribuzione normale standard.
Teoremi fondamentali della probabilità
Statistica idrologica
Stima dei parametri
Il problema centrale delle applicazioni idrologiche della statistica è
quello di risalire dal campione alla funzione di probabilità che
definisce la distribuzione della variabile (PROBLEMA DI
INFERENZA)
Il primo passo per l’analisi statistica di un certo fenomeno è, sempre,
la scelta del modello più opportuno per rappresentare il
“comportamento probabilistico” del fenomeno stesso.
Detto infatti che questo può essere rappresentato da una v.c. X, si
tratta di scegliere fra i modelli statistici, quello più adatto per
rappresentare la distribuzione di X.
Inferenza statistica
Statistica idrologica
Sia X una v.c., discreta o continua, che rappresenta il fenomeno
oggetto di analisi e sia quindi
f(x; θ)
la funzione di massa o di densità della v.c. X, dove θ ∈ Θ indica i
parametri caratteristici funzione scelta.
In generale θ non è noto: l’unica cosa che si conosce è lo spazio
parametrico Θ a cui appartiene.
Per stimare θ si dispone dell’informazione contenuta in un campione
di x = (x1, …, xn) della v.c. X che rappresenta il fenomeno studiato.
La stima puntuale di θ si risolve allora nella ricerca di una funzione
del campione θ = T(x1, …, xn) in modo da ottenere un valore θ che
sia “più vicino possibile” al parametro incognito θ.
Inferenza statistica
Statistica idrologica
Statistiche Campionarie
Un campione, che è costituito da un numero finito N (dimensione del
campione) di osservazioni tra loro distinte, caratterizzate da n valori
x1, x2, … , xn che possono essere sia tutti diversi tra loro sia comuni a
più osservazioni, è un entità per sua natura DISCRETA.
In base alla definizione di probabilità, nel caso di un campione, la
grandezza corrispondente alla probabilità di un dato valore è il
rapporto tra il numero ni delle osservazioni del campione e il totale N
delle osservazioni, ossia la FREQUENZA f(x).
ni
f( x)=
N
Statistiche campionarie
Statistica idrologica
Frequenza di una variabile discreta
Statistica idrologica
Frequenza di non superamento
Dal momento che nel caso di variabili continue si utilizza la
probabilità di non superamento, si introduce per un campione la
nozione di FREQUENZA DI NON SUPERAMENTO Fs(xi) definita
come il rapporto tra il numero delle osservazioni con valore non
maggiore di quello assegnato e il valore totale delle osservazioni del
campione:
i−b
P [ x ≥ xi ] ≅ FS ( xi ) =
n + 1 − 2b
con n, numerosità del campione e i ordine dei valori xi, ordinati in
senso decrescente, per b sono possibili diversi valori (0: Weibull, 3/8:
Blom, 0.5: Hazen; 1/3: Tukey; 0.44: Gringorten).
Statistiche campionarie
Statistica idrologica
Frequenza di non superamento
Statistiche campionarie
Statistica idrologica
Espressioni delle Statistiche Campionarie
n = numerosità del campione e xi = i-esimo dato del campione
• MEDIA CAMPIONARIA
1 n
m = ∑ xi
n i =1
n
• VARIANZA
s2 =
∑ ( xi − m )
i =1
n−1
n
• S.Q.M.
∑ ( xi − m )
s=
i =1
2
2
n−1
Statistiche campionarie
Statistica idrologica
Espressioni delle Statistiche Campionarie
n = numerosità del campione e xi = i-esimo dato del campione
• COEFFICIENTI DI VARIAZIONE
s
CV =
m
• COEFFICIENTE DI ASIMMETRIA
CA =
con M j =
n
j
(
)
x
−
m
∑ i
1=1
• COEFFICIENTE DI CURTOSI CK =
con M j =
n
∑ ( xi − m ) j
nM 3
(n − 1)(n − 2 )s 3
n(n + 1)M 4 − 3 M 2 2 (n − 1)
(n − 1)(n − 2 )(n − 3)s 4
1=1
Statistiche campionarie
Scarica