Lezione 10

Sistemi di variabili casuali
Fin qui si sono considerate le variabili casuali ciascuna per proprio conto.
Ora consideriamo la possibilità di relazioni tra variabili.
Esempi:
- il massimo annuale della portata al colmo alla Becca e alla Miorina
- la portata media giornaliera in un certo giorno dell'anno e quella del
giorno precedente
- il totale annuo di precipitazione in una stazione pluviometrica e quello
in una stazione vicina
- il totale annuo di precipitazione in una stazione pluviometrica e quelli
in più stazioni vicine
- il deflusso annuo in una stazione di portata e quello in una stazione a
monte
- il deflusso annuo in una stazione di portata e quello in più stazioni
della stessa regione
La distribuzione di x 1 è diversa a seconda che i valori delle variabili x 2 ,
x 3 , ... siano alti, bassi oppure incogniti.
Per definire un sistema di variabili casuali è necessario stabilire una
c o r r i s p o n d e n z a tra i valori osservati; l'osservazione diventa un'entità
vettoriale.
Caso di una sola variabile (continua):
- l'osservazione si può rappresentare con un punto su una retta
orientata
- la probabilità di non superamento di un valore è la probabilità che il
punto che rappresenta l'osservazione ricada in una semiretta
- la probabilità che l'osservazione ricada in un intervallo di valori è la
probabilità che il punto che rappresenta l'osservazione ricada in un
segmento
- la densità di probabilità è la funzione che moltiplicata per dx dà la
probabilità di ricadere nell'intervallo infinitesimo
- l'integrale della densità di probabilità su una semiretta è la
probabilità di non superamento di un valore assegnato
Caso di due variabili (continue)
- l'osservazione si può rappresentare con un punto su un piano
cartesiano
- la probabilità di non superamento di una coppia di valori è la
probabilità che il punto che rappresenta l'osservazione ricada in un
quadrante
- la probabilità che un'osservazione ricada in due intervalli di valori
assegnati è la probabilità che il punto che rappresenta l'osservazione
ricada in un rettangolo
- la densità di probabilità è la funzione che moltiplicata per dx 1 dx 2 dà la
probabilità di ricadere nel rettangolo infinitesimo
- l'integrale della densità di probabilità su un quadrante è la probabilità
di non superamento di due valori assegnati
Funzioni di probabilità
Funzione di probabilità della distribuzione congiunta P ( x 1 , x 2 ) :
probabilità che contemporaneamente sussistano le disuguaglianze
x1 ≤ x1a
x2 ≤ x2a
Relazione tra densità di probabilità p(x 1 , x 2 ) e probabilità P (x 1 , x 2 ) :
x1 x2
P (x 1 , x 2 ) =
∫ ∫ p (x 1 , x 2 )d x 1 d x 2 .
-∞ -∞
Funzione di probabilità marginale di x 1 :
P (x 1a ) = Prob{x 1 ≤ x 1a }
Funzione di probabilità di x 1 condizionata a x 2 :
P (x 1 a | x 2 a ) = P r o b { x 1 ≤ x 1 a | x 2 = x 2 a }
Variabili indipendenti:
P (x 1 | x 2 ) = P (x 1 )
x2
dx2
x2a
dx1
0
x1a
0
x1
x2
dx2
x2a
dx1
0
0
x1a
x1
Legame tra probabilità congiunta e probabilità condizionata
L'evento per cui un'osservazione ricade nel rettangolo infinitesimo di lati
d x 1 e dx 2 è un evento composto. I due eventi elementari sono quello per
cui l'osservazione ricade nella striscia di larghezza dx 1 e quello per cui
l'osservazione ricade nella striscia di larghezza dx 2 .
La probabilità di ricadere nella striscia verticale è p(x 1a )dx 1 . La
probabilità di ricadere nel rettangolino, a condizione che si sia nella
striscia verticale, è p(x 2a |x 1a )dx 2 . Il prodotto delle due probabilità è
uguale alla probabilità incondizionata di ricadere nel rettangolino
p(x 1a )dx 1 p(x 2a |x 1a )dx 2 = p(x 1a , x 2a )dx 1 dx 2
Quindi
p (x 1 , x 2 ) = p (x 1 )p (x 2 |x 1 ) = p (x 2 )p (x 1 |x 2 )
Se x 1 , x 2 sono tra loro indipendenti:
p (x 2 |x 1 ) = p (x 2 )
p (x 1 |x 2 ) = p (x 1 )
p (x 1 , x 2 ) = p (x 1 )p (x 2 )
La variabile condizionante non è necessariamente una variabile
casuale.
Esempi:
- il massimo annuale della portata al colmo (osservato in una stazione di
una certa regione) e l'area del bacino
- l'altezza di precipitazione totale annua e la quota della stazione
I risultati si estendono ai sistemi costituiti da più di due variabili casuali.
Caso importante: la distribuzione congiunta di due variabili, marginale
rispetto a tutte le altre variabili.
Momenti
Nel caso di una sola variabile
+∞
∫ (x - x 0)rp (x ) d x
µr' ( x ) =
-∞
+∞
µ (x ) =
∫xp(x)dx
-∞
µ r(x ) =
σ 2 (x ) =
+∞
∫ [x - µ (x )] r p (x ) d x
-∞
+∞
∫ [x - µ (x )] 2 p (x ) d x
-∞
Nel caso di due variabili casuali
momento multiplo
µr' s (x 1 , x 2 ) =
+∞ +∞
∫ ∫[ x 1 - x 1 0 ] r [ x 2 - x 2 0 ] s p ( x 1 , x 2 ) d x 1 d x 2
-∞ -∞
covarianza
σ (x 1 , x 2 ) =
+∞ +∞
∫ ∫[x 1 - µ (x 1 )] [x 2 - µ (x 2 )] p (x 1 , x 2 )d x 1 d x 2
-∞ -∞
coefficiente di correlazione lineare
ρ (x 1, x 2) =
σ (x 1 , x 2 )
σ (x 1 ) σ (x 2 )
Rappresentazione
compatta delle variabili e dei parametri
(ogni osservazione è un vettore):
µ1
µ2
µ =  …
 …
µp
xx 1 
2

…

x=
 …
x p 
… σ 1p 
σσ 11σσ 12 …
21 22 … … σ 2p 
Σ = … … … … … 
… … … … … 
σ p1σ p2 … … σ p p
Stime
Per la generica variabile x (che può coincidere con x 1 , x 2 , ...):
stima di µ (x)
m (x ) =
1
N
N
∑xi
i= 1
stima di σ 2 (x)
s 2 (x ) =
1
N
N
∑ [x i - m (x )]2
i= 1
Per una generica coppia di variabili x 1 , x 2 :
stima di σ (x 1 , x 2 )
s (x 1 , x 2 ) =
Il
metodo
della
1
N
N
∑ [x 1i - m (x 1)][x 2i - m (x 2) ]
1= 1
massima
verosimiglianza
Il metodo della massima verosimiglianza è un metodo di stima dei
parametri. Qui si considera solo il caso della distribuzione di una sola
variabile x, caratterizzata da s parametri.
Si considera un campione di N osservazioni estratte indipendentemente
l'una dall'altra dalla distribuzione data (che è sempre la stessa) come
una singola osservazione (vettoriale) estratta da un sistema di N
variabili casuali, tra loro indipendenti, con distribuzione marginale
identica per tutte le variabili.
La densità di probabilità della distribuzione congiunta delle N variabili è
p (x 1 , x 2 , ...,x N ; θ 1 , θ 2 , ..., θ s ) =
= p (x 1 ; θ 1 , θ 2 , ..., θ s ) p (x 2 ; θ 1 , θ 2 , ..., θ s ) ... p (x N ; θ 1 , θ , ..., θ s ) .
In corrispondenza dei valori osservati x *1 , x *2 , ..., x *N la densità di
probabilità (che prende il nome di funzione di verosimiglianza, perchè il
campione è tanto più verosimile quanto più alta è la densità di
probabilità) diventa
p (x *1 , x *2 , ..., x *N ; θ 1 , θ 2 , ..., θ s ) .
Il metodo della massima verosimiglianza consiste nell'attribuire ai
parametri θ 1 , θ 2 , ..., θ s i valori che rendono massima la funzione di
verosimiglianza. I valori si determinano risolvendo il sistema di
equazioni ottenuto uguagliando a zero le derivate parziali della funzione
di verosimiglianza calcolate rispetto ai parametri θ 1 , θ 2 , ..., θ s .