3. Modello Gaussiano bivariato, distribuzione di somme di variabili

annuncio pubblicitario
3. Modello Gaussiano bivariato, distribuzione di somme di
variabili aleatorie, Teorema del limite centrale
1. R consente di rappresentare graficamente anche funzioni di due variabili. Utilizzeremo tali potenzialità per rappresentare la funzione di densità di una gaussiana
bivariata:
f ( x, y) = ae
con a =
1√
,
2πσX σY 1−ρ2
− 1 2
2(1− ρ )
x −µ X
σX
2 y − µY 2
( x −µ X )(y−µY )
+ σ
−2ρ
σ σ
Y
X Y
(1)
dove −∞ < x, y < ∞, σX , σY > 0 e ρ ∈ [−1, 1].
Vi sono due importanti funzioni, persp() e outer(), che consentono di visualizzare
cosa accade nello spazio in tre dimensioni. La prima ha una sintassi è simile alla
funzione plot() già utilizzata. Gli argomenti sono le coppie di punti ( x, y), che
formano un fitto reticolo su un intervallo opportuno, e la funzione f ( x, y), che
viene valutata sui punti del reticolo. Consideriamo una distribuzione normale
bivariata di parametri µ X = µY = 0, σX , σY = 1. Definiamo la funzione che calcola
la densità congiunta in funzione del coefficiente di correlazione rho.
ff <- function(x, y, rho){
a <- (2*pi*sqrt(1-rho^2))^(-1)
a*exp(-.5*(1)*(1-rho^2)^(-1)*(x^2+y^2-2*rho*x*y))
}
Utilizziamo la funzione outer per calcolare la densità in corrispondenza di ogni
coppia ( x, y). La funzione persp consente di visualizzare il risultato in 3D.
yy<-seq(-3,3,0.1)
xx<-seq(-3,3,0.1)
rho<-0.5
z<-outer(xx,yy,ff, rho=rho)
persp(xx, yy, z, theta=30, phi=30, xlab="x", ylab="y", zlab="f(x,y)")
1
y
f(x,y)
x
• Si ottengano i grafici della densità del modello Gaussiano bivariato per
diversi valori di ρ
• Si utilizzi la funzione contour() che ha gli stessi argomenti di persp()
per disegnare le curve di livello per diverse scelte di rho. Si commenti i
risultati.
2. Siano X1 , . . . , Xn n variabili aleatorie e a1 , . . . , an ∈ R. E’ interessante considerare
la variabile aleatoria
Y = a 1 X1 + a 2 X2 + · · · + a n X n
di cui si può determinare media, varianza e, sotto certe ipotesi, la distribuzione
di probabilità. In alcuni casi, è possibile ricavare la legge della somma di variabili
aleatorie indipendenti grazie alla proprietà di riproducibilità (la somma—o la combinazione lineare—di variabili indipendenti distribuite secondo una certa legge ha
una distribuzione dello stesso tipo di quella degli addendi).
È noto, ad esempio, che la somma di variabili Gaussiane è ancora una variabile
Gaussiana. Oppure la somma di variabili aleatorie indipendenti con legge esponenziale è una variabile Erlang (o Gamma con parametro di forma intero).
2
Attraverso una simulazione in R possiamo verificare empiricamente questo risultato. A tal fine generiamo dei numeri casuali da una esponenziale e verifichiamo
che la loro somma si comporta come una Gamma di opportuni parametri.
Prima di procedere ricordiamo come funziona il comando for() che chiede come
argomento un indice e la sequenza di numeri in cui questo indice varia
#numero iterazioni
nsim = 5
#nel vettore 'out' è memorizzato l'output di ogni simulazione
out = vector(mode="numeric", length=nsim)
#ciclo for()
for(i in 1:nsim)
{
#stampa il valore corrente dell'iterazione
cat("iter", i, "")
#il valore corrente viene memorizzato nella posizione i-ma
out[i] = i
}
## iter 1 iter 2 iter 3 iter 4 iter 5
out
## [1] 1 2 3 4 5
Impostiamo un piccolo ciclo iterativo per confrontare i valori della somma di 10
esponenziali di parametro 0.1 con la distribuzione teorica di una Gamma(10,0.1).
#numero di iterazioni dell'esperimento
nsim=1000
#numerosità campionaria
n=10
#x conterrà la somma dei valori estratti
x=vector(mode="numeric", length=nsim)
#ciclo for()
for (i in 1:nsim)
{
x[i]=sum(rexp(n,0.1))
}
hist(x, prob=T, ylim=c(0,.015), ylab="densità",
3
main="Confronto valori simulati e teorici", breaks=30)
curve(dgamma(x,10,0.1), type="l", col=2, add=T)
0.010
0.005
0.000
densità
0.015
Confronto valori simulati e teorici
50
100
150
200
250
x
Si provi a verificare con lo stesso metodo che somme di variabili aleatorie
geometriche danno luogo a binomiali negative.
Homeworks
(a) Si verifichi che la somma di n variabili aleatorie indipendenti distribuite
secondo una legge chi-quadrato con 1 grado di libertà, Xi ∼ χ21 , i =
1, . . . , n, si distribuisce come una chi-quadrato con n gradi di libertà.
(b) Si verifichi la proprietà di additività di variabili casuali di Poisson.
3. Il Teorema del limite centrale, in etrema sintesi, stabilisce che la distribuzione asintotica di una somma di variabili casuali indipendenti e con identica distribuzione
4
è Gaussiana. In altri termini, se X1 , X2 , . . . , Xn sono variabili casuali indipendenti
2
con E( Xi ) = µ e V ( Xi ) = σ
√ allora la funzione di ripartizione della variabile can
suale Zn = (∑i=1 Xi − nµ)/ nσ può essere approssimata da una N (0, 1). La bontà
dell’approssimazione dipende da n e dalla forma della distribuzione delle variabili Xi . In particolare, come è noto, se le Xi sono distribuite normalmente, la
distribuzione di Sn = ∑in=1 Xi è esattamente normale per qualsiasi valore di n.
Verifichiamo tale risultato nel caso Xi ∼ R(0, 1), i = 1, . . . , 50, cioè consideriamo la
somma di 50 valori simulati da una rettangolare su (0, 1), con il comando runif().
Otteniamo 1000 valori della somma e ne osserviamo la distribuzione.
nsim=1000
n=50
R=vector(mode="numeric", length=nsim)
for (i in 1:nsim){
R[i]=sum(runif(n))
}
hist(R, prob=T, breaks=20, xlab=" ", ylab=" ",
main="distribuzione della somma di R(0,1)")
0.00
0.05
0.10
0.15
0.20
distribuzione della somma di R(0,1)
18
20
22
24
5
26
28
30
32
L’istogramma ottenuto sembra effettivamente ben approssimabile con una
Gaussiana. Verificare tale approssimazione sovrapponendo una densità normale con opportuni parametri.
Homeworks
(c) Con riferimento al punto 3., si provi a variare il numero di variabili uniformi che vengono sommate per verificare come funziona
l’approssimazione per diversi valori di n.
(d) Si consideri ora l’approssimazione fornita dalla distribuzione normale
della distribuzione binomiale di parametri n e p. Calcolare
p la probabilità esatta e quella approssimata di ottenere più di np + (np(1 − p))
successi per alcune scelte di n e p.
(e) Calcolare la probabilità che la variabile aleatoria media X n di n=10 variabili aleatorie di legge esponenziale il cui valore atteso è E( Xi ) = 20, sia
minore di 20.5. Si utilizzi la distribuzione esatta della media campionaria
e l’approssimazione Gaussiana fornita dal Teorema del limite centrale.
Si ritiene che l’approssimazione sia soddisfacente? E cosa accade se si
considera la media non di 10 ma di 40 variabili? L’approssimazione
migliora?
6
Scarica