3. Modello Gaussiano bivariato, distribuzione di somme di variabili aleatorie, Teorema del limite centrale 1. R consente di rappresentare graficamente anche funzioni di due variabili. Utilizzeremo tali potenzialità per rappresentare la funzione di densità di una gaussiana bivariata: f ( x, y) = ae con a = 1√ , 2πσX σY 1−ρ2 − 1 2 2(1− ρ ) x −µ X σX 2 y − µY 2 ( x −µ X )(y−µY ) + σ −2ρ σ σ Y X Y (1) dove −∞ < x, y < ∞, σX , σY > 0 e ρ ∈ [−1, 1]. Vi sono due importanti funzioni, persp() e outer(), che consentono di visualizzare cosa accade nello spazio in tre dimensioni. La prima ha una sintassi è simile alla funzione plot() già utilizzata. Gli argomenti sono le coppie di punti ( x, y), che formano un fitto reticolo su un intervallo opportuno, e la funzione f ( x, y), che viene valutata sui punti del reticolo. Consideriamo una distribuzione normale bivariata di parametri µ X = µY = 0, σX , σY = 1. Definiamo la funzione che calcola la densità congiunta in funzione del coefficiente di correlazione rho. ff <- function(x, y, rho){ a <- (2*pi*sqrt(1-rho^2))^(-1) a*exp(-.5*(1)*(1-rho^2)^(-1)*(x^2+y^2-2*rho*x*y)) } Utilizziamo la funzione outer per calcolare la densità in corrispondenza di ogni coppia ( x, y). La funzione persp consente di visualizzare il risultato in 3D. yy<-seq(-3,3,0.1) xx<-seq(-3,3,0.1) rho<-0.5 z<-outer(xx,yy,ff, rho=rho) persp(xx, yy, z, theta=30, phi=30, xlab="x", ylab="y", zlab="f(x,y)") 1 y f(x,y) x • Si ottengano i grafici della densità del modello Gaussiano bivariato per diversi valori di ρ • Si utilizzi la funzione contour() che ha gli stessi argomenti di persp() per disegnare le curve di livello per diverse scelte di rho. Si commenti i risultati. 2. Siano X1 , . . . , Xn n variabili aleatorie e a1 , . . . , an ∈ R. E’ interessante considerare la variabile aleatoria Y = a 1 X1 + a 2 X2 + · · · + a n X n di cui si può determinare media, varianza e, sotto certe ipotesi, la distribuzione di probabilità. In alcuni casi, è possibile ricavare la legge della somma di variabili aleatorie indipendenti grazie alla proprietà di riproducibilità (la somma—o la combinazione lineare—di variabili indipendenti distribuite secondo una certa legge ha una distribuzione dello stesso tipo di quella degli addendi). È noto, ad esempio, che la somma di variabili Gaussiane è ancora una variabile Gaussiana. Oppure la somma di variabili aleatorie indipendenti con legge esponenziale è una variabile Erlang (o Gamma con parametro di forma intero). 2 Attraverso una simulazione in R possiamo verificare empiricamente questo risultato. A tal fine generiamo dei numeri casuali da una esponenziale e verifichiamo che la loro somma si comporta come una Gamma di opportuni parametri. Prima di procedere ricordiamo come funziona il comando for() che chiede come argomento un indice e la sequenza di numeri in cui questo indice varia #numero iterazioni nsim = 5 #nel vettore 'out' è memorizzato l'output di ogni simulazione out = vector(mode="numeric", length=nsim) #ciclo for() for(i in 1:nsim) { #stampa il valore corrente dell'iterazione cat("iter", i, "") #il valore corrente viene memorizzato nella posizione i-ma out[i] = i } ## iter 1 iter 2 iter 3 iter 4 iter 5 out ## [1] 1 2 3 4 5 Impostiamo un piccolo ciclo iterativo per confrontare i valori della somma di 10 esponenziali di parametro 0.1 con la distribuzione teorica di una Gamma(10,0.1). #numero di iterazioni dell'esperimento nsim=1000 #numerosità campionaria n=10 #x conterrà la somma dei valori estratti x=vector(mode="numeric", length=nsim) #ciclo for() for (i in 1:nsim) { x[i]=sum(rexp(n,0.1)) } hist(x, prob=T, ylim=c(0,.015), ylab="densità", 3 main="Confronto valori simulati e teorici", breaks=30) curve(dgamma(x,10,0.1), type="l", col=2, add=T) 0.010 0.005 0.000 densità 0.015 Confronto valori simulati e teorici 50 100 150 200 250 x Si provi a verificare con lo stesso metodo che somme di variabili aleatorie geometriche danno luogo a binomiali negative. Homeworks (a) Si verifichi che la somma di n variabili aleatorie indipendenti distribuite secondo una legge chi-quadrato con 1 grado di libertà, Xi ∼ χ21 , i = 1, . . . , n, si distribuisce come una chi-quadrato con n gradi di libertà. (b) Si verifichi la proprietà di additività di variabili casuali di Poisson. 3. Il Teorema del limite centrale, in etrema sintesi, stabilisce che la distribuzione asintotica di una somma di variabili casuali indipendenti e con identica distribuzione 4 è Gaussiana. In altri termini, se X1 , X2 , . . . , Xn sono variabili casuali indipendenti 2 con E( Xi ) = µ e V ( Xi ) = σ √ allora la funzione di ripartizione della variabile can suale Zn = (∑i=1 Xi − nµ)/ nσ può essere approssimata da una N (0, 1). La bontà dell’approssimazione dipende da n e dalla forma della distribuzione delle variabili Xi . In particolare, come è noto, se le Xi sono distribuite normalmente, la distribuzione di Sn = ∑in=1 Xi è esattamente normale per qualsiasi valore di n. Verifichiamo tale risultato nel caso Xi ∼ R(0, 1), i = 1, . . . , 50, cioè consideriamo la somma di 50 valori simulati da una rettangolare su (0, 1), con il comando runif(). Otteniamo 1000 valori della somma e ne osserviamo la distribuzione. nsim=1000 n=50 R=vector(mode="numeric", length=nsim) for (i in 1:nsim){ R[i]=sum(runif(n)) } hist(R, prob=T, breaks=20, xlab=" ", ylab=" ", main="distribuzione della somma di R(0,1)") 0.00 0.05 0.10 0.15 0.20 distribuzione della somma di R(0,1) 18 20 22 24 5 26 28 30 32 L’istogramma ottenuto sembra effettivamente ben approssimabile con una Gaussiana. Verificare tale approssimazione sovrapponendo una densità normale con opportuni parametri. Homeworks (c) Con riferimento al punto 3., si provi a variare il numero di variabili uniformi che vengono sommate per verificare come funziona l’approssimazione per diversi valori di n. (d) Si consideri ora l’approssimazione fornita dalla distribuzione normale della distribuzione binomiale di parametri n e p. Calcolare p la probabilità esatta e quella approssimata di ottenere più di np + (np(1 − p)) successi per alcune scelte di n e p. (e) Calcolare la probabilità che la variabile aleatoria media X n di n=10 variabili aleatorie di legge esponenziale il cui valore atteso è E( Xi ) = 20, sia minore di 20.5. Si utilizzi la distribuzione esatta della media campionaria e l’approssimazione Gaussiana fornita dal Teorema del limite centrale. Si ritiene che l’approssimazione sia soddisfacente? E cosa accade se si considera la media non di 10 ma di 40 variabili? L’approssimazione migliora? 6