Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate per via teorica. Soprattutto, essi permettono di valutare il comportamento di statistiche (funzioni di dati campionari), nel contesto del principio del campionamento ripetuto, quando sia difficile o impossibile farlo per via analitica. Il principio del campionamento ripetuto consiste nell’usare come riferimento per l’inferenza la distribuzione campionaria di una statistica (di uno stimatore, in particolare). Si può simulare dalla distribuzione campionaria di una statistica • simulando il campione; • calcolando la statistica sul campione simulato. Ripetendo i due passi sopra N volte si ottiene un campione dalla distribuzione campionaria della statistica. La distribuzione campionaria della statistica di interesse dovrebbe, a rigore, essere valutata con riferimento a tutti i possibili campioni, cosa palesemente impossibile nel caso di popolazioni infinite, e quasi sempre impraticabile anche nel caso di popolazioni finite. Per questa ragione ciò che si fa di solito è esaminare il valore della statistica per un numero finito, ma molto ampio, di replicazioni di campioni, ed ottenere in questo modo una descrizione (approssimata), detta di “Monte Carlo”, della sua distribuzione. Il numero di replicazioni sufficiente dipende dal problema in esame; di solito, per semplici problemi, si pone N = 1000. Introdurremo tali metodi (detti anche metodi Monte Carlo) per illustrare alcuni risultati teorici noti riguardanti la distribuzione della media campionaria e della varianza campionaria e per valutare la distribuzione o i momenti di altre statistiche più complesse. Infatti, gli studi di simulazione vengono spesso utilizzati per studiare problemi di inferenza riguardo statistiche campionarie per cui i risultati teorici non sono noti o non sono applicabili perchè sono presenti condizioni diverse da quelle teoriche o problemi nei dati (ad esempio, la ridotta numerosità campionaria, la presenza di valori anomali, errori nelle assunzioni riguardo il campionamento o la distribuzione della variabile di interesse nella popolazione). 2. Come è noto, la distribuzione campionaria della statistica media aritmetica x̄ = (1/n) ∑in=1 xi per un campione i.i.d. di n valori da una popolazione X con media µ e varianza σ2 , è distribuita come una N (µ, σ2 /n). Questo risultato è esatto per la distribuzione campionaria della media di un campione normale, mentre è solo approssimato per altre distribuzioni per n sufficientemente grande in virtù del Teorema del Limite Centrale. 1 Simuliamo allora diversi campioni e confrontiamo le medie campionarie con la distribuzione teorica. Si consideri il caso molto semplice in cui si vuole ottenere la distribuzione di campionamento di x̄ per un campione casuale di dimensione 30 quando nella popolazione la variabile X è (i) X ∼ N (0, 1); (ii) X ∼ R(0, 1). Per il primo caso la distribuzione di X sarà esattamente N (0, 1/n), mentre nel secondo caso X ≈ N (1/2, 1/(12n)) e ci aspettiamo che l’approssimazione sia comunque molto buona (la R(0, 1) è simmetrica e l’approssimazione alla Guassina che deriva dal teorema del limite centrale è accettabile anche per n moderatamente elevato). Per fare questo occorre: (a) estrarre un campione di dimensione n (30 nel nostro caso) da una popolazione in cui la variabile X è distribuita secondo il modello di interesse (per il nostro esempio, nel caso (i) la Gaussiana o, nel caso (ii), la Rettangolare) che deve essere completamente noto (conosciamo infatti i parametri). Si noti che questo equivale a generare numeri aleatori da una variabile casuale che ha distribuzione uguale a quella della popolazione. L’operazione di campionamento casuale semplice in effetti equivale a estrarre un numero casuale da una variabile aleatoria distribuita come X. (b) Calcolare la statistica di interesse (la media nel nostro caso) su tale campione. (c) Ripetere i passi a) e b) un elevato numero di volte (1000 replicazioni nel nostro esempio). Disponiamo ora di un campione di N medie campionarie e possiamo confrontarlo con la distribuzione teorica (di cui conosciamo i parametri). Utilizzeremo gli usuali strumenti statistici: • possiamo calcolare la media delle medie campionarie: e questo darebbe un’approssimazione del valore atteso della v.a. media campionaria. La teoria ci dice che dovrebbe essere pari al valor medio della popolazione. Poichè noi abbiamo fatto solo 1000 replicazioni (invece di infinite) esso sarà molto vicino ma non uguale. Aumentando il numero di replicazioni l’approssimazione migliora. • possiamo calcolare la varianza della media campionaria. • possiamo graficare la distribuzione dei dati simulati (un istogramma con molti breaks o anche un density plot). 2 Un primo esempio è riportato sotto. R <- 1000 #numero di replicazioni n <- 30 #dimensione del campione medie <- vector(mode = "numeric", length = R) for (i in 1:R) { # generiamo n valori da una N(0,1) x <- rnorm(n) # calcoliamo la media del campione i-esimo medie[i] <- mean(x) } media_emp <- mean(medie) var_emp <- var(medie) # confronto con i valori teorici media_teor <- 0 var_teor <- 1/n # distribuzione della media campionaria hist(medie, breaks = 30, prob = TRUE, ylim = c(0, 2.7)) # sovrapponiamo la distribuzione teorica esatta curve(dnorm(x, mean = 0, sd = sqrt(1/n)), col = 2, lwd = 2, add = T) 1.5 1.0 0.5 0.0 Density 2.0 2.5 Histogram of medie −0.6 −0.4 −0.2 0.0 medie 3 0.2 0.4 0.6 Si provi a fare la stessa cosa utilizzando campioni da una R(0, 1), anche con campioni di numerosità piccola n < 5. Che conclusioni possiamo trarre? Esercizi (a) Si consideri il medesimo studio di simulazione per X gaussiana di media µ e varianza σ2 , utilizzando diversi valori per µ e σ2 . Si provi poi ad aumentare il numero di replicazioni. (b) Si definisca ora una funzione che attua lo studio Monte Carlo del punto (a) che abbia argomenti R, n, µ e σ2 . 3. Ora proviamo a utilizzare uno studio di simulazione per verificare alcuni risultati teorici sulla varianza di un campione normale. Consideriamo un campione x1 , x2 , . . . xn di numerosità n non molto elevata (n < 10) da una gaussiana di media e varianza fissata. La varianza campionaria corretta e la varianza campionaria sono espresse rispettivamente da: ∑in=1 ( xi − x̄ )2 S = n−1 2 e 2 Snc ∑in=1 ( xi − x̄ )2 , = n Valutiamone la media ricordando il risultato teorico che afferma che S2 è stima non distorta della varianza della popolazione. # numero di replicazioni R <- 10000 # dimensione del campione n <- 8 # si predispone il vettore dove salvare i valori della statistica S2 <- S2nc <- vector(mode = "numeric", length = R) for (i in 1:R) { x <- rnorm(n) S2[i] <- var(x) S2nc[i] <- S2[i] * (n - 1)/n } par(mfrow = c(1, 2)) hist(S2, prob = TRUE) hist(S2nc, prob = TRUE) media_empS2 <- mean(S2) media_empS2 #molto vicino alla varianza della popolazione (=1) 4 ## [1] 0.9994287 media_empS2nc <- mean(S2nc) media_empS2nc ## [1] 0.8745001 Histogram of S2nc Density 0.0 0.0 0.2 0.2 0.4 0.4 Density 0.6 0.6 0.8 0.8 1.0 Histogram of S2 0 1 2 3 4 0.0 S2 1.0 2.0 3.0 S2nc Nell’ipotesi che il modello della popolazione sia normale, la varianza campionaria S2 ha distribuzione di probabilità proporzionale a quella di una chi-quadrato con n − 1 gradi di libertà: S2 ∼ σ2 2 χ n − 1 n −1 sigma2 <- 1 hist(S2, prob = TRUE, ylim = c(0, 0.9)) curve(((n - 1)/sigma2) * dchisq(x * ((n - 1)/sigma2), df = n - 1), add = TRUE, col = 4, lwd = 2, main = "") 5 0.4 0.0 0.2 Density 0.6 0.8 Histogram of S2 0 1 2 3 4 S2 Si consideri ora un campione X1 , . . . , Xn con n = 9, da una popolazione esponenziale con parametro λ. Qual è la distribuzione della media campionaria? A quale variabile casuale corrisponde? Come funziona l’approssimazione alla gaussiana? Esercizi 2 al variare di n (n < 30) (a) Si valuti la media e la distribuzione di S2 e Snc quando X è normale. Commentare i risultati. (b) Si verifichi per X distribuita normalmente che le due statistiche x̄ e S2 sono indipendenti. 4. E ora si provi a vedere come si comportano statistiche per le quali non abbiamo risultati teorici (o non riusciamo a ottenerli agevolmente con il calcolo delle probabilità). 6 Esercizi (a) Si consideri la statistica m3 /S3 che è l’indice di asimmetria ove m3 = √ 3 − 1 2 n ∑i ( xi − µ) è il momento terzo centrale ed S = + S è la radice quadrata della varianza campionaria. Si disponga di un campione di n = 10 casi da una esponenziale. Qual è la distribuzione campionaria della statistica e in che rapporto è con il vero valore dell’indice nella popolazione? (b) Poichè sappiamo che S2 ha un valore atteso pari a σ2 che è la varianza della popolazione, si può affermare che la deviazione standard campi√ 2 onaria S = + S ha valore atteso pari a σ? Si analizzi il problema sia dal punto di vista teorico che via simulazione. 7