4. Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate per via teorica. Soprattutto, essi permettono di valutare il comportamento di statistiche (funzioni di dati campionari), nel contesto del principio del campionamento ripetuto, quando sia difficile o impossibile farlo per via analitica. Il principio del campionamento ripetuto consiste nell’usare come riferimento per l’inferenza la distribuzione campionaria di una statistica (di uno stimatore, in particolare). Si può simulare dalla distribuzione campionaria di una statistica • simulando il campione; • calcolando la statistica sul campione simulato. Ripetendo i due passi sopra N volte si ottiene un campione dalla distribuzione campionaria della statistica. La distribuzione campionaria della statistica di interesse dovrebbe, a rigore, essere valutata con riferimento a tutti i possibili campioni, cosa palesemente impossibile nel caso di popolazioni infinite, e quasi sempre impraticabile anche nel caso di popolazioni finite. Per questa ragione ciò che si fa di solito è esaminare il valore della statistica per un numero finito, ma molto ampio, di replicazioni di campioni, ed ottenere in questo modo una descrizione (approssimata), detta di “Monte Carlo”, della sua distribuzione. Il numero di replicazioni sufficiente dipende dal problema in esame; di solito, per semplici problemi, si pone N = 1000. Introdurremo tali metodi (detti anche metodi Monte Carlo) per illustrare alcuni risultati teorici noti riguardanti la distribuzione della media campionaria e della varianza campionaria e per valutare la distribuzione o i momenti di altre statistiche più complesse. Infatti, gli studi di simulazione vengono spesso utilizzati per studiare problemi di inferenza riguardo statistiche campionarie per cui i risultati teorici non sono noti o non sono applicabili perchè sono presenti condizioni diverse da quelle teoriche o problemi nei dati (ad esempio, la ridotta numerosità campionaria, la presenza di valori anomali, errori nelle assunzioni riguardo il campionamento o la distribuzione della variabile di interesse nella popolazione). 2. Come è noto, la distribuzione campionaria della statistica media aritmetica x̄ = (1/n) ∑in=1 xi per un campione i.i.d. di n valori da una popolazione X con media µ e varianza σ2 , è distribuita come una N (µ, σ2 /n). Questo risultato è esatto per la distribuzione campionaria della media di un campione normale, mentre è solo 1 approssimato per altre distribuzioni per n sufficientemente grande in virtù del Teorema del Limite Centrale. Simuliamo allora diversi campioni e confrontiamo le medie campionarie con la distribuzione teorica. Si consideri il caso molto semplice in cui si vuole ottenere la distribuzione di campionamento di x̄ per un campione casuale di dimensione 30 quando nella popolazione la variabile X è (i) X ∼ N (0, 1); (ii) X ∼ R(0, 1). Nel primo caso X ha distribuzione esatta N (0, 1/n); nel secondo caso 1 1 X∼ ˙N , 2 12n e ci aspettiamo che l’approssimazione sia soddisfacente anche per n moderatamente elevato (la R(0, 1) è simmetrica e l’approssimazione alla Gaussiana che deriva dal teorema del limite centrale è accettabile). Per fare questo occorre: (a) estrarre un campione di dimensione n (30 nel nostro caso) da una popolazione in cui la variabile X è distribuita secondo il modello di interesse (per il nostro esempio, nel caso (i) la Gaussiana o, nel caso (ii), la Rettangolare) che deve essere completamente noto (conosciamo infatti i parametri). Si noti che questo equivale a generare numeri aleatori da una variabile casuale che ha distribuzione uguale a quella della popolazione. L’operazione di campionamento casuale semplice in effetti equivale a estrarre un numero casuale da una variabile aleatoria distribuita come X. (b) Calcolare la statistica di interesse (la media) da tale campione. (c) Ripetere i passi a) e b) un elevato numero di volte (1000, ad esempio). Disponiamo ora di un campione di N medie campionarie e possiamo confrontarlo con la distribuzione teorica (di cui conosciamo i parametri). Utilizzeremo gli usuali strumenti statistici: • possiamo calcolare la media delle medie campionarie che darebbe un’approssimazione del valore atteso della variabile aleatoria media campionaria. La teoria ci dice che dovrebbe essere pari al valor medio della popolazione. Poichè noi abbiamo fatto solo 1000 replicazioni (invece di infinite) esso sarà molto vicino ma non uguale. Si noti che aumentando il numero di replicazioni l’approssimazione migliora. • possiamo calcolare la varianza della media campionaria. 2 • possiamo ottenere il grafico della distribuzione dei dati simulati (un istogramma con molti breaks o anche un density plot). R <- 1000 #numero di replicazioni n <- 30 #dimensione del campione medie = vector(mode = "numeric", length = R) for (i in 1:R) { # generiamo n valori da una N(0,1) x <- rnorm(n) # calcoliamo la media del campione i-esimo medie[i] <- mean(x) } media_emp <- mean(medie) var_emp <- var(medie) # confronto con i valori teorici media_teor <- 0 var_teor <- 1/n # distribuzione della media campionaria hist(medie, breaks = 30, prob = TRUE, ylim = c(0, 2.7)) # sovrapponiamo la distribuzione teorica esatta curve(dnorm(x, mean = 0, sd = sqrt(1/n)), col = 2, lwd = 2, add = T) 1.5 1.0 0.5 0.0 Density 2.0 2.5 Histogram of medie −0.6 −0.4 −0.2 0.0 medie 3 0.2 0.4 0.6 Si provi a fare la stessa cosa utilizzando campioni da una R(0, 1), anche con campioni di numerosità piccola n < 5. Che conclusioni possiamo trarre? Homeworks (a) Si consideri il medesimo studio di simulazione per un campione di ampiezza n da X ∼ N (µ, σ2 ), per diversi valori dei parametri. Si provi poi ad aumentare il numero di replicazioni R. (b) Si definisca ora una funzione che attua lo studio Monte Carlo del punto (a) che abbia argomenti R, n, µ e σ2 . 3. Ora proviamo a utilizzare uno studio di simulazione per verificare alcuni risultati teorici sulla varianza di un campione normale. Consideriamo un campione x1 , x2 , . . . xn di numerosità n non molto elevata (n < 10) da una gaussiana di media e varianza fissata. La varianza campionaria corretta e la varianza campionaria sono espresse rispettivamente da: S2 = ∑in=1 ( xi − x̄ )2 n−1 e 2 Snc = ∑in=1 ( xi − x̄ )2 , n Valutiamone la media ricordando il risultato teorico che afferma che S2 è stima non distorta della varianza della popolazione. # numero di replicazioni R <- 10000 # dimensione del campione n <- 8 # si predispone il vettore dove salvare i valori della statistica S2 <- S2nc <- vector(mode = "numeric", length = R) for (i in 1:R) { x <- rnorm(n) S2[i] <- var(x) S2nc[i] <- S2[i] * (n - 1)/n } par(mfrow = c(1, 2)) hist(S2, prob = TRUE, main = "S2") hist(S2nc, prob = TRUE, main = "S2nc") mean(S2) 4 ## [1] 0.9983457 mean(S2nc) ## [1] 0.8735525 S2nc 0.0 0.0 0.2 0.4 Density 0.4 0.2 Density 0.6 0.6 0.8 0.8 S2 0 1 2 3 4 0 S2 1 2 3 4 S2nc Nell’ipotesi che il modello della popolazione sia normale, sappiamo che la varianza campionaria S2 ha distribuzione di probabilità proporzionale a quella di una chiquadrato con n − 1 gradi di libertà: S2 ∼ σ2 2 χ n − 1 n −1 sigma2=1 hist(S2, prob=TRUE, ylim=c(0,.9), breaks=40, ylab="densità", main=" ") curve(((n-1)/sigma2) * dchisq(x * ((n-1)/sigma2), df = n - 1), add = TRUE, col=4, lwd=2, main="") 5 0.8 0.6 0.4 0.0 0.2 densità 0 1 2 3 4 S2 Si consideri ora un campione X1 , . . . , Xn con n = 9, da una popolazione esponenziale con parametro λ. Qual è la distribuzione della media campionaria? A quale variabile casuale corrisponde? Come valutiamo l’approssimazione Gaussiana? Homeworks 2 al variare di n (n < 30) (c) Si valuti la media e la distribuzione di S2 e Snc quando X è normale. Commentare i risultati. (d) Come si potrebbe verificare il risultato per il quale se X è distribuita normalmente le due statistiche x̄ e S2 sono indipendenti? Via simulazione è anche possibile valutare il comportamento di statistiche per le quali non abbiamo risultati teorici (o non riusciamo a ottenerli agevolmente con il calcolo delle probabilità). 6 Homeworks (e) Si consideri la statistica m3 /S3 (che corrisponde all’indice di asimmetria della distribuzione) dove m3 = 1 ( xi − x̄ )3 ∑ n i √ è il momento terzo centrale ed S = + S2 , con S2 varianza campionaria. Si disponga di un campione di n = 10 casi da una esponenziale di parametro λ = 2. Si valuti la distribuzione campionaria della statistica m3 /S3 per mezzo di uno studio di simulazione. Cosa si può dire circa il confronto con il vero valore dell’indice nella popolazione? (f) Poichè sappiamo che S2 ha un valore atteso pari a σ2 , varianza della popolazione, si può affermare che la deviazione standard campionaria √ S = + S2 ha valore atteso pari a σ? Si analizzi il problema sia dal punto di vista teorico che via simulazione. 7