4. Distribuzioni campionarie e introduzione ai metodi Monte Carlo

4. Distribuzioni campionarie e introduzione ai metodi Monte
Carlo
1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà
di distribuzioni campionarie ricavate per via teorica. Soprattutto, essi permettono
di valutare il comportamento di statistiche (funzioni di dati campionari), nel contesto del principio del campionamento ripetuto, quando sia difficile o impossibile
farlo per via analitica.
Il principio del campionamento ripetuto consiste nell’usare come riferimento per
l’inferenza la distribuzione campionaria di una statistica (di uno stimatore, in particolare). Si può simulare dalla distribuzione campionaria di una statistica
• simulando il campione;
• calcolando la statistica sul campione simulato.
Ripetendo i due passi sopra N volte si ottiene un campione dalla distribuzione
campionaria della statistica. La distribuzione campionaria della statistica di interesse dovrebbe, a rigore, essere valutata con riferimento a tutti i possibili campioni,
cosa palesemente impossibile nel caso di popolazioni infinite, e quasi sempre impraticabile anche nel caso di popolazioni finite. Per questa ragione ciò che si fa di
solito è esaminare il valore della statistica per un numero finito, ma molto ampio,
di replicazioni di campioni, ed ottenere in questo modo una descrizione (approssimata), detta di “Monte Carlo”, della sua distribuzione. Il numero di replicazioni
sufficiente dipende dal problema in esame; di solito, per semplici problemi, si pone
N = 1000.
Introdurremo tali metodi (detti anche metodi Monte Carlo) per illustrare alcuni
risultati teorici noti riguardanti la distribuzione della media campionaria e della
varianza campionaria e per valutare la distribuzione o i momenti di altre statistiche
più complesse. Infatti, gli studi di simulazione vengono spesso utilizzati per studiare problemi di inferenza riguardo statistiche campionarie per cui i risultati teorici
non sono noti o non sono applicabili perchè sono presenti condizioni diverse da
quelle teoriche o problemi nei dati (ad esempio, la ridotta numerosità campionaria,
la presenza di valori anomali, errori nelle assunzioni riguardo il campionamento o
la distribuzione della variabile di interesse nella popolazione).
2. Come è noto, la distribuzione campionaria della statistica media aritmetica x̄ =
(1/n) ∑in=1 xi per un campione i.i.d. di n valori da una popolazione X con media
µ e varianza σ2 , è distribuita come una N (µ, σ2 /n). Questo risultato è esatto per
la distribuzione campionaria della media di un campione normale, mentre è solo
1
approssimato per altre distribuzioni per n sufficientemente grande in virtù del
Teorema del Limite Centrale.
Simuliamo allora diversi campioni e confrontiamo le medie campionarie con la
distribuzione teorica.
Si consideri il caso molto semplice in cui si vuole ottenere la distribuzione di campionamento di x̄ per un campione casuale di dimensione 30 quando nella popolazione la variabile X è
(i) X ∼ N (0, 1);
(ii) X ∼ R(0, 1).
Nel primo caso X ha distribuzione esatta N (0, 1/n); nel secondo caso
1 1
X∼
˙N
,
2 12n
e ci aspettiamo che l’approssimazione sia soddisfacente anche per n moderatamente elevato (la R(0, 1) è simmetrica e l’approssimazione alla Gaussiana che
deriva dal teorema del limite centrale è accettabile).
Per fare questo occorre:
(a) estrarre un campione di dimensione n (30 nel nostro caso) da una popolazione
in cui la variabile X è distribuita secondo il modello di interesse (per il nostro esempio, nel caso (i) la Gaussiana o, nel caso (ii), la Rettangolare) che
deve essere completamente noto (conosciamo infatti i parametri). Si noti che
questo equivale a generare numeri aleatori da una variabile casuale che ha
distribuzione uguale a quella della popolazione. L’operazione di campionamento casuale semplice in effetti equivale a estrarre un numero casuale da
una variabile aleatoria distribuita come X.
(b) Calcolare la statistica di interesse (la media) da tale campione.
(c) Ripetere i passi a) e b) un elevato numero di volte (1000, ad esempio).
Disponiamo ora di un campione di N medie campionarie e possiamo confrontarlo
con la distribuzione teorica (di cui conosciamo i parametri). Utilizzeremo gli usuali
strumenti statistici:
• possiamo calcolare la media delle medie campionarie che darebbe un’approssimazione del valore atteso della variabile aleatoria media campionaria. La teoria ci dice che dovrebbe essere pari al valor medio della popolazione. Poichè
noi abbiamo fatto solo 1000 replicazioni (invece di infinite) esso sarà molto
vicino ma non uguale. Si noti che aumentando il numero di replicazioni
l’approssimazione migliora.
• possiamo calcolare la varianza della media campionaria.
2
• possiamo ottenere il grafico della distribuzione dei dati simulati (un istogramma
con molti breaks o anche un density plot).
R <- 1000 #numero di replicazioni
n <- 30 #dimensione del campione
medie = vector(mode = "numeric", length = R)
for (i in 1:R) {
# generiamo n valori da una N(0,1)
x <- rnorm(n)
# calcoliamo la media del campione i-esimo
medie[i] <- mean(x)
}
media_emp <- mean(medie)
var_emp <- var(medie)
# confronto con i valori teorici
media_teor <- 0
var_teor <- 1/n
# distribuzione della media campionaria
hist(medie, breaks = 30, prob = TRUE, ylim = c(0, 2.7))
# sovrapponiamo la distribuzione teorica esatta
curve(dnorm(x, mean = 0, sd = sqrt(1/n)), col = 2, lwd = 2, add = T)
1.5
1.0
0.5
0.0
Density
2.0
2.5
Histogram of medie
−0.6
−0.4
−0.2
0.0
medie
3
0.2
0.4
0.6
Si provi a fare la stessa cosa utilizzando campioni da una R(0, 1), anche con
campioni di numerosità piccola n < 5. Che conclusioni possiamo trarre?
Homeworks
(a) Si consideri il medesimo studio di simulazione per un campione di
ampiezza n da X ∼ N (µ, σ2 ), per diversi valori dei parametri. Si provi
poi ad aumentare il numero di replicazioni R.
(b) Si definisca ora una funzione che attua lo studio Monte Carlo del punto
(a) che abbia argomenti R, n, µ e σ2 .
3. Ora proviamo a utilizzare uno studio di simulazione per verificare alcuni risultati teorici sulla varianza di un campione normale. Consideriamo un campione
x1 , x2 , . . . xn di numerosità n non molto elevata (n < 10) da una gaussiana di media
e varianza fissata. La varianza campionaria corretta e la varianza campionaria sono
espresse rispettivamente da:
S2 =
∑in=1 ( xi − x̄ )2
n−1
e
2
Snc
=
∑in=1 ( xi − x̄ )2
,
n
Valutiamone la media ricordando il risultato teorico che afferma che S2 è stima non
distorta della varianza della popolazione.
# numero di replicazioni
R <- 10000
# dimensione del campione
n <- 8
# si predispone il vettore dove salvare i valori della statistica
S2 <- S2nc <- vector(mode = "numeric", length = R)
for (i in 1:R) {
x <- rnorm(n)
S2[i] <- var(x)
S2nc[i] <- S2[i] * (n - 1)/n
}
par(mfrow = c(1, 2))
hist(S2, prob = TRUE, main = "S2")
hist(S2nc, prob = TRUE, main = "S2nc")
mean(S2)
4
## [1] 0.9983457
mean(S2nc)
## [1] 0.8735525
S2nc
0.0
0.0
0.2
0.4
Density
0.4
0.2
Density
0.6
0.6
0.8
0.8
S2
0
1
2
3
4
0
S2
1
2
3
4
S2nc
Nell’ipotesi che il modello della popolazione sia normale, sappiamo che la varianza
campionaria S2 ha distribuzione di probabilità proporzionale a quella di una chiquadrato con n − 1 gradi di libertà:
S2 ∼
σ2 2
χ
n − 1 n −1
sigma2=1
hist(S2, prob=TRUE, ylim=c(0,.9), breaks=40, ylab="densità", main=" ")
curve(((n-1)/sigma2) * dchisq(x * ((n-1)/sigma2), df = n - 1),
add = TRUE, col=4, lwd=2, main="")
5
0.8
0.6
0.4
0.0
0.2
densità
0
1
2
3
4
S2
Si consideri ora un campione X1 , . . . , Xn con n = 9, da una popolazione esponenziale con parametro λ. Qual è la distribuzione della media campionaria?
A quale variabile casuale corrisponde? Come valutiamo l’approssimazione
Gaussiana?
Homeworks
2 al variare di n (n < 30)
(c) Si valuti la media e la distribuzione di S2 e Snc
quando X è normale. Commentare i risultati.
(d) Come si potrebbe verificare il risultato per il quale se X è distribuita
normalmente le due statistiche x̄ e S2 sono indipendenti?
Via simulazione è anche possibile valutare il comportamento di statistiche per le
quali non abbiamo risultati teorici (o non riusciamo a ottenerli agevolmente con il
calcolo delle probabilità).
6
Homeworks
(e) Si consideri la statistica m3 /S3 (che corrisponde all’indice di asimmetria
della distribuzione) dove
m3 =
1
( xi − x̄ )3
∑
n i
√
è il momento terzo centrale ed S = + S2 , con S2 varianza campionaria.
Si disponga di un campione di n = 10 casi da una esponenziale di
parametro λ = 2. Si valuti la distribuzione campionaria della statistica m3 /S3 per mezzo di uno studio di simulazione. Cosa si può dire
circa il confronto con il vero valore dell’indice nella popolazione?
(f) Poichè sappiamo che S2 ha un valore atteso pari a σ2 , varianza della
popolazione,
si può affermare che la deviazione standard campionaria
√
S = + S2 ha valore atteso pari a σ? Si analizzi il problema sia dal punto
di vista teorico che via simulazione.
7