Esercitazioni con R Corso di Inferenza Statistica [12ex] Corso di

Esercitazione 4
Distribuzioni campionarie e introduzione ai metodi Monte
Carlo
1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà
di distribuzioni campionarie ricavate per via teorica. Soprattutto, essi permettono
di valutare il comportamento di statistiche (funzioni di dati campionari), nel contesto del principio del campionamento ripetuto, quando sia difficile o impossibile
farlo per via analitica.
Il principio del campionamento ripetuto consiste nell’usare come riferimento per
l’inferenza la distribuzione campionaria di una statistica (di uno stimatore, in particolare). Si può simulare dalla distribuzione campionaria di una statistica
• simulando il campione;
• calcolando la statistica sul campione simulato.
Ripetendo i due passi sopra N volte si ottiene un campione dalla distribuzione
campionaria della statistica. La distribuzione campionaria della statistica di interesse dovrebbe, a rigore, essere valutata con riferimento a tutti i possibili campioni,
cosa palesemente impossibile nel caso di popolazioni infinite, e quasi sempre impraticabile anche nel caso di popolazioni finite. Per questa ragione ciò che si fa di
solito è esaminare il valore della statistica per un numero finito, ma molto ampio,
di replicazioni di campioni, ed ottenere in questo modo una descrizione (approssimata), detta di “Monte Carlo”, della sua distribuzione. Il numero di replicazioni
sufficiente dipende dal problema in esame; di solito, per semplici problemi, si pone
N = 1000.
Introdurremo tali metodi (detti anche metodi Monte Carlo) per illustrare alcuni
risultati teorici noti riguardanti la distribuzione della media campionaria e della
varianza campionaria e per valutare la distribuzione o i momenti di altre statistiche
più complesse. Infatti, gli studi di simulazione vengono spesso utilizzati per studiare problemi di inferenza riguardo statistiche campionarie per cui i risultati teorici
non sono noti o non sono applicabili perchè sono presenti condizioni diverse da
quelle teoriche o problemi nei dati (ad esempio, la ridotta numerosità campionaria,
la presenza di valori anomali, errori nelle assunzioni riguardo il campionamento o
la distribuzione della variabile di interesse nella popolazione).
2. Come è noto, la distribuzione campionaria della statistica media aritmetica x̄ =
(1/n) ∑in=1 xi per un campione i.i.d. di n valori da una popolazione X con media
µ e varianza σ2 , è distribuita come una N (µ, σ2 /n). Questo risultato è esatto per
la distribuzione campionaria della media di un campione normale, mentre è solo
approssimato per altre distribuzioni per n sufficientemente grande in virtù del
Teorema del Limite Centrale.
1
Simuliamo allora diversi campioni e confrontiamo le medie campionarie con la
distribuzione teorica.
Si consideri il caso molto semplice in cui si vuole ottenere la distribuzione di campionamento di x̄ per un campione casuale di dimensione 30 quando nella popolazione la variabile X è
(i) X ∼ N (0, 1);
(ii) X ∼ R(0, 1).
Per il primo caso la distribuzione di X sarà esattamente N (0, 1/n), mentre nel
secondo caso X ≈ N (1/2, 1/(12n)) e ci aspettiamo che l’approssimazione sia comunque molto buona (la R(0, 1) è simmetrica e l’approssimazione alla Guassina
che deriva dal teorema del limite centrale è accettabile anche per n moderatamente
elevato).
Per fare questo occorre:
(a) estrarre un campione di dimensione n (30 nel nostro caso) da una popolazione
in cui la variabile X è distribuita secondo il modello di interesse (per il nostro esempio, nel caso (i) la Gaussiana o, nel caso (ii), la Rettangolare) che
deve essere completamente noto (conosciamo infatti i parametri). Si noti che
questo equivale a generare numeri aleatori da una variabile casuale che ha
distribuzione uguale a quella della popolazione. L’operazione di campionamento casuale semplice in effetti equivale a estrarre un numero casuale da
una variabile aleatoria distribuita come X.
(b) Calcolare la statistica di interesse (la media nel nostro caso) su tale campione.
(c) Ripetere i passi a) e b) un elevato numero di volte (1000 replicazioni nel nostro
esempio).
Disponiamo ora di un campione di N medie campionarie e possiamo confrontarlo
con la distribuzione teorica (di cui conosciamo i parametri). Utilizzeremo gli usuali
strumenti statistici:
• possiamo calcolare la media delle medie campionarie: e questo darebbe un’approssimazione del valore atteso della v.a. media campionaria. La teoria ci
dice che dovrebbe essere pari al valor medio della popolazione. Poichè noi
abbiamo fatto solo 1000 replicazioni (invece di infinite) esso sarà molto vicino
ma non uguale. Aumentando il numero di replicazioni l’approssimazione
migliora.
• possiamo calcolare la varianza della media campionaria.
• possiamo graficare la distribuzione dei dati simulati (un istogramma con molti
breaks o anche un density plot).
2
Un primo esempio è riportato sotto.
R <- 1000 #numero di replicazioni
n <- 30 #dimensione del campione
medie <- vector(mode = "numeric", length = R)
for (i in 1:R) {
# generiamo n valori da una N(0,1)
x <- rnorm(n)
# calcoliamo la media del campione i-esimo
medie[i] <- mean(x)
}
media_emp <- mean(medie)
var_emp <- var(medie)
# confronto con i valori teorici
media_teor <- 0
var_teor <- 1/n
# distribuzione della media campionaria
hist(medie, breaks = 30, prob = TRUE, ylim = c(0, 2.7))
# sovrapponiamo la distribuzione teorica esatta
curve(dnorm(x, mean = 0, sd = sqrt(1/n)), col = 2, lwd = 2, add = T)
1.5
1.0
0.5
0.0
Density
2.0
2.5
Histogram of medie
−0.6
−0.4
−0.2
0.0
medie
3
0.2
0.4
0.6
Si provi a fare la stessa cosa utilizzando campioni da una R(0, 1), anche con
campioni di numerosità piccola n < 5. Che conclusioni possiamo trarre?
Esercizi
(a) Si consideri il medesimo studio di simulazione per X gaussiana di media
µ e varianza σ2 , utilizzando diversi valori per µ e σ2 . Si provi poi ad
aumentare il numero di replicazioni.
(b) Si definisca ora una funzione che attua lo studio Monte Carlo del punto
(a) che abbia argomenti R, n, µ e σ2 .
3. Ora proviamo a utilizzare uno studio di simulazione per verificare alcuni risultati teorici sulla varianza di un campione normale. Consideriamo un campione
x1 , x2 , . . . xn di numerosità n non molto elevata (n < 10) da una gaussiana di media
e varianza fissata. La varianza campionaria corretta e la varianza campionaria sono
espresse rispettivamente da:
∑in=1 ( xi − x̄ )2
S =
n−1
2
e
2
Snc
∑in=1 ( xi − x̄ )2
,
=
n
Valutiamone la media ricordando il risultato teorico che afferma che S2 è stima non
distorta della varianza della popolazione.
# numero di replicazioni
R <- 10000
# dimensione del campione
n <- 8
# si predispone il vettore dove salvare i valori della statistica
S2 <- S2nc <- vector(mode = "numeric", length = R)
for (i in 1:R) {
x <- rnorm(n)
S2[i] <- var(x)
S2nc[i] <- S2[i] * (n - 1)/n
}
par(mfrow = c(1, 2))
hist(S2, prob = TRUE)
hist(S2nc, prob = TRUE)
media_empS2 <- mean(S2)
media_empS2 #molto vicino alla varianza della popolazione (=1)
4
## [1] 0.9994287
media_empS2nc <- mean(S2nc)
media_empS2nc
## [1] 0.8745001
Histogram of S2nc
Density
0.0
0.0
0.2
0.2
0.4
0.4
Density
0.6
0.6
0.8
0.8
1.0
Histogram of S2
0
1
2
3
4
0.0
S2
1.0
2.0
3.0
S2nc
Nell’ipotesi che il modello della popolazione sia normale, la varianza campionaria
S2 ha distribuzione di probabilità proporzionale a quella di una chi-quadrato con
n − 1 gradi di libertà:
S2 ∼
σ2 2
χ
n − 1 n −1
sigma2 <- 1
hist(S2, prob = TRUE, ylim = c(0, 0.9))
curve(((n - 1)/sigma2) * dchisq(x * ((n - 1)/sigma2), df = n - 1),
add = TRUE, col = 4, lwd = 2, main = "")
5
0.4
0.0
0.2
Density
0.6
0.8
Histogram of S2
0
1
2
3
4
S2
Si consideri ora un campione X1 , . . . , Xn con n = 9, da una popolazione esponenziale con parametro λ. Qual è la distribuzione della media campionaria?
A quale variabile casuale corrisponde? Come funziona l’approssimazione alla
gaussiana?
Esercizi
2 al variare di n (n < 30)
(a) Si valuti la media e la distribuzione di S2 e Snc
quando X è normale. Commentare i risultati.
(b) Si verifichi per X distribuita normalmente che le due statistiche x̄ e S2
sono indipendenti.
4. E ora si provi a vedere come si comportano statistiche per le quali non abbiamo
risultati teorici (o non riusciamo a ottenerli agevolmente con il calcolo delle probabilità).
6
Esercizi
(a) Si consideri la statistica m3 /S3 che è l’indice di asimmetria
ove m3 =
√
3
−
1
2
n ∑i ( xi − µ) è il momento terzo centrale ed S = + S è la radice
quadrata della varianza campionaria. Si disponga di un campione di
n = 10 casi da una esponenziale. Qual è la distribuzione campionaria
della statistica e in che rapporto è con il vero valore dell’indice nella
popolazione?
(b) Poichè sappiamo che S2 ha un valore atteso pari a σ2 che è la varianza
della popolazione,
si può affermare che la deviazione standard campi√
2
onaria S = + S ha valore atteso pari a σ? Si analizzi il problema sia
dal punto di vista teorico che via simulazione.
7