Campioni casuali - UniFI

Campioni casuali
Giovanni Marchetti, DISIA, Firenze
2017
1 / 31
Introduzione
• Il calcolo delle probabilità si occupa di misura di incertezza
degli eventi e delle quantità aleatorie che si osservano negli
esperimenti.
• Per esempio se l’esperimento è il lancio di una puntina da
disegno il risultato è una variabile aleatoria X con modalità:
• x = 0 se cade con la punta all’insù
• x = 1 se cade con la punta in giù.
• Possiamo interpretarla come una variabile di Bernoulli con
Pr(X = 0) = 1 − π e Pr(X = 1) = π
• Per il calcolo delle probabilità non è essenziale conoscere π, ma
solo sapere che 0 < π < 1.
• Tuttavia possiamo domandarci: quanto vale π?
2 / 31
Stima di una probabilità
• I due esiti non sono equiprobabili
• Cerchiamo di determinarla empiricamente. Ad esempio
lanciamo la puntina 100 volte e vediamo cosa succede.
1
2
3
4
5
6
7
8
9
10
0
1
0
0
0
1
1
1
1
1
1
1
0
1
1
0
0
1
1
0
0
1
1
0
1
1
0
1
1
0
1
1
0
0
1
1
0
0
0
0
1
1
1
1
1
1
0
1
1
0
1
0
1
1
0
0
0
1
1
0
1
1
0
1
1
0
1
1
1
1
1
1
0
1
1
0
0
1
1
0
1
0
1
0
1
0
1
1
1
1
0
1
0
0
1
1
1
1
1
0
3 / 31
Dai dati a una stima
• I risultati ci permettono di stimare π con la proporzione di
risultati a favore di X = 1, cioè
π̂ =
62
#{X = 1}
=
= .62.
100
100
• I risultati dell’esperimento del lancio di una puntina sono affetti
da una variabilità intrinseca e la probabilità di successo π non
si conosce. Tuttavia, π può essere stimata dai dati.
• Alla fine dell’esperimento ci facciamo l’idea che
Pr(X = 0) < Pr(X = 1). Quindi l’analisi statistica permette
di dare un senso concreto alla teoria delle probabilità.
4 / 31
Un altro esempio
• Ogni individuo adulto sano ha una sua temperatura corporea
X.
• La temperatura nella popolazione degli adulti sani ha una sua
variabilità e quindi ci saranno delle differenze tra una misura e
l’altra in un gruppo di individui.
• Nella popolazione le temperature X sono quantità aleatorie e
X può essere descritta come una variabile aleatoria continua
con una certa funzione di densità f (x).
• Qual è la temperatura normale che potremmo identificare con il
valore atteso µ = E(X)? Il calcolo delle probabilità non ci può
fornire la risposta. Per saperlo dobbiamo ricorrere a dei dati
osservati sulla temperatura corporea.
5 / 31
Dati sulla temeperatura
I dati seguenti riguardano le temperature corporee in gradi Celsius di
65 individui sani scelti casualmente.
1
2
3
4
5
6
7
8
9
10
11
12
13
1
35.7
35.9
36.1
36.1
36.2
36.2
36.2
36.2
36.3
36.3
36.3
36.3
36.3
2
36.4
36.4
36.4
36.4
36.4
36.5
36.6
36.6
36.6
36.6
36.6
36.6
36.7
3
36.7
36.7
36.7
36.7
36.7
36.7
36.7
36.8
36.8
36.8
36.8
36.8
36.8
4
36.9
36.9
36.9
36.9
36.9
36.9
37.0
37.0
37.0
37.0
37.0
37.0
37.1
5
37.1
37.1
37.1
37.1
37.2
37.2
37.2
37.2
37.3
37.3
37.4
37.4
37.5
6 / 31
Istogramma
0.0 0.2 0.4 0.6 0.8 1.0
Densità
Ecco la distribuzione dei dati osservati mediante un istogramma.
35.5
36.0
36.5
37.0
37.5
38.0
Temperatura corporea
• La temperatura X si pensa come una variabile aleatoria
generale avente un valore atteso µ varianza σ 2 finiti da stimare
tramite i dati.
7 / 31
Intervalli di stima
• È intuitivo stimare µ con la media aritmetica dei dati
x̄ =
n
1X
xi = 36.73.
n i=1
• Un metodo più sofisticato è basato sulla costruzione di
intervallo di confidenza che in questo caso ci fornirebbe un
intervallo
(36.63, 36.82)
con un livello di confidenza approssimato del 95%.
• Il punto centrale dell’intervallo è x̄ = 36.73 è la media
aritmetica campionaria.
• L’ampiezza dell’intervallo è una misura della incertezza
associata alla stima.
8 / 31
Popolazioni e campioni
• La teoria della probabilità dunque permette di descrivere
precisamente quelle che in statistica sono chiamate popolazioni.
• Poiché una popolazione completa si conosce raramente è
necessario raccogliere dati su un campione casuale (x1 , . . . , xn )
di n osservazioni dalla popolazione.
• Si dice inferenza statistica il processo con cui si apprende
dall’esperienza nel senso che si imparano le proprietà dell’intera
popolazione dai dati campionari.
• La teoria della probabilità invece procede nel senso opposto
perché permette di dedurre da una popolazione conosciuta
esattamente le proprietà di un campione casuale (x1 , . . . , xn ).
9 / 31
Che fa la Statistica insomma?
• Distinguere il segnale presente nei dati dal rumore che
necessariamente l’aleatorietà produce.
• Questa operazione non è intuitiva e la teoria statistica fornisce i
metodi ottimali per operare la distinzione, perché si occupa
• dei metodi generali per la raccolta dei dati;
• dei metodi per analizzare e riassumere i dati raccolti
• dei metodi per valutare l’accuratezza degli indici forniti.
10 / 31
Valutazione dell’errore e campioni casuali
• La teoria statistica spiega che l’unico modo per risalire alle
informazioni su caratteristiche della popolazione fornendo una
misura dell’errore è quello di estrarre un campione casuale.
• Il campione casuale permette di valutare in modo oggettivo
l’incertezza associata allo studio parziale della popolazione
• Se i dati fossero raccolti in modo accidentale non avremmo
modo di estendere le conclusioni all’intera popolazione in modo
scientifico.
11 / 31
Tipi di popolazione
• Molto spesso si ha a che fare con popolazioni infinite e teoriche.
• La popolazione è rappresentabile mediante una variabile
aleatoria X teorica definita dalla sua legge di probabilità F (x)
• Esiste anche il caso delle popolazioni finite e concrete. Queste
sono costituite da un insieme finito di unità statistiche
W = {W1 , . . . , WN } con una identificazione delle unità.
12 / 31
Popolazioni finite
• Esempio: l’insieme di tutte le scuole in California con almeno
0.0000 0.0010 0.0020 0.0030
100 studenti, in un dato anno.
0
1000
2000
3000
4000
Numero iscritti
13 / 31
Un campione casuale
• Un campione da una popolazione finita è un sottoinsieme di n
unità {w1 , . . . , wn } ⊂ W.
• In un campione casuale le unità sono selezionate casualmente.
Gli elementi del campione sono chiamati unità campionarie.
• Una volta estratto il campione casuale {w1 , . . . , wn } di unità si
sceglie una variabile da studiare e si denota con xi la
realizzazione del carattere o dei caratteri oggetto di studio
sull’unità wi .
14 / 31
Campione con reimmissione
• Si distinguono i campioni con e senza reimmissione.
• In un campione con reimmissione si selezionano
indipendentemente n interi j1 , j2 , . . . jn ognuno dei quali può
assumere i valori 1, 2, . . . , N con probabilità 1/N .
• Quindi si definiscono le unità campionarie ponendo
w1 = Wj1 , w2 = Wj2 , . . . , wn = Wjn
In questo tipo di campionamento è possibile che una unità
compaia più volte nel campione.
15 / 31
Campione senza reimmissione
• In un campione senza reimmissione
• Passo 1. si seleziona un intero j1 da 1, 2, . . . , N con probabilità
1/N
• Passo 2. si seleziona un intero j2 dai rimanenti N − 1 interi con
probabilità 1/(N − 1), etc.
• Passo n. si seleziona un intero jn dai rimanenti N − n + 1 interi
con probabilità 1/(N − n + 1);
• quindi si definiscono le unità campionarie usando gli indici
ottenuti.
• In questo tipo di campionamento non è possibile che una unità
compaia più volte nel campione.
16 / 31
Differenze
• Nel campionamento con reimmissione le osservazioni sono
indipendenti e identicamente distribuite, mentre nel
campionamento senza ripetizione le osservazioni non sono
indipendenti.
• Nel seguito ci occuperemo prevalentemente di campioni con le
stesse caratteristiche dei campioni casuali con reimmissione.
Queste caratteristiche definiscono i cosiddetti campioni iid
17 / 31
Definizione di campione iid
• Si dice che x1 , . . . , xn è un un campione casuale iid se i dati
sono realizzazioni di variabili aleatorie X1 , . . . , Xn
identicamente distribuite e indipendenti (iid) ovvero se
• tutte le Xi hanno la stessa funzione di ripartizione F (x) e
• la loro distribuzione congiunta si fattorizza:
Pr(X1 ≤ x1 · · · Xn ≤ xn ) =
n
Y
F (xi ) per ogni (x1 , . . . , xn ) ∈ Rn .
i=1
• Si può parlare di un campione iid (x1 , . . . , xn ) estratto da una
popolazione infinita descritta da una variabile aleatoria X con
funzione di ripartizione F (x). In tal caso useremo talvolta la
notazione
F → (x1 , . . . , xn ).
18 / 31
Simulazione di campioni
Possiamo farci un idea dell’aspetto di un campione casuale iid
facendo ricorso ai generatori di numeri aleatori.
19 / 31
Generatori di numeri aleatori
• I generatori sono algoritmi che producono un flusso di
realizzazioni di variabili U1 , U2 , U3 , . . . che si comportano come
variabili iid da una variabile uniforme U (0, 1).
• Questi algoritmi in realtà producono numeri pseudo-aleatori
perché applicano un generatore deterministico e quindi i
risultati sono esattamente predicibili conoscendo l’algoritmo.
20 / 31
Generatori lineari congruenziali
• I generatori lineari congruenziali sono definiti dalla formula
Xi+1 = (aXi +b) mod M,
Ui = Xi /M
i = 0, 1, 2, 3, . . .
dove M un intero, e a, b ∈ {0, 1, . . . , M − 1}.
• Il flusso di numeri pseudo-aleatori parte da un intero iniziale X0
detto seme. Il generatore è deterministico e la successione è
ciclica e di periodo ≤ M .
• I valori di a, b ed M sono scelti opportunamente in modo da
massimizzare il periodo e da ottenere le caratteristiche volute.
21 / 31
Osservazioni
• Per definire un buon generatore è essenziale non solo che gli Ui
siano uniformemente distribuiti, ma che risultino anche
mutuamente indipendenti.
• Il generatore Mersenne twister, usato come generatore
standard in R, ha un periodo 219937 − 1 (che è un numero
decimale con 6002 cifre) e garantisce le proprietà di
indipendenza per un numero elevato di dimensioni.
22 / 31
Esempio
Il generatore di numeri aleatori uniformi in R è runif. Ad esempio
per generare dei punti (ui , vi ) distribuiti indipendentemente ed
uniformemente nel quadrato unitario si danno le istruzioni
set.seed(1000)
u = runif(300); v = runif(300)
in cui set.seed è una funzione che stabilisce il seme.
23 / 31
0.0
0.2
0.4
v
0.6
0.8
1.0
Risultato
0.0
0.2
0.4
0.6
0.8
1.0
u
24 / 31
Estrazione di campioni casuali
• Volendo generare un campione casuale con reimmissione da un
insieme di interi {1, . . . , N } in R si può usare la funzione
sample.
• Ad esempio per estrarre con reimmissione un campione di 25
scuole dalla popolazione finita vista prima si usano le istruzioni
set.seed(123)
x = sample(6194, size = 25, replace = TRUE)
df = data.frame(matrix(x, 5, 5))
dimnames(df) = list(1:5, 1:5); df
1
2
3
4
5
1
1782
4883
2534
5470
5826
2
283
3272
5528
3416
2829
3
5927
2808
4197
3547
638
4
5574
1525
261
2032
5913
5
5510
4292
3968
6159
4062
25 / 31
Simulazioni di campioni da variabili aleatorie non uniformi
I principali sono
• Il metodo di inversione
• Il metodo di trasformazione di variabile.
26 / 31
Metodo di inversione
• Il metodo di inversione usa una proprietà della funzione
quantile cioè dell’inversa della funzione di ripartizione F .
• Esempio: simulare un campione dalla popolazione X ∼ F dove
F è una funzione di ripartizione della Esponenziale di varianza
σ2
F (x) = 1 − e−x/σ , x ≥ 0, σ > 0
che ha funzione quantile
Q(p) = F −1 (p) = −σ log(1 − p)
0 ≤ p < 1.
• Il metodo di inversione consiste
• nel generare probabilità uniformi pi ∼ U (0, 1)
• calcolare xi = Q(pi ).
27 / 31
Regola generale
Se pi ∼iid U (0, 1), allora xi = Q(pi ) ∼iid F.
Dimostrazione. Definiamo Z = Q(U ) dove U ∼ U (0, 1). Quindi
Pr(Z ≤ t) = Pr(Q(U ) ≤ t) = Pr(U ≤ F (t)) = F (t)
poiché U ha distribuzione uniforme. Quindi la funzione di
ripartizione di Z è F e dunque Z = X.
28 / 31
Funzioni quantili non in forma chiusa
• In certi casi l’inversa va ottenuta per via numerica.
• Esempio: per simulare una normale standard Z ∼ N (0, 1) che
ha funzione di ripartizione
Z z
Φ(z) =
−∞
1
2
√ e−u /2 du
2π
si deve ottenere l’inversa Φ−1 risolvendo numericamente
l’equazione Φ(z) = u.
• Nota. Il metodo di inversione richiede un aggiustamento nel
caso in cui la funzione di ripartizione F (x) non sia monotona
crescente e quindi non si possa invertire. In tal caso si utilizza
un’inversa generalizzata della funzione di ripartizione.
29 / 31
Metodo di trasformazione
• Supponiamo di saper simulare una variabile X ottenendo un
campione x1 , . . . , xn e di voler simulare una variabile aleatoria
Y che è una trasformata di X, cioè Y = g(X) con g(x) una
funzione reale.
• Allora possiamo simulare Y semplicemente trasformando i
valori simulati di X
(y1 , . . . , yn ) = (g(x1 ), . . . g(xn )).
• Infatti l’indipendenza viene preservata dopo una trasformazione
e l’identica distribuzione è garantita dalle classiche regole di
trasformazione tra variabili aleatorie.
• Si veda ad esempio Wikipedia.
30 / 31
Esempi di trasformazioni utili
• Se U ∼ U (0, 1) allora X = a + (b − a)U ∼ U (a, b).
• Metodo di Box-Müller: se U1 e U2 sono due variabili uniformi
su [0, 1] e indipendenti, allora
Z1 =
p
Z2 =
p
−2 log U1 cos(2πU2 )
−2 log U1 sin(2πU2 )
sono due variabili normali standard indipendenti.
• Se Z ∼ N (0, 1), µ + σZ ∼ N (µ, σ).
• Se Z1 , . . . , Zn , Zn+1 è una successione di variabili aleatorie
P
normali standard indipendenti, V = ni=1 Zi2 ha una
distribuzione gamma Ga(n/2, 2), detta chi quadrato con n
gradi di libertà.
p
• Inoltre T = Zn+1 / V /n ∼ tn ha una distribuzione detta t di
Student con n gradi di libertà.
31 / 31