Distribuzioni campionarie

Popolazione e Campione
POPOLAZIONE:
Insieme di tutte le informazioni sul fenomeno
oggetto di studio
Viene descritta mediante una variabile casuale
X:
X ~ f x; 
 = costante incognita


• Qual è il valore di ?
• E’ verosimile un’ipotesi sul valore di ?
CAMPIONE:
Sottoinsieme della popolazione
Come devono essere scelte le unità
appartenenti al campione?
CAMPIONE CASUALE
Ciascuna unità ha probabilità > 0 di
essere estratta
Il principio di base dell’inferenza
Principio del campionamento ripetuto
Le conclusioni inferenziali, basate
sull’unico campione osservato,
devono essere giudicate sulla base della distribuzione di
probabilità dei possibili campioni che potevano essere
generati e dei quali quello osservato costituisce una
realizzazione particolare
I 3 elementi dell’inferenza
Popolazione
Campione casuale
Campione osservato
X ~ f  x;  
 X1, X2 ,
 x1, x2 ,
, Xn 
, xn 
Spazio campionario: insieme di tutti i possibili campioni
Prima dell’estrazione, il campione è costituito da una n-pla di variabili
casuali
Se il campione è formato da n elementi, ogni suo elemento può essere
considerato come la realizzazione della variabile casuale Xi, indicando con Xi
la i-esima estrazione della v.c. X.
Variabili casuali “osservazioni campionarie”
Xi ~ f  x;   i = 1,2,
,n
Ciascuna variabile Xi ha la stessa distribuzione della variabile casuale che
descrive la popolazione
In pratica, data la popolazione:
X~f(x, , 2) X=100
Se:
X=12
Min(Xi)=50
Max(Xi)=180
C = numero dei possibili campioni estraibili da X
n = 8 = ampiezza di ogni campione
Si avranno 8 v.c. Xi “osservazione campionaria”:
X1
1a oss.
X2
2a oss.
X3
3a oss.
X4
4a oss.
X5
5a oss.
X6
6a oss.
X7
7a oss.
X8
8a oss.
1° campione
x11
x12
x13
x14
x15
x16
x17
x18
2° campione
x21
x22
x23
x24
x25
x26
x27
x28
3° campione
:
x31
x32
x33
x34
x35
x36
x37
x38
C° campione
xC1
xC2
xC3
xC4
xC5
xC6
xC7
xC8
In questo senso:
Prima dell’estrazione il campione è una n-pla di variabili casuali (in questo caso n = 8): X1, …, X8
Ciascun campione x1, …, x8 ne costituisce una determinazione
Le determinazioni di ogni Xi sono in totale C (pari al numero di possibili campioni)
Ciascuna v.c. osservazione campionaria, Xi, ha la stessa distribuzione e gli
stessi parametri della variabile X nella popolazione.
Se:
X~f(x, )
X=100
X=12
Min(Xi)=50
Max(Xi)=180
i si ha:
Xi~f(x, )
Xi=100
Xi=12
Min(Xi)=50
Max(Xi)=180
X~f(x, )
X1
1a oss.
1° campione
2° campione
3° campione
:
C° campione
X2
2a oss.
X3
3a oss.
X4
4a oss.
X5
5a oss.
X6
6a oss.
X7
7a oss.
X8
8a oss.
Statistiche e parametri
Poiché ciascuna osservazione campionaria Xi è una variabile casuale, ogni
funzione f(X1, …, Xn) delle osservazioni campionarie sarà essa stessa una
variabile casuale ed è detta statistica
Esempi: f X1,

, Xn  =
x
f  X1,
, Xn  =
x
f  X1,
, Xn  =
1
1
xi =  x1  x2 

n i
n
i
i
i
= x1  x2 
= x1  x2 
 xn
 xn
i
 xn 
Quindi, i valori ottenuti attraverso una qualsiasi trasformazione dei valori
osservati vengono chiamate statistiche, mentre i rispettivi valori della
popolazione, che sono delle costanti, vengono definiti parametri.
Esempi:
Media campionaria
X =
1
 x1  x2 
n
Statistica
 xn 
Media della popolazione

Parametro
Statistiche e statistiche calcolate
Si definisce statistica
Tn = T(X1, X2, …, Xn)
una qualsiasi funzione a valori reali del campione casuale (X1, X2, …, Xn) che
non dipende da quantità incognite.
Il valore della statistica Tn calcolata sul campione osservato (x1, x2, …, xn)
costituisce la statistica calcolata
tn = T(x1, x2, …, xn).
Tn
statistica
Variabile casuale
tn
statistica calcolata
Realizzazione della variabile casuale Tn
La distribuzione campionaria
Ogni statistica è, dunque, una sintesi delle variabili casuali campionarie
media campionaria
1 n
X =  Xi
n i=1
varianza campionaria
1 n
S =  Xi  Xn
n i=1
varianza
campionaria corretta
1 n
S =
 Xi  Xn
n  1 i=1
2
n
2
n



2

2
Dato un campione casuale (X1, X2, …, Xn), definita la statistica
Tn= T(X1, X2, …, Xn), funzione delle osservazioni campionarie, la distribuzione di
probabilità della statistica T(X1, X2, …, Xn) al variare del campione viene definita
distribuzione campionaria di Tn.
La media campionaria
La variabile casuale media campionaria, X , è una combinazione lineare delle
variabili casuali “osservazioni campionarie” Xi , i=1,..,n.
1 n
X =  Xi
n i=1
Le n variabili casuali X1, X2, …, Xn sono indipendenti e identicamente distribuite
alla variabile X nella popolazione, con media  e varianza 2.
E’ importante definire la distribuzione di X , ma prima ancora determinarne il
valore atteso e la varianza.
 
Var  X  =
E X =
Identificano il valore centrale e la
variabilità di una variabile casuale
In generale, data una v.c. X conoscere E(X) e
Var(X) significa conoscere due parametri cruciali
della distribuzione di X, ossia due caratteristiche
fondamentali della v.c.
Distribuzione di probabilità di una v.c. X
Descrive come varia la probabilità al variare dei possibili valori della X (di
tutte le unità statistiche della popolazione)
Distribuzione campionaria di una statistica Tn (funzione delle xi)
Descrive come varia la probabilità al variare dei possibili risultati di T
calcolata (in teoria) su tutti i possibili campioni provenienti dalla
popolazione
Esempio:
distribuzione campionaria della media campionaria
Descrive come varia la probabilità al variare dei possibili valori della
media calcolata (ipoteticamente) in tutti i possibili campioni estraibili
dalla popolazione
Somma di n variabili casuali
Sn =
X
E Sn  =
, Xn
E Xi  = ,
i
Var  Xi  = 2 ,
n
i =1
X1, X2 ,
i
= X1  X2 
i
Xi indipendenti
 Xn
n
 E X  = n
i
i =1
Var  Sn  =
n
 Var  X  = n
i =1
2
i
Media di n variabili casuali
1 n
1
1
Xn =  Xi = X1  X2 
n i =1
n
n
E  Xn  = 
 
Var Xn
2
=
n
E X  =
 

1
Xn
n
1
1
1
1
E X1   E X2       E Xn  = n = 
n
n
n
n
1
1
1
Var
X

Var
X





Var  Xn  =




1
2
n2
n2
n2
1
2
2
= 2 n =
n
n
Var X =
Un esempio
Estrazione con reintroduzione
Popolazione:
7
N=3
5
10
 = 7,33
2 = 4,22
Campione:
n=2
1 n
X =  Xi
n i=1
campione
1°
2°
3°
4°
5°
6°
7°
8°
9°
Media
Varianza
Media di n variabili casuali
E X  =
 
1
1
1
1
E X1   E X2       E Xn  = n = 
n
n
n
n
1
1
1
Var
X

Var
X





Var  Xn  =




1
2
n2
n2
n2
1
2
2
= 2 n =
n
n
Var X =
X1
5
5
5
7
7
7
10
10
10
X2
5
7
10
5
7
10
5
7
10
5,0
6,0
7,5
6,0
7,0
8,5
7,5
8,5
10,0
7,33
4,22
7,33
4,22
7,33
2,11
X
campione
Un esempio
1°
Estrazione senza reintroduzione
2°
Popolazione:
7
N=3
Campione:
5
3°
10
4°
 = 7,33
5°
2 = 4,22
6°
Media
Varianza
n=2
1 n
X =  Xi
n i=1
Media di n variabili casuali
 
 N  n
Var  X  =


n N 1
E X =
2
Ma quando N è grande:
Nn
1
N 1
2
Var X 
n
 
X1
5
5
7
7
10
10
7,33
4,22
X2
7
10
5
10
5
7
6,0
7,5
6,0
8,5
7,5
8,5
7,33
4,22
7,33
1,06
X
Qualche osservazione…
Campionamento con reintroduzione
(CCR)
 
E X =
;
2

Var X =
n
 
Campionamento senza reintroduzione
(CSR)
 
E X =
;
2
Var X =
n
 
N  n


N  1
n=1: i risultati ottenuti con lo schema di CCR coincidono con quelli ottenuti nel
CSR;
n=N: la varianza della media campionaria nello schema di CSR è nulla. In
questo caso, infatti, il campione coincide con la popolazione e non si ha più
alcuna incertezza legata al campionamento;
n<N: il fattore di correzione utilizzato nello schema di CSR è <1. Questo vuol
dire che la varianza della media campionaria nel CSR è minore di quella che si
ottiene nel CCR;
n molto piccola rispetto alla numerosità della popolazione N: il fattore di
correzione per lo schema di CSR è prossimo a 1. La differenza tra i due schemi
può quindi essere considerata trascurabile.
La distribuzione della media campionaria
!!! Se è noto che:
X ~ N(, 2) !!!
Allora si sa anche:
Xi ~ N(,
2)
Campionamento con reintroduzione
 
E X =
2
Var X =
n
 
X
~ N 0, 1

n
1 n
Xi = X ~ N ?, ?

n i=1
i
Campionamento senza reintroduzione
 
E X =
2
Var X =
n
X

Nn

N1
n
Ma se non si conosce la distribuzione di X???
 
N  n


N 1
~ N 0,1
Teorema limite centrale
Lindeberg-Levy
Data una successione Xn di variabili casuali X1, X2, …, Xn, indipendenti e identicamente
distribuite con media  e varianza 2 costanti, definita la variabile casuale Xn =
e la sua standardizzazione Zn =
ad una Normale standardizzata)
 
Var  X 
Xn  E Xn
X1  X2 
n
 Xn
, al crescere di n si ha che Zn  N(0, 1) (Zn tende
n
Lindeberg-Cramer
Il teorema limite centrale resta valido anche quando la successione Xn è formata da variabili
casuali che non sono identicamente distribuite, purché ciascuna v.c. Xi sia indipendente dalle
altre e abbia momenti primi e secondi finiti ( e 2 non necessariamente costanti).
Inoltre:
Sotto condizioni molto generali, la somma di n v.c. indipendenti è asintoticamente
Normale, e questo è vero qualunque sia il tipo di distribuzione di ciascuna delle Xi.
Zn =
In altre parole…
Sn  E Sn 
Var Sn 
 N 0, 1
Tutte le volte che un fenomeno reale può essere interpretato come la somma, oppure la
media, di un gran numero di cause indipendenti, indipendentemente dai modelli probabilistici
che generano le singole variabili casuali è ragionevole attendersi che la distribuzione di
probabilità di quel fenomeno possa essere approssimabile mediante la v.c. Normale.
Esempio
Un produttore di cosmetici ha 1500 venditori porta a porta che, mediamente,
nell’ultimo mese hanno realizzato vendite per un valore pari a  = 3100 $ e con s.q.m.
 = 450 $. Si estrae un campione di 64 venditori.
Qual è la probabilità che questo gruppo abbia realizzato, in media nell’ultimo mese, vendite
per un valore inferiore a 3000 $?
Soluzione
X = vendite individuali, distribuzione non nota
 = 3100 $
N = 1500

 = 450 $
n = 64
Teorema limite centrale
Zn =
n

P X64  3000 = ?

P X64
   N 0, 1
Var  X 
Xn  E Xn




X


3000

3100
64

 3000 = P 

2
2



450


n
64







3000  3100 

=P Z
= P  Z  1,78  =


202500


64


Esempio
Un produttore di cosmetici ha 1500 venditori porta a porta che, mediamente,
nell’ultimo mese hanno realizzato vendite per un valore pari a  = 3100 $ e con s.q.m.
 = 450 $. Si estrae un campione di 64 venditori, senza reimmissione.
Qual è la probabilità che questo gruppo abbia realizzato, in media nell’ultimo mese, vendite
per un valore inferiore a 3000 $?
Soluzione
X = vendite individuali, distribuzione non nota
 = 3100 $
N = 1500

 = 450 $
n = 64
Teorema limite centrale
Zn =
   N 0, 1
Var  X 
Xn  E Xn
n

P X64  3000 = ?

P X64


X64  
 3000 = P 

 2 N  n


 n N 1



= P Z 





3000  3100

2
450 1500  64 


64
1500  1 


3000  3100 
= P Z  1, 81 = 0, 0351
202500 1436 


64
1499 
Esempio
Le funi di sostegno di un ponte sono formate da cavi di acciaio. La resistenza alla trazione di
ogni cavo è una variabile casuale con media  = 0,1 tonnellate e s.q.m.  = 0,06 tonnellate.
Assumendo che una fune abbia una resistenza alla trazione uguale alla somma delle
resistenze dei cavi che la compongono, si calcoli:
a) La probabilità che una fune costituita da 100 cavi sopporti una trazione di 9 tonnellate;
b) Il numero di cavi necessario affinché una fune sopporti un carico di 10 tonnellate con
probabilità 0,99.
Soluzione
Xi = resistenza del cavo i
Xi:  = 0,1
Teorema limite centrale
 = 0,06
Xi iid; distribuzione non nota
Xn = resistenza della fune composta da n cavi
a)
X100 =
100
X
1 =1
i
X100 = n = 100  0,1 = 10
2
X100

2
= n = 100  0, 0036 = 0,36
P  X100  9 = ?
9  10 

P  X100  9 = P  Z100 
 = P Z100  1,67 = 0,9525
0,6


Zn =
Sn  E Sn 
Var Sn 
X100
 N 0, 1
N 10;0.36 
b)
Cerchiamo quel valore di n tale che:
P  Xn  10 = 0,99

10  n 
P  Z 
 = 0, 99
2 
n 

10  n
n2
=
10  n
 n
=
10  n  0,1
0,06  n
=
10 n  0,1
0,06
n

10 n  0,1 
P  Z 
 = 0, 99
0, 06 n 

10 n  0,1
 n = 2,33
0,06
10 n  0,1
 n  2,33 = 0
0,06

10  0,1  n
n
 0,1398 = 0
- 2,33
 10

 
 0,1  n  2,33  0,06 = 0
 n

 10  0,1  n  0,1398  n = 0

y=
0,1398 
 0,1 y2  0,1398 y  10 = 0
0,1398  4  0,1  10
2  0,1
 10  0,1  n 
 
  n  0,1398 = 0
n


y= n
b  b2  4ac
y=
2a
- 9,325
2
=
+ 10,723  n = 10,723 = 115
2
Distribuzioni campionarie di uso frequente
Distribuzione 2 (chi quadro)
(Somma di n v.c. Normali standardizzate al quadrato)
Date n v.c. X1, X2, …, Xn indipendenti e ognuna distribuita secondo una Normale
di parametri i e , allora 
lai2 variabile casuale definita come:
2
 X  i 
2n =   i


i =1 
i

n
0.5
f(x;g) =
0.4
0.3
segue una distribuzione 2 con g = n gradi di libertà.
1
 x
exp    x
 g
 2
2  
2
g
2
g=2
g
1
2
La variabile 2 è continua, non può essere
negativa e varia tra zero e infinito. La sua forma e
il suo centro dipendono dal numero di gradi di
libertà.
Y~
2n
E Y  = g ;
Var Y  = 2g ;
0.2
g=4
Relazione tra 2 e Normale:
0.1
se una v.c. Z segue una distribuzione Normale
g=8
standardizzata, la trasformata Y=Z2 si distribuirà
0.0
5
10
15
20
secondo una v.c. 2 con 1 grado di libertà.
Distribuzione t di Student
(Rapporto tra una v.c. Normale standardizzata e la radice
quadrata di una v.c. c2 divisa per i suoi gradi di libertà)
Data una v.c. Z, distribuita secondo la legge Normale standardizzata, e la v.c. Y,
distribuita secondo un 2 con n gradi di libertà, con Z e Y tra loro indipendenti,
la variabile casuale t definita dal rapporto
denominata t di Student con n gradi di libertà:
 g  1

2 


f(x;g) =
0.5
 g
g  
2

x 
1 

g 

2

Yn
Z
Y n
g 1
2
~ t(n)
La distribuzione t di Student ha una forma
simmetrica che dipende dal valore di n,
g=
0.4
Z
segue
t = una distribuzione
parametro che indica i gradi di libertà e che
deriva dalla variabile 2, al denominatore della
formula.
0.3
Y~t
E  Y  = 0 ; Var  Y  =
0.2
g=10
n
;
n2
Relazione con la Normale:
Quando n, la v.c. t converge alla Normale.
0.1
g=3
g=1
0.0
-6
-4
-2
0
2
4
Quindi, quando n è elevato, la f(t) può essere
approssimata dalla N(0,1).
Distribuzione F di Fisher
(Rapporto di due v.c. 2 indipendenti, ciascuna divisa per
il proprio numero di gradi di libertà.)
Date due v.c. X e Y tra loro indipendenti, ognuna delle quali distribuita secondo
un 2 rispettivamente con g1 e g2 gradi di libertà, il rapporto X g1 segue la
distribuzione F con g1 e g2 gradi di libertà.
f(x;g1, g2 ) =
g1 / 2
g1 / 2 1
(g1 / g2 )
x
(g1  g2 ) / 2
B(g1 / 2, g2 / 2) 
g1 
x
1 
g
2


X g1
~ Fg1 ,g2
Y g2
La distribuzione F di Fisher è
1.0
0.8
Y g2
continua e, essendo ottenuta come
rapporto tra due v.c. 2, è definita
g1=20, g2=10
nell’intervallo (0, +).
Y~ F
0.6
n
n2
2  n2   m  n  2 
Var Y  =
2
m   n  2   n  4
E Y  =
g1=5, g2=5
0.4
0.2
g1=5, g2=1
0.0
1
2
3
4
5