ELEMENTI DI TEORIA
DEI CAMPIONI
1
popolazione
• In statistica, con il termine popolazione,
popolazione
si intende un insieme comprendente la
totalità di determinati eventi dotati di proprietà specifiche comuni;
• Una popolazione può distribuirsi in modo
normale o non normale; nel primo caso,
potendo fare riferimento alle leggi che
regolano la distribuzione normale, lo
studio delle proprietà campionarie è più
semplice;
• Una popolazione può essere finita,
quando gli elementi che la compongono
sono in numero finito, infinita quando è
costituita da infiniti elementi; in quest’ultimo caso la teoria dei campioni è più
semplice.
2
campione
• Il campione è quella parte limitata di
popolazione che viene presa in esame;
• La numerosità o ampiezza del campione è
determinata dal numero di elementi che lo
compongono;
• Le modalità di estrazione del campione
possono seguire uno schema probabilistico,
probabilistico
quando ogni elemento della popolazione ha
una probabilità nota di essere estratto, uno
schema non probabilistico altrimenti;
• Il campionamento casuale è uno dei
principali metodi per ottenere campioni
probabilistici; tale tipo di campionamento
segue generalmente due regole: con
ripetizione e senza ripetizione;
ripetizione
3
campione
• Altri tipi di campionamento possono
essere:
a grappoli;
grappoli
stratificato;
stratificato
a due o più stadi ;
• Un campione è rappresentativo quando è
un’immagine ridotta e fedele della
popolazione da cui proviene.
4
parametri e statistiche
• Un parametro è una caratteristica della
popolazione espressa con un numero; ad
esempio una media o una deviazione
standard;
• Una statistica è una valore che, per mezzo
di una funzione, viene associato ad una
caratteristica di un qualsiasi campione di
ampiezza n, appartenente ad una data
popolazione;
• Solitamente i parametri si indicano con le
lettere dell’alfabeto greco, le statistiche con
le lettere dell’alfabeto latino.
5
distribuzione campionaria
• Sia data una v.c. X, e si supponga di
estrarre, in modo casuale, un campione di
dimensione n che dia luogo alle osservazioni X1, X2, …, Xn;
• si dice distribuzione campionaria di X1,
X2, …, Xn la distribuzione congiunta di X1,
X2, …, Xn;
• se la variabile X ha una funzione di densità
data da f(X) allora la distribuzione congiunta
sarà data da
f ( X 1 , X 2 ,..., X n ) =
= f ( X 1 ) f ( X 2 )... f ( X n )
6
somma campionaria
• Sia data una v.c. X, e si supponga di
estrarre, in modo casuale, un campione di
dimensione n che dia luogo alle osservazioni X1, X2, …, Xn;
• definiamo somma campionaria la somma
S n = X 1 + X 2 + ... + X n
• la media della somma campionaria è
E ( S n ) = E ( X 1 ) + ... + E ( X n )
7
somma campionaria
• dal momento che stiamo considerando un
campione casuale in cui le n v.c. X1, X2, …,
Xn sono tra loro indipendenti e distribuite
con media μ e varianza σ2, segue che
E ( S n ) = μ + μ + ... + μ = nμ
• analogamente, la varianza della somma
campionaria sarà
Var ( S n ) = σ + ... + σ = nσ
2
2
2
• da cui si ricava
DS ( S n ) = nσ = σ n
2
8
esempio 1(1)
Consideriamo una variabile casuale con media
μ = 5 e varianza σ2 = 4;
4
supponiamo di estrarre a caso, 5 campioni di
10 osservazioni ciascuno da tale variabile;
per ciascuno dei cinque campioni, calcoliamo
la media e la deviazione standard e le riportiamo in una tabella
C1
C2
C3
C4
C5
N
10
10
10
10
10
Media
4,56
3,73
5,77
6,13
4,59
Var
2,88
5,41
3,58
3,77
2,18
9
esempio 1(2)
Supponendo di poter estrarre infiniti campioni
e di calcolare, per ciascuno di essi media e
varianza, otterremo le distribuzioni
campionarie della media e della varianza
di tali distribuzioni potremo calcolare il valore
atteso e la varianza
C1
C2
C3
C4
C5
N
10
10
10
10
10
Media
4,56
3,73
5,77
6,13
4,59
Var
2,88
5,41
3,58
3,77
2,18
10
PREMESSA GENERALE
Quando si studiano le
distribuzioni campionarie bisogna
sempre distinguere se il campionamento deriva da popolazioni finite
o da popolazioni infinite e se il
metodo di campionamento è con
ripetizione o senza ripetizione
11
distribuzione campionaria
della media
Consideriamo due casi
a) popolazioni infinite
in questo caso l’estrazione con reinserimento
e quella con reinserimento coincidono, non vi
è alcuna differenza;
b) popolazioni finite
in questo caso dobbiamo distinguere tra
estrazione con reinserimento ed estrazione
senza reinserimento.
12
popolazioni infinite
Dato un campione di n osservazioni
campionarie X1, X2, …, Xn, tratte da una
popolazione con media μ e varianza σ2,
possiamo considerare ciascuna di esse
come una v.c. avente la stessa distribuzione con identiche media e varianza;
allora, la media campionaria X non è altro
che una combinazione lineare di n v.c.
identicamente distribuite.
N.B. attenzione alla simbologia
X = E( X )
μ
media campionaria
media della popolazione
13
media delle medie campionarie
Si dimostra che la media della distribuzione campionaria di X è data da
E( X ) = μx = μ
Se i campioni sono estratti in modo casuale,
la media di tutte le medie campionarie è
uguale a quella della popolazione.
Si osservi dall’esempio 1 che la media delle
medie dei cinque campioni è 4,96, cioè
quasi uguale a 5, media della popolazione.
14
varianza delle medie campionarie
Si dimostra che la varianza della distribuzione campionaria di X è data da
2
2
Var ( X ) = x =
σ
σ
n
Se i campioni sono estratti in modo casuale,
la varianza di tutte le medie campionarie è
inferiore a quella della popolazione.
Si osservi dall’esempio 1 che la varianza
delle medie dei cinque campioni è 0,76, minore di quella della popolazione.
La deviazione standard della
DS ( X ) = σ x =
X
σ
sarà
n
15
popolazioni finite
In questo tipo di popolazioni il caso più
importante è quello del campionamento
senza ripetizione in cui si ha:
E( X ) = μx = μ
Var ( X ) = σ =
2
x
σ ⎛ N −n⎞
2
⎜
⎟
n ⎝ N −1 ⎠
σ
⎛ N −n⎞
DS ( X ) = σ x =
⎜
⎟
n ⎝ N −1 ⎠
In cui N è la numerosità della popolazione ed
n la numerosità del campione.
16
distribuzione campionaria
della varianza
Lo studio della distribuzione campionaria
delle varianze è molto più complicato;
Si dimostra che la varianza campionaria (s2)
non è una buona stima della varianza della
popolazione (σ2);
se indichiamo con
(
Xi − X )
∑
=
2
s
2
n
la varianza campionaria, si può vedere che la
media delle varianze campionarie non è
uguale alla varianza della popolazione
σ
n −1 2
2
σ =σ −
E (s ) =
n
n
2
2
17
Per la stima della varianza della popolazione
è meglio utilizzare una varianza corretta
(
Xi − X )
∑
σˆ =
2
2
n −1
utilizzando la varianza corretta si ottiene una
distribuzione campionaria di varianze, il cui
valore atteso coincide con la varianza della
popolazione
E (σˆ ) = σ
2
2
18
distribuzioni campionarie
in popolazioni normali
Tutte le leggi fin qui esposte valgono per
qualunque tipo di popolazione, quando la popolazione da cui si estrae il campione è
distribuita normalmente è possibile
aggiungere altre proprietà a seconda se ci
troviamo nel caso di
a) popolazioni con σ noto
b) popolazioni con σ ignoto
19
popolazioni con σ noto
Si dimostra che la distribuzione campionaria
delle medie è anch’essa normale con
μx = μ
σx =
σ
n
• le medie dei singoli campioni sono
distribuite normalmente;
• la media delle medie campionarie è uguale
a quella della popolazione;
• la deviazione standard delle medie
campionarie è inferiore alla deviazione
standard della popolazione
20
esempio 2(1)
Consideriamo una popolazione con media μ =
10 e deviazione standard σ = 4;
4
21
esempio 2(2)
La distribuzione campionaria delle medie per
campioni di dimensione n = 2 sarà ;
22
Se le medie campionarie sono distribuite
normalmente con media μ e deviazione
σ
standard
allora
n
z=
X −μ
σx
X −μ
=
σ n
è distribuita come una variabile normale
standardizzata;
attraverso questa relazione è possibile
determinare la probabilità che un campione,
di numerosità n, con media X , provenga da
una popolazione con media μ se è nota la
deviazione standard (σ) della popolazione.
23
popolazioni con σ ignoto
Quando la varianza della popolazione è
ignota la dobbiamo stimare a partire dalla
varianza campionaria utilizzano la relazione
n 2
σˆ =
s
n −1
2
da questa relazione possiamo poi ricavare la
varianza della distribuzione campionaria
delle medie
2
s
σ =
n −1
ˆ x2
24