Campionamento La statistica media campionaria e la sua

Campionamento
La statistica media campionaria
e la sua distribuzione
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
1
• Definisco il problema da studiare: es. tempo di
percorrenza tra abitazione e università
• Carattere: tempo ossia v.s. continua
• Popolazione: N studenti che frequentano l’università
– È una popolazione finita
• Unità statistica: ogni singolo studente
• Campione: una parte degli studenti che frequentano
l’università (n di N)
1° passo: quantificare il problema ossia rilevare i dati
Due strade
Rilevazione totale
Rilevazione campionaria
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
2
Perché un campione?
• Problemi di tempo, costi, difficoltà ad individuare l’intera
popolazione
• Come faccio a trarre conclusioni dai dati campionari su
tutta la popolazione studentesca?
Utilizzo le tecniche della statistica inferenziale
• Le tecniche della statistica inferenziale ci permettono di
estendere le informazioni dedotte dal campione a tutta la
popolazione
inferenza
campione
popolazione
probabilità
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
3
Ma da che tipo di popolazione campiono?
Popolazione finita e suoi parametri
Una Popolazione finita è un insieme di unità su cui
si può osservare un certo carattere. (es: gli
investimenti annui di tutte le aziende di un paese; il
numero di figli di ogni famiglia italiana)
I parametri della popolazione sono delle costanti che
descrivono aspetti caratteristici della distribuzione
del carattere nella popolazione stessa.
media della popolazione
Varianza della popolazione
1 N
  i 1 xi
N
1
N
  i 1 ( xi   ) 2
N
Paola Giacomello Dip. Scienze
2
Sociali ed Economiche Uniroma1
4
N=dimensione della popolazione
n = dimensione campionaria
n/N = frazione di campionamento
popolazione
campione
x1; x2;....xn
X1; X2; X3;.......XN
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
5
Abitualmente la regola di selezione del campione è
di tipo probabilistico, cosa significa?
l’estrazione del campione avviene in accordo con
qualche specifica distribuzione di probabilità.
In questo caso è necessario individuare:
lo spazio campionario S, formato da tutti i
possibili campioni estraibili con una medesima
tecnica da una popolazione.
la probabilità di ogni campione c in S di essere
estratto
La coppia {S, probabilità dei campioni in S} è detta
piano di campionamento.
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
6
Campionamento casuale semplice
I campioni possono essere estratti casualmente dalla
popolazione:
• con ripetizione o bernoulliani: una volta estratta
un’unità viene rimessa dentro la popolazione e quindi
potrebbe essere nuovamente estratta;
• senza ripetizione o esaustivi: una volta estratta
un’unità questa viene messa da parte e quindi non può
essere estratta più di una volta.
Al di là del tipo di estrazione si individuano anche i
campioni non ordinati da quelli ordinati
diversi tra loro se almeno
un’unità del primo campione
non è contenuta nel
secondo campione.
conta invece anche l’ordine con
cui si presentano le diverse
unità.
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
7
Esempio disegno campionario
Popolazione composta da 4 grandi aziende
(N=4);Carattere=“Fatturato annuo”;
x1  52 , x2  49 , x3  65, x4  74
Spazio campionario S, costituito dai
campioni ordinati di dimensione 2, estratti con
ripetizione (questo mi permette di definire la
probabilità di ogni campione).
C1= 52 52
C5= 49 52
C9= 65 52
C13= 74 52
C2 = 52 49
C6= 49 49
C10= 65 49
C14= 74 49
C3 = 52 65
C7 = 49 65
C11 = 65 65
C15 = 74 65
C4 = 52 74
C8 = 49 74
C12 = 65 74
C16 = 74 74
Ogni campione ha uguale probabilità di essere estratto, pari a 1/16
(insieme a S mi permettePaola
di definire
il piano
Giacomello Dip.
Scienze di campionamento
8
Sociali ed Economiche Uniroma1
Popolazione Xi 52
fi 1/4
49
1/4
I Campione
Ix
Ix
II Campione
....
....
IIx
1=52
1=52
15° Campione. 15°x1=74
16° Campione 16°x1=74
65
1/4
74
1/4
2=52
IIx
15°x
2=49
2=65
16°x
2=74
X1=
52
49
65
74
P(X1)= 4/16 4/16 4/16 4/16
v.c.campionaria X1
Il primo elemento di ogni campione descrive una
v.c. campionaria con la stessa distribuzione di
probabilità del carattere X popolazione e così tutti
gli altri elementi del campione sino ad Xn
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
9
Popolazione
X1, X2...........Xi.......XN
I Campione
Ix
II Campione
IIx
.
.
.
.
.ω
Campione
1,
2........
Ix
1,
2.....
IIx
Ix ......Ix
i
n
IIx .....IIx
i
n
ωx , ωx ..... ωx ..... ωx
1
2
i
n
X1 X2.......Xi ....... XN
Il primo elemento di ogni campione descrive una v.c. campionaria con la
stessa distribuzione di probabilità del carattere X popolazione
Se il campionamento è bernoulliano le v.c. campionarie
sono iid, nel campionamento in blocco sono solo id
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
10
S
C1= 52 52
C5= 49 52
C9= 65 52
C13= 74 52
C2 = 52 49
C6= 49 49
C10= 65 49
C14= 74 49
C3 = 52 65
C7 = 49 65
C11 = 65 65
C15 = 74 65
C4 = 52 74
C8 = 49 74
C12 = 65 74
C16 = 74 74
Questi sono tutti i possibili campioni che compongono S
Nella realtà io considero uno di questi campioni e lo
utilizzo, ad esempio, per stimare μ la media della
popolazione
Supponiamo di estrarre il campione C15 questo fornisce un valore di
media pari a 69,5. Se avessi estratto un altro campione avrei
ottenuto un altro valore di stima di μ. Ho tante stime puntuali di μ
quanti sono i possibili campioni.
Queste stime formano la v.c.
X
media campionaria dettaPaola
statistica
media campionaria
Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
11
Media
Campioni
C1= 52 52
C1
52,0
C2 = 52 49
C2
50,5
C3 = 52 65
C3
58,5
C4 = 52 74
C4
63,0
C5= 49 52
C5
50,5
C6= 49 49
C6
C7 = 49 65
Distribuzione dello stimatore
media campionaria
X
P(X)
X P(X)
X2 P(X)
49,0
0,0625
3,0625
150,063
50,5
0,1250
6,3125
318,781
49,0
52,0
0,0625
3,25
169,000
C7
57,0
57,0
0,1250
7,125
406,125
C8 = 49 74
C8
61,5
58,5
0,1250
7,3125
427,781
C9= 65 52
C9
58,5
61,5
0,1250
7,6875
472,781
C10= 65 49
C10
57,0
63,0
0,1250
7,875
496,125
C11 = 65 65
C11
65,0
65,0
0,0625
4,0625
264,063
C12 = 65 74
C12
69,5
69,5
0,1250
8,6875
603,781
C13= 74 52
C13
63,0
74,0
0,0625
4,625
342,250
C14= 74 49
C14
61,5
1,00
60,00
3650,75
C15 = 74 65
C15
69,5
C16 = 74 74
C16
74,0
Paola GiacomelloVar(X)
Dip. Scienze
= 3650,75-
E(X) =60
Sociali ed Economiche Uniroma1
602 = 50,75
12
Spazio campionario
e spazio delle medie
S Spazio
Popolazione
Media  µ
Varianza  2
campionario
R Spazio delle
Campione 1
Osservazione 1
Osservazione 2

x1
medie
campionarie
Osservazione n
Campione 2
Osservazione 1
Osservazione 2

x2
Osservazione n
Campione 3
Osservazione 1
Osservazione 2

Osservazione n
x3
la v.c. media campionaria è


generata dall’associazione a
ciascun campione dello
Insieme di tutti i
spazio campionario di un
possibili campioni
numero reale, dato dalla
casuali di ampiezza n
media aritmetica dei valori
contenuti nel campione
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
stesso
X
Distribuzione
campionaria della media
Media
Varianza
X  
 X2   2/n
13
Distribuzione della popolazione
X
fi
X fi
X2 fi
49,0
52,0
65,0
74,0
0,25
0,25
0,25
0,25
1,00
12,25
13,00
16,25
18,50
60,00
600,25
676,00
1056,25
1369,00
3701,50
μ = 60,00
σ2 = 3701,50-602= 101,50
La media della media campionaria coincide
con la media della popolazione
La varianza della media campionaria coincide
con la varianza della popolazione
/n
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
E (X )  
Var ( X ) 
2
n
14
La statistica media campionaria e la sua
distribuzione campionaria
Una statistica campionaria è una funzione a valori reali
delle osservazioni campionarie: T  t ( X 1 , X 2 ,, X n )
n
1
media campionaria: X   X i
n i 1
La statistica campionaria è una variabile casuale a cui
è associata una distribuzione di probabilità detta
distribuzione campionaria.
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
15
Proprietà della v.c. media campionaria
E( X )  
il valore atteso
la varianza
Se

Var ( X )  2 n
X ~ N ; 2

allora
 2 

X ~ N  ;

 n 
Qualunque sia la popolazione, per il
Teorema del Limite Centrale
X  

lim P 
 z   P Z  z 
n   n

dove Z è una v.c. Normale standardizzata
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
16
Campionamento casuale semplice senza
ripetizione non ordinati
Popolazione di N = 4 unità; campioni di n = 2 unità
Popolazione
X
1
2
3
4
110
120
80
90
Possibili
campioni
(1;
(1;
(1;
(2;
(2;
(3;
2)
3)
4)
3)
4)
4)
Valori di x
110; 120
110; 80
110; 90
120; 80
120; 90
80; 90
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
x
115
95
100
100
105
85
Popolazione
Xi
110
120
80
90
Media campionaria
x
115
95
100
105
85
fi
0,25
0,25
0,25
0,25
P( x )
0,17
0,17
0,33
0,17
0,17
Calcolate
μ e σ2
E(
x ) e Var(x ) e fate le opportune considerazioni
Distribuzione della popolazione (in rosso) e
della v.c. media campionaria in blu
0,35
0,3
0,25
0,2
0,15
0,1
60
70
80
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
90
100
110
120
130
18
Esempio di spazio campionario continuo
Supponiamo che la durata del periodo di gestazione sia descritto
da una v.c. normale con media 265 e deviazione standard 18.
Lo spazio campionario dei
x1
x2
x3
x4
x5
campioni casuali di ampiezza 5
282,1
270,6
256,5
300,1
276,2
249,4
266,6
303,5
254,4
255,0
estraibili da questa popolazione
258,2
259,5
269,5
316,3
240,0
è composto da infiniti campioni.
253,3
270,6
299,4
250,2
262,7
248,6
291,5
264,3
258,5
265,9
Nella tabella qui accanto ne
269,1
232,2
267,0
252,2
256,6
sono riportati 15 .
257,7
268,4
249,3
284,0
274,2
268,0
278,1
297,7
255,9
252,3
Si tratta di un sottoinsieme
285,1
278,8
263,3
284,1
249,6
dell’infinità di campioni di
272,8
314,1
262,4
285,3
257,0
ampiezza 5 che costituiscono lo
245,2
267,4
274,5
259,5
226,9
271,1
291,7
275,4
282,9
242,3
spazio campionario in
229,1
236,7
243,0
280,9
250,8
questione.
230,9
246,2
262,4
240,6
287,6
246,7
Cap.
15-19 262,2
…
…
230,3
…
280,6
291,3
Paola Giacomello
Dip. Scienze
…
…
Sociali ed Economiche Uniroma1
Distribuzione campionaria della media e
distribuzione campionaria della varianza
x1
x2
x3
x4
x5
x
282,1
249,4
258,2
253,3
248,6
269,1
257,7
268,0
285,1
272,8
245,2
271,1
229,1
230,9
246,7
270,6
266,6
259,5
270,6
291,5
232,2
268,4
278,1
278,8
314,1
267,4
291,7
236,7
246,2
262,2
256,5
303,5
269,5
299,4
264,3
267,0
249,3
297,7
263,3
262,4
274,5
275,4
243,0
262,4
230,3
300,1
254,4
316,3
250,2
258,5
252,2
284,0
255,9
284,1
285,3
259,5
282,9
280,9
240,6
280,6
276,2
255,0
240,0
262,7
265,9
256,6
274,2
252,3
249,6
257,0
226,9
242,3
250,8
287,6
291,3
277,1
265,8
268,7
267,2
265,8
255,4
266,7
270,4
272,2
278,3
254,7
272,7
248,1
253,5
262,2
…
…
…
…
…
s2
255,36
484,37
821,25
387,71
252,97
218,04
185,55
337,05
235,39
Anche la varianza
campionaria è una v.c. è
generata dall’associazione a
ciascun campione dello
spazio campionario di un
numero reale, dato dalla
varianza dei valori contenuti
nel campione stesso.
516,85
359,87
349,76
400,03
493,12
610,81
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
…
…
20
Campionamento casuale stratificato
Nel campionamento casuale stratificato la popolazione viene suddivisa
in strati. Da ogni strato vengono poi estratti, tramite un
campionamento casuale semplice, le unità da inserire nel campione.
Esempio strati: Regioni; età; sesso.
Popolazione
Variabile di stratificazione
primo strato
secondo strato
terzo strato
estrazione casuale
campione
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
21
Campionamento casuale a grappoli
Nel campionamento casuale a grappoli la popolazione viene
suddivisa in sottoinsiemi detti grappoli. Si selezionano, con
un’estrazione casuale senza ripetizione, un certo numero di
grappoli e si prendono come unità campionarie tutte le
unità appartenenti ai grappoli estratti.
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
22
Campionamento casuale
a grappoli e a stadi
Nel campionamento casuale a due stadi la popolazione
viene suddivisa in un certo numero di grappoli. Al primo
stadio si estrae senza ripetizione un certo numero di
grappoli. Da ciascuno di questi si estrae con ripetizione
(secondo stadio) un certo numero di unità.
primo stadio
secondo stadio
Unità primarie
Unità secondarie
grappoli
unità elementari
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
23
Campionamento casuale
a grappoli e a stadi
Popolazione
Criterio di raggruppamento
grappolo 1
grappolo 2
grappolo 3
grappolo k
estrazione casuale dei grappoli
unità
primarie
estrazione casuale delle unità dai grappoli
unità secondarie
campione di unità elementari
Paola Giacomello Dip. Scienze
Sociali ed Economiche Uniroma1
24