L11 Campionamento - Università di Macerata

Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
Il campionamento
i
t e l’inferenza
l’i f
Popolazione
Campione
Dai dati osservati mediante scelta campionaria si
giunge
i
ad
d affermazioni
ff
i i che
h riguardano
i
d
la
l
popolazione da cui essi sono stati prescelti
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
Il campionamento
i
t
Cristina Davino
Il campionamento
i
t e l’inferenza
l’i f
 Il campione
a po d
deve essere rappresentativo
app
a od
della
a popolazione
popo a o
 campionamento casuale
Pop
In
nferen
nza
Si definisce campionamento un
procedimento
di
t attraverso
tt
il quale
l
da un insieme di unità
costituenti l’oggetto dello studio,
studio
si estrae un numero ridotto di casi
scelti con criteri tali da
consentire la generalizzazione
all’intera
all
intera
popolazione
dei
risultati ottenuti.
Estrazione
casuale
 Il calcolo delle probabilità esamina i risultati che si ottengono
sotto l’influenza del caso
Campione
C
Calcolo delle
probabilità
Popolazione
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
Cristina Davino
C
Campionamento
i
t casuale
l con reintroduzione
i t d i
Il campionamento
i
t probabilistico
b bili ti
(o bernoulliano)
Le unità sono scelte in modo casuale (ma non “a casaccio”!).
La casualità interviene nella selezione delle unità e si ottiene
attribuendo ad ogni unità della popolazione una probabilità nota e
diversa da zero di essere selezionata.
selezionata
Quando la probabilità di estrazione, oltre ad essere nota, è posta
uguale per tutte le unità,
unità si parla di campionamento casuale
semplice.
In particolare, la casualità interviene nella selezione delle
unità e si ottiene:
tt ib
d
ad
d ognii unità
ità della
d ll
popolazione
l i
una
a. attribuendo
probabilità nota e diversa da zero di essere selezionata;
Ogni elemento che viene estratto viene reintrodotto nella
popolazione in modo tale che ad ogni estrazione
successiva
i non venga alterata
lt t lla composizione
i i
d
della
ll
popolazione ed ogni elemento estratto ha sempre la
stessa probabilità di venire scelto
scelto.
 Probabilità
P b bilità di estrazione
t i
di ciascun
i
elemento:
l
t
1 1
1
, ,,
N N
N
 Universo campionario N n
b utilizzando in modo appropriato le tecniche per la
b.
selezione.
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
U esempio
Un
i
X1
E
Esempio
i
Si consideri la p
popolazione
p
costituita da N=4 q
quattro
ipermercati A, B, C, D. Le vendite effettuate da ciascuno di
essi nel periodo 01/01/04-31/12/04 sono riportate nella
seguente tabella:
Ipermercato
A
B
C
D
Vendite (in miliardi di lire)
Cristina Davino
4
1
3
2
Campioni
C
i i di ampiezza
i
2
estratti con ripetizione
•
Universo dei campioni (n=2)
estratti con ripetizione: 42
X2
Numero
Primo
Secondo
del campione
Elemento
Elemento
1
4
4
2
4
1
3
4
3
4
4
2
5
1
4
6
1
1
7
1
3
8
1
2
9
3
4
10
3
1
11
3
3
12
3
2
13
2
4
14
2
1
15
2
3
16
2
2
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
C
Campionamento
i
t casuale
l senza reintroduzione
i t d i
Cristina Davino
E
Esempio
i
X1
(o esaustivo)
Ogni elemento, una volta estratto, non viene reimmesso
nella popolazione per cui, dopo ogni estrazione, la
probabilità
b bilità che
h glili elementi
l
ti restanti
t ti entrino
t i a ffar parte
t d
dell
campione viene modificata.
Campioni
C
i i di ampiezza
i
2
estratti senza ripetizione
•
Universo dei campioni (n=2)
estratti senza ripetizione:
 Probabilità di estrazione di ciascun elemento
 Universo campionario N   N  1 N  n  1 
1
1
1
,
,...,
N N 1
N  n 1
(
4!
 12 )
4  2!
N!
 N  n !
X2
Numero
Primo
Secondo
del campione
Elemento
Elemento
1
4
1
2
4
3
3
4
2
4
1
4
5
1
3
6
1
2
7
3
4
8
3
1
9
3
2
10
2
4
11
2
1
12
2
3
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
Il campionamento
i
t
Cristina Davino
Il campionamento
i
t
Un campione
p
casuale di n elementi estratto da una v.c. X è
rappresentato dalle n v.c X1, X2, …, Xn dove Xi è la i-esima
estrazione della v.c. X
Popolazione: Altezza X degli studenti presenti in
aula durante la lezione di Statistica
X1 : Altezza del primo studente da estrarre
Ogni v.c. X1, X2, …, Xn ha la stessa funzione di densità di probabilità f(xi)
che sarà uguale alla f(x) della popolazione originaria
Popolazione
XN(,)
vc
v.c.
X1N(,)
N( )
………….
v.c.
XiN(,)
…………
v.c.
XnN(,)
X2 : Altezza del secondo studente da estrarre
Dopo aver effettuato
D
ff tt t l’esperimento,
l’
i
t la
l determinazione
d t
i
i
numerica
i è
rappresentata da n numeri reali x1, x2, …, xn che rappresentano il
campione osservato
Xi : Altezza dell’i-esimo studente da estrarre
Xn : Altezza dell’n-esimo studente da estrarre
PX i  x1   PX i  x2   ...  PX i  xn  
Ogni xi è la realizzazione di una v.c Xi detta v.c. della i-esima estrazione
1
N
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
P
Processo
inferenziale
i f
i l
Cristina Davino
U esempio
Un
i
 Inferenza: utilizza statistiche del campione per
effettuare la stima dei corrispondenti veri valori della
popolazione
 In pratica, viene selezionato a caso dalla popolazione
un campione unico di ampiezza predeterminata
Si consideri la p
popolazione
p
costituita da N=4 q
quattro
ipermercati A, B, C, D. Le vendite effettuate da ciascuno di
essi nel periodo 01/01/04-31/12/04 sono riportate nella
seguente tabella:
Ipermercato
A
B
C
D
Vendite (in miliardi di lire)
 Bisognerebbe prendere in esame ogni campione che
avrebbe
bb potuto
t t manifestarsi
if t i

Distribuzioni campionarie
4
1
3
2
1
4  1  3  2  2,5
4
  1112
,12
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
U esempio
Un
i
Ipermercato
B
C
Vendite (in miliardi di lire)
1
3
1
4
3
A
4
Campioni
C
i i di ampiezza
i
2
estratti con ripetizione
2
1
  1  3  2
2
Estrazione casuale di un campione
di 2 supermercati
Vendite (in m iliardi di lire)
X
E
Esempio
i
Estrazione casuale di un campione
di 2 supermercati
Iperm ercato
Cristina Davino
•
Universo dei campioni (n=2)
estratti con ripetizione: 42
E  X   2,5  
B
1
1
  4  1  2,5
2
1,12
sqm  X   0, 79 
2
Numero
Primo
Secondo
Media
del campione
Elemento
Elemento
Campionaria
1
4
4
4,0
2
4
1
2,5
3
4
3
3,5
4
4
2
3,0
5
1
4
2,5
6
1
1
10
1,0
7
1
3
2,0
8
1
2
1,5
9
3
4
35
3,5
10
3
1
2,0
11
3
3
3,0
12
3
2
2,5
13
2
4
3,0
14
2
1
1,5
15
2
3
2,5
16
2
2
2,0
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
E
Esempio
i
Cristina Davino
E
Esempio
i
Media
Campionaria
4,0
,
Campioni
C
i i di ampiezza
i
2
estratti con ripetizione
Campioni
C
i i di ampiezza
i
2
estratti senza ripetizione
2,5
3,5
Numero
Primo
Secondo
Media
del campione
Elemento
Elemento
Campionaria
30
3,0
1
4
1
2,5
2
4
3
3,5
3,0
3
4
2
Universo dei campioni (n=2)
4
1
4
2,5
3,5
20
2,0
estratti senza ripetizione:
5
1
3
2,0
1,5
(
6
1
2
1,5
3
7
3
4
3,5
8
3
1
20
2,0
2,5
4,5
•
1,0
4
3,5
2,5
20
2,0
 12 )
E  X   2,5  
2
3,0
1,5
4!
4  2!
2,5
1
3,0
0,5
1,5
2,5
0
1
1,5
2
2,5
3
3,5
sqm  X   0, 64 
4
1,12 2
2 3
9
3
2
2,5
10
2
4
3,0
11
2
1
1,5
12
2
3
2,5
2,0
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
V C Media
V.C.
M di Campionaria
C
i
i
Cristina Davino
P
Parametri
t i e statistiche
t ti ti h
• Popolazione
XN()
• Campioni casuali di n elementi:
n v.c
X1N(,)
( )
….
XnN(,)
( )
1° campione
x1
….
xn
x
2° campione
x1
….
xn
x
3° campione
i
x1
….
xn
x
……..
tutti i possibili campioni dell’universo campionario
vc
v.c.
X
Popolazione
opo a o e
Parametri
a a et
Campione
Statistiche
o
Stimatori
Valori fissi,
spesso non noti
Variabili casuali,
le cui determinazioni
dipendono dalle particolari
osservazioni scelte
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
P
Parametri
t i e statistiche
t ti ti h
Cristina Davino
Di t ib i i campionarie
Distribuzioni
i
i
 Parametri: valori caratteristici della popolazione
Le conclusioni inferenziali, basate sull’unico campione
 Statistiche o v.c. campionarie
p
o stimatori o
statistiche test: funzioni delle osservazioni campionarie
osservato, devono essere giudicate sulla base della
 Statistica calcolata o stima: numero ottenuto
distribuzione di probabilità dei possibili campioni che
applicando la statistica al campione osservato
potevano essere generati e dei quali quello osservato
 Distribuzione
Di t ib i
campionaria:
i
i valori
l i che
h la
l statistica
t ti ti
costituisce
tit i
una realizzazione
li
i
particolare.
ti l
assume al variare del campione nell’universo campionario
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
Ri il
Riepilogo
sulla
ll v.c. media
di campionaria
i
i
Campionamento con
reintroduzione
E X  
Popolazione non
ta
finita
Popolazione
p
finita
Campionamento senza
reintroduzione
V X 
Var
E X  
Var  X  

n

n
E X  
Var  X  

n
N n
N 1
Cristina Davino
V C Media
V.C.
M di Campionaria
C
i
i
• V.C. media campionaria:
p
medie aritmetiche calcolate su tutti
i campioni appartenenti allo spazio campionario
p
estratto e,, poiché
p
i
• Le medie variano al variare del campione
campioni sono estratti casualmente, i valori che può
assumere la media campionaria sono realizzazioni di una v.c
• La distribuzione della v.c media campionaria dipende dalla
distribuzione della popolazione X
• Quando la dimensione del campione è sufficientemente
grande, la distribuzione della media campionaria può essere
approssimata alla distribuzione normale qualunque sia la
distribuzione della popolazione (Teorema del Limite
Centrale).
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
La distribuzione normale e la distribuzione della media
campionaria
T
Teorema
del
d l limite
li it centrale
t l
Se X1, X2, …,, Xn sono n v.c. indipendenti
p
con media  e
2
varianza  , la v.c X=X1+X2+…+Xn, somma delle n v.c., può
essere approssimata con una v.c normale con media n e
varianza 2,se
se n è sufficientemente grande
Applicazioni del teorema del limite centrale
 Approssimazione normale della distribuzione della media campionaria
Quando la dimensione del campione è sufficientemente grande, la
distribuzione campionaria della media aritmetica può essere
approssimata dalla distribuzione normale qualunque sia la
distribuzione della popolazione.

X  N   ; 

n

Z=
X-

Cristina Davino
1. Per la maggior parte delle popolazioni,
indipendentemente dalla forma della loro distribuzione,
la distribuzione della media campionaria è
approssimativamente normale, purché si considerino
campioni di almeno 30 osservazioni.
2. Se la distribuzione della popolazione è abbastanza
simmetrica, la distribuzione della media campionaria è
approssimativamente una normale, purché si considerino
campioni di almeno 15 osservazioni.
3. Se la popolazione ha una distribuzione normale, la media
campionaria è distribuita secondo la legge normale,
 N  0;1
indipendentemente dall
dall’ampiezza
ampiezza del campione.
n
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
Ri il
Riepilogo
sulla
ll v.c. media
di campionaria
i
i
n >30?
SI
NO
X  N?
VC teZ
V.C.
?
SI

noto?

X  N   ; 

n

NO
Cristina Davino
SI
NO
X-
 tn 1
s
n
0
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
VC t
V.C.
Cristina Davino
E
Esercizio
i i sulla
ll v.c. Media
M di Campionaria
C
i
i
Nell azienda Package i sacchetti di carta utilizzati per contenere
Nell'azienda
generi alimentari sono prodotti in modo che il carico di resistenza
del sacchetto si distribuisca normalmente con una media
aritmetica di 352 grammi per centimetro quadrato e s.q.m. di 70
grammi p
g
per centimetro q
quadrato.
a) Calcolare la probabilità che i sacchetti prodotti abbiano carico di
resistenza tra 352 e 386 g
grammi p
per centimetro q
quadrato.
b) Selezionando un campione casuale di 16 sacchetti dalla
produzione dell'azienda, calcolare la probabilità che il carico di
resistenza medio calcolato sul campione sia compreso tra 352 e
386 grammi per centimetro quadrato.
-
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
E
Esercizio
i i sulla
ll v.c. Media
M di Campionaria
C
i
i
• X: carico di resistenza del sacchetto
•
X~ N(352; 70)
X  352
Z
70
• P(352<X<386) ??
386  352 
 352  352
Z
  P0  Z  0.49  
70
70


a) P352  X  386  P
 0.18793

b) X ~ N  352;

70 

16 


 352  352
386  352 
P 352  X  386   P
Z
  P0  Z  1.94  
70
 70

16
16 

 0.47381
Cristina Davino
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
V
V.c.
Proporzione
P
i
Campionaria
C
i
i
V
V.c.
Proporzione
P
i
Campionaria
C
i
i
N=2
N=2
Esperimento: estrazione casuale di due palline


: numero di successi in n prove
X: numero di palline rosse in 2 estrazioni
p
Prob.
1
2
1
1
1
  proporzione di successi nella popolazione
0
1
p  proporzione di successi in un campione di ampiezza n
1
2
1

 1    
X

•  B   ;

n
n


  12
Esperimento: estrazione casuale con ripetizione di due
palline
lli
X: numero di palline rosse in 2 estrazioni
• X
 B n ; n 1   
Cristina Davino
: proporzione di successi in n prove
4
4
E  P   12  
 1   
Var  P   18 
n
4
4
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
V
V.c.
Proporzione
P
i
Campionaria
C
i
i

• X B n ; n 1   
•

 1    
X

 B ;


n
n



T
Teorema
del
d l limite
li it centrale
t l
: numero di successi in n prove
: proporzione di successi in n prove
Se X1, X2, …,, Xn sono n v.c. indipendenti
p
con media 
e varianza 2, la v.c X=X1+X2+…+Xn, somma delle n
v.c., può essere approssimata con una v.c normale
con media n
n e varianza 2
Applicazioni del teorema del limite centrale
  proporzione di successi nella popolazione
 Approssimazione normale della distribuzione binomiale
p  proporzione di successi in un campione di ampiezza n
Z=
P-
 1   
n
(Teorema di De Moivre-Laplace)
Quando la dimensione del campione è sufficientemente grande, la
distribuzione di un v.c binomiale può essere approssimata dalla
distribuzione normale con parametri np e npq
P: v.c proporzione campionaria

 1    

P  N  ;
n 


n


Cristina Davino
 N  0;1
X  N  np, npq 
Z
X  np
 Z  0,1
npq
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
T
Teorema
del
d l limite
li it centrale
t l
Cristina Davino
V
V.c.
Proporzione
P
i
Campionaria
C
i
i
Se X1, X2, …,, Xn sono n v.c. indipendenti
p
con media 
2
e varianza  , la v.c X=X1+X2+…+Xn, somma delle n
v.c., può essere approssimata con una v.c normale
con media n
n e varianza 2
Applicazioni del teorema del limite centrale
• Campionamento con ripetizione

 1    


P  N ;
n 


n


• Campionamento senza ripetizione
 Approssimazione normale della distribuzione binomiale relativa
(Teorema di De Moivre-Laplace)
Quando la dimensione del campione è sufficientemente grande, la
distribuzione di un v.c binomiale relativa può essere approssimata
dalla distribuzione normale
X
 pq 
 N  p,

n
n 

Z
 X n   p  Z  0,1

 1    N  n 

P  N  ;

n 


n
N

1


pq
n
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali
a.a.. 2016
a.a
2016--2017 Il campionamento
a.a.. 2016
a.a
2016--2017 Il campionamento
Cristina Davino
Dove e come studiare
• S.
S B
Borra, A
A. Di Ci
Ciaccio
i (2008) – Statistica
St ti ti – Metodologie
M t d l i per le
l
scienze economiche e sociali – McGraw-Hill. Cap. 10 (escluso
paragrafi 10.3.2, 10.3.3).
• D. Piccolo (2004) – Statistica per le decisioni – Il Mulino. Cap. 11
(escluso paragrafi 11.4, 11.5), Cap. 12 (escluso paragrafi 12.7, 12.8).
File “esercizi variabili casuali e distribuzioni campionarie.pdf”
Cristina Davino
Riepilogo
Le distribuzioni campionarie




Popolazione e campione
Il campionamento nell’inferenza
nell inferenza
Il campionamento casuale semplice
Il campionamento casuale con reintroduzione







Il campionamento casuale senza reintroduzione
Le distribuzioni campionarie
La variabile casuale media campionaria
La variabile casuale proporzione campionaria
La v.c T di Student
Il teorema del Limite Centrale
Applicazioni del Teorema del Limite Centrale
 Approssimazione normale della distribuzione binomiale
 Approssimazione normale della distribuzione binomiale relativa