Corso di Statistica per l`impresa Inferenza statistica Inferenza

16/10/2011
Inferenza statistica
Inferenza parametrica
Per fare inferenza statistica si utilizzano le
informazioni raccolte su un campione per
conoscere parametri incogniti della popolazione
Corso di
Statistica per l’impresa
Popolazione
Processo induttivo di stima di un parametro,
soggetto a incertezza perché basato su
informazione parziale (quella contenuta nel
campione)
Caratteristiche della popolazione =
Parametri incogniti
(ad es. il fatturato medio di una
categoria di imprese o la proporzione di
imprese che hanno ottenuto la
certificazione ISO)
Prof. A. D’Agostino
La stima prodotta è soggetta ad errore (errore
campionario)
stima = parametro ± errore
Camp.
Statistiche campionarie
media del campione = media della popolazione ± errore
proporzione del campione = proporzione della pop. ± errore
basate sulle osservazioni
del campione
Estrazione casuale
1
Estrazione del campione
2
Parametro e statistica
Il modo in cui il campione viene estratto è
importante per tenere sotto controllo l’errore e
per produrre una valida inferenza
Popolazione
Parametro
Popolazione finita: insieme di N unità
costante non nota della popolazione,
grandezza caratteristica oggetto di inferenza
(es.: tutte le aziende italiane produttrici di latte,
tutte le famiglie residenti in Campania, tutti i
dipendenti di un’azienda, tutti gli studenti di una
scuola,…)
(media, varianza e proporzione della popolazione)
Il campione deve essere rappresentativo della
popolazione
Se un dato sottogruppo della popolazione è
sovra(sotto)rappresentato nel campione, le
stime saranno distorte
Un campione probabilistico garantisce contro
possibili distorsioni
Statistica
Popolazione infinita: insieme di tutte le
funzione delle osservazioni campionarie
utilizzata per stimare il parametro incognito
unità potenzialmente osservabili (es.: tutti i
beni che un processo produttivo è in grado di
produrre nel lungo periodo)
(media, varianza e proporzione campionarie)
4
3
5
6
1
16/10/2011
Parametri di una popolazione
finita
Parametri di una popolazione
infinita
Es. per la popolazione delle aziende produttrici di
latte:
media μ e varianza σ2 degli investimenti annui,
proporzione π di aziende che sono SpA
1
 xi
N i 1
1 N
2
2   xi  
N i 1
Campionamento da
popolazione finita
Il carattere di interesse è rappresentato da una
v.c. X (es: si assume che il fatturato di una
popolazione di aziende segua una distribuzione
Normale)
2
X ~ N; 
Campionamento casuale semplice
Campionamento casuale stratificato

N


T
N
Campionamento casuale a grappoli e a stadi
I parametri da stimare sono media e varianza di X
xi è l’investimento della i-esima azienda
K

  E(X) 
 xf(x)dx

2
  V(X) 
T è il numero di aziende la cui forma
giuridica è SpA

2
 x   f(x)dx

Per X v.c. continua
  E(X) 
2
 x p(x )
  V(X) 
j
j
j1
K
x j    p(x j)

j 1
2
Per X v.c. discreta
7
Campionamento casuale
semplice
• simula l’estrazione casuale di n unità da
un’urna (l’intera popolazione) contenente N
unità
• richiede la conoscenza e la reperibilità delle
N unità della popolazione
• tutti i campioni di dimensione n hanno
uguale probabilità di essere estratti
10
8
9
Estrazione con ripetizione
Estrazione senza ripetizione
L’elemento estratto viene successivamente
reinserito nell’urna e può quindi essere
estratto nuovamente
Le estrazioni sono indipendenti
La composizione dell’urna rimane immutata
La probabilità di estrarre un elemento è
sempre costante
Estrarre un campione con ripetizione da una
popolazione finita equivale a campionare da
una popolazione infinita (la popolazione è
inesauribile)
Una volta estratto, un elemento non viene più
reinserito nell’urna
Le estrazioni successive non sono
indipendenti
La composizione dell’urna cambia
La probabilità di estrarre un elemento si
modifica
Nella pratica, le indagini campionarie (per
esempio su imprese o famiglie) utilizzano
sempre uno schema di estrazione senza
ripetizione
11
12
2
16/10/2011
Campione casuale (semplice)
Statistica campionaria
Distribuzione campionaria
Nello spazio campionario (prima di
osservare il campione), il campionamento
casuale semplice di dimensione n produce
una collezione di n v.c. X1, X2, …,Xn
Le n v.c. sono identicamente distribuite
Nel caso di pop. infinita (oppure pop. finita
ma estrazione con ripetizione), le n v.c. sono
indipendenti
Sul campione effettivo, si osservano le
determinazioni delle n v.c. ossia i valori
x1, x2, …, xn
Dato il campione casuale X1, X2, …,Xn ,
una statistica campionaria è una funzione
t(X1,X2,…,Xn) e quindi a sua volta è una v.c.
(assume valori diversi a seconda del
campione estratto)
La distribuzione campionaria indica quali
valori la statistica assume (nello spazio
campionario al variare dei campioni) e con
quali probabilità (calcolate come freq rel dei
campioni)
Nella pratica, da una popolazione viene
estratto casualmente un unico campione di
dimensione prestabilita n
Ai fini inferenziali, si considerano
ipoteticamente tutti i campioni di dimensione
n che è possibile estrarre dalla popolazione
(spazio campionario o universo dei campioni)
Su ogni campione calcoliamo la statistica
campionaria
L’insieme dei risultati costituisce la
distribuzione campionaria (distribuz. di prob.
di una statistica)
13
Campionamento con
ripetizione da una pop. finita
Popolazione di N=4
aziende
Parametri di interesse:
•media μ e varianza σ2
degli investimenti
•proporzione π di SpA
Azienda Investimenti
140  150  120  190

 150
4
A
140
Campio- Osserv.
ni
campion.
Media
degli
investim
Campioni
Osserv.
campion.
Media
degli
investim
1
AA
140,140
140
9
CA
120,140
130
SpA
2
AB
140,150
145
10 CB
120,150
135
3
AC
140,120
130
11 CC
120,120
120
4
AD
140,190
165
12 CD
120,190
155
5
BA
150,140
145
13 DA
190,140
165
6
BB
150,150
150
14 DB
190,150
170
7
BC
150,120
135
15 DC
190,120
155
8
BD
150,190
170
16 DD
190,190
190
150
SpA
C
120
Srl
D
190
SpA
3
 0,75
4
Sono i valori
distinti della
media che
osserveremmo
se estraessimo
tutti i possibili
campioni di 2
elementi
Per effetto del caso, posso essere particolarmente “fortunato” se estraggo
il campione 6, con media pari a 150 (che coincide con il valore della media
della popolazione). Con quale probabilità si verifica questo evento? 1 su 16
Posso essere particolarmente “sfortunato” se estraggo il campione 16,
con media pari a 190 (che si discosta molto dal valore della media
della popolazione). Con quale probabilità si verifica questo evento?
2
  650
Si estraggono tutti i campioni ordinati con
ripetizione di n=2 unità
16
15
Distribuzione campionaria della
media
Spazio campionario (N=4;n=2)
Forma
giuridica
B

14
17
Valori della
media
degli
investim
Freq rel o
probab.
120
1/16=0,062
130
2/16=0,125
135
2/16=0,125
140
1/16=0,062
145
2/16=0,125
150
1/16=0,062
155
2/16=0,125
165
2/16=0,125
170
2/16=0,125
190
1/16=0,062
Totale
16/16=1,000
Indica la freq rel di
campioni sui quali il
calcolo della media
produce come
risultato il
corrispondente valore
sulla prima colonna
18
3
16/10/2011
Distribuzione campionaria della
media
Distribuzione campionaria
Studiare la distribuzione campionaria
permette di
• valutare il comportamento di una statistica
campionaria come stimatore del parametro
incognito
• tenere sotto controllo l’effetto del “caso”
associato all’estrazione del campione
Valori della
media degli
investim
Freq rel o
probab.
120
0,062
130
0,125
135
0,125
V(X )  120  150  0,062  ... 
140
0,062
 190  150  0,062 
145
0,125
Sono i valori
distinti che la
proporzione
assume al
variare dei
campioni
Valori della
proporzione
di SpA
Freq rel o
probab.
0
1/16=0,062
0,5
6/16=0,375
1
9/16=0,563
Totale
16/16=1,000
 150  
2
2
 325 
2
n
150
0,062
155
0,125
165
0,125
Abbiamo verificato che:
170
0,125
E( X )  
190
0,062
Totale
1,000
V( X ) 
Indica la freq rel di
campioni sui quali il
calcolo della
proporzione produce
come risultato il
corrispondente valore
sulla prima colonna
2
Prop di
SpA
Campioni
Osserv.
campion.
Prop di
SpA
1
AA
SpA,SpA
1
9
CA
Srl, SpA
0,5
2
AB
SpA,SpA
1
10 CB
Srl, SpA
0,5
3
AC
SpA,Srl
0,5
11 CC
Srl, Srl
0
4
AD
SpA,SpA
1
12 CD
Srl, SpA
0,5
5
BA
SpA,SpA
1
13 DA
SpA,SpA
1
6
BB
SpA,SpA
1
14 DB
SpA,SpA
1
7
BC
SpA,Srl
0,5
15 DC
SpA,Srl
0,5
8
BD
SpA,SpA
1
16 DD
SpA,SpA
1
2
n
20
Campionamento senza
ripetizione da una pop. finita
E(P)  0  0,062  0,5  0,375  1  0,563  0,75  
2
Campio- Osserv.
ni
campion.
E(X)  120  0,062  ...  190  0,062 
19
Distribuzione campionaria della
proporzione
Spazio campionario (N=4;n=2)
E(X)  
V(X) 
Campionamento da una pop.
infinita – Media campionaria
Campione casuale di dimensione n estratto da:
1) Popolazione X qualunque con media μ e
varianza σ2
2) Popolazione X ~ N(μ;σ2)
3) Popolazione X qualunque con media μ e
varianza σ2, n grande
E(P)  
2
 Nn

n N 1
V(P) 
21
  1   N  n

n
N 1
Alla varianza della distribuzione campionaria si
applica un fattore moltiplicativo di correzione
2
V(P)  0  0,75  0,062  0,5  0,75  0,375  1  0,75  0,563 
 0,09375 
  1  
n
Abbiamo verificato che:
Qual è la distribuzione (forma, valori
caratteristici) della media campionaria?
E(P)  
  1  
V(P) 
n
22
23
24
4
16/10/2011
Campionamento da una pop.
infinita – Media campionaria
Campionamento da una pop.
infinita – Media campionaria
2) Popolazione X ~ N(μ;σ2)
1) Popolazione X qualunque con media μ e
varianza σ2
3) Popolazione X qualunque con media μ e
varianza σ2, n grande
 2 
X ~ N ; 
 n
E(X)  
Si applica il Teorema Limite Centrale

n
Niente si può dire sulla forma della
distribuzione della media campionaria
25
Distribuzione della popolazione
e della media campionaria
N(10,9)
 2 
X ~ N ; 
 n
La media campionaria segue la stessa
distribuzione (Normale) della popolazione
Il valore medio coincide con la media della
popolazione
La variabilità della distribuzione campionaria
è minore di quella della popolazione ed è
inversamente proporzionale a n
2
V(X) 
Campionamento da una pop.
infinita – Media campionaria
Il TLC è importante in chiave inferenziale
perché permette di stimare la media della
popolazione senza dover conoscere la
forma specifica della X della popolazione
26
Campionamento da una pop.
infinita – Prop. campionaria
27
Distribuzione della popolazione
e distribuzione campionaria
Esp(3)
Popolazione
A) Popolazione
Popolazione X ~ Bernoulli(π)
Campione casuale : X1, X2,…,Xn
E(P)  
  1  
V(P) 
n
Media campionaria
n=2
X ~ N(4,5;4)
rendimenti annui di titoli
1
P ~ Binomiale(n; )
n
N(4,5;0,13)
B) Campione casuale
n=10
X ~ N4,5;0,4 
Media campionaria
n=5
Se n è grande si applica il Teorema Limite
Centrale
   (1  ) 
Media campionaria
n=30
P ~ N ,

28
n
N(4,5;0,4)
N(4,5;4)
C) Campione casuale
n=30
X ~ N4,5;0,13


29
30
5
16/10/2011
Distribuzione della popolazione
e distribuzione campionaria
A) Popolazione
X ~ N(4,5;4)
Distribuzione della popolazione
e distribuzione campionaria
C) Campione casuale n=30 X ~ N4,5;0,13
rendimenti annui di titoli
5  4,5 
 3  4,5
P 3  X  5  P
Z

2 
 2
 P  0,75  Z  0,25  0,37
B) Campione casuale n=10
P 3  X  5  ?
Ci aspettiamo che
5  4,5 
 3  4,5
P 3  X  5  P
Z
  P  4,17  Z  1,39  0,92
0,36 
 0,36
X ~ N4,5;0,4
Ci aspettiamo che
P 3  X  5 n30  P 3  X  5 n10
P 3  X  5  P 3  X  5
5  4,5 
 3  4,5
P 3  X  5   P
Z
  P 2,38  Z  0,79   0,78
0,63 
 0,63
31
Estraendo un campione di n=30, la probabilità di
osservare un valore della media campionaria interno
all’intervallo (3;5) è alta (Intervallo di accettazione)
Se si verificasse 3  x  5 , saremmo portati a
concludere che verosimilmente il campione provenga
dalla popolazione con μ=4,5 e σ2=4
32
6