Corso di Statistica
Distribuzioni campionarie
Prof.ssa T. Laureti
a.a. 2012-2013
1
Corso di Statistica a.a. 2012-2013 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Statistica descrittiva
Insieme di metodi per rappresentare e
interpretare un insieme di dati con lo scopo di
descriverne e sintetizzarne le
caratteristiche
Statistica inferenziale
Metodi che consentono di stimare una
caratteristica (parametro) della popolazione e
di prendere decisioni sulla popolazione
basandosi sull’osservazione del campione
Corso di Statistica a.a. 2012-2013 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
2
Popolazione e Campione
Una popolazione è l’insieme di tutte le unità oggetto di
studio
•Tutti i potenziali votanti nelle prossime elezioni
•Tutti i clienti di una certa impresa
•Tutte le fatture emesse nell’anno 2011
Un campione casuale è un sottoinsieme della
popolazione scelto in modo che
sia nota a probabilità di estrarre ogni unità
•Alcuni votanti selezionati casualmente per un’intervista
•Alcuni clienti selezionati per un’intervista sulla
soddisfazione
•Alcune fatture selezionate casualmente per una verifica
3
Perché si utilizza un campione?
• Un campione consente di ottenere risultati
statistici con precisione sufficientemente elevata
• Presenta notevoli vantaggi rispetto ad un
censimento
-
Costi ridotti
Tempestività
Controllo attendibilità informazioni
Organizzazione più semplice
4
Inferenza statistica
Per fare inferenza statistica si utilizzano le
informazioni raccolte su un campione per
conoscere parametri incogniti della popolazione
Popolazione
Caratteristiche della popolazione =
Parametri incogniti
(ad es. il fatturato medio di una
categoria di imprese o la proporzione di
imprese che hanno ottenuto la
certificazione ISO)
Camp.
Statistiche campionarie
basate sulle osservazioni
del campione
5
Estrazione casuale
Inferenza statistica
Processo di induzione di tipo quantitativo, per cui
l’incertezza del procedimento viene quantificata
(si determina l’entità dell’errore).
L’incertezza è dovuta a due fonti principali:
•Variabilità campionaria (in principio, tutti i possibili
campioni sono diversi e quindi la loro analisi produce
risultati diversi; nella pratica si dispone di un solo
campione)
•Errori di misurazione (in molti casi ripetendo la
misurazione della stessa entità si ottengono valori
diversi; nella pratica si dispone di una sola misurazione
per ogni entità)
6
Logica del campionamento
Su una popolazione composta da N unità statistiche viene
rilevato il carattere X che avrà distribuzione:
X
Freq.rel
x1
f1
x2
f2
…
…
xj
fj
…
…
xk
fk
Totale
1
Si estrae a caso un’unità
(con equiprobabilità)
Il valore che si osserverà è una v.c. X con
supporto= modalità e probabilità= freq rel
Valori della v.c. X
P(x)
x1
x 2 ........ x i ....
P(x1 ) P(x 2 ) ........ P(x i ) ....
La distribuzione di probabilità della v.a. X coincide con la
distribuzione delle frequenze relative del carattere X
7
Logica del campionamento
™Estrazione a caso di 1 unità (con equiprobabilità)
v.a. X (con distribuzione coincidente con quella del
carattere X)
™Estrazione a caso di n unità (con equiprobabilità)
n v.a. X1, X2,…, Xn indipendenti e con identica
distribuzione coincidente con quella del carattere X
8
Natura del campione
Se consideriamo l’esperimento aleatorio che consiste
nel estrarre le n unità dalla popolazione e osservare i
valori del carattere X
™ Prima dell’esperimento il campione è un vettore
di n variabili aleatorie X1,X2,…,Xn
(ciascuna con distribuzione di probabilità coincidente
alla distribuzione di frequenza del carattere X nella
popolazione)
™Dopo l’esperimento il campione è un vettore di n
numeri x1,x2,…,xn (modalità osservate del carattere)
Popolazione
Popolazione finita: insieme di N unità
(es.: tutte le aziende italiane produttrici di latte,
tutte le famiglie residenti nel Lazio, tutti i dipendenti
di un’azienda, tutti gli studenti di una scuola,…)
Popolazione infinita: insieme di tutte le
unità potenzialmente osservabili. Non è
concettualmente possibile elencare tutte le
unità statistiche che la compongono (es.: tutti i
beni che un processo produttivo è in grado di
produrre)
10
Parametro e statistica
Inferenza parametrica
Tipicamente l’inferenza riguarda alcuni parametri
Parametro
costante non nota della popolazione,
grandezza caratteristica oggetto di inferenza
(media, varianza e proporzione della popolazione)
Statistica
funzione delle osservazioni campionarie
utilizzata per stimare il parametro incognito
(media, varianza e proporzione campionarie)
11
Parametri di una popolazione
finita
Es. per la popolazione delle aziende produttrici di
latte:
media µ e varianza σ2 degli investimenti annui,
proporzione π di aziende che sono SpA
1 N
µ = ∑ xi
N i=1
1 N
2
2
σ = ∑ (xi − µ )
N i=1
π=
T
N
xi è l’investimento della i-esima azienda
T è il numero di aziende la cui forma
giuridica è SpA
12
Parametri di una popolazione
infinita
Il carattere di interesse è rappresentato da una
v.c. X (es: si assume che il fatturato di una
popolazione di aziende segua una distribuzione
Normale)
2
X ~ N(µ; σ
)
I parametri da stimare sono media e varianza di X
µ = E(X) =
+∞
∫ xf(x)dx
−∞
+∞
σ2 = V(X) =
2
(
)
x
−
µ
f(x)dx
∫
−∞
Per X v.c. continua
µ = E(X) =
K
∑ x p(x )
σ2 = V(X) =
j=1
K
j
∑ (x
j=1
j
− µ ) p(x j )
2
j
Per X v.c. discreta
13
Estrazione del campione
Il modo in cui il campione viene estratto è
importante per tenere sotto controllo l’errore e
per produrre una valida inferenza
Il campione deve essere rappresentativo
della popolazione
Se un dato sottogruppo della popolazione è
sovra(sotto)rappresentato nel campione, le
stime saranno distorte
Un campione probabilistico garantisce
contro possibili distorsioni
14
Campionamento casuale
semplice
• simula l’estrazione casuale di n unità da
un’urna (l’intera popolazione) contenente N
unità
• richiede la conoscenza e la reperibilità delle
N unità della popolazione
• tutti i campioni di dimensione n hanno
uguale probabilità di essere estratti
15
Campionamento casuale semplice
Estrazione con ripetizione
•L’elemento estratto viene successivamente
reinserito nell’urna e può quindi essere
estratto nuovamente
•Le estrazioni sono indipendenti
•La composizione dell’urna rimane immutata
•La probabilità di estrarre un elemento è
sempre costante
Estrarre un campione con ripetizione da una
popolazione finita equivale a campionare da
una popolazione infinita (la popolazione è
inesauribile)
16
Campionamento casuale semplice
Estrazione senza ripetizione
•Una volta estratto, un elemento non viene
più reinserito nell’urna
•Le estrazioni successive non sono
indipendenti
•La composizione dell’urna cambia
•La probabilità di estrarre un elemento si
modifica
Nella pratica, le indagini campionarie (per
esempio su imprese o famiglie) utilizzano
sempre uno schema di estrazione senza
ripetizione
17
Campione casuale (semplice)
Nello spazio campionario (prima di
osservare il campione), il campionamento
casuale semplice di dimensione n produce
una collezione di n v.c. X1, X2, …,Xn
Le n v.c. sono identicamente distribuite
Nel caso di pop. infinita (oppure pop. finita
ma estrazione con ripetizione), le n v.c.
sono indipendenti
Sul campione effettivo, si osservano le
determinazioni delle n v.c. ossia i valori
x1, x2, …, xn
18
Statistica campionaria
Dato il campione casuale X1, X2, …,Xn ,
una statistica campionaria è una funzione
t(X1,X2,…,Xn) e quindi a sua volta è una v.c.
(assume valori diversi a seconda del
campione estratto)
La distribuzione campionaria indica quali
valori la statistica assume (nello spazio
campionario al variare dei campioni) e con
quali probabilità (calcolate come freq rel dei
campioni)
19
Statistiche e Stimatori
Ogni quantità della popolazione (parametro) ha un suo
analogo nel campione (statistica).
POPOLAZIONE (numerosità N) → parametri (µ, σ2, .)
CAMPIONE (numerosità n<N) → statistiche (X , S , …)
E’ naturale quindi cercare di stimare un parametro di
interesse (es. µ) con la corrispondente statistica (es. X ).
Quando una statistica viene usata a fini inferenziali per
stimare un parametro viene detta stimatore (es. X è uno
stimatore di µ )
21
Distribuzione campionaria
Nella pratica, da una popolazione viene estratto
casualmente un unico campione di dimensione
prestabilita n.
Ai fini inferenziali, si considerano ipoteticamente
tutti i campioni di dimensione n che è possibile
estrarre dalla popolazione (spazio campionario o
universo dei campioni)
Su ogni campione calcoliamo la statistica
campionaria
L’insieme dei risultati costituisce la distribuzione
campionaria (distribuz. di prob. di una statistica)
22
Campionamento con
ripetizione da una pop. finita
Popolazione di N=4
aziende
Parametri di interesse:
•media µ e varianza σ2
degli investimenti
µ=
Aziend
a
Investi- Forma
giuridic
menti
a
A
140
SpA
B
150
SpA
C
120
Srl
D
190
SpA
140 + 150 + 120 + 190
= 150
4
σ2 = 650
Si estraggono tutti i campioni ordinati con
ripetizione di n=2 unità
23
Spazio campionario (N=4;n=2)
Campio- Osserv.
ni
campion.
Media
degli
investim
Campioni
Osserv.
campion.
Media
degli
investim
9
CA
120,140
130
1
AA
140,140
140
2
AB
140,150
145
10 CB
120,150
135
3
AC
140,120
130
11 CC
120,120
120
4
AD
140,190
165
12 CD
120,190
155
5
BA
150,140
145
13 DA
190,140
165
6
BB
150,150
150
14 DB
190,150
170
7
BC
150,120
135
15 DC
190,120
155
8
BD
150,190
170
16 DD
190,190
190
Per effetto del caso, posso essere particolarmente “fortunato” se estraggo
il campione 6, con media pari a 150 (che coincide con il valore della media
della popolazione). Con quale probabilità si verifica questo evento? 1 su 16
Posso essere particolarmente “sfortunato” se estraggo il campione 16,
24
con media pari a 190 (che si discosta molto dal valore della media
della popolazione). Con quale probabilità si verifica questo evento?
Distribuzione campionaria della
media
Sono i valori
distinti della
media che
osserveremmo
se estraessimo
tutti i possibili
campioni di 2
elementi
Valori della
media
degli
investim
Freq rel o
probab.
120
1/16=0,062
130
2/16=0,125
135
2/16=0,125
140
1/16=0,062
145
2/16=0,125
150
1/16=0,062
155
2/16=0,125
165
2/16=0,125
170
2/16=0,125
190
1/16=0,062
Totale
16/16=1,000
Indica la freq rel di
campioni sui quali il
calcolo della media
produce come
risultato il
corrispondente valore
sulla prima colonna
25
Distribuzione campionaria
Studiare la distribuzione campionaria
permette di
• valutare il comportamento di una statistica
campionaria come stimatore del parametro
incognito
• tenere sotto controllo l’effetto del “caso”
associato all’estrazione del campione
26
Errore di stima
Ogni campione è caratterizzato da un errore di
stima, ad es.
• se viene estratto il campione n. 3 o il n.9 la stima è
140: errore sottostima di -10;
• se viene estratto il campione n. 8 o il n.14 la stima è
170: errore sovrastima di +10
Una volta estratto il campione la stima è nota, ma il
valore del parametro di interesse no, per cui di fatto
l’errore di stima è ignoto
Proprietà dello stimatore
Quindi non si può valutare se una specifica stima è valida
oppure no.
Ma si possono valutare le proprietà dello stimatore.
In altre parole, considerando tutti i possibili campioni che
possono essere estratti dalla popolazione oggetto di studio,
si possono conoscere le caratteristiche dello stimatore.
Una caratteristica (proprietà) molto importante è la
correttezza. Uno stimatore si dice corretto o non distorto
quando il valore atteso coincide con il parametro nella
popolazione.
La media campionaria è uno stimatore non distorto della media
della popolazione
Distribuzione campionaria della
media- proprietà
Valori della
media degli
investim
Freq rel o
probab.
120
0,062
130
0,125
135
0,125
140
0,062
145
0,125
150
0,062
155
0,125
165
0,125
170
0,125
190
0,062
Totale
1,000
E(X) = 120 ⋅ 0,062 + ... + 190 ⋅ 0,062 =
= 150 = µ
Abbiamo verificato che:
E( X ) = µ
La media campionaria è uno stimatore
non distorto della media della
popolazione
29
Variabilità dello stimatore
La proprietà della correttezza (nell’insieme dei campioni
sovrastime e sottostime si compensano) è una buona proprietà,
ma non garantisce una stima accurata
Infatti, nella pratica si dispone di un solo campione, al quale
è associato un errore di stima ignoto che potrebbe anche
essere enorme.
E’ quindi importante capire qual è l’ordine di grandezza degli
errori di stima o quanto è probabile incorrere in un errore di stima
più grande di un certo valore prefissato.
→E’ essenziale dunque quantificare il livello di incertezza
associato allo stimatore, cioè comprendere quanto le stime (e
quindi gli errori di stima) variano da campione a campione. Lo
strumento è rappresentato dalla varianza campionaria e
dall’errore standard
Distribuzione campionaria della mediaproprietà
V(X) = (120 − 150) ⋅ 0,062 + ... +
2
Valori della
media degli
investim
Freq rel o
probab.
120
0,062
130
0,125
135
0,125
140
0,062
145
0,125
150
0,062
155
0,125
165
0,125
170
0,125
190
0,062
Totale
1,000
+ (190 − 150) ⋅ 0,062 =
2
σ2
= 325 =
n
V(X ) =
σ2
Varianza di X
nella
popolazione
n
Dimensione campionaria
La deviazione standard di X è detta
errore standard della media
campionaria
ES( X ) =
σ
n
Distribuzione campionaria della media
Sia X la variabile (carattere) di interesse nella
popolazione. Si estrae un campione casuale di
dimensione n. Si possono avere tre casi:
1) La distribuzione di X nella popolazione non è nota
ma ha media µ e varianza σ2
2) La distribuzione di X nella popolazione è normale,
ossia X ~ N(µ;σ2)
3) La distribuzione di X nella popolazione, con media
µ e varianza σ2, non è normale ma poiché n è grande
può essere approssimata alla normale
Qual è la distribuzione campionaria della media?32
Distribuzione campionaria della media
1)La distribuzione di X nella popolazione non è nota
ma ha media µ e varianza σ2
(1/2)
La media campionaria è uno stimatore della media
della popolazione
Qualunque sia la distribuzione di X, la media di un
campione casuale da X ha sempre valore atteso e
varianza pari a:
E(X) = µ
σ2
V(X) =
n
Niente si può dire sulla forma della distribuzione
campionaria della media
Distribuzione campionaria della media
1) La distribuzione di X nella popolazione non è nota ma
(2/2)
ha media µ e varianza σ2
I risultati precedenti sono molto importanti, ma di per
sé non consentono di rispondere a quesiti del tipo:
qual è la probabilità che un campione presenti una
media al di sotto di una certa soglia? Qual è
l’intervallo di valori in cui cade il 95% delle medie
campionarie?
Per rispondere a queste domande non basta
conoscere valore atteso e varianza, serve l’intera
distribuzione a meno che…
Distribuzione campionaria della media
…a meno che la distribuzione appartenga ad una
famiglia i cui parametri sono completamente identificati
da valore atteso e varianza. In particolare, se la media
campionaria ha distribuzione Normale, allora ricorrendo
alle tavole della standardizzata si può rispondere alle
domande precedenti
E allora in quali casi la media campionaria ha
distribuzione esattamente o approssimativamente
Normale?
Distribuzione campionaria della media
2) La distribuzione di X nella popolazione è
normale, X ~ N(µ;σ2).
Si estrae un campione casuale (quindi da una
popolazione normale)
⎛ σ2 ⎞
X ~ N⎜ µ; ⎟
⎝ n⎠
La media campionaria ha distribuzione
esattamente Normale, qualunque sia l’ampiezza
campionaria.
Il valore medio coincide con la media della popolazione
La variabilità della distribuzione campionaria è minore di quella
36
della popolazione ed è inversamente proporzionale a n
Distribuzione campionaria della media
3) Popolazione X qualunque con media µ e varianza
σ2, n grande
la media campionaria ha approssimativamente
distribuzione Normale se il campione è abbastanza
numeroso.
Si applica il Teorema Limite Centrale
⎛ σ2 ⎞
X ~ N⎜ µ; ⎟
n ⎠
⎝
Il TLC è importante in chiave inferenziale perché
permette di stimare la media della popolazione senza
dover conoscere la forma specifica della X della
popolazione
Distribuzione della popolazione e
della media campionaria
Popolazione
N(10,9)
Esp(3)
Media campionaria
n=2
Media campionaria
n=5
Media campionaria
n=30
38
Proporzione campionaria
In molte applicazioni il carattere di interesse è qualitativo con
due modalità (sì/no,soddisfatto/insoddisfatto, acquista/non
acquista). Si dice anche che i dati sono binari o dicotomici
In tal caso la distribuzione del carattere nella popolazione è
una v.c. di Bernoulli (successo/insuccesso)
successo = presenza della caratteristica di interesse
(sì,soddisfatto, acquista)
L’unico parametro è π = probabilità di successo =
“probabilità che un’unità a caso della popolazione presenti la
caratteristica di interesse”.
Popolazione finita π = proporzione di successi =
“proporzione di unità della popolazione che presentano la
caratteristica di interesse”
Campionamento con
ripetizione da una pop. finita
Parametro di interesse:
proporzione π di SpA
π=
3
= 0,75
4
Aziend
a
Investi- Forma
giuridic
menti
a
A
140
SpA
B
150
SpA
C
120
Srl
D
190
SpA
Si estraggono tutti i campioni ordinati con
ripetizione di n=2 unità
Spazio campionario (N=4;n=2)
Lo stimatore naturale della proporzione nella popolazione, π , è il
corrispondente nel campione, cioè la proporzione campionaria
P=
numero di successi
numero di prove
Campio- Osserv.
ni
campion.
Prop di
SpA
Campioni
9
Osserv.
campion.
Prop di
SpA
CA
Srl, SpA
0,5
1
AA
SpA,SpA
1
2
AB
SpA,SpA
1
10 CB
Srl, SpA
0,5
3
AC
SpA,Srl
0,5
11 CC
Srl, Srl
0
4
AD
SpA,SpA
1
12 CD
Srl, SpA
0,5
5
BA
SpA,SpA
1
13 DA
SpA,SpA
1
6
BB
SpA,SpA
1
14 DB
SpA,SpA
1
7
BC
SpA,Srl
0,5
15 DC
SpA,Srl
0,5
8
BD
SpA,SpA
1
16 DD
SpA,SpA
1
41
Proporzione campionaria
Codificando il successo con 1 e l’insuccesso con 0 il
campione X1, X2,… Xn è una sequenza di numeri 0 e 1.
1 n
P = X = ∑ Xi
n i=1
Distribuzione campionaria della
proporzione
Sono i valori
distinti che la
proporzione
assume al
variare dei
campioni
Valori della
proporzione
di SpA
Freq rel o
probab.
0
1/16=0,062
0,5
6/16=0,375
1
9/16=0,563
Totale
16/16=1,000
Indica la freq rel di
campioni sui quali il
calcolo della
proporzione produce
come risultato il
corrispondente valore
sulla prima colonna
E(P) = 0 ⋅ 0,062 + 0,5 ⋅ 0,375 + 1 ⋅ 0,563 = 0,75 = π
V(P) = (0 − 0,75) ⋅ 0,062 + (0,5 − 0,75) ⋅ 0,375 + (1 − 0,75) ⋅ 0,563 =
2
= 0,09375 =
2
π ⋅ (1 − π)
n
Abbiamo verificato che:
2
E(P) = π
π ⋅ (1 − π )
V(P) =
n
43
Campionamento senza ripetizione
da una pop. finita
E(X) = µ
σ2 N − n
⋅
V(X) =
n N−1
E(P) = π
π ⋅ (1 − π ) N − n
V(P) =
⋅
n
N−1
Alla varianza della distribuzione campionaria si applica un
fattore moltiplicativo di correzione (chiamato fattore di
correzione per popolazioni finite). Quindi la varianza è
più piccola in questo caso.
• Il campionamento senza ripetizione genera dipendenza tra le
osservazioni
•Il grado di dipendenza indotto dal campionamento senza
ripetizione è funzione della frazione di campionamento (f=n/N)
•Quando la popolazione è infinita la distinzione fra campionamento con e
44
senza ripetizione svanisce.
Campionamento da una pop.
infinita – Prop. campionaria
Popolazione X ~ Bernoulli(π)
Campione casuale : X1, X2,…,Xn
E(P) = π
π ⋅ (1 − π )
V(P) =
n
1
P ~ Binomiale(n; π)
n
Se n è grande si applica il Teorema Limite
Centrale
⎛ π ⋅ (1 − π) ⎞
P ~ N⎜ π,
⎝
n
⎟
⎠
45
Campionamento senza ripetizione
da una pop. finita
E(X) = µ
σ2 N − n
⋅
V(X) =
n N−1
E(P) = π
π ⋅ (1 − π ) N − n
V(P) =
⋅
n
N−1
Alla varianza della distribuzione campionaria si applica un
fattore moltiplicativo di correzione (chiamato fattore di
correzione per popolazioni finite). Quindi la varianza è
più piccola in questo caso.
• Il campionamento senza ripetizione genera dipendenza tra le
osservazioni
•Il grado di dipendenza indotto dal campionamento senza
ripetizione è funzione della frazione di campionamento (f=n/N)
•Quando la popolazione è infinita la distinzione fra campionamento con e
46
senza ripetizione svanisce.
Distribuzione della popolazione
e distribuzione campionaria
A) Popolazione
X ~ N(4,5;4)
rendimenti annui di titoli
N(4,5;0,13)
N(4,5;0,4)
N(4,5;4)
B) Campione casuale
n=10
X ~ N(4,5;0,4)
C) Campione casuale
n=30
X ~ N(4,5;0,13)
48
Distribuzione della popolazione
e distribuzione campionaria
A) Popolazione
X ~ N(4,5;4)
rendimenti annui di titoli
5 − 4,5 ⎞
⎛ 3 − 4,5
P(3 < X < 5) = P⎜
<Z<
⎟=
2 ⎠
⎝ 2
= P(− 0,75 < Z < 0,25) = 0,37
B) Campione casuale n=10
P(3 < X < 5) = ?
X ~ N(4,5;0,4)
Ci aspettiamo che
P(3 < X < 5) > P(3 < X < 5)
5 − 4,5 ⎞
⎛ 3 − 4,5
P(3 < X < 5) = P⎜
<Z<
⎟ = P(− 2,38 < Z < 0,79) = 0,78
0
,
63
0
,
63
⎝
⎠
49
Distribuzione della popolazione
e distribuzione campionaria
C) Campione casuale n=30 X ~ N(4,5;0,13)
Ci aspettiamo che
P(3 < X < 5)n=30 > P(3 < X < 5)n=10
5 − 4,5 ⎞
⎛ 3 − 4,5
P(3 < X < 5) = P⎜
<Z<
⎟ = P(− 4,17 < Z < 1,39) = 0,92
0,36 ⎠
⎝ 0,36
Estraendo un campione di n=30, la probabilità di
osservare un valore della media campionaria interno
all’intervallo (3;5) è alta (Intervallo di accettazione)
Se si verificasse 3 < x < 5 , saremmo portati a
concludere che verosimilmente il campione provenga
dalla popolazione con µ=4,5 e σ2=4
50