1. Distribuzioni campionarie

Università degli Studi di Basilicata – Facoltà di Economia
Corso di Laurea in Economia Aziendale - a.a. 2012/2013
lezioni di statistica del 3 e 6 giugno 2013
- di Massimo Cristallo -
1. Distribuzioni campionarie
Nei problemi di inferenza statistica si traggono conclusioni su una o più
caratteristiche dell’intera popolazione osservando le medesime caratteristiche in un
campione di numerosità n.
In realtà, pur rilevando un solo campione è importante conoscere le proprietà della
caratteristica in esame al variare dei possibili campioni di ampiezza n estraibili dalla
popolazione (di numerosità N) data una tecnica prescelta.
Definiamo statistica una funzione dei dati di un campione casuale. Una statistica è
quindi una variabile casuale, e come tale è possibile considerare la sua distribuzione di
probabilità, detta distribuzione campionaria della statistica.
1A. Distribuzione campionaria della media
Sia (X1, X2, …, Xn) un campione casuale estratto da una popolazione qualsiasi
avente media μ e varianza 2, entrambe finite, considerando la seguente statistica “media
campionaria” :
+
+… +
è ovvio che essa assume valore diverso a seconda del campione prescelto. La distribuzione
che associa a ciascuna delle possibili medie campionarie la relativa probabilità di verificarsi
costituisce la distribuzione campionaria della media. Tale distribuzione ha media e varianza che
dipendono dal tipo di campionamento utilizzato.
a. Campionamento con ripetizione (o bernoulliano)
L’estrazione con ripetizione delle unità campionarie equivale ad ipotizzare che le
Xi sono indipendenti ed ugualmente distribuite. In tal caso si prova facilmente che:
( )=μ
( ) = 1
cioè la distribuzione della media campionaria è centrata intorno alla media della
popolazione, con dispersione dei suoi possibili valori intorno alla medesima media che
diminuisce al crescere dell’ampiezza campionaria.
Al tendere di n all’infinito, ovvero nel caso limite in cui n=N, è evidente che la
dispersione si annulla completamente. Ciò si deduce matematicamente, ma anche
pensando al fatto che se si rileva l’intera popolazione l’unico valore medio che si riscontra
è proprio il valore μ della popolazione.
b. Campionamento senza ripetizione
In questo caso l’estrazione di un’unità campionaria è tale che ad ogni estrazione
non è possibile rilevare un’unità di quelle estratte in precedenza. Vi è quindi dipendenza tra
le diverse estrazioni effettuate.
Si prova dunque che:
( )=μ
( ) = −
−1
, minore di 1, sta a significare che l’estrazione senza
ove il fattore correttivo
ripetizione genera una minore dispersione rispetto a quella bernoulliana. Tuttavia quando
N si discosta molto da n il fattore correttivo si avvicina all’unità.
c. Campionamento in blocco
Nell’ipotesi di estrazione in blocco si riducono i possibili campioni estraibili
rispetto al campionamento senza ripetizione, ma restano validi i seguenti risultati:
( )=μ
( ) = −
−1
il che significa che è indifferente parlare dell’uno o dell’altro campionamento ai fini della
dispersione dei possibili valori della media campionaria rispetto alla media della
popolazione.
1B. Distribuzione campionaria della proporzione
Consideriamo il caso di popolazioni dicotomiche, cioè di variabili X che possono
assumere solo i valori 1 e 0, a seconda che si verifichi o meno l’evento in esame.
2
Ipotizziamo quindi un’estrazione con ripetizione (cioè bernoulliana), e riprendiamo
dalle precedenti lezioni i risultati della media e della varianza della v.c. di Bernoulli, in cui
valevano le seguenti:
( )=
2
(X) = p (1-p)
ove questa volta si è sostituito Π con p, e si ottiene:
( ̂) =
( ̂ ) = (1 − )
in cui ̂ è la proporzione campionaria e coincide con la media campionaria (trattandosi
appunto di fenomeno dicotomico).
Esempio
Si costruiscano le distribuzioni campionarie della media, considerando i primi 5 numeri
naturali, con n=2, e si verifichi che valgono i risultati sopra riportati nei diversi tipi di
campionamento analizzati.
2. Forma delle distribuzioni campionarie e teorema del
limite centrale
Finora non si è detto nulla sulla forma delle distribuzioni campionarie esaminate.
Consideriamo allora il caso della distribuzione campionaria della media.
Se il fenomeno X si distribuisce secondo una curva normale, allora anche la
distribuzione campionaria della media avrà una distribuzione normale, qualunque sia il
valore di n.
Se il fenomeno oggetto di studio non si distribuisce normalmente, allora non è
possibile affermare quanto detto in precedenza.
Tuttavia se il campione presenta numerosità elevata, cioè n è sufficientemente grande
(di solito si considera n>100), si ricorre al Teorema del limite centrale. Esso afferma che
quando è dato un campione di numerosità elevata, tratto da una popolazione con
2
distribuzione qualsiasi, dove sono note media μ e varianza , si ha che la distribuzione
della media campionaria ha una forma approssimativamente normale.
3
3. Stimatori e metodi di stima puntuale
Si supponga che la caratteristica della popolazione che si intende stimare sia
rappresentabile con una v.c. X, avente funzione di probabilità o di densità di probabilità,
che dipende da uno o più parametri incogniti.
In tal caso, lo stimatore del parametro θ è definito come segue:
= (
,
,…,
)
ovvero è una formula mediante la quale si stima il parametro incognito utilizzando le
informazioni campionarie.
Il valore assunto dallo stimatore in corrispondenza di un dato campione:
X1= x1 , X2= x2 , …, Xn= xn
si denota con
e viene chiamato stima del parametro θ.
In pratica, lo stimatore è una variabile casuale, mentre la stima è un numero (cioè
una determinazione della variabile casuale).
Esistono diversi metodi di stima puntuale dei parametri. Tra questi riportiamo il
metodo della massima verosimiglianza (ML) e il metodo dei momenti.
3.1. Metodo di massima verosimiglianza (ML)
Definita la funzione di massima verosimiglianza L(x, θ) con la produttoria che
segue:
( ! , )
ove l’elemento generico della produttoria rappresenta la funzione di densità di probabilità
di una data popolazione, mentre le xi indicano le osservazioni campionarie, il metodo
consiste nell’individuare il valore del parametro incognito che rende massima la funzione
L(x, θ). Se questa funzione è derivabile, allora si procede ponendo uguali a zero le derivate
parziali della funzione L(x, θ) rispetto a ciascuno dei parametri incogniti e risolvendo il
sistema che ne deriva.
Nel caso di una funzione di densità di probabilità con un solo parametro si ha
semplicemente un’equazione da risolvere. In questo caso, una volta individuato il valore
del parametro che annulla la derivata prima, occorre verificare che la derivata seconda sia
minore di zero nel punto in cui la derivata prima si è annullata (trattandosi appunto di un
“punto di massimo”).
Essendo il logaritmo una funzione monotona crescente, capita molto spesso di
considerare al posto della funzione L(x, θ) la sua trasformazione logaritmica, nota come
funzione di log-verosimiglianza. Risulta infatti più agevole il calcolo delle derivate parziali
di quest’ultima funzione.
4
Metodo dei momenti
Se i parametri da stimare sono h, tale metodo consiste nell’uguagliare i primi h
momenti della popolazione con i corrispondenti momenti campionari, purchè esistano tali
momenti “rispetto all’origine”, e nel risolvere il sistema di h equazioni che ne deriva.
Anche in questo caso, nel caso di una funzione di densità di probabilità con un
solo parametro si ha semplicemente un’equazione da risolvere (E(X)= media campionaria).
Esempi
1. La durata di vita X di una particella radioattiva ha distribuzione esponenziale di
parametro ω , con funzione di densità
f ( x) =
1
ω
e
−
x
ω
, con x > 0 e ω > 0 . Avendo
osservato il seguente campione casuale semplice:
x = (4.518, 4.329, 5.476, 5.455, 6.264, 4.277)
in cui i dati sono espressi in secondi, determinare la stima di massima verosimiglianza del
parametro ω .
Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli Editore,
Torino 1998)
Soluzione
Si determini la funzione di log-verosimiglianza e si ponga uguale a zero la sua derivata
prima rispetto al parametro incognito. Una volta trovato lo stimatore, si sostituiscano in
esso i valori campionari rilevati.
2. Il direttore di una banca di una piccola città intende investigare la proporzione di
depositanti che vengono pagati mensilmente. Per compiere tale studio vengono scelti in
modo casuale 200 depositanti e, di questi, 23 affermano di essere pagati mensilmente.
Trovare la stima della proporzione reale di depositanti che vengono pagati mensilmente.
Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli
Editore, Torino 1998
Soluzione
Si proceda come nel caso precedente, tenendo presente che la v.c. di riferimento per il
fenomeno in esame è la bernoulliana.
5