Università degli Studi di Basilicata – Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie Nei problemi di inferenza statistica si traggono conclusioni su una o più caratteristiche dell’intera popolazione osservando le medesime caratteristiche in un campione di numerosità n. In realtà, pur rilevando un solo campione è importante conoscere le proprietà della caratteristica in esame al variare dei possibili campioni di ampiezza n estraibili dalla popolazione (di numerosità N) data una tecnica prescelta. Definiamo statistica una funzione dei dati di un campione casuale. Una statistica è quindi una variabile casuale, e come tale è possibile considerare la sua distribuzione di probabilità, detta distribuzione campionaria della statistica. 1A. Distribuzione campionaria della media Sia (X1, X2, …, Xn) un campione casuale estratto da una popolazione qualsiasi avente media μ e varianza 2, entrambe finite, considerando la seguente statistica “media campionaria” : + +… + è ovvio che essa assume valore diverso a seconda del campione prescelto. La distribuzione che associa a ciascuna delle possibili medie campionarie la relativa probabilità di verificarsi costituisce la distribuzione campionaria della media. Tale distribuzione ha media e varianza che dipendono dal tipo di campionamento utilizzato. a. Campionamento con ripetizione (o bernoulliano) L’estrazione con ripetizione delle unità campionarie equivale ad ipotizzare che le Xi sono indipendenti ed ugualmente distribuite. In tal caso si prova facilmente che: ( )=μ ( ) = 1 cioè la distribuzione della media campionaria è centrata intorno alla media della popolazione, con dispersione dei suoi possibili valori intorno alla medesima media che diminuisce al crescere dell’ampiezza campionaria. Al tendere di n all’infinito, ovvero nel caso limite in cui n=N, è evidente che la dispersione si annulla completamente. Ciò si deduce matematicamente, ma anche pensando al fatto che se si rileva l’intera popolazione l’unico valore medio che si riscontra è proprio il valore μ della popolazione. b. Campionamento senza ripetizione In questo caso l’estrazione di un’unità campionaria è tale che ad ogni estrazione non è possibile rilevare un’unità di quelle estratte in precedenza. Vi è quindi dipendenza tra le diverse estrazioni effettuate. Si prova dunque che: ( )=μ ( ) = − −1 , minore di 1, sta a significare che l’estrazione senza ove il fattore correttivo ripetizione genera una minore dispersione rispetto a quella bernoulliana. Tuttavia quando N si discosta molto da n il fattore correttivo si avvicina all’unità. c. Campionamento in blocco Nell’ipotesi di estrazione in blocco si riducono i possibili campioni estraibili rispetto al campionamento senza ripetizione, ma restano validi i seguenti risultati: ( )=μ ( ) = − −1 il che significa che è indifferente parlare dell’uno o dell’altro campionamento ai fini della dispersione dei possibili valori della media campionaria rispetto alla media della popolazione. 1B. Distribuzione campionaria della proporzione Consideriamo il caso di popolazioni dicotomiche, cioè di variabili X che possono assumere solo i valori 1 e 0, a seconda che si verifichi o meno l’evento in esame. 2 Ipotizziamo quindi un’estrazione con ripetizione (cioè bernoulliana), e riprendiamo dalle precedenti lezioni i risultati della media e della varianza della v.c. di Bernoulli, in cui valevano le seguenti: ( )= 2 (X) = p (1-p) ove questa volta si è sostituito Π con p, e si ottiene: ( ̂) = ( ̂ ) = (1 − ) in cui ̂ è la proporzione campionaria e coincide con la media campionaria (trattandosi appunto di fenomeno dicotomico). Esempio Si costruiscano le distribuzioni campionarie della media, considerando i primi 5 numeri naturali, con n=2, e si verifichi che valgono i risultati sopra riportati nei diversi tipi di campionamento analizzati. 2. Forma delle distribuzioni campionarie e teorema del limite centrale Finora non si è detto nulla sulla forma delle distribuzioni campionarie esaminate. Consideriamo allora il caso della distribuzione campionaria della media. Se il fenomeno X si distribuisce secondo una curva normale, allora anche la distribuzione campionaria della media avrà una distribuzione normale, qualunque sia il valore di n. Se il fenomeno oggetto di studio non si distribuisce normalmente, allora non è possibile affermare quanto detto in precedenza. Tuttavia se il campione presenta numerosità elevata, cioè n è sufficientemente grande (di solito si considera n>100), si ricorre al Teorema del limite centrale. Esso afferma che quando è dato un campione di numerosità elevata, tratto da una popolazione con 2 distribuzione qualsiasi, dove sono note media μ e varianza , si ha che la distribuzione della media campionaria ha una forma approssimativamente normale. 3 3. Stimatori e metodi di stima puntuale Si supponga che la caratteristica della popolazione che si intende stimare sia rappresentabile con una v.c. X, avente funzione di probabilità o di densità di probabilità, che dipende da uno o più parametri incogniti. In tal caso, lo stimatore del parametro θ è definito come segue: = ( , ,…, ) ovvero è una formula mediante la quale si stima il parametro incognito utilizzando le informazioni campionarie. Il valore assunto dallo stimatore in corrispondenza di un dato campione: X1= x1 , X2= x2 , …, Xn= xn si denota con e viene chiamato stima del parametro θ. In pratica, lo stimatore è una variabile casuale, mentre la stima è un numero (cioè una determinazione della variabile casuale). Esistono diversi metodi di stima puntuale dei parametri. Tra questi riportiamo il metodo della massima verosimiglianza (ML) e il metodo dei momenti. 3.1. Metodo di massima verosimiglianza (ML) Definita la funzione di massima verosimiglianza L(x, θ) con la produttoria che segue: ( ! , ) ove l’elemento generico della produttoria rappresenta la funzione di densità di probabilità di una data popolazione, mentre le xi indicano le osservazioni campionarie, il metodo consiste nell’individuare il valore del parametro incognito che rende massima la funzione L(x, θ). Se questa funzione è derivabile, allora si procede ponendo uguali a zero le derivate parziali della funzione L(x, θ) rispetto a ciascuno dei parametri incogniti e risolvendo il sistema che ne deriva. Nel caso di una funzione di densità di probabilità con un solo parametro si ha semplicemente un’equazione da risolvere. In questo caso, una volta individuato il valore del parametro che annulla la derivata prima, occorre verificare che la derivata seconda sia minore di zero nel punto in cui la derivata prima si è annullata (trattandosi appunto di un “punto di massimo”). Essendo il logaritmo una funzione monotona crescente, capita molto spesso di considerare al posto della funzione L(x, θ) la sua trasformazione logaritmica, nota come funzione di log-verosimiglianza. Risulta infatti più agevole il calcolo delle derivate parziali di quest’ultima funzione. 4 Metodo dei momenti Se i parametri da stimare sono h, tale metodo consiste nell’uguagliare i primi h momenti della popolazione con i corrispondenti momenti campionari, purchè esistano tali momenti “rispetto all’origine”, e nel risolvere il sistema di h equazioni che ne deriva. Anche in questo caso, nel caso di una funzione di densità di probabilità con un solo parametro si ha semplicemente un’equazione da risolvere (E(X)= media campionaria). Esempi 1. La durata di vita X di una particella radioattiva ha distribuzione esponenziale di parametro ω , con funzione di densità f ( x) = 1 ω e − x ω , con x > 0 e ω > 0 . Avendo osservato il seguente campione casuale semplice: x = (4.518, 4.329, 5.476, 5.455, 6.264, 4.277) in cui i dati sono espressi in secondi, determinare la stima di massima verosimiglianza del parametro ω . Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli Editore, Torino 1998) Soluzione Si determini la funzione di log-verosimiglianza e si ponga uguale a zero la sua derivata prima rispetto al parametro incognito. Una volta trovato lo stimatore, si sostituiscano in esso i valori campionari rilevati. 2. Il direttore di una banca di una piccola città intende investigare la proporzione di depositanti che vengono pagati mensilmente. Per compiere tale studio vengono scelti in modo casuale 200 depositanti e, di questi, 23 affermano di essere pagati mensilmente. Trovare la stima della proporzione reale di depositanti che vengono pagati mensilmente. Fonte: M. Grigoletto, L. Ventura, Statistica per le scienze economiche, Giappichelli Editore, Torino 1998 Soluzione Si proceda come nel caso precedente, tenendo presente che la v.c. di riferimento per il fenomeno in esame è la bernoulliana. 5