Università degli Studi di Basilicata – Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 10, 12 e 13 giugno 2013 - di Massimo Cristallo - 4. Proprietà degli stimatori Si è visto che quando sono ignoti i parametri di una data popolazione oggetto di indagine, è necessario stimare i medesimi parametri mediante tecniche di stima basate su formule, dette stimatori, che utilizzano le informazioni campionarie. Riportiamo alcune delle proprietà desiderabili per lo stimatore del parametro θ. a) Correttezza Si dice che condizione: è uno stimatore corretto del parametro θ se risulta soddisfatta la seguente E (Θˆ ) = θ cioè se la media di tutte le possibili stime, calcolate con lo stimatore , effettuate con i possibili campioni di dimensione n, risulta uguale al corrispondente parametro della popolazione. Se risulta invece E (Θˆ ) ≠ θ , allora si dice che lo stimatore è distorto e la quantità B (Θˆ ) = E (Θˆ ) − θ indica la distorsione dello stimatore. b) Efficienza Una misura della precisione dello stimatore è fornita in generale dall’errore quadratico medio (MSE), così definito: ( ) MSE(Θˆ ) = E Θˆ - θ 2 Tuttavia se lo stimatore è corretto, l’errore quadratico medio può porsi nella seguente forma: [ ] 2 MSE(Θˆ ) = E Θˆ - E (Θˆ ) = Var (Θˆ ) cioè coincide con la varianza campionaria dello stimatore. Tenuto conto che solitamente si preferiscono stimatori corretti, o comunque stimatori con una distorsione trascurabile all’aumentare dell’ampiezza campionaria n, in realtà per misurare la precisione di uno stimatore si fa riferimento alla sua varianza campionaria piuttosto che all’errore quadratico medio. 1 In generale, dati due possibili stimatori corretti Θˆ 1 e Θˆ 2 del parametro θ , si considera più efficiente o migliore quello che ha la minore varianza campionaria. Se esiste, invece, uno stimatore corretto del parametro θ , la cui varianza campionaria è minore o uguale a quella di un qualsiasi altro stimatore corretto Θˆ * del medesimo parametro θ , allora si dice che è il più efficiente. In altri termini, l’efficienza di si ha quando la dispersione delle stime effettuate con lo stimatore, intorno al valore del parametro ignoto della popolazione di riferimento, al variare dei possibili campioni di dimensione n, è minore rispetto a quella ottenibile con altri stimatori. In letteratura è stato individuato il valore minimo di Var (Θˆ ) solo sotto certe “condizioni di regolarità” di un problema di stima, che in questa sede non si riportano. Tale valore minimo è fornito dal teorema di Cramer-Rao ed è pari al rapporto: 1 − ∂ ln f ( x, θ ) n E ∂θ 2 2 o in alternativa: 1 ∂ ln f ( x, θ ) n E ∂θ 2 quindi se valgono le condizioni di regolarità ed esiste uno stimatore la cui varianza campionaria coincide da una delle due predette espressioni, ove f ( x,θ ) è la funzione di densità di probabilità, allora lo stimatore individuato è il più efficiente. c) Consistenza L’analisi del comportamento dello stimatore al crescere della dimensione n del campione assume notevole importanza. Infatti, se si verifica che all’aumentare di n cresce la probabilità che il parametro stimato coincida con quello della popolazione di riferimento, si dice che lo stimatore è consistente (o coerente). In formule, scriveremo: lim n →∞ Pr( Θˆ n − θ < ε ) = 1 ove Θ̂ n è il generico stimatore ottenuto con un campione di dimensione n ed ε è una quantità piccola e positiva. Esistono altre proprietà che si desidera siano possedute da uno stimatore, come la “sufficienza”, che però in questa sede si tralascia. 2 E’ difficile creare un ordine di importanza delle proprietà degli stimatori. In generale, si preferisce utilizzare stimatori non distorti, pur sapendo che tale proprietà da sola non basta, soprattutto se non vale la proprietà della consistenza. Un metodo molto utilizzato per la scelta di uno stimatore è invece il Best Linear Unbiased Estimator (BLUE), che consiste nella scelta nella classe degli stimatori lineari corretti di θ di quello che presenta la varianza campionaria minima. Un criterio a cui si fa spesso ricorso per scegliere uno stimatore è quello analogico, ovvero si sceglie uno stimatore in base allo stesso tipo di funzione utilizzata nella popolazione. Ad esempio, se si utilizza la media aritmetica campionaria come stimatore analogico della media aritmetica della popolazione è semplice verificare che il suo valore atteso coincide con la media ignota della popolazione, cioè che è soddisfatta la proprietà della correttezza. Ipotizzando un campionamento casuale semplice con ripetizione e considerando (con il criterio analogico) come stimatore della varianza della popolazione la varianza campionaria s 2 , di seguito riportata: n ∑ ( xi − x ) s 2 = i =1 2 n si dimostra facilmente che il valore atteso di s 2 non coincide con la varianza ignota della popolazione: E ( s2 )= n −1 2 σ ≠σ2 n per cui, ponendo: n σˆ 2 = ∑ ( xi − x ) 2 n 2 i =1 s = n −1 n −1 si ottiene, per le proprietà del valore atteso: E ( σˆ 2 ) = σ 2 da cui si desume che la grandezza σ̂ 2 , nota come varianza corretta campionaria, è uno stimatore corretto di σ 2 e di conseguenza può essere usata nel caso di campionamento casuale semplice con ripetizione per stimare la varianza incognita della popolazione. Si fa rilevare, tuttavia, che nell’ipotesi di dimensione campionaria elevata, s 2 e σ̂ 2 assumono valori molto vicini, per cui è indifferente l’utilizzo dell’uno o dell’altro. 3 5. Stima intervallare Si è parlato nelle precedenti lezioni della stima puntuale dei parametri ignoti di una data popolazione. Partendo dallo stimatore puntuale e considerando la sua varianza è possibile costruire una stima intervallare, cioè un intervallo di confidenza che contiene il parametro oggetto d’indagine con una probabilità assegnata P =1 − α (detta livello di confidenza o di fiducia), ove α è il livello di significatività e fornisce il rischio che si corre nel confidare che l’intervallo stimato contenga il parametro incognito della popolazione. Se è nota la forma della distribuzione campionaria dello stimatore , per individuare l’intervallo di confidenza del parametro ignoto θ occorre individuare i suoi estremi θ̂1 e θ̂ 2 in modo che risulti soddisfatta la seguente condizione: ( ) Pr θˆ1 <θ < θˆ 2 = 1 − α Se si fissa il valore di α esistono infinti intervalli che soddisfano la precedente condizione; si dimostra tuttavia che per distribuzioni campionarie simmetriche (anche approssimativamente) l’intervallo migliore (cioè quello con l’ampiezza minore) è quello centrato intorno alla stima puntuale. E’ importante osservare a questo punto che la stima mediante intervallo di confidenza è tanto migliore quanto minore è la sua ampiezza. E’ evidente, infatti, che ai fini del problema di stima avrebbe poco senso dire, ad esempio, che la media delle stature (espresse in cm) degli studenti iscritti al corso di laurea in economia aziendale di una data Università è contenuta nell’intervallo [155, 195] con una probabilità pari a 0,999999. Spieghiamo meglio quanto detto al punto precedente. Aumentando il livello di fiducia P =1 − α aumenta l’ampiezza dell’intervallo e si annulla quasi il rischio di trovare un intervallo che non contenga il valore incognito del parametro della popolazione. La riduzione del rischio di commettere una stima errata paga cioè il prezzo di avere un intervallo così ampio che non dà alcuna informazione utile. Per le ragioni appena dette, i valori che di solito si attribuiscono ad α sono 0,05 o 0,01, per cui gli intervalli di confidenza contengono il parametro ignoto che si vuole stimare con una probabilità pari rispettivamente a 0,95 e 0,99. Riportiamo di seguito alcuni degli intervalli di confidenza della media e della frequenza relativa (proporzione) della popolazione, nell’ipotesi “realistica” in cui σ 2 è ignoto. a) Intervallo di confidenza per la media µ nel caso di grandi campioni (n>100) Sfruttando il teorema del limite centrale, si ha il seguente intervallo: s s , x + z( α / 2 ) x − z( α / 2 ) n −1 n −1 ove i valori z( α / 2 ) della variabile normale standardizzata sono tabulati. 4 b) Intervallo di confidenza per la media µ nel caso di piccoli campioni. Se la variabile X è distribuita secondo una curva normale, e non si conosce σ 2 , l’intervallo diventa: s s x − tn−1( α / 2 ) n − 1 , x + tn−1( α / 2 ) n − 1 ove i valori t n−1( α / 2 ) della variabile T di Student sono tabulati. c) Intervallo di confidenza per la proporzione (o frequenza relativa) p nel caso di grandi campioni (n>100) p̂ ( 1 − p̂ ) p̂ ( 1 − p̂ ) , p̂ + z( α / 2 ) p̂ − z( α / 2 ) n n ove i valori z( α / 2 ) della variabile normale standardizzata sono tabulati Nell’ambito della stima intervallare è possibile affrontare anche problemi inversi. Ad esempio, se si fissa l’ampiezza dell’intervallo (pari alla differenza dei suoi due estremi) ed il valore di α , con semplici passaggi matematici è possibile determinare il valore della dimensione campionaria n, fermo restando che sia noto anche s nel caso della media e p̂ nel caso della proporzione. 6. Verifica delle ipotesi con un campione Nell’ambito dell’inferenza statistica capita spesso di trovare problemi di verifica delle ipotesi. Un’ipotesi statistica è una congettura sulla forma della distribuzione di probabilità di una variabile casuale ovvero sul valore del parametro incognito. Nel primo caso si parla di ipotesi funzionale, mentre nel secondo si parla di ipotesi parametrica. Analizziamo ora le ipotesi parametriche nel caso di un campione. L’ipotesi che si vuole sottoporre a verifica, denotata con H0, è detta ipotesi nulla o di base, mentre l’ipotesi alternativa è indicata con H1. Le ipotesi vengono solitamente formulate in base ad informazioni che si possiedono del fenomeno in esame. Esse possono essere semplici o composte, a seconda che si riferiscano ad un unico valore del parametro o ad un insieme di valori. Es. ipotesi semplice H :θ = θ 0 Es. ipotesi composta H :θ ≠ θ 0 5 Per effettuare la verifica delle ipotesi si utilizza il test statistico T, cioè una regola mediante la quale si decide in termini probabilistici, sulla base delle informazioni campionarie, se respingere o meno l’ipotesi H0. Ponendo l’ipotesi nulla H 0 :θ = θ 0 , il test si dice unilaterale se risulta: H 1 :θ < θ 0 oppure H 1 :θ > θ 0 mentre è bilaterale quando si ha: H 1 :θ ≠ θ 0 Si riportano di seguito le fasi da seguire per realizzare una verifica delle ipotesi: i) individuazione della statistica test, cioè di quella funzione delle osservazioni campionarie di cui è nota la distribuzione (campionaria) sotto l’ipotesi nulla H0; ii) definizione della regola di decisione, ovvero della partizione dei valori assunti dalla statistica test in regione critica o di rifiuto di H0 ed in regione di non rifiuto di H0; iii) determinazione del valore empirico del test, attraverso la sostituzione dei dati campionari nella statistica test già individuata; iv) decisione del test, in cui si verifica se il valore empirico di cui al punto iii) cade o meno nella zona di rifiuto. Nel primo caso si rifiuta l’ipotesi nulla e il test è detto significativo, mentre nel secondo non si rifiuta H0. Il test ideale è infatti quello che rifiuta l’ipotesi H0 quando è falsa. Nel test delle ipotesi si possono commettere due tipi di errori: a) di prima specie, se rifiuto l’ipotesi H0 quando in realtà essa è vera. La probabilità di commettere tale errore si denota con α ; b) di seconda specie, se non rifiuto l’ipotesi H0 quando in realtà essa è falsa. La probabilità di commettere tale errore si denota con β . Sarebbe opportuno ridurre congiuntamente entrambe gli errori α e β , ma purtroppo si dimostra che ciò non è possibile; fissata la dimensione campionaria n tra i due errori esiste una relazione inversa, cioè all’aumentare dell’uno diminuisce l’altro. La riduzione di entrambi gli errori si potrebbe avere soltanto aumentando la dimensione del campione. Considerato allora che α è ritenuto l’errore più grave, solitamente la regione critica o di rifiuto del test viene individuata fissando il valore di α (che rappresenta il livello di significatività del test) e minimizzando l’errore β . La probabilità di respingere giustamente l’ipotesi nulla H0 è data da (1 − β ) ed è chiamata potenza del test. In definitiva, una volta stabilite le ipotesi “nulla” e “alternativa”, a seconda del tipo di problema, si fissa il valore di α , si sceglie la statistica test appropriata al caso in esame e si 6 individua la regione critica di dimensione α in modo da rendere minimo β (cioè il test più potente). Riportiamo di seguito alcuni problemi di verifica delle ipotesi con le relative statistiche test, anche in questo caso nell’ipotesi realistica in cui non si conosce σ 2 . Verifica delle ipotesi della media nel caso di grandi campioni (n>100) Se il problema è così formulato (test bilaterale): H 0 : µ = µ0 H1 : µ ≠ µ 0 la statistica test da utilizzare è la “normale standardizzata”: z= x − µ0 s n −1 mentre la regione critica, fissato il valore di α , è fornita dal seguente insieme: {z ∈ R : z < − z(α 2) ∪ z > z (α 2) } ove si ricorda i valori di z (α 2) sono tabulati. Si rifiuta l’ipotesi nulla H0 se il valore empirico del test, calcolato con i dati campionari, cade nella sopra indicata regione critica. Nel caso di test unilaterale, ad esempio: H 0 : µ = µ0 H1 : µ > µ0 la statistica test rimane la stessa, mentre la zona critica diventa: {z ∈ R : z > z(α ) } cioè la zona di rifiuto si concentra soltanto su una delle due code della distribuzione. Verifica delle ipotesi della media nel caso di piccoli campioni Se il fenomeno in esame (cioè la variabile X) si distribuisce secondo una curva normale, ma non è noto il valore di σ 2 , la statistica test da utilizzare è la t di Student con (n-1) gradi di libertà: 7 t= x − µ0 s n −1 Se il problema è così formulato (test bilaterale): H 0 : µ = µ0 H1 : µ ≠ µ 0 la regione critica, fissato il valore di α , è fornita dal seguente insieme: {t ∈ R : t < − t n−1 (α 2) ∪ t > t n −1 (α 2 ) } ove i valori di t n−1 (α 2 ) sono tabulati al variare dei gradi di libertà. Anche in questo, ovviamente, si rifiuta l’ipotesi nulla H0 se il valore empirico del test, calcolato con i dati campionari, cade nella regione critica. Nel caso di test unilaterale, ad esempio: H 0 : µ = µ0 H1 : µ > µ0 la statistica test rimane la stessa, mentre la zona critica diventa: {t ∈ R : t > t n−1 (α ) } Verifica delle ipotesi della proporzione (o frequenza relativa) nel caso di grandi campioni (n>100) Se il problema è così formulato (test bilaterale): H 0 : p = p0 H 1 : p ≠ p0 la statistica test da utilizzare è la seguente: z= p̂ − p0 p 0 (1 − p 0 ) n mentre la regione critica, fissato il valore di α , è fornita dal seguente insieme: {z ∈ R : z < − z(α 2) ∪ z > z (α 2) } 8 Si rifiuta l’ipotesi nulla H0 se il valore empirico del test, calcolato con i dati campionari, cade nella regione di rifiuto. Nel caso di test unilaterale, ad esempio: H 0 : p = p0 H 1 : p < p0 la statistica test rimane la stessa, mentre la zona critica diventa: {z ∈ R : z < − z(α ) } . 9