Metodi statistici per l’economia (Prof. Capitanio) Slide n. 9 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 TEST D’IPOTESI Partiamo da un esempio presente sul libro di testo. Si vuole verificare se dopo una campagna pubblicitaria il fatturato medio (in migliaia di euro) sia aumentato rispetto a quello dell’anno precedente pari a . Supponiamo che la varianza del fatturato sia nota, e pari a σ 2 = 1296 . Si estrae un campione casuale di 81 clienti Il fatturato medio calcolato sui dati campionari è x 81 = 2510 COSA POSSIAMO CONCLUDERE? 2 Abbiamo solo i dati del campione: usiamo la v.c. Normale come modello per la distribuzione del fatturato (nella popolazione). Quindi X N ( µ ; σ 2 = 1296) Siamo interessati al valore “vero” del fatturato medio di quest’anno; in particolare ci chiediamo se è aumentato rispetto allo scorso anno. Se il fatturato medio è rimasto invariato (ovvero se la campagna pubblicitaria non è servita a farlo aumentare), allora il campione che abbiamo osservato proviene da una N ( µ = 2500; σ 2 = 1296) , e la stima osservata per la media è una realizzazione della v.c. X n N (2500;1296 / 81) . Quanto è plausibile osservare x = 2510 se l’ipotesi che abbiamo fatto è vera? 3 N(2500;1296/81) Si tratta di un valore incluso in un intervallo di valori poco probabili, e quindi potremmo concludere che il valore osservato è poco plausibile sotto l’ipotesi che il fatturato medio non è aumentato. Formalizziamo un po’ meglio. 4 Abbiamo formulato una Ipotesi statistica: congettura riguardante un parametro θ della popolazione. Ci muoveremo nell’ambito dei: Test parametrici - L’ipotesi riguarda uno o più parametri della distribuzione di probabilità della popolazione. Seguiremo l’impostazione data da J.Neyman e E.S.Pearson, nota come test d’ipotesi, che prevede la formulazione di due ipotesi • un’ipotesi detta ”nulla”, indicata con H 0 • un’ipotesi alternativa, che indicheremo con H 1 OBIETTIVO Attraverso un campione di osservazioni stabilire, con un prefissato grado di attendibilità, se poter rifiutare o meno l’ipotesi nulla a favore dell’ipotesi alternativa. 5 TEST STATISTICO Possiamo definirlo come una procedura che permette di discriminare i campioni che portano all’accettazione dell’ipotesi nulla da quelli che portano al suo rifiuto. Un test si basa sul valore assunto da una statistica test, ovvero una statistica campionaria la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla H 0 . X N ( µ ; σ 2 = 1296) X n N (2500;1296 / 81) 6 α = 0.05 zona di accettazione 2506.579 zona di rifiuto Ci sono valori inferiori a 2500 che possono essere osservati con bassa probabilità, e quindi poco plausibili se è vera, però sono altrettanto poco plausibili se è vera . I campioni che portano al rifiuto di in favore di saranno scelti fra quelli che danno luogo a medie campionarie maggiori di 2500. Scegliamo un “valore critico”. Ad esempio, se scegliamo 2506.579, α =0.05 è la probabilità di osservare valori superiori a 2506.579 quando è vera, e definisce il grado di attendibilità del rifiuto di in favore di . 7 I valori critici definiscono la zona di accettazione e dipendono da α , detto “livello di significatività del test”. Maggiore è il suo valore, più ampia sarà la regione di rifiuto. La regione di rifiuto dipende dalla formulazione dell’ipotesi alternativa. Alcuni esempi: ⎧ H : θ =θ ⎧ H : θ =θ ⎧ H : θ =θ ⎪ 0 ⎪ 0 ⎪ 0 0 0 0 ⎨ ⎨ ⎨ ⎪⎩ H1 : θ > θ 0 ⎪⎩ H1 : θ < θ 0 ⎪⎩ H1 : θ ≠ θ 0 α non rifiuto rifiuto α rifiuto α /2 α /2 non rifiuto rifiuto non rifiuto rifiuto 8 Operativamente si procede secondo i seguenti passi: - Si formulano l’ipotesi nulla e l’ipotesi alternativa sul parametro di interesse. - Si fissa il livello di significatività α (un valore inferiore a 0.05) - Si sceglie la statistica test da utilizzare e, tenendo conto del valore fissato per α , si determina la zona di rifiuto e la zona di non rifiuto di . - Si seleziona un campione casuale e si calcola il valore della statistica test in corrispondenza del campione: se il valore osservato cade nella zona di rifiuto si rifiuta in favore di , sulla base della logica seguente: Sotto non è impossibile osservare quello che abbiamo osservato, ma è poco probabile (ha probabilità α ). Quindi rifiutiamo in quanto poco plausibile sulla base dell’osservato, attribuendo lo scostamento fra il valore osservato e il valore “vero” del parametro sotto a fattori sistematici e non al solo errore di campionamento. 9 TEST SULLA MEDIA DI POPOLAZIONE (popolazione Normale, varianza nota) X N ( µ;σ 2) X n N ( µ ; σ 2 / n) Conviene lavorare con la media standardizzata Zn = Xn − µ σ/ n N (0;1) ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ > µ0 è vera allora Z n = Se utilizzeremo. X n − µ0 σ/ n N (0;1) , e Z n N (0,1) è la statistica test che ⎧ x−µ ⎫ ⎪ ⎪ 0 ≥ z α ⎬ , ovvero Fissiamo α : il valore critico sarà z α , e la zona di rifiuto R = ⎨x : ⎪⎩ σ / n ⎪⎭ { R = z : z oss ≥ z α } 10 Selezioniamo z oss = x n − µ0 un campione: ≥ z α rifiutiamo se il valore in favore di osservato della statistica test , altrimenti non rifiutiamo , e σ/ n attribuiamo lo scostamento fra valore osservato e µ 0 all’errore di campionamento. α zα 11 ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ < µ0 { R = z : z oss ≤ −z α } α −z α 12 ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ ≠ µ0 { R = z :| z oss |≥ z α /2 α /2 α /2 −z α /2 } z α /2 13 TEST SULLA MEDIA DI POPOLAZIONE (popolazione Normale, varianza non nota) X N ( µ;σ 2) X n N ( µ ; σ 2 / n) sappiamo che Tn = ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ > µ0 è vera allora T n = Se X n − µ0 Xn − µ S/ n t n −1 t n −1 . S/ n La logica di fondo è analoga al caso precedente, cambia solo la distribuzione di ⎧ x−µ ⎫ ⎪ ⎪ 0 ≥ t α ;( n −1) ⎬ , ovvero riferimento: ora la zona di rifiuto è R = ⎨x : ⎪⎩ s / n ⎪⎭ R = t :t oss ≥ t α ;( n −1) { } 14 ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ < µ0 R = t :t oss ≤ −t α ;( n −1) ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ ≠ µ0 R = t :| t oss |≥ t α /2;( n −1) { { } } 15 TEST SULLA MEDIA DI POPOLAZIONE (popolazione non Normale, campione grande) Per grandi campioni possiamo utilizzare risultati asintotici e usare come statistica test Zn = X n − µ0 S/ n N (0,1) ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ > µ0 R = z : z oss ≥ z α ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ < µ0 R = z : z oss ≤ −z α ⎧ H : µ=µ ⎪ 0 0 ⎨ ⎪⎩ H1 : µ ≠ µ0 R = z :| z oss |≥ z α /2 { { { } } } 16 TEST SU UNA PROPORZIONE (campione grande) X Ber (π ) ⎧ H : π =π ⎪ 0 0 ⎨ ⎪⎩ H1 : π > π 0 Si usa la statistica test Z n = fn − π 0 π 0 (1 − π 0 ) che, sotto , ha distribuzione N(0,1). n ⎧ H : π =π ⎪ 0 0 ⎨ ⎪⎩ H1 : π > π 0 R = z : z oss ≥ z α ⎧ H : π =π ⎪ 0 0 ⎨ ⎪⎩ H1 : π < π 0 R = z : z oss ≤ −z α ⎧ H : π =π ⎪ 0 0 ⎨ ⎪⎩ H1 : π ≠ π 0 R = z :| z oss |≥ z α /2 { { { } } } 17