Test delle ipotesi e intervallo di confidenza (sw, cap. 5) Avendo definito la distribuzione campionaria per 1 e 0 possiamo costruire - la statistica t (t-statistic) nel test di ipotesi - un intervallo di confidenza per 1 e 0 5-1 Di seguito il nostro oggetto di interesse sara’ 1 , ma gli stessi risultati valgono per 0 . Yi = 0 + 1Xi + ui, i = 1,…, n osservazioni campionarie 1 = Y/X (effetto causale) Assunzioni per la stima OLS 1. E(u|X = x) = 0 la media degli altri fattori rappresentati da u, non inclusi nel modello, e’ pari a zero. Questi altri fattori non sono legati alla X. 5-2 2. (Xi,Yi), i =1,…,n, sono i.i.d. Campionati casualmente. 3. Grandi outliers sono rari Sotto queste assunzioni esiste la distribuzione campionaria per ˆ distribuita come una normale (N grande) 1 ˆ1 N ( 1 ; 2 ) 1 5-3 Test delle ipotesi ed errori standard (Standard Error) per ˆ1 (Section 5.1) L’ errore standard avra’ a che fare vedremo con la varianza campionaria dei parametri ad esempio di ˆ1 : 2 1 Ricordiamo la stima AWE = 696.7 + 9.6 AGE 5-4 1. Potrei voler testare la significativita’ statistica del coefficiente ˆ , ovvero l’ ipotesi ˆ = 0. Se questa ipotesi 1 1 fosse vera avrei che X non influenza Y. NB: a fronte di una stima puntuale che pare diversa da zero, ad es. ˆ = 9.6 tale stima ha una variabilita’/ incertezza legata 1 alla varianza del coefficiente ( 1 ) che implica che potrei 2 accettare l’ ipotesi ˆ1 = 0. 5-5 2. Altro tipo di ipotesi che potrebbero essere di mio interesse e’ ˆ = valore noto, ad esempio ˆ = 10 1 1 In generale esistono due tipi di test delle ipotesi: Ipotesi nulla con ipotesi alternativa bilaterale H0: ˆ1 = 1 vs. H1: ˆ1 1 dove 1,0 e’ il valore che voglio sottoporre a verifica (ad esempio, suggerito dal modello teorico/economico), che puo’ 5-6 essere come abbiamo visto ˆ1 = 1 o anche il caso particolare ˆ = 0 1 Ipotesi nulla con ipotesi alternativa unilaterale H0: ˆ1 = 1,0 vs. H1: ˆ1 < 1,0 A noi interessa il primo tipo! Utile per rispondere ai casi 1 e 2 fatti prima!!! Devo costruire una statistica t-statistic, (che e’ un numero) e confrontarla con il valore critico della N(0,1), se N grande (N > 30)!!! 5-7 stima valore ipotizzato ˆ1 1 t errore standar della stima SE ( ˆ1 ) SE e’ la radice quadrata della varianza campionaria stimata di ˆ1 : ˆ 2 ˆ1 2 ˆ N ( ; Ricordate che 1 1 ) 1 5-8 Formula per l’ errore standard del parametro SE( ˆ1 ) 1 n 2 2 ( X X ) ui i 1 n2 1 2 ˆ ˆ ˆ = varianza campionaria di 1 1 1 n n 2 2 (Xi X ) n 1 SE( ˆ1 ) = ˆ 2ˆ = errore standard (standard error) di ˆ1 1 Il numeratore ha a che fare con la varianza degli errori/residui u e il denominatore stima la var(X). 5-9 Dividiamo n – 2 perche’ devo aggiustare i gradi di liberta’ perche’ sono stati stimati due coefficienti 0 e 1. SE( ˆ1 ) e’ calcolato da Gretl o altro software TEST IPOTESI GENERALE Per testare H0: 1 = 1 v. H1: 1 1 Construisco la statistica t ˆ1 1,0 t= SE ( ˆ1 ) 5-10 Rigetto la ipotesi nulla se al 5% di livello di significativita’ la |t| > 1.96 (valore critico della normale per usare questo valore critico devo avere n = 50 (anche 30 puo’ bastare) TEST IPOTESI per la significativita’ del parametro (CASO PARTICOLARE) Per testare H0: 1 = 0 vs. H1: 1 0 Construisco la statistica t 5-11 ˆ1 0 t= SE ( ˆ1 ) Rigetto la ipotesi nulla se al 5% la |t| > 1.96 (1.96 e’ il valore critico della normale per usare questo valore critico devo avere n = 50 (anche 30 puo’ bastare) NB: potrei anche usare un valore critico per un livello significativita’ del test dell’ 1% o del 10% NB: se N < 30-50 devo usare le tavole della distribuzione t-student e trovare il valore critico al 5% appropriato!!!!!! 5-12 Vedi pag. 150 del manuale. 5-13 Esempio: Test Scores e STR TestScore = 698.9 – 2.28STR SE( ˆ0 ) = 10.4 SE( ˆ1 ) = 0.52 Voglio testare H0: 1 = 0 vs. H1: 1 0 Se la |t| > valore critico della normale, RIGETTO H0: Construisco la statistica t ˆ1 0 t= SE ( ˆ1 ) 2.28 0 nel caso specifico t = = –4.38 0.52 5-14 Prendo il valore assoluto della t che e’ t = 4.38 > del valore critico della normale sia al 5% che all’ 1% Al livello di significativita’ del 5% il valore critico e’ 1.96 All’ 1% il vc e’ 2.58, Rigetto quindi la nulla in entrambi i casi!!!! L’ inclinazione della regressione e’ statisticamente diversa da zero, o significativa, la X e’ importante per spiegare la Y. 5-15 NB: Gretl fornisce sempre una stima per 1, il suo errore standard SE( ˆ ), e anche una statistica t per la significativita’ 1 ˆ1 0 di 1 ovvero t = SE ( ˆ1 ) NB: la stessa cosa per l’ intercetta Se voglio testare invece che il parametri assuma particolari valori H0: 1 = 1,0 v. H1: 1 1,0, Devo construire io la statistica t ˆ1 1,0 t= SE ( ˆ1 ) o impostare il test in Gretl. 5-16 L’ intervallo di confidenza per un coefficiente di regressione (Section 5.2) Abbiamo due definizione per l’ intervallo di confidenza al 95% che sono equivalenti 1. e’ l’ insieme di tutti i valori di 1 che non possono essere rigettati da un test delle ipotesi bilaterale al 5% di livello di significativita’; 2. e’ un intervallo che ha probabilita’ del 95% di contenere il valore 1 5-17 Intervallo di confidenza del 95% 1 = { ˆ1 1.96SE( ˆ1 )} Intervallo confidenza per l’ esempio: Test Scores e STR TestScore = 698.9 – 2.28STR SE( ˆ ) = 10.4 SE( ˆ ) = 0.52 0 1 95% confidence interval for ˆ1 : 5-18 { ˆ1 1.96SE( ˆ1 )} = {–2.28 1.960.52} Gli estremi dell’intervallo = (–3.30, –1.26), nota che contengono la stima puntuale -2.28 !!! Concludo L’ intervallo di confidenza al 95% non contiene lo zero equivalentemente L’ ipotesi nulla 1 = 0 e’ rigettata al 5% L.S 5-19 Concludo: il parametro stimato e’ significativamente diverso da zero E’ un modo alternativo di condurre test delle ipotesi Intervallo di confidenza per gli effetti stimati di una variazione della X Supponiamo di far variare X di un dato ammontare ΔX La variazione associata in Y e’: 1 ΔX 5-20 I due estremi dell’ intervallo di confidenza per il parametro ˆ stimato 1 sono: ˆ1 - 1.96SE( ˆ1 ) ˆ1 + 1.96SE( ˆ1 ) ˆ - 1.96SE( ˆ ), il valore predetto di una 1 Per l’ estremo 1 variazione di X e’ ˆ1 - 1.96SE( ˆ1 )ΔX 5-21 Per l’ altro estremo ˆ1 + 1.96SE( ˆ1 ) sara’ invece ˆ1 + 1.96SE( ˆ1 ) ΔX Esempio Il provveditore vuole ridurre di 2 unita’ il rapporto studenti – insegnanti: ΔX = - 2 • L’ intervallo di confidenza al 95% per ˆ1 era (-3.30, -1.26) L’ effetto sul test della variazione di 2 unita’ puo’ quindi variare tra -3.30 * (-2) = 6.60 e -1.26 *(-2) = 2.52. 5-22 • L’ intervallo di confidenza al 95% per ΔX e’ (2.52, 6.60) Conclusione. L’ incremento atteso del rendimento nel caso di una riduzione di 2 unita’ la dimensione delle classi varia tra 2.52 e 6.60 con un livello di confidenza del 95% Esercizio Si consideri la seguente regressione (in parte da esercizio 5.1 pag. 153), N = 100 Test = 520.4 – 5.82 CS (20.4) (2.21) 5-23 Tra parentesi abbiamo gli ES dei parametri stimati CS e’ la dimensione classi Test e’ il rendimento scolastico ˆ 1. commentate il coefficiente 1 : la stima puntuale ˆ ̂ 0 2. si scriva il rapporto t (statistica t) per 1 e ̂ 3. testate l’ipotesi H0: 0 = 0 al 5% LS usando il rapporto t ̂ 0 )= 25.51 > vc 1.96 rigetto la nulla l’intercetta e’ t( significativamente diversa da zero 5-24 t ( ˆ1 ) = -2.63, considerando il valore assoluto = 2.63 >1.96 rigetto la nulla l’inclinazione e’ significativamente diversa da zero X influenza significativamente la Y. La dimensione classi influenza significativamente il rendimento ˆ = 0 al 5% LS usando il rapporto t testate l’ipotesi H : 0 1 4. ˆ t = -0.1 < 1.96 accetto la nulla, 1 non e’ significativamente diverso da -5.6 5-25 ˆ = -5.6 al 5% LS usando il rapporto testate l’ipotesi H : 0 1 5. t 6. calcolate l’ intervallo di confidenza al 95% per C estremi (-10.15; -1.49) ̂ 0 calcolate l’ intervallo di confidenza al 95% per 7. estremi (480,4; 569,4) 8. con tali intervalli di confidenza e’ possibile rispondere ai punti 3, 4, 5 sopra? Argomentate 8.1) lo zero non e’ mai incluso nei due intervalli di confidenza e questo conferma quanto trovato ai punti 3 e 4 5-26 ˆ 8.2) -5.6 e’ incluso nell’ intervallo per 1 , quindi confermo quanto trovato al punto 5 9. se N = 20 cosa cambia? Devo usare i valori critici della t student non quelli della normale. Quindi al 5% non avrò più 1.96!!!! ma il valore critico al 5% della t – student e’ 2.09 REGOLA del P- value (e statistica t) Se p value< 0.05 rigetto la nulla al 5% 5-27 The p-value based on the large-n standard normal approximation to the t-statistic is 0.00001 (10–5) 5-28 5-29 5-30