I TEST STATISTICI E IL P-VALUE Obiettivo di questo Learning

I TEST STATISTICI E IL P-VALUE
Obiettivo di questo Learning Object è ripassare la teoria ma soprattutto la pratica dei test statistici,
con un’attenzione particolare ai test che si usano in Econometria. Inoltre, questo Learning Object
intende familiarizzare il lettore con la comprensione dei test statistici forniti dai pacchetti statisticoeconometrici. Insomma, vogliamo capire che cosa è il p-value di un test, e come il p-value si
utilizza per decidere se rifiutare o meno un’ipotesi di interesse.
Il Learning Object è ripartito nei seguenti 3 paragrafi:
1 – BREVE RIPASSO DEI TEST STATISTICI
2 – I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE
3 – ESERCIZI DI ALLENAMENTO
1. BREVE RIPASSO DEI TEST STATISTICI
In generale, per costruire un test statistico abbiamo bisogno di:
(1) un vettore di parametri, generalmente i parametri di un modello di regressione lineare, o i
momenti di una certa popolazione;
(2) un campione di n osservazioni relative a un insieme di individui (dati cross-section) o
osservazioni protratte nel tempo di un certo fenomeno (dati time-series); in entrambi i casi i dati del
campione devono essere interpretati come realizzazioni empiriche di variabili casuali, per questo
quindi abbiamo a che fare con leggi distributive;
(3) un modello statistico (o un modello econometrico) che metta in relazione parametri e
osservazioni di cui ai punti (1) e (2);
(4) l’ipotesi nulla (H0), ovvero un’asserzione circa i valori che i parametri di cui al punto (1) devono
soddisfare se vale una certa teoria o supposizione, e da confrontare con un’ipotesi alternativa (H1);
(5) una statistica test, Sn, ovvero una variabile casuale che è generalmente funzione di uno stimatore
dei parametri del modello, e quindi delle n variabili casuali di cui al punto (1). La statistica test Sn
avrà quindi una certe legge distributiva sotto H0, e una certa legge distributiva sotto H1. Notare che
la legge distributiva di Sn a cui facciamo riferimento può valere, sotto certe condizioni, su piccoli
campioni, però il più delle volte in econometria si fa riferimento alla legge distributiva di Sn in
grandi campioni (cioè quando n tende ad infinito). Quando il test è basato su una distribuzione di Sn
che vale per n grande parleremo di test asintotici. Una volta calcolato il valore della statistica test
sul campione effettivamente osservato, scriveremo Sn = sn ;
(6) il livello di significatività del test (o size, o errore di prima specie) del test, comunemente
indicato con il simbolo α – fissata da chi conduce il test – che dal punto di vista formale
rappresenta: α=Pr(rifiutare H0 | H0) (cioè la probabilità di rifiutare H0 quando H0 è vera, quindi la
probabilità di rifiutare erroneamente H0);
(7) il valore critico (cvα) del test, cioè fissato α di cui la punto (6), il percentile della distribuzione
della statistica test Sn sotto l’ipotesi nulla H0, ovvero la quantità che soddisfa: Pr(Sn > cvα| H0)= α,
o analogamente Pr(Sn ≤ cvα| H0)= 1-α. Si noti che Pr(Sn > cvα | H0)= α = Pr(rifiutare H0 | H0), per
cui l’intervallo (cvα , ∞] è la zona di rifiuto di H0 e di conseguenza [-∞ , cvα] la zona di
accettazione di H0. Si osservi inoltre, che in molti casi facciamo test a due code; in questi casi il
valore critico del test è la quantità che soddisfa: Pr( Sn  ≤ cvα/2| H0)=Pr ( - cvα ≤ Sn ≤ cvα | H0)= 1α. In tal caso [-∞ , -cvα) ∪ (cvα , ∞] è la zona di rifiuto di H0, e [-cvα , cvα] la zona di accettazione
di H0.
Come si fa dal punto di vista pratico il test usando le tavole ?
Dal punto di vista pratico, per decidere tra H0 e H1 si procede nel seguente modo. Si fissa α (ad
esempio α=0.05). Dai dati si calcola il valore osservato della statistica test, cioè Sn = sn. Si
supponga ad esempio di sapere che sotto l’ipotesi nulla la statistica test Sn ha distribuzione tStudent con 3 gradi di libertà. Si supponga inoltre che il test sia a due code (vedi il punto (7) di cui
sopra). Notare che siamo in possesso di tutti e gli elementi elencati sopra nei punti (1)-(7), siamo
quindi in grado di fare il test e decidere se scegliere H0 oppure H1.
A tal fine si calcola dalla tavola della t-Student il cvα/2 (=cv0.025 dato che α=0.05) del test, cioè dalle
Tavole della t-Student con 3 gradi di libertà si prende il valore ±3.182. Ne segue che [-3.182,
+3.182] è la zona di accettazione, mentre [-∞, -3.182)∪(3.182, ∞] è la zona di rifiuto di H0. A
questo punto bisogna capire se il valore di sn cade nella zona di rifiuto o di accettazione di H0. Per
fare ciò si confronta quindi sn con ±3.182 se sn è più grande di 3.182 o più piccolo di -3.182 si
rifiuta H0 e si sceglie H1, altrimenti si sceglie H0.
Più avanti, nel Paragrafo 2 vedremo che utilizzando i software statistico-econometrici il calcolo del
test risulta notevolmente semplificato!
Tre osservazioni importanti.
Primo, il livello di significatività del test, Pr(Sn > cvα | H0)=α, ci dice che non siamo più disposti a
credere alla validità di H0 (e quindi ripieghiamo verso H1) quando otteniamo valori della statistica
test che pur ottenuti sotto H0 hanno una probabilità inferiore ad α di verificarsi. In altri termini,
quando osserviamo valori di Sn “molto grandi”, cioè che si collocano verso le code della
distribuzione e a cui quindi sono associati bassi livelli di probabilità (più piccoli di α) di verificarsi,
non siamo più disposti a credere che tali valori siano compatibili con la distribuzione di Sn sotto H0.
Secondo, i test a due code hanno senso solo quando abbiamo a che fare con distribuzioni statistiche
il cui dominio comprende sia valori positivi che negativi (si pensi ad esempio alla Normale o alla tStudent). Quando abbiamo a che fare con statistiche test la cui legge distributiva ha dominio solo
nei numeri positivi (si pensi alla distribuzione Chi-quadrato o alla F), allora un test a due code non
ha molto senso in quanto in tal caso:
Pr ( - cvα/2 ≤ Sn ≤ cvα/2| H0) ≡ P([Sn ≥ - cvα/2 ] ∩ [Sn ≤ cvα/2 ] | H0)
= P(Evento certo ∩ [Sn ≤ cvα/2] | H0) = P(Sn ≤ cvα/2| H0) = 1-α/2.
Quindi, in presenza di statistiche test che hanno distribuzione Chi-quadrato o F, ci limitiamo a fare
test ad una coda al livello α; solo quando abbiamo a che fare con statistiche test che hanno
distribuzione Normale of t-Student dobbiamo capire se fare in test ad una coda o a due code ! Come
riusciamo a capire se dobbiamo fare un test ad una o due code? E’ la formulazione dell’ipotesi
alternativa che ci da indicazioni. Se ad esempio dobbiamo fare un test t-Student per H0: β=0 contro
H1: β≠0, allora faremo un test a due code (infatti H1 ci dice che β può essere un qualsiasi numero
diverso da zero, positivo o negativo che sia). Se invece dobbiamo fare un test test t-Student per H0:
β=0 contro H1: β>0 allora faremo un test ad una sola coda . Quale coda considereremo, in tal caso,
la destra o la sinistra della t-Student ? (Risposta: ovviamente la destra).
Terzo, dati i 7 punti di cui sopra, si può definire potenza del test, la quantità Pr(rifiutare H0 | H1),
ovvero la probabilità di rifiutare l’ipotesi nulla quando questa è effettivamente falsa. La potenza è
quindi un indicatore della capacità del test di “beccarci”. Tanto più Pr(rifiutare H0 | H1) si avvicina
ad uno, tanto più il test ha buone capacità. Si osservi che per calcolare la potenza del test dato il
livello di significatività α, dobbiamo conoscere la legge distributiva della statistica test Sn sotto
l’ipotesi alternativa H1, poiché dovremo calcolare Pr(Sn > cv0α | H1), dove con il simbolo cv0α
indica che il valore critico è sempre quello calcolato utilizzando il pecentile della distribuzione della
statistica test sotto H0.
Esempio 1: un modello per i tassi di interesse nell’area dell’euro
Si supponga di stimare il seguente modello di regressione dinamico relativo a tassi di interesse
nell’area dell’Euro:
∆Rt = β0 +β1 ∆Rt-1 +β2 (Rt-1 - rt-1) + ut
(1)
Nel modello (1) Rt è il tasso di interesse nominale sui titoli a lunga scadenza, rt è il tasso di interesse
nominale sui titoli a breve scadenza, la differenza (spread) (Rt - rt) è una misura della struttura a
termine dei tassi di interesse e può essere visto come un indicatore di aspettative di inflazione (se il
divario tra tassi a lunga e a breve aumenta ci si aspetta una situazione inflazionistica nel futuro,
mentre se il divario diminuisce ci si aspetta una politica monetaria più restrittiva da parte della
Banca Centrale e quindi meno inflazione futura). ∆ è l’operatore differenza prima: ∆Rt = Rt – Rt-1.
Infine, ut è una componente White Noise con varianza σ2, e β0, β1, β2 sono i parametri.
La stima OLS del modello (1) su n=142 dati trimestrali, periodo: 1970:3 – 2005:4, ha dato luogo ai
seguenti risultati:
Dependent Variable: DRL
Method: Least Squares
Date: 22/11/06 Time: 16:58
Sample (adjusted): 1970Q3 2005Q4
Included observations: 142 after adjustments
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DRL(-1)
SPREAD(-1)
0.011157
0.528417
-0.032839
0.035364
0.071930
0.025630
0.315480
7.346252
-1.281274
0.7529
0.0000
0.2022
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.309411
0.299475
0.335785
15.67247
-45.01083
1.787352
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
-0.034038
0.401189
0.676209
0.738656
31.13876
0.000000
TABELLA 1
Si vuole ora testare l’ipotesi nulla H0: β2=0, la quale dice che lo spread osservato nel trimestre
precedente non ha influenza sulla dinamica trimestrale delle variazioni del tasso di interesse sui
titoli a lungo termine. L’alternativa è H1: β2<0, e dice che variazioni dello spread osservate nel
trimestre precedente hanno un impatto negativo su tale dinamica (se lo spread aumenta ci si aspetta
una variazione in diminuzione del tasso a lunga per bilanciare tale aumento e ripristinare quindi una
situazione di spread constante nel tempo).
Dal corso di Econometria o di Econometria dei mercati finanziari sappiamo che sotto H0: β2=0 la
∧
∧
statistica test Sn= β 2/s.e.( β 2) ha, per n che tende all’infinito, distribuzione asintotica Normale
(0,1) (siamo in presenza di un modello dinamico !.... e si ricordi che la t-Student con infiniti gradi di
libertà converge ad una Normale(0,1)). Inoltre, dalla Tabella 1 deduciamo che il valore della
∧
∧
statistica test per H0: β2=0 è pari a Sn= sn= (β 2/s.e.( β 2)) =(-0.032839/0.025630) = -1.281274, il
quale va confrontato con l’opportuno cvα. Fissiamo α=0.05. Ora dobbiamo decidere se il test è a
una coda oppure a due code. Poiché l’ipotesi alternativa H1: β2<0 prevede solo valori negativi di
β2, il test sarà ovviamente ad una coda, e in particolare riguarderà la coda sinistra della
Normale(0,1). Dalla tavola della normale ricaviamo che dalla coda sinistra della normale: -cv0.05 = 1.645. Poiché 1.281274 < 1.645 segue che la statistica test cade nella zona di accettazione di H0.
Quindi, dai dati, emerge che lo spread osservato nei trimestri precedenti non incide sulle variazioni
del tasso a lungo termine.
Nel prossimo paragrafo vedremo che possiamo fare il test utilizzando solo le informazioni della
Tabella 1, senza dovere andare a consultare le tavole, cioè senza dover sapere che -cv0.05 = -1.645 !
2. I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE
I software statistici ed econometrici semplificano i test. In particolare, ci permettono di non
occupaci del punto (7), ovvero dei valori critici, e quindi del calcolo delle zone di rifiuto e di
accettazione del test, senza farci perdere alcuna informazione rilevante sul test.
Per far ciò ci fornisce in alternativa il p-value (livello di probabilità) associato al valore calcolato
della statistica test, sn. Per ogni H0 e H1 che vogliamo testare, il software ci fornisce il p-value
associato al valore della statistica test calcolata, sn.
Che cosa è il p-value associato alla statistica test calcolata sn ? E’ semplicemente la probabilità:
Pr(osservare valori maggiori di o uguali di sn | H0) = Pr(Sn ≥ sn | H0) = p-value. Il p-value indica
quindi quanto probabile (valori alti) o improbabile (valori bassi) è l’eventualità di osservare
esattamente il valore sn della statistica test Sn sotto l’ipotesi nulla.
Come si utilizza il p-value associato a sn in pratica per decidere tra H0 e H1 ? Il vantaggio del pvalue è che non ci serve più andare a consultare le tavole della Normale, della t-Student, del Chiquadrato o della F, ecc. per decidere. Tutto quello che dobbiamo fare è confrontare il p-value
associato a sn con il livello di significatività α che abbiamo fissato in precedenza (punto (6) di cui
sopra). Se troviamo che p-value < α, cioè significa, usando la nostra notazione, che
Pr(Sn ≥ sn | H0) = p-value < α = Pr(Sn > cvα | H0)
il che implica, se ci si ragiona, che sn > cvα, il che a sua volta significa che sn è nella zona di rifiuto
di H0. Per rifiutare H0 ci basta constatare che p-value < α senza dover conoscere cvα!
Al contrario, se troviamo che p-value ≥ α, ciò significa, nella notazione dai noi usata, che
Pr(Sn ≥ sn | H0) = p-value ≥ α = Pr(Sn > cvα | H0)
ovvero che sn ≤ cvα, il che comporta l’accettazione di H0. Raggiungiamo tale conclusione senza
dover necessariamente conoscere cvα, ci basta solo constatare che p-value ≥ α !
Esempio 2
Torniamo al modello (1) e ai risultati di stima della Tabella 1, e proviamo nuovamente a fare il test
per H0: β2=0 contro H1: β2<0, utilizzando solo ed esclusivamente le informazioni contenute nella
Tabella 1.
∧
∧
Ricordiamo che nel nostro caso la statistica test Sn= β 2/s.e.( β 2) ha, per n che tende ad infinito,
distribuzione asintotica Normale (0,1) (questo lo sappiamo solo se abbiamo studiato econometria !).
La Tabella 1 ci dice che:
Pr(Sn ≥ -1.281274 | H0) = 0.20
quindi il il p-value associato a sn =-1.281274 è 0.20.
Stiamo facendo un test ad una coda, per cui dobbiamo confrontare il p-value con α=0.05. Poiché pvalue > α, possiamo accettare H0: β2=0. Nota che se si fosse trattato di un test a due code,
avremmo confrontato il p-value 0.20 con α/2=0.025.
Esempio 3
Facendo sempre riferimento al modello (1) e ai risultati di stima della Tabella 1, si supponga ora di
voler fare un test per l’ipotesi nulla H0: β1=0 contro la generica alternativa H0: β1≠0. In sostanza,
vogliamo testare la significatività del coefficiente β1 associato al regressore ∆Rt-1 del modello.
Questa volta scegliamo α=0.10.
Si può notare dalla Tabella 1 che in questo caso la statistica test è pari a 7.346252 e ha un p-value
associato pari a 0.00000. Questo significa che la probabilità di osservare un valore della statistica
test superiore o uguale a 7.346252 sotto l’ipotesi nulla (distribuzione Normale(0,1)) è veramente
bassa, anzi bassissima. Dato che p-value <<α/2=0.05, rifiutiamo nettamente H0: β1=0 e scegliamo
l’alternativa.
Esempio 4
Facendo sempre riferimento all’esempio della Tabella 1, si supponga ora di voler testare l’ipotesi
nulla congiunta: H0: β1=0.50 e β2=0, contro l’alterativa H1: β1≠0.50 e β2≠0.
Dalla teoria sappiamo che tale ipotesi rientra nella casistica H0 : R’β=r e che siccome il modello
stimato è un modello di regressione dinamico, una statistica test di Wald, Sn, per H0:R’β=r avrà
distribuzione, per n che va ad infinito (n grande), Chi-quadrato(2), dove 2 sono le restrizioni che
testiamo. La Tabella 2 sotto, ci fornisce i risultati del test:
Wald Test:
Equation: Untitled
Test Statistic
F-statistic
Chi-square
Value
1.050856
2.101711
df
Probability
(2, 139)
2
0.3524
0.3496
Value
Std. Err.
Null Hypothesis Summary:
Normalized Restriction (= 0)
-0.5 + C(2)
C(3)
0.028417
-0.032839
0.071930
0.025630
TABELLA 2
Abbiamo quindi Sn = sn =2.101711 con un p-value associato pari a 0.3496.
Quindi vi è una probabilità di quasi il 35% di osservare un valore della statistica test, sotto l’ipotesi
nulla, che sia maggiore o uguale di 2.101711. Se fissiamo il livello di significatività del test al 5%,
significa che noi siamo disposti a credere all’ipotesi nulla sino a quando non otteniamo valori della
statistica test che hanno probabilità non inferiore al 5%. Noi abbiamo ottenuto una probabilità del
35% che è ben maggiore del 5%. Quindi, poiché p-value > α (=0.05 oppure 0.10), accettiamo H0.
3 ESERCIZI DI ALLENAMENTO
Esercizio 1
Si consideri il modello (1) e le stime della Tabella 1. La Tabella 3 riporta il test LM di Godfrey e
Breush per l’assenza di autocorrelazione nei residui:
Breusch-Godfrey Serial Correlation LM Test:
F-statistic
Obs*R-squared
2.843695
5.659991
Probability
Probability
0.061652
0.059013
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Date: 23/11/06 Time: 14:28
Presample missing value lagged residuals set to zero.
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DRL(-1)
SPREAD(-1)
RESID(-1)
RESID(-2)
0.007801
-0.193086
-0.016146
0.304106
-0.057375
0.035347
0.234424
0.029063
0.237822
0.147914
0.220690
-0.823661
-0.555531
1.278715
-0.387892
0.8257
0.4116
0.5794
0.2032
0.6987
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.039859
0.011826
0.331418
15.04777
-42.12289
1.971134
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
-1.25E-17
0.333395
0.663703
0.767781
1.421848
0.229983
TABELLA 3
1. Si individui qual è l’ipotesi alternativa e l’ipotesi nulla di tale test.
2. Si dica se la nulla è da rifiutare o meno
3. Si dica quale dovrebbe essere il livello di significatività α del test necessario per rifiutare
l’ipotesi nulla.
Esercizio 2
Si consideri il modello (1) e le stime della Tabella 1. Si testi la significatività dell’intercetta.
Esercizio 3
Si consideri il modello (1) e le stime della Tabella 1. I residui del modello hanno le seguenti
caratteristiche:
14
Series: Residuals
Sample 1970Q3 2005Q4
Observations 142
12
10
8
6
4
2
0
-0.5
0.0
0.5
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
-1.25e-17
0.001804
1.057587
-0.868664
0.333395
0.152186
3.290686
Jarque-Bera
Probability
1.048079
0.592124
1.0
Si dica se l’ipotesi di normalità distributiva può essere accettata o rifiutata.
Esercizio 4
Si consideri il modello (1) e le stime della Tabella 1. Si testi l’ipotesi nulla H0: β1=0.50 contro
l’alternativa H1: β1=0.60 al livello α=0.05, e si provi poi a calcolare la potenza del test (traccia: si
ricordi che la potenza del test è Pr(rifiuto H0 | H1)… e si individui la distribuzione della statistica
test sotto l’ipotesi H1 ….).