Coefficiente di correlazione Campionario.

Corso di Econometria
A.A. 2011-2012
Dispensa n.1
Richiami di statistica
Per calcolare le caratteristiche della distribuzione di una popolazione abbiamo
bisogno dell’intera popolazione. Ad esempio, per trovare il reddito medio di tutti
gli abitanti di New York in un dato momento nel tempo abbiamo bisogno di
informazioni che riguardano tutti gli abitanti di New York. In realtà, però, non è
molto pratico collezionare le informazioni relative a tutti gli abitanti; ciò che
viene fatto è trovare un campione rap presentativo o casuale da questa popolazione
e calcolare il reddito medio su questo camione.
Media Campionaria.
Sia X il numero di macchine vendute in un giorno da un rivenditore. Supponiamo
di voler sapere il numero medio (cioè E(X)) di auto vendute i pri mi dieci giorni di
ogni mese. Supponiamo, inoltre che il rivenditore ha la sua attività da dieci anni,
ma non ha alcun dato per i primi 10 giorni di ogni mese degli ultimi dieci anni.
Prendiamo a caso le vendite dei primi dieci giorni di un mese per ogni a nno di
attività: 9, 11, 11, 14, 13, 9, 8, 9, 14, 12. Abbiamo un campione composto da 10
osservazioni. La media campionaria è data da:
Nel nostro caso:
Varianza Campionaria.
I valori del precedente esempio non sono tutti uguali al media camiponaria 11. La
variabilità dei dieci valori può essere misurata dalla varianza campionaria . La
varianza campionaria viene definita nel modo seguente:
Che non è altro che la differenza al quadrato di ogni singolo valore di X dalla sua
media, diviso il numero delle os servazioni. L’espressione (n-1) è nota come gradi
di libertà, di cui vedremo in seguito il significato.
Dato il precedente esempio, abbiamo
La deviazione standard campionaria è data da
Covarianza Campionaria.
Esempio: Supponiamo di avere una popolazione bivariata composta da due variabili X (prezzi delle
azioni) e Y (prezzi al consumo). Supponiamo che da questa popolazione bivariata otteniamo un camione
casualemostato nelle prime due collonne della tabella di seguito.
Y
(1 )
8 9 1 .4
9 3 2 .4 2
8 8 4 .3 6
1 1 9 0 .3 4
1 1 7 8 .4 8
1 3 2 8 .2 3
1 7 9 2 .7 6
2 2 7 5 .9 9
2 0 6 0 .8 2
2 5 0 8 .9 1
1 5 0 4 .4
X
(2)
8 2 .4
9 0 .9
9 6 .5
9 9 .6
1 0 3 .9
1 0 7 .6
1 0 9 .6
1 1 3 .6
1 1 8 .3
1 2 4 .0
1 0 4 .6 4
(3 )
( 8 9 1 .4 -1 5 0 4 4 .4 )(8 2 .4 -1 0 4 .6 4 )
( 9 3 4 -1 5 0 4 .4 ) (9 0 .9 -1 0 4 .6 4 )
7 0 2 5 .9 5
In questo caso la covarianza tra il prezzo delle azioni e i prezzi al consumo è
positiva.
Coefficiente di correlazione Campionario.
La correlazione campionaria ha valori che stanno n ell’intervallo -1≤r≤1. Dalla
precedente tabella, possiamo tranquillamente calcolare il coefficiente di
correlazione:
Nel nostro caso, il prezzo delle azioni e l’indice dei prezzi al consumo hanno una
correlazione positiva molto alta (quasi vicina ad 1).
Distribuzione di probabilità importanti
La Distribuzione Normale
Probabilmente la distribuzione statistica più famosa ed utilizzata.
Per notazione convenzionale, la distribuzione di una normale viene così espressa:
Proprietà:
1. Come si vede dalla figura, la distribuzio ne normale è simmetrica intorno alla
sua media.
2. La distribuzione è alta intorno alla media, ma sulle code è molto bassa.
Questo significa che la probabilità di ottenere un valore di una distribuzione
normale lontano dalla propria media è molto bassa.
3. Approssimativamente, il 68% dell’area si trova tra i valori
i valori
4. Una
, e il 97.5% tra i valori
distribuzione
normale
è
descritta
, il 95% tra
.
completamente
dai
due
suoi
paramentri  e  2 . Una volta che il valore di q uesti due parametri viene
trovato, è possibile stimare la probabilità che un certo valore di X si trovi
all’interno di un certo intervallo.
5. La combinazione lineare di due variabili normali è anche’essa una variabile
normale
La
curva cosiddetta normale fu s viluppata nel 1733 da DeMoivre, come
un'approssimazione alla distribuzione binomiale.
I suoi scritti furono persi fino al 1924, quando Karl Pearson li ritrovò.
Laplace
utilizzò la curva normale nel 1783 per descrivere la distribuzione degli errori. Nel
1809, Gauss la impiegò nell'analisi di dati astronomici. La curva normale è spesso
chiamata "distribuzione gaussiana”.
La Distribuzione Normale Standardizzata
Ogni distribuzione normale è a se stante perché dipende dai valori della V. C di
riferimento. Ossia due distribuzioni possono avere media diversa e varianza
diversa, oppure media uguale e varianza diversa, oppure varianza uguale e media
diversa.
Com’è possibile comparare due distribuzioni normali diverse tra loro?
Volendo
una
distribuzione
norm ale
standardizzata,
ossia
che
non
dipenda
dall’unità di misura della variabile di riferimento, si può ottenere quest’ultima
mediante la relazione:
Zi 
X  x
x
La variabile Z ha media  =0 e varianza  2 =1.
La Distribuzione Chi-quadrato 2
In statistica ci trov iamo spesso di fronte a quantità elevate al quadrato come ad
esempio X 2 oppure
.
Queste quantità hanno la loro distribuzione campionaria?
Sotto certe condizioni, la distribuzione di queste quantità può essere derivata.
Consideriamo una variab ile casuale distribuita normalmente
Sappiamo che la sua standardizzazione si distribuisce:
Zi 
X  x
x
La teoria statistica dimostra che il quadrato di variabile standardizzata di
distribuisce come una  2 con un grado di libertà . Simbolicamente:
Così come la media e la varianza sono parametri della distribuzione normale, così
i gadi di libertà sono i parametri della distribuzione chi -quadrato. Il termine grado
di libertà in statistica è usato in diversi sensi, ma in questo momento noi li
definiamo come il nume ro di osservazioni indipendenti in una somma di quadrati.
Supponiamo ora di avere X1 ,..., Xn variabili aleatorie indipendenti ciascuna con
distribuzione normale standard N(0,1), diciamo variabile aleatoria chi -quadro con
n gradi di libertà la variabile al eatoria
n
Y   X 2 , indicata con Y
 2 n 
i 1
Proprietà:
1. Diversamente dalla distribuzione normale, la distribuzione chi -quadro ha
solo valori positivi.
2. Diversamente dalla distribuzione normale, la distribuzione chi -quadro è
skewed (ossia inclinata), e il grado di skeweness dipende dai gra di di libertà.
La distribuzione e molto skewed a destra, man mano che i gradi di libertà
aumentano, la distribuzione diventa molto più simmetrica.
3. Il valore atteso (o media) è k e la sua varianza 2k, dove k sono i gradi di
libertà.
La Distribuzione t
Conosciuta anche come distribuzione t di Student.
Si è visto in precedenza che se a una variabile normale (x) sottraiamo la media ( )
e dividiamo tale differenza per la deviazione standard ( σ) otteniamo una normale
standard (z) con media 0 e varianza 1:
se x ~ N (,  2 ),
z ~ N (0, 1) dove
Poiché le medie campionarie (
,
z
x

), calcolate su campioni tratti dalla variabile
hanno distribuzione normale con media  e varianza
, se
standardizziamo la variabile media camp ionaria otteniamo una deviata normale
standard Z con media 0 e varianza 1:
se
2
x ~ N (  , ) , z  N (0,1) dove
n
z 
x 
/ n
Quando il parametro  2 è ignoto, possiamo sostituirlo con la sua stima
campionaria s 2 , ed ottenere il rapporto
t
x 
s/ n
Qual è la distribuzione di tale rapporto ?
Si può dimostrar e che, per campioni tratti da una variabile normale, il rapporto "t"
è una variabile casuale la cui distribuzione è descritta da una funzione simmetrica
la cui forma dipende da i gradi di libertà della s tima campionaria della varianza ed
è nota con il nome di "t" di Student.
x 
s/ n
~ t di Student (con k=n-1 g.d.l.)
Come nella distribuzione chi -quadro, la distribuzione t dipende dal paramentro
gradi di libertà (gdl) .
Proprietà
1. La distribuzione t, come la distribuzione normale, è simmetrica come si vede
dalla figura sopra.
2. La media della distribuzione , come la distribuzione normale standard è
zero, ma la varianza è data da k/(k-2). Per questo motivo, la varianza di una
distribuzione t è definita per gradi di libertà maggiori di due.
Ma mano che k aumenta, la varianza di una distribuzione t si avvicina alla varianza
di una distribuzione normale standardizzata, cioè 1. Per cui, se i gdl, ad esempio
sono 10, la varianza sarà 10/8=1.25, se k=30, la varianza sarà 30/28=1.07, se
k=100, la varianza sarà 100/98=1.02. Anche per valori di k molto piccoli, come 30,
non c’è molta differenza nella varianza della distribuzione t e della normale
standard. Per cui, ampiezza campionaria non deve essere enorme affinché la t
approssimi una distribuzione normale.
La Distribuzione F
Se da una popolazione normale N (,  2 ) estraiamo due campioni indipendenti
otteniamo due stime S 1 ed S 2 della deviazione standard . Se operiamo infinite volte
l'estrazione di coppie di campioni e ogni volta misuriamo il loro rapporto
otteniamo la variabile casuale F di Fisher, con k i 1 gradi di liberta al numeratore
(relativi ad S 1 ) e k i 2 gradi di liberta al denominatore (relativi a S 2 ).
F
S1
S2
Proprietà
1. Come la distribuzione chi -quadrato, anche la distribuzione F è skewed a
destra e ha valori che vanno da zero a infinito.
2. Come
la
distribuzione
chi -quadro,
la
distribuzione
F
approccia
la
distribuzione normale, al crescere di k 1 e k 2 .
3. Il quadrato di una distribuzione t con k gdl, ha una distribuzione F con 1 e k
gdl al numeratore e denomina tore rispettivamente.
Inferenze Statistica e Test di’ipotesi
La statistica inferenziale descrive le procedure con cui possiamo usare le
osservazioni date per disegnare le conclusioni sulla popolazione da cui il
campione è stato preso. La nostra assunzi one è che c’è un processo sconosciuto
che genera dati, e che può essere descritto da una distribuzione di probabilità
caratterizzata da alcuni parametri sconosciuti. Ad esempio in una distribuzione
normale i parametri sconosciuti sono  e  2 .
Nell’inferenza classica, ad esempio, assumiamo che la media campionaria
sia la
nostra stima di  .
Generalmente quando si parla di inferenza classica, si discutono i seguenti punti:
1. Stima puntuale.
2. Stima intervallare
3. Test d’ipotesi.
Stima puntuale.
Supponiamo
che
la
distribuzione
di
probabilità
involva
un
parametro
supponiamo inoltre di avere un’ampiezza campionaria n,
puntuale costruiamo una funzione
θ,
. Nella stima
dalle osservazioni e affermiamo
che g è la nostra stima per θ. Uno stimatore è una variabile casuale e una stima
è un particolare valore di questa variabile casuale . Per esempio, se θ
rappresenta la media della popolazione e
campionaria, allora diciamo che
la media
è uno stimatore di θ.
Nella stima intervallare, costruiamo due funzioni,
e
dalle osservazioni che abbiamo, e diciamo che θ si trova tra queste due funzioni
con una data probabilità . Nei test d’ipotesi testiamo la veridicità di un’ipotesi (ad
esempio che θ=4) e esaminiamo il grado di evidenza a favore di questa ip otesi,
sulla base della quale accettiamo o rifiutiamo l’ipotesi.
Stima intervallare.
Nella stima intervallare, come abbiamo già accennato, costruiamo due funzioni
e
dalle osservazioni che abbiamo, tale che:
una data probabilità.
è chiamato coefficiente di confidenza e l’intervallo ( g 1 ,g 2 ) è chiamato intervallo
di confidenza . Dato che θ è un parametro (o una costante a noi sconosciuta),
l’asserzione di probabilità (sopra), è un’asserzione su g 1 e g 2 e non su θ. Ciò
significa che se usiamo la formula
e
ripetutament e
con differenti campioni e costruiamo di volt a in volta gli interballi di confidenza
usando le formule, allora nel 100
percento di tutti i casi l’intervallo dato
includerà il vero valore.
Come esempio su come usare la distribuzione campionaria per costruire gli
intervalli di confidenza, consideriamo il campione
con n osservazioni
dipendenti da una distribuzione normale con media  e varianza  2 . Allora
e
Se l’ampiezza campionaria è pari a 20, da cui i gradi di libertà sono n-1=19,
possiamo vedere nelle tavole della
con gradi di libertà 19 e diciamo:
O che
Oppure, riferendoci alla tavola t-Student con 19 gradi di libertà, abbiamo che
Da cui, sostituendo:
Se
e S=3 abbiamo intervalli di confidenza a l 95% per
di (3.6 e 6.4)
Test d’ipotesi
Supponiamo di avere il seguente campione:
P/E ratio
6
7
8
9
10
11
12
13
14
15
16
18
Frequency
2
2
5
6
5
7
5
4
3
4
6
1
Totale
50
Media=11.5
Varianza Campionaria= 9.2755
Deviazione Standard =3.0456
Supponiamo di ipotizzare che il vero valore della media sia
. Il nostro
obiettivo è quello di testare l’ipotesi. Nel linguaggio dei test
è chiamata
ipotesi nulla ed è generalmente denotata da H 0 , da cui H 0 :
. L’ipotesi nulla
viene generalmente testata contro un’ ipotesi alternativa , denotata dal simbolo H 1 .
L’ipotesi alternativa può prendere una di queste forme:
H1:
: ipotesi alternativa ad una coda
H1:
: anch’essa ipotesi alternativa ad una coda
H1:
: ipotesi alternativa a due code
Basandoci sulla statistica t:
t
x 
s/ n
Abbiamo i seguenti intervalli di confidenza al 95%
11.26< <11.73
Nel nostro caso la nostra ipotesi nu lla non si trova all’interno dell’intervallo, per
cui la rifiutiamo.
Nel linguaggio dei test d’ipotesi, l’intervallo di confidenza (ad esempio al 95%) è
chiamato regione di accettazione , e l’area fuori da questa regione è chiamata
regione critica o regione di rigetto dell’ipotesi nulla. I limiti superiori e inferiori
della regione di accettazione sono chiamati valori critici . Se il valore del
parametro sotto l’ipotesi nulla si trova all’interno della regione di accettazione,
accettiamo l’ipotesi nulla , se invece si trova fuori rifiutiamo l’ipotesi nulla .
Uno dei bivi di fronte a cui ci si trova davanti nei test di ipotesi è quello di
scegliere il valore di α. Generalmente viene scelto sempre il 5 percento (anche
GRETL ha come valore di base il 5%). In ogni caso non è possibile stabilire a
priori quale sia il valore ottimale di α da scegliere. Per questo è preferibile trovare
il p-value (ossia il valore della probabilità) anche conosciuto come livello di
significatività esatto di un test statistico. Può essere definito come il più basso
livello di significatività a cui l’ipotesi nulla può essere rifiutata .
Test d’ipotesi nel modello bivariato
Supponiamo di avere il seguente dataset:
Deamnd (Y)
49
45
44
39
38
37
34
33
30
29
Price (X)
1
2
3
4
5
6
7
8
9
10
La nostra regressione è data da:
Stimando la retta di regressione con il metodo dei minimi quadrati (OLS)
otteniamo:
Modello 1: OLS, usando le osservazioni 1 -10
Variabile dipendente: Deamnd(y)
coefficiente
errore std.
rapporto t
p -value
--------------------------------------------------------------const
49,6667
0,746439
66,54
2,90e -012 ***
Price(X)
-2,15758
0,120300
-17,94
9,58e-08
***
Media var. dipendente
37,80000
SQM var. dipendente
6,613118
Somma quadr. residui
9,551515
E.S. della regressione
1,092675
R-quadro
0,975733
R-quadro corretto
0,972700
F(1, 8)
321,6650
P -value(F)
9,58e -08
Log-verosimiglianza
-13,95996
Criterio di Akaike
31,91992
Criterio di Schwarz
32,52509
Hannan -Quinn
31,25605
Note: SQM = scarto quadratico medio ; E.S. = errore standard
Supponiamo ora che qualcuno ci suggerisce the il prezzo di un bene non abbia
alcun effetto sulla quantità domandata. Ossia la nostra ipotesi nulla è data da:
(B rappresenta il vero valore di β)
Il risultato della nostra regressione mostra che β=-2,1576. Sicuramente i n questo
caso ci aspettiamo di non poter accettare l’ipotesi nulla. In realtà non possiamo
solo guardare al risultato numerico, sappiamo benissimo che il valore numerico
cambia da campione a campione. Abbiamo bisogno di una procedura formale per
testare la procedure di accettare o rifiutare l’ipotesi nulla.
Come procedere?
Sappiamo
che
il
nostro
stimatore
β
si
distribuisce
come
una
normale
(SEMPRE!!!!).
Per testare l’ipotesi possiam o usare:
1. L’approccio intervalli di confidenza , oppure
2. L’approccio test di significatività.
Dato che β segue una distribuzione normale,
, sappiamo che ( vedere
precedente dispensa sulle distribuzioni ):
***: ricordatevi che
è la distribuzione normale standardizzata . Sappiamo che la proprietà che il 95%
dell’area della distribuzione normale si trova a due deviazioni standard dalla
valore
medio,
per
cui
se
la
nostra
ipotesi
nulla
0 e il nostro stimatore è β=-2,1576, possiamo calcolare la probabilità di
trovare questo valore dalla distribuzione normale standardizzata. Se questa
probabilità è molto piccola, possiamo rifiutare l’ipotesi nulla , ma se è grande
(diciamo maggiore del 10%) non possiamo rifiutarla .
Non conoscendo il vero valore della varianza, usiamo quello stimato, per cui
avremo:
Testiamo
verso
Il nostro campione è formato da 10 osservazioni, per cui i gradi di libertà sono
(10-2)=8. Supponiamo di testare l’ipotesi al 95% di con fidenza.
Visto che l’ipotesi alternativa è su due lati (ossia che il nostro stimatore può
essere maggiore o minore di zero), dalle tavole della distribuzione t, troviamo che
per otto gradi di libertà il valore è:
TAVOLA DEI QUANTILI
α
0,1
0,05
0,025
0,01
0,005
1
3,0777
6,3137
12,7062
31,8210 63,6559
2
1,8856
2,9200
4,3027
6,9645
9,9250
3
1,6377
2,3534
3,1824
4,5407
5,8408
4
1,5332
2,1318
2,7765
3,7469
4,6041
5
1,4759
2,0150
2,5706
3,3649
4,0321
6
1,4398
1,9432
2,4469
3,1427
3,7074
7
1,4149
1,8946
2,3646
2,9979
3,4995
8
1,3968
1,8595
2,3060
2,8965
3,3554
9
1,3830
1,8331
2,2622
2,8214
3,2498
n
troviamo:
Questo rappresenta la probabilità che il valore t (per 8 gradi di libertà) si trovi tra
i limiti (-2,306, 2,306) è 0.95 o il 95%, questi, come noi già sappiamo, sono i
valori critici della t.
Ora sostituendo i valori della t nella precedente espressione (quella con la freccia
rossa), otteniamo
Facendo alcuni spostamenti, otteniamo:
Nel linguaggio dei test d’ipotesi, l’i ntervallo di confidenza ottenuto è conosciuto
come regione di accettazione , e l’area fuori dall’intervallo è chiamata regione di
rifiuto.
Nella figura potete notare l’intervallo di confidenza:
β
-2.4350
-1.8802
Dato che il valore zero (della nostra ipotesi nulla) non si trova nell’intervallo di
confidenza, possiamo rifiutare l’ipotesi nulla che il prezzo di un bene non ha
effetti sulla quantità domandata del bene stesso .
Approccio test di significatività
In questo caso la decisione di accettare o rifiutare l’ipotesi nulla si basa sul vlaore
del test statistico ottenuto dal campione. Vediamo in dettaglio.
Ricordiamo che
Segue una distribuzione t con (n-2) gradi di libertà. Ora se
dove
è uno specifico valore numerico di B (ad esempio
subito calcolarci:
). Allora possiamo
Dato che tutti i valori sono noti, possiamo i valori ottenuto dalla precedente
espressione come test statistico con distribuzione t di Student e (n-2) gradi di
libertà. Questa procedura è chiamata t Test.
Ora per usare il test t abbiamo bisogno di conoscere tre cose fondamentali:
1. I gradi di libertà sono sempre ( n-2) per il modello di regressione bivariato
2. Il livello di significatività α: 1, 5 e 10% sono quelli che di norma si usano
nell’analisi empirica
3. Possiamo usare test ad una coda o due code.
1. Test a due code. Ipotizziamo che
Usando l’espressione con la freccia blu, abbiamo che
approssimativamente
Ora dalle tavole statistiche della distribuzione t, abbiamo che per otto gradi
di libertà i valori critici sono:
Livello di significatività
0.01
0.05
0.001
Valori Critici di t
3.355
2.306
1.86
Tenete bene a mente la seguente tabella:
Ipotesi nulla
Ipotesi
alternativa
βx=β0
βx=β0
βx=β0
βx>β0
βx<β0
βx≠β0
Valori critici di
rifiuto
dell'ipotesi nulla
>tα
<tα
>tα/2
Dalla seguente tabella notiamo che, dato il t ottenuto, rifiutiamo l’ipotesi
che il nostro stimatore sia uguale a zero, e accettiamo l’ipotesi alternativa
che esso sia diverso da zero.
Test d’ipotesi nel modello multivariato
Con il test t diciamo che individualmente un coefficiente possa essere o meno
significativo .
Consideriamo ora la seguente ipotesi nulla:
La precedente ipotesi nulla è una ipotesi congiunta con cui testare se
siano
simultaneamente o congiuntamente uguali a zero.
Questa ipotesi testa che due variabili indipendenti congiuntamente non abbiano
nessuna influenza sulla variabile dipendente. Questo è lo stesso che dire:
Test di questo tipo vengono chiamati test della significatività totale della retta di
regressione della popolazione stimata, ossia della relazione tra la variabile
dipendente e le variabili indipendenti.
Questo tipo ti test può essre fatto tramite una tecnica nota come analisi della
varianza (ANO VA).
Per vedere come questa tecnica viene usata, ricordiamoci:
TSS=ESS+RSS
Ossia,
La precedente euqzione decompone la Total Sum of Squares in 2 differenti
componenti, una esplicata dal modello di regressione scelto (Estimated Sum of
Squares) e l’alta non spiegata dal modello (Residual Sum of Squares).
Ogni Sum of Squares è associata ad un grado di libertà, ossia il numero di
osservazioni indipendenti sulla base delle quali viene calcolata la somma dei
quadrati (Sum of Squares) .
Guardate la seguente tabell a:
Sum of Squares
TSS
RSS
D.F.
n-1
n-3
(sempre)
(nel modello a tre variabili (Y, X1 e X2))
ESS
2
(due sono le variabili (X1 eX2))
Ora abbiniamo ad ogni Sum of Squares il loro grado di libertà ,
Fo nte d i v a r ia zio ne
Su m o f S q ua re s
Do v uta al la r e gr e s sio ne ( ES S)
G. d. l.
M SS=
2
Do v uta ai re sid u i ( R SS)
n -3
T o tale (T S S)
n -1
Nota: MSS= media delle somme dei quadrati.
Ora, data l’ipotesi nulla
, la variabile
Segue una distribuzione F con 2 e (n-3) gradi di libertà al numeratore e
denominatore rispettivamente. Più in generale, se il modello di regressione ha k
variabili indipendenti, il rapporto F ha (k -1) gradi di libertà al numeratore e (n -k)
gradi di libertà al denominatore .
Come usare la l’equazione con la freccia nera per testare l’ipotesi congiunta che
tutte e due le variabili indipendenti non hanno alcun effetto sulla variabile
dipendente?
La risposta è evidente nell’equazione stessa . Se il numeratore è maggiore del
denominatore il valore della F sarà maggiore di uno. Allo stesso modo, man mano
che la varianza spiegata dalle variabili indipendenti sale diventando più grande
rispetto alla varianza non spiegata, l’ F test diventerà grande allo stesso modo. Un
valore molto alto di F ci porta a rifiutare l’ipotesi che le variabili indipendenti (o
esplicative) non hanno alcun effetto sulla variabile dipendente.
Supponiamo di avere il seguente dataset:
Y
X1
X2
11.484
9.348
8.429
10.079
9.24
8.862
6.216
8.253
8.038
7.476
5.911
7.95
6.134
5.868
3.16
5.872
2.26
2.54
3.07
2.91
2.73
2.77
3.59
3.23
2.6
2.89
3.77
3.64
2.82
2.96
4.24
3.69
3.49
2.85
4.06
3.64
3.21
3.66
3.76
3.49
3.13
3.2
3.65
3.6
2.94
3.12
3.58
3.53
Supponiamo di avere la seguente stima di regressione
Modello 1: OLS, usando le osservazioni 1-16
Variabile dipendente: Y
coefficiente
errore std.
rapporto t
p-value
------------------------------------------------------------const
9,73422
2,88806
3,371
0,0050
***
X1
-3,78220
0,572455
-6,607
1,70e-05 ***
X2
2,81525
0,947511
2,971
0,0108
**
Media var. dipendente
7,645000
SQM var. dipendente
2,042814
Somma quadr. residui
14,35662
E.S. della regressione
1,050883
R-quadro
0,770648
R-quadro corretto
0,735363
F(2, 13)
21,84067
P-value(F)
0,000070
Log-verosimiglianza
-21,83600
Criterio di Akaike
49,67200
Criterio di Schwarz
51,98976
Hannan -Quinn
49,79068
Note: SQM = scarto quadratico medio; E.S. = errore standard
Analisi della varianza:
Somma dei quadrati
Regressione
Residuo
Totale
48,2397
14,3 566
62,5964
df
Mean square
2
13
15
24,1199
1,10436
4,17309
R^2 = 48,2397 / 62,5964 = 0,770648
F(2, 13) = 24,1199 / 1,10436 = 21,8407 [p -value 6,97e-005]
Sotto l’ipotesi nulla che
, il valore della F ottenuto (cioè 24.1199)
segue una distribuzione F con 2 e 13 gradi di libertà al numeratore e denominatore
rispettivamente.
Se scegliamo α=1%, dalla tavole della statistica F che per i dati gradi di libertà il
valore critico è 6.70. La nostra statistica risulta essere maggiore del valore critico,
per cui rifiutiamo l’ipotesi nulla. Affermiamo quindi che congiuntamente X 1 e X 2
influenzano la Y. Dalle statistiche t è possibile notare come anche indivi dualmente
le due variabili indipendenti influenzano la variabile dipendente. Questo non
avviene sempre. Possiamo avere il caso in cui le variabili individualmente non
hanno alcun effetto sulla var iabile indipendente (ossia accettiamo l’ipotesi che i
nostri coefficienti non siano diversi da zero), ma congiuntamente hanno impatto.
Spesso si verifica questa possibilità nel caso della multicollinearità.
Un’importante relazione tra F e R2
C’è una relazione molto importante tra il coefficiente di determinazione R 2 e il
rapporto F. La relazione è di questo tipo
dove n è il numero di osservazioni e k è il numero di variabili esplicative usate nel
modello. L’equazione dimostra come i due siano collegati. Q uando R 2 =0 (ossia
nessuna relazione tra la variabile dipendente e le variabili indipendenti), F=0. Nei
limiti in cui R 2 =1, F tende ad infinito.
Per questo possiamo considerare l’ F test anche come un test di significatività dell’
R 2 , ossia se quest’ultimo s ia o meno differente da zero. Un vantaggio dell’ F test
in termini di R 2 è la facilità con cui può essere calcolato, tutto quello che
dobbiamo sapere è il valore dell’ R 2 che viene normalmente calcolato da tutti i
programmi statistici.
Usando i precedenti dati, con un R 2 di 0,770648, abbiamo
Lo stesso risultato ottenuto nella statistica F.