Corso di Econometria A.A. 2011-2012 Dispensa n.1 Richiami di statistica Per calcolare le caratteristiche della distribuzione di una popolazione abbiamo bisogno dell’intera popolazione. Ad esempio, per trovare il reddito medio di tutti gli abitanti di New York in un dato momento nel tempo abbiamo bisogno di informazioni che riguardano tutti gli abitanti di New York. In realtà, però, non è molto pratico collezionare le informazioni relative a tutti gli abitanti; ciò che viene fatto è trovare un campione rap presentativo o casuale da questa popolazione e calcolare il reddito medio su questo camione. Media Campionaria. Sia X il numero di macchine vendute in un giorno da un rivenditore. Supponiamo di voler sapere il numero medio (cioè E(X)) di auto vendute i pri mi dieci giorni di ogni mese. Supponiamo, inoltre che il rivenditore ha la sua attività da dieci anni, ma non ha alcun dato per i primi 10 giorni di ogni mese degli ultimi dieci anni. Prendiamo a caso le vendite dei primi dieci giorni di un mese per ogni a nno di attività: 9, 11, 11, 14, 13, 9, 8, 9, 14, 12. Abbiamo un campione composto da 10 osservazioni. La media campionaria è data da: Nel nostro caso: Varianza Campionaria. I valori del precedente esempio non sono tutti uguali al media camiponaria 11. La variabilità dei dieci valori può essere misurata dalla varianza campionaria . La varianza campionaria viene definita nel modo seguente: Che non è altro che la differenza al quadrato di ogni singolo valore di X dalla sua media, diviso il numero delle os servazioni. L’espressione (n-1) è nota come gradi di libertà, di cui vedremo in seguito il significato. Dato il precedente esempio, abbiamo La deviazione standard campionaria è data da Covarianza Campionaria. Esempio: Supponiamo di avere una popolazione bivariata composta da due variabili X (prezzi delle azioni) e Y (prezzi al consumo). Supponiamo che da questa popolazione bivariata otteniamo un camione casualemostato nelle prime due collonne della tabella di seguito. Y (1 ) 8 9 1 .4 9 3 2 .4 2 8 8 4 .3 6 1 1 9 0 .3 4 1 1 7 8 .4 8 1 3 2 8 .2 3 1 7 9 2 .7 6 2 2 7 5 .9 9 2 0 6 0 .8 2 2 5 0 8 .9 1 1 5 0 4 .4 X (2) 8 2 .4 9 0 .9 9 6 .5 9 9 .6 1 0 3 .9 1 0 7 .6 1 0 9 .6 1 1 3 .6 1 1 8 .3 1 2 4 .0 1 0 4 .6 4 (3 ) ( 8 9 1 .4 -1 5 0 4 4 .4 )(8 2 .4 -1 0 4 .6 4 ) ( 9 3 4 -1 5 0 4 .4 ) (9 0 .9 -1 0 4 .6 4 ) 7 0 2 5 .9 5 In questo caso la covarianza tra il prezzo delle azioni e i prezzi al consumo è positiva. Coefficiente di correlazione Campionario. La correlazione campionaria ha valori che stanno n ell’intervallo -1≤r≤1. Dalla precedente tabella, possiamo tranquillamente calcolare il coefficiente di correlazione: Nel nostro caso, il prezzo delle azioni e l’indice dei prezzi al consumo hanno una correlazione positiva molto alta (quasi vicina ad 1). Distribuzione di probabilità importanti La Distribuzione Normale Probabilmente la distribuzione statistica più famosa ed utilizzata. Per notazione convenzionale, la distribuzione di una normale viene così espressa: Proprietà: 1. Come si vede dalla figura, la distribuzio ne normale è simmetrica intorno alla sua media. 2. La distribuzione è alta intorno alla media, ma sulle code è molto bassa. Questo significa che la probabilità di ottenere un valore di una distribuzione normale lontano dalla propria media è molto bassa. 3. Approssimativamente, il 68% dell’area si trova tra i valori i valori 4. Una , e il 97.5% tra i valori distribuzione normale è descritta , il 95% tra . completamente dai due suoi paramentri e 2 . Una volta che il valore di q uesti due parametri viene trovato, è possibile stimare la probabilità che un certo valore di X si trovi all’interno di un certo intervallo. 5. La combinazione lineare di due variabili normali è anche’essa una variabile normale La curva cosiddetta normale fu s viluppata nel 1733 da DeMoivre, come un'approssimazione alla distribuzione binomiale. I suoi scritti furono persi fino al 1924, quando Karl Pearson li ritrovò. Laplace utilizzò la curva normale nel 1783 per descrivere la distribuzione degli errori. Nel 1809, Gauss la impiegò nell'analisi di dati astronomici. La curva normale è spesso chiamata "distribuzione gaussiana”. La Distribuzione Normale Standardizzata Ogni distribuzione normale è a se stante perché dipende dai valori della V. C di riferimento. Ossia due distribuzioni possono avere media diversa e varianza diversa, oppure media uguale e varianza diversa, oppure varianza uguale e media diversa. Com’è possibile comparare due distribuzioni normali diverse tra loro? Volendo una distribuzione norm ale standardizzata, ossia che non dipenda dall’unità di misura della variabile di riferimento, si può ottenere quest’ultima mediante la relazione: Zi X x x La variabile Z ha media =0 e varianza 2 =1. La Distribuzione Chi-quadrato 2 In statistica ci trov iamo spesso di fronte a quantità elevate al quadrato come ad esempio X 2 oppure . Queste quantità hanno la loro distribuzione campionaria? Sotto certe condizioni, la distribuzione di queste quantità può essere derivata. Consideriamo una variab ile casuale distribuita normalmente Sappiamo che la sua standardizzazione si distribuisce: Zi X x x La teoria statistica dimostra che il quadrato di variabile standardizzata di distribuisce come una 2 con un grado di libertà . Simbolicamente: Così come la media e la varianza sono parametri della distribuzione normale, così i gadi di libertà sono i parametri della distribuzione chi -quadrato. Il termine grado di libertà in statistica è usato in diversi sensi, ma in questo momento noi li definiamo come il nume ro di osservazioni indipendenti in una somma di quadrati. Supponiamo ora di avere X1 ,..., Xn variabili aleatorie indipendenti ciascuna con distribuzione normale standard N(0,1), diciamo variabile aleatoria chi -quadro con n gradi di libertà la variabile al eatoria n Y X 2 , indicata con Y 2 n i 1 Proprietà: 1. Diversamente dalla distribuzione normale, la distribuzione chi -quadro ha solo valori positivi. 2. Diversamente dalla distribuzione normale, la distribuzione chi -quadro è skewed (ossia inclinata), e il grado di skeweness dipende dai gra di di libertà. La distribuzione e molto skewed a destra, man mano che i gradi di libertà aumentano, la distribuzione diventa molto più simmetrica. 3. Il valore atteso (o media) è k e la sua varianza 2k, dove k sono i gradi di libertà. La Distribuzione t Conosciuta anche come distribuzione t di Student. Si è visto in precedenza che se a una variabile normale (x) sottraiamo la media ( ) e dividiamo tale differenza per la deviazione standard ( σ) otteniamo una normale standard (z) con media 0 e varianza 1: se x ~ N (, 2 ), z ~ N (0, 1) dove Poiché le medie campionarie ( , z x ), calcolate su campioni tratti dalla variabile hanno distribuzione normale con media e varianza , se standardizziamo la variabile media camp ionaria otteniamo una deviata normale standard Z con media 0 e varianza 1: se 2 x ~ N ( , ) , z N (0,1) dove n z x / n Quando il parametro 2 è ignoto, possiamo sostituirlo con la sua stima campionaria s 2 , ed ottenere il rapporto t x s/ n Qual è la distribuzione di tale rapporto ? Si può dimostrar e che, per campioni tratti da una variabile normale, il rapporto "t" è una variabile casuale la cui distribuzione è descritta da una funzione simmetrica la cui forma dipende da i gradi di libertà della s tima campionaria della varianza ed è nota con il nome di "t" di Student. x s/ n ~ t di Student (con k=n-1 g.d.l.) Come nella distribuzione chi -quadro, la distribuzione t dipende dal paramentro gradi di libertà (gdl) . Proprietà 1. La distribuzione t, come la distribuzione normale, è simmetrica come si vede dalla figura sopra. 2. La media della distribuzione , come la distribuzione normale standard è zero, ma la varianza è data da k/(k-2). Per questo motivo, la varianza di una distribuzione t è definita per gradi di libertà maggiori di due. Ma mano che k aumenta, la varianza di una distribuzione t si avvicina alla varianza di una distribuzione normale standardizzata, cioè 1. Per cui, se i gdl, ad esempio sono 10, la varianza sarà 10/8=1.25, se k=30, la varianza sarà 30/28=1.07, se k=100, la varianza sarà 100/98=1.02. Anche per valori di k molto piccoli, come 30, non c’è molta differenza nella varianza della distribuzione t e della normale standard. Per cui, ampiezza campionaria non deve essere enorme affinché la t approssimi una distribuzione normale. La Distribuzione F Se da una popolazione normale N (, 2 ) estraiamo due campioni indipendenti otteniamo due stime S 1 ed S 2 della deviazione standard . Se operiamo infinite volte l'estrazione di coppie di campioni e ogni volta misuriamo il loro rapporto otteniamo la variabile casuale F di Fisher, con k i 1 gradi di liberta al numeratore (relativi ad S 1 ) e k i 2 gradi di liberta al denominatore (relativi a S 2 ). F S1 S2 Proprietà 1. Come la distribuzione chi -quadrato, anche la distribuzione F è skewed a destra e ha valori che vanno da zero a infinito. 2. Come la distribuzione chi -quadro, la distribuzione F approccia la distribuzione normale, al crescere di k 1 e k 2 . 3. Il quadrato di una distribuzione t con k gdl, ha una distribuzione F con 1 e k gdl al numeratore e denomina tore rispettivamente. Inferenze Statistica e Test di’ipotesi La statistica inferenziale descrive le procedure con cui possiamo usare le osservazioni date per disegnare le conclusioni sulla popolazione da cui il campione è stato preso. La nostra assunzi one è che c’è un processo sconosciuto che genera dati, e che può essere descritto da una distribuzione di probabilità caratterizzata da alcuni parametri sconosciuti. Ad esempio in una distribuzione normale i parametri sconosciuti sono e 2 . Nell’inferenza classica, ad esempio, assumiamo che la media campionaria sia la nostra stima di . Generalmente quando si parla di inferenza classica, si discutono i seguenti punti: 1. Stima puntuale. 2. Stima intervallare 3. Test d’ipotesi. Stima puntuale. Supponiamo che la distribuzione di probabilità involva un parametro supponiamo inoltre di avere un’ampiezza campionaria n, puntuale costruiamo una funzione θ, . Nella stima dalle osservazioni e affermiamo che g è la nostra stima per θ. Uno stimatore è una variabile casuale e una stima è un particolare valore di questa variabile casuale . Per esempio, se θ rappresenta la media della popolazione e campionaria, allora diciamo che la media è uno stimatore di θ. Nella stima intervallare, costruiamo due funzioni, e dalle osservazioni che abbiamo, e diciamo che θ si trova tra queste due funzioni con una data probabilità . Nei test d’ipotesi testiamo la veridicità di un’ipotesi (ad esempio che θ=4) e esaminiamo il grado di evidenza a favore di questa ip otesi, sulla base della quale accettiamo o rifiutiamo l’ipotesi. Stima intervallare. Nella stima intervallare, come abbiamo già accennato, costruiamo due funzioni e dalle osservazioni che abbiamo, tale che: una data probabilità. è chiamato coefficiente di confidenza e l’intervallo ( g 1 ,g 2 ) è chiamato intervallo di confidenza . Dato che θ è un parametro (o una costante a noi sconosciuta), l’asserzione di probabilità (sopra), è un’asserzione su g 1 e g 2 e non su θ. Ciò significa che se usiamo la formula e ripetutament e con differenti campioni e costruiamo di volt a in volta gli interballi di confidenza usando le formule, allora nel 100 percento di tutti i casi l’intervallo dato includerà il vero valore. Come esempio su come usare la distribuzione campionaria per costruire gli intervalli di confidenza, consideriamo il campione con n osservazioni dipendenti da una distribuzione normale con media e varianza 2 . Allora e Se l’ampiezza campionaria è pari a 20, da cui i gradi di libertà sono n-1=19, possiamo vedere nelle tavole della con gradi di libertà 19 e diciamo: O che Oppure, riferendoci alla tavola t-Student con 19 gradi di libertà, abbiamo che Da cui, sostituendo: Se e S=3 abbiamo intervalli di confidenza a l 95% per di (3.6 e 6.4) Test d’ipotesi Supponiamo di avere il seguente campione: P/E ratio 6 7 8 9 10 11 12 13 14 15 16 18 Frequency 2 2 5 6 5 7 5 4 3 4 6 1 Totale 50 Media=11.5 Varianza Campionaria= 9.2755 Deviazione Standard =3.0456 Supponiamo di ipotizzare che il vero valore della media sia . Il nostro obiettivo è quello di testare l’ipotesi. Nel linguaggio dei test è chiamata ipotesi nulla ed è generalmente denotata da H 0 , da cui H 0 : . L’ipotesi nulla viene generalmente testata contro un’ ipotesi alternativa , denotata dal simbolo H 1 . L’ipotesi alternativa può prendere una di queste forme: H1: : ipotesi alternativa ad una coda H1: : anch’essa ipotesi alternativa ad una coda H1: : ipotesi alternativa a due code Basandoci sulla statistica t: t x s/ n Abbiamo i seguenti intervalli di confidenza al 95% 11.26< <11.73 Nel nostro caso la nostra ipotesi nu lla non si trova all’interno dell’intervallo, per cui la rifiutiamo. Nel linguaggio dei test d’ipotesi, l’intervallo di confidenza (ad esempio al 95%) è chiamato regione di accettazione , e l’area fuori da questa regione è chiamata regione critica o regione di rigetto dell’ipotesi nulla. I limiti superiori e inferiori della regione di accettazione sono chiamati valori critici . Se il valore del parametro sotto l’ipotesi nulla si trova all’interno della regione di accettazione, accettiamo l’ipotesi nulla , se invece si trova fuori rifiutiamo l’ipotesi nulla . Uno dei bivi di fronte a cui ci si trova davanti nei test di ipotesi è quello di scegliere il valore di α. Generalmente viene scelto sempre il 5 percento (anche GRETL ha come valore di base il 5%). In ogni caso non è possibile stabilire a priori quale sia il valore ottimale di α da scegliere. Per questo è preferibile trovare il p-value (ossia il valore della probabilità) anche conosciuto come livello di significatività esatto di un test statistico. Può essere definito come il più basso livello di significatività a cui l’ipotesi nulla può essere rifiutata . Test d’ipotesi nel modello bivariato Supponiamo di avere il seguente dataset: Deamnd (Y) 49 45 44 39 38 37 34 33 30 29 Price (X) 1 2 3 4 5 6 7 8 9 10 La nostra regressione è data da: Stimando la retta di regressione con il metodo dei minimi quadrati (OLS) otteniamo: Modello 1: OLS, usando le osservazioni 1 -10 Variabile dipendente: Deamnd(y) coefficiente errore std. rapporto t p -value --------------------------------------------------------------const 49,6667 0,746439 66,54 2,90e -012 *** Price(X) -2,15758 0,120300 -17,94 9,58e-08 *** Media var. dipendente 37,80000 SQM var. dipendente 6,613118 Somma quadr. residui 9,551515 E.S. della regressione 1,092675 R-quadro 0,975733 R-quadro corretto 0,972700 F(1, 8) 321,6650 P -value(F) 9,58e -08 Log-verosimiglianza -13,95996 Criterio di Akaike 31,91992 Criterio di Schwarz 32,52509 Hannan -Quinn 31,25605 Note: SQM = scarto quadratico medio ; E.S. = errore standard Supponiamo ora che qualcuno ci suggerisce the il prezzo di un bene non abbia alcun effetto sulla quantità domandata. Ossia la nostra ipotesi nulla è data da: (B rappresenta il vero valore di β) Il risultato della nostra regressione mostra che β=-2,1576. Sicuramente i n questo caso ci aspettiamo di non poter accettare l’ipotesi nulla. In realtà non possiamo solo guardare al risultato numerico, sappiamo benissimo che il valore numerico cambia da campione a campione. Abbiamo bisogno di una procedura formale per testare la procedure di accettare o rifiutare l’ipotesi nulla. Come procedere? Sappiamo che il nostro stimatore β si distribuisce come una normale (SEMPRE!!!!). Per testare l’ipotesi possiam o usare: 1. L’approccio intervalli di confidenza , oppure 2. L’approccio test di significatività. Dato che β segue una distribuzione normale, , sappiamo che ( vedere precedente dispensa sulle distribuzioni ): ***: ricordatevi che è la distribuzione normale standardizzata . Sappiamo che la proprietà che il 95% dell’area della distribuzione normale si trova a due deviazioni standard dalla valore medio, per cui se la nostra ipotesi nulla 0 e il nostro stimatore è β=-2,1576, possiamo calcolare la probabilità di trovare questo valore dalla distribuzione normale standardizzata. Se questa probabilità è molto piccola, possiamo rifiutare l’ipotesi nulla , ma se è grande (diciamo maggiore del 10%) non possiamo rifiutarla . Non conoscendo il vero valore della varianza, usiamo quello stimato, per cui avremo: Testiamo verso Il nostro campione è formato da 10 osservazioni, per cui i gradi di libertà sono (10-2)=8. Supponiamo di testare l’ipotesi al 95% di con fidenza. Visto che l’ipotesi alternativa è su due lati (ossia che il nostro stimatore può essere maggiore o minore di zero), dalle tavole della distribuzione t, troviamo che per otto gradi di libertà il valore è: TAVOLA DEI QUANTILI α 0,1 0,05 0,025 0,01 0,005 1 3,0777 6,3137 12,7062 31,8210 63,6559 2 1,8856 2,9200 4,3027 6,9645 9,9250 3 1,6377 2,3534 3,1824 4,5407 5,8408 4 1,5332 2,1318 2,7765 3,7469 4,6041 5 1,4759 2,0150 2,5706 3,3649 4,0321 6 1,4398 1,9432 2,4469 3,1427 3,7074 7 1,4149 1,8946 2,3646 2,9979 3,4995 8 1,3968 1,8595 2,3060 2,8965 3,3554 9 1,3830 1,8331 2,2622 2,8214 3,2498 n troviamo: Questo rappresenta la probabilità che il valore t (per 8 gradi di libertà) si trovi tra i limiti (-2,306, 2,306) è 0.95 o il 95%, questi, come noi già sappiamo, sono i valori critici della t. Ora sostituendo i valori della t nella precedente espressione (quella con la freccia rossa), otteniamo Facendo alcuni spostamenti, otteniamo: Nel linguaggio dei test d’ipotesi, l’i ntervallo di confidenza ottenuto è conosciuto come regione di accettazione , e l’area fuori dall’intervallo è chiamata regione di rifiuto. Nella figura potete notare l’intervallo di confidenza: β -2.4350 -1.8802 Dato che il valore zero (della nostra ipotesi nulla) non si trova nell’intervallo di confidenza, possiamo rifiutare l’ipotesi nulla che il prezzo di un bene non ha effetti sulla quantità domandata del bene stesso . Approccio test di significatività In questo caso la decisione di accettare o rifiutare l’ipotesi nulla si basa sul vlaore del test statistico ottenuto dal campione. Vediamo in dettaglio. Ricordiamo che Segue una distribuzione t con (n-2) gradi di libertà. Ora se dove è uno specifico valore numerico di B (ad esempio subito calcolarci: ). Allora possiamo Dato che tutti i valori sono noti, possiamo i valori ottenuto dalla precedente espressione come test statistico con distribuzione t di Student e (n-2) gradi di libertà. Questa procedura è chiamata t Test. Ora per usare il test t abbiamo bisogno di conoscere tre cose fondamentali: 1. I gradi di libertà sono sempre ( n-2) per il modello di regressione bivariato 2. Il livello di significatività α: 1, 5 e 10% sono quelli che di norma si usano nell’analisi empirica 3. Possiamo usare test ad una coda o due code. 1. Test a due code. Ipotizziamo che Usando l’espressione con la freccia blu, abbiamo che approssimativamente Ora dalle tavole statistiche della distribuzione t, abbiamo che per otto gradi di libertà i valori critici sono: Livello di significatività 0.01 0.05 0.001 Valori Critici di t 3.355 2.306 1.86 Tenete bene a mente la seguente tabella: Ipotesi nulla Ipotesi alternativa βx=β0 βx=β0 βx=β0 βx>β0 βx<β0 βx≠β0 Valori critici di rifiuto dell'ipotesi nulla >tα <tα >tα/2 Dalla seguente tabella notiamo che, dato il t ottenuto, rifiutiamo l’ipotesi che il nostro stimatore sia uguale a zero, e accettiamo l’ipotesi alternativa che esso sia diverso da zero. Test d’ipotesi nel modello multivariato Con il test t diciamo che individualmente un coefficiente possa essere o meno significativo . Consideriamo ora la seguente ipotesi nulla: La precedente ipotesi nulla è una ipotesi congiunta con cui testare se siano simultaneamente o congiuntamente uguali a zero. Questa ipotesi testa che due variabili indipendenti congiuntamente non abbiano nessuna influenza sulla variabile dipendente. Questo è lo stesso che dire: Test di questo tipo vengono chiamati test della significatività totale della retta di regressione della popolazione stimata, ossia della relazione tra la variabile dipendente e le variabili indipendenti. Questo tipo ti test può essre fatto tramite una tecnica nota come analisi della varianza (ANO VA). Per vedere come questa tecnica viene usata, ricordiamoci: TSS=ESS+RSS Ossia, La precedente euqzione decompone la Total Sum of Squares in 2 differenti componenti, una esplicata dal modello di regressione scelto (Estimated Sum of Squares) e l’alta non spiegata dal modello (Residual Sum of Squares). Ogni Sum of Squares è associata ad un grado di libertà, ossia il numero di osservazioni indipendenti sulla base delle quali viene calcolata la somma dei quadrati (Sum of Squares) . Guardate la seguente tabell a: Sum of Squares TSS RSS D.F. n-1 n-3 (sempre) (nel modello a tre variabili (Y, X1 e X2)) ESS 2 (due sono le variabili (X1 eX2)) Ora abbiniamo ad ogni Sum of Squares il loro grado di libertà , Fo nte d i v a r ia zio ne Su m o f S q ua re s Do v uta al la r e gr e s sio ne ( ES S) G. d. l. M SS= 2 Do v uta ai re sid u i ( R SS) n -3 T o tale (T S S) n -1 Nota: MSS= media delle somme dei quadrati. Ora, data l’ipotesi nulla , la variabile Segue una distribuzione F con 2 e (n-3) gradi di libertà al numeratore e denominatore rispettivamente. Più in generale, se il modello di regressione ha k variabili indipendenti, il rapporto F ha (k -1) gradi di libertà al numeratore e (n -k) gradi di libertà al denominatore . Come usare la l’equazione con la freccia nera per testare l’ipotesi congiunta che tutte e due le variabili indipendenti non hanno alcun effetto sulla variabile dipendente? La risposta è evidente nell’equazione stessa . Se il numeratore è maggiore del denominatore il valore della F sarà maggiore di uno. Allo stesso modo, man mano che la varianza spiegata dalle variabili indipendenti sale diventando più grande rispetto alla varianza non spiegata, l’ F test diventerà grande allo stesso modo. Un valore molto alto di F ci porta a rifiutare l’ipotesi che le variabili indipendenti (o esplicative) non hanno alcun effetto sulla variabile dipendente. Supponiamo di avere il seguente dataset: Y X1 X2 11.484 9.348 8.429 10.079 9.24 8.862 6.216 8.253 8.038 7.476 5.911 7.95 6.134 5.868 3.16 5.872 2.26 2.54 3.07 2.91 2.73 2.77 3.59 3.23 2.6 2.89 3.77 3.64 2.82 2.96 4.24 3.69 3.49 2.85 4.06 3.64 3.21 3.66 3.76 3.49 3.13 3.2 3.65 3.6 2.94 3.12 3.58 3.53 Supponiamo di avere la seguente stima di regressione Modello 1: OLS, usando le osservazioni 1-16 Variabile dipendente: Y coefficiente errore std. rapporto t p-value ------------------------------------------------------------const 9,73422 2,88806 3,371 0,0050 *** X1 -3,78220 0,572455 -6,607 1,70e-05 *** X2 2,81525 0,947511 2,971 0,0108 ** Media var. dipendente 7,645000 SQM var. dipendente 2,042814 Somma quadr. residui 14,35662 E.S. della regressione 1,050883 R-quadro 0,770648 R-quadro corretto 0,735363 F(2, 13) 21,84067 P-value(F) 0,000070 Log-verosimiglianza -21,83600 Criterio di Akaike 49,67200 Criterio di Schwarz 51,98976 Hannan -Quinn 49,79068 Note: SQM = scarto quadratico medio; E.S. = errore standard Analisi della varianza: Somma dei quadrati Regressione Residuo Totale 48,2397 14,3 566 62,5964 df Mean square 2 13 15 24,1199 1,10436 4,17309 R^2 = 48,2397 / 62,5964 = 0,770648 F(2, 13) = 24,1199 / 1,10436 = 21,8407 [p -value 6,97e-005] Sotto l’ipotesi nulla che , il valore della F ottenuto (cioè 24.1199) segue una distribuzione F con 2 e 13 gradi di libertà al numeratore e denominatore rispettivamente. Se scegliamo α=1%, dalla tavole della statistica F che per i dati gradi di libertà il valore critico è 6.70. La nostra statistica risulta essere maggiore del valore critico, per cui rifiutiamo l’ipotesi nulla. Affermiamo quindi che congiuntamente X 1 e X 2 influenzano la Y. Dalle statistiche t è possibile notare come anche indivi dualmente le due variabili indipendenti influenzano la variabile dipendente. Questo non avviene sempre. Possiamo avere il caso in cui le variabili individualmente non hanno alcun effetto sulla var iabile indipendente (ossia accettiamo l’ipotesi che i nostri coefficienti non siano diversi da zero), ma congiuntamente hanno impatto. Spesso si verifica questa possibilità nel caso della multicollinearità. Un’importante relazione tra F e R2 C’è una relazione molto importante tra il coefficiente di determinazione R 2 e il rapporto F. La relazione è di questo tipo dove n è il numero di osservazioni e k è il numero di variabili esplicative usate nel modello. L’equazione dimostra come i due siano collegati. Q uando R 2 =0 (ossia nessuna relazione tra la variabile dipendente e le variabili indipendenti), F=0. Nei limiti in cui R 2 =1, F tende ad infinito. Per questo possiamo considerare l’ F test anche come un test di significatività dell’ R 2 , ossia se quest’ultimo s ia o meno differente da zero. Un vantaggio dell’ F test in termini di R 2 è la facilità con cui può essere calcolato, tutto quello che dobbiamo sapere è il valore dell’ R 2 che viene normalmente calcolato da tutti i programmi statistici. Usando i precedenti dati, con un R 2 di 0,770648, abbiamo Lo stesso risultato ottenuto nella statistica F.