3333
PARTE PRIMA. Introduzione e Richiami
Vengono ripresi di seguito alcuni concetti base di matematica, di statistica
descrittiva, inferenziale e di calcolo delle probabilità.
Dispense di econometria
Pag. 1
Richiami di matematica
I riferimenti ai concetti matematici più importanti propedeutici allo studio
dell‟Econometria riguardano principalmente lo studio dei logaritmi, delle
disequazioni, dell‟algebra matriciale e delle funzioni di una o più variabili e verranno
ripresi di volta in volta che se ne presenta la necessità.
2.Richiami di Statistica descrittiva
Concetti teorici.
Di seguito vengono riportati i contenuti più importanti della Statistica descrittiva
seguendo una logica propedeutica allo studio dell‟Econometria. Si cerca di
individuare una linea di continuità tra un modello univariato o bivariato
semplicemete descrittivo ed uno probabilistico.
Distribuzioni di frequenze per valori suddivisi in classi. Frequenza assoluta, relativa,
cumulata assoluta e relativa
La frequenza esprime il numero di volte che la modalità di un carattere si
presenta nella popolazione di interesse. Essa può essere assoluta, quando
esplicita il numero di volte che la modalità del carattere si ripete; relativa, che si
ottiene dal rapporto tra frequenza assoluta e il numero totale delle osservazioni e
si denota con N; relativa percentuale ovvero uguale al prodotto della frequenza
relativa per 100. Cumulata assoluta, quando si sommano le frequenze assolute;
cumulate relative, quando si sommano le frequenze relative.
La frequenza può essere riferita a singole modalità relative a uno o più caratteri della
popolazione di interesse oppure a modalità rappresentate per classi di valori. La
classe è un sub-intervallo del campo di variazione del carattere di interesse.
L‟ampiezza delle classi dipende dalle caratteristiche del fenomeno osservato e dal
grado di significatività che esse assumono nella statistica descrittiva e inferenziale.
La generica classe è definita come:
(ai-1 , ai )
per i = 1, 2,...., k
all‟interno della quale vanno inserite tutte le modalità del carattere comprese
nell‟intervallo reale:
ai-1 < a ≤ ai
Le classi si caratterizzano con un valore minimo coincidente con l‟estremo sinistro;
con un valore massimo, coincidente con l‟estremo destro. Esse devono essere
disgiunte ovvero senza sovrapposizioni; devono essere esaustive ovvero contenente
Dispense di econometria
Pag. 2
un valore min e max; normalmente sono chiuse a destra ovvero il valore estremo
destro della classe non è ricompreso; possono essere equi-ampie ovvero aventi tutte
la stessa ampiezza e equi-frequenti ovvero aventi tutte la stessa frequenza.
Per distribuzioni di valori suddivisi in classi si può utilizzare, ai fini del calcolo delle
misure centrali e di variabilità, il valore centrale di classe, tenendo conto che tale
procedura presenta un certo grado di approssimazione dei risultati.
Va ricordato che per classi non equi-ampie, ai fini della loro rappresentazione
grafica, è necessario disegnare per ognuna di esse un rettangolo la cui area si
ottiene dal prodotto della base corrispondente all‟ampiezza di classe (ai-1,ai) per
l‟altezza data dalla densità di frequenza trovata. E‟ inoltre importante sottolineare
che per la rappresentazione grafica della moda si è obbligati ad utilizzare la
densità di classe come altezza del rettangolo o barra verticale di un istogramma.
Per stabilire il numero delle classi e la loro ampiezza in una distribuzione di
frequenza occorre trovare prima di tutto il valore minimo ed il valore massimo la cui
differenza rappresenta l'intervallo di variazione dato dalla notazione:
I= Max - Min
e poi scegliere arbitrariamente il numero degli intervalli di classe (o più
semplicemente il numero delle classi), in genere corrispondente alla radice quadrata
della numerosità della popolazione, espressa dalla seguente notazione:
k= N
dove k rappresenta il numero delle classi ed N la numerosità della popolazione. Si
dividono quindi le osservazioni per il numero di classi trovato k. Il numero delle
classi dovrebbe essere, in ogni modo, non inferiore a 5 e non superiore a 20. Per
determinare l'ampiezza si applica la seguente notazione:
a=
Max - Min
k
dove k è il numero delle classi, Max è il valore massimo delle osservazioni e Min è il
valore minimo.
Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte
manualmente relativi alla parte teorica trattata.
Dispense di econometria
Pag. 3
ESERCITAZIONE EMPIRICA 1
Nella Tabella seguente vengono riportati i dati di una rilevazione da questionario su
34 punti vendita di cui si sono osservati i caratteri Vendite, Prezzo e Promozione.
Punti
vendita
Vendi Prez
te
zo
Promozi
one
Punti
vendita
Vendi
te
Prezzo
Promozion
e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
4141
3842
3056
3519
4226
4630
3507
3754
5000
5120
4011
5015
1916
675
3636
3224
2295
200
200
200
200
400
400
400
400
600
600
600
600
200
200
200
200
400
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
2730
2618
4421
4113
3746
3532
3825
1096
761
2088
820
2114
1882
2159
1602
3354
2927
400
400
400
600
600
600
600
200
200
200
200
400
400
400
400
600
600
59
59
59
59
59
59
59
59
59
59
59
59
79
79
79
79
79
79
79
79
79
79
79
79
99
99
99
99
99
99
99
99
99
99
Fonte: Google
Si riprendono i dati del carattere vendite e si costruiscono cinque classi equi ampie:
I=Max-Min=5120-675=4445
k = N = 34  5,8
(non si utilizza l‟arrotondamento matematico; si arrotonda a 5 classi)
a=
Max - Min
=(5120k
675)/5=889 (ampiezza di classe)
Nella Tabella seguente si riportano le classi calcolate e tutte le frequenze.
Classi
Freq. ass.
Freq.rel.
Freq.rel.%
Freq. cum. Ass.
Freq. cum.relative
675-1564
4
0.1176471
11,76471
4
0.1176471
1564-2453
7
0.2058824
20,58824
11
0.3235294
2453-3342
5
0.1470588
14,70588
16
0.4705882
3342-4231
13
0.3823529
38,23529
29
0.8529412
4231-5120
5
0.1470588
14,70588
34
1,0000000
Totale
34
1,0000000
100.0000
Nel Grafico seguente si riporta l‟istogramma delle Vendite per valori suddivisi in
classi.
Dispense di econometria
Pag. 4
Frequenze Relative
Istogramma delle Classi di Vendite
675
1564
2453
3342
4231
5120
Classi di Vendite
Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse
applicazioni svolte manualmente relativi alla parte teorica trattata.
PREMESSA
Introduzione ad R
Che cos‟è R.
R è un ambiente di sviluppo pensato appositamente per la realizzazione di analisi
statistiche.
Si tratta di un linguaggio di programmazione open source ovvero "gratis".
Fondamentalmente R è un pacchetto statistico che permette di elaborare dati,
eseguire calcoli dai più semplici ai più complessi, ottenere rappresentazioni grafiche
e molto altro ancora...
Il software R è un punto di riferimento per tutto ciò che riguarda le analisi
statistiche; è sopratutto un linguaggio di programmazione che è in grado di creare
istruzioni personalizzate utilizzando l'apposita R Console.
Rende l'Utente indipendente da una costosa licenza software
www.r-project.org
Come usare R.
http://www.didatticainterattiva.it/files/appendice-iii-consigli-per-l-uso-di-R.pdf
Esempio di importazione dei dati da Excel a R.
Dispense di econometria
Pag. 5
A. Se non si è scaricato si provveda ad effettuare il download svolgendo la seguente
procedura:
1. da un Browser, ad esempio Google Crome, si accede al sito di R scrivendo
nell‟apposito check box –software R-;
2. cliccare su “R: The R Project for Statistical Computing https://www.rproject.org/Traduci questa pagina. R is a free software environment for
statistical computing and graphics. It compiles and runs on a wide variety of
UNIX platforms, Windows and MacOS. CRAN - Mirrors · Of /src/base/R-3
· About R · Books” ;
3. si apre la pagina The R Project for Statistical Computing Getting Started
dove è inserito il link download cliccando il quale si apre il CRAN Mirrors
scorrendo il quale si trovano quattro indirizzi riferiti alle università italiane;
sceglierne una e cliccandoci sopra si apre la pagina: The Comprehensive R
Archive NetworkDownload and Install R. Precompiled binary distributions of
the base system and contributed packages, Windows and Mac users most
likely want one of these versions of R:
Download R for Linux
 Download R for (Mac) OS X
Download R for Windows
4. Scegliere il sistema operativo montato sul vostro dispositivo ed effettuare il
download
5. Per aprire R occorre cliccare due volte sull‟icona che normalmente si trova
sul Desktop o aprire il software dal menu di windows cliccando su
“Programmi” . Avviando R viene mostrato il prompt >sulla R Console su cui
si può agire direttamente inserendo i comandi e premendo il tasto ”Invio”
oppure si può operare dal menu “File” scegliendo l‟opzione “Nuovo script” che
apre una nuova finestra “R Senza Titolo-Editor di R” . Su questa si può agire
scrivendo le righe di codice che interessano, poi con il tasto destro del mouse
si apre un menu a tendina, si sceglie l‟opzione “Seleziona tutti” e da ultimo
l‟opzione “Esegui linea o selezione” da cui si ottiene l‟output in R Console. Lo
stesso risultato lo si ottiene agendo dal menu “Modifica”, stessa opzione
“Esegui linea o selezione” oppure, usando il tasto F5. Per evitare che, alla sua
riapertura, R ricarichi di default il precedente spazio di lavoro ricordarsi di o
salvare oppure cliccare sul NO nella finestra di dialogo.
Nelle due Tavole seguenti si mostrano il prompt di R Console con la freccia azzurra
mostra e la procedura File-Nuovo script con le due frecce rosse ed inoltre la
procedura per mandare in esecuzione le linee di codice. Tasto destro – Seleziona
tutti – Esegui linea o selezione come si evince dalle due frecce rosse. Oppure le linee
di codice possono essere inserite direttamente dal prompt> come evidenziato dalla
freccia blu
Dispense di econometria
Pag. 6
Tavole seguenti evidenziano la procedura con cui si può modificare o annullare ciò
che si è scritto precedentemente. Le due frecce rosse evidenziano la procedura
Modifica – Annulla. Cliccando sull‟opzione “Pulisci Console” si cancella tutto ciò che
vi è scritto (freccia blu) e la procedura da utilizzare quando si vuole uscire da R. La
freccia rossa indica il No ovvero che non si vogliono salvare le linee di codice
dell‟Editor di R. La freccia blu indica il Si ovvero che si vogliono salvare le linee di
codice dell‟Editor di R.
Dispense di econometria
Pag. 7
B. Aprire un file Excel; in questo caso si dispone del file nominato: “Q_01” relativo
ai risultati emersi da un Questionario somministrato a 190 individui etichettati e
svolgere la seguente procedura:
a. dalla Barra degli strumenti superiore cliccare su File-Salva con nome;
b. scorrere il cursore fino al tipo di estensione da settare; in questo caso si sceglie
CSV(delimitato da separatore di elenco):
c. indicare l‟indirizzo di destinazione del file; in questo caso il percorso è
C:\Mydata
d. potrebbe comparire il box seguente:
Dispense di econometria
Pag. 8
cliccare Si
e. aprire il programma Note Pad++ (oppure un semplice Blocco Note) e salvare
il file QUES1 nella directory C:/Mydata/;
f. si può notare che la formattazione del file è cambiata e che il separatore di
campo è il punto e virgola;
g. aprire ora il software R; cambiare la directory scegliendo quella di lavoro; in
questo caso è: “C:/Mydata”; basta scrivere nel prompt della R Console il
comando: setwd(“C:/Mydata”)
La Tavola seguente riporta la procedura con cui si può desumere quale directory di
lavoro è presente in R e quale directory si vuole scegliere. Con il comando getwd()
di individua la directory presente su R (freccia rossa). Con il comando setwd() va a
scegliere la directory di lavoro (freccia blu). In questo caso il percorso è: C:/Mydata.
Per completare il quadro di come funziona R si rimanda anche al sito
www.didatticainterattiva.it nella Sezione Software-R.
ESERCITAZIONE EMPIRICA CON R
x<-c(4141,3842,3056,3519,4226,4630,3507,3754,5000,5120,4011,5015,1916,675,3636,3224,
Dispense di econometria
Pag. 9
2295,2730,2618,4421,4113,3746,3532,3825,1096,761,2088,820,2114,1882,2159,1602,3354,2927);
x
k<-5; k
n<- length(x); n
Classi <- seq(min(x),max(x),length.out = k + 1);Classi
FreqAss <- hist(x,Classi,plot = FALSE)$counts;FreqAss
FreqRel <- FreqAss / n ;FreqRel
FreqRelPerc <- 100 * FreqRel;FreqRelPerc
Freq_cum_ass<-cumsum(FreqAss);Freq_cum_ass
Freq_cum_rel<-(Freq_cum_ass)/n;Freq_cum_rel
par(bg="cornsilk")
h <- hist(x,Classi,plot = FALSE)
h$counts <- FreqRel
plot(h,ylab = "Frequenze Relative",xlab="Classi di Vendite",axes = FALSE, main = "Istogramma delle
Classi di Vendite", col="red")
axis(1,at = Classi,cex.axis = 1.1)
axis(2,at = c(0,round(h$counts,digits = 2)),cex.axis = 1.1
Dopo aver aperto R si copia e si incolla lo script nell‟Editor e riga per riga si manda
in esecuzione trovando i risultati già calcolati nell‟Applicazione svolta
manualmente
Media aritmetica in frequenza assoluta e relativa
Concetti teorici
Fin qui è stata svolta un‟analisi del fenomeno statistico attraverso la descrizione di
un insieme di modalità di un carattere, riferite ad un insieme di unità statistiche
(popolazione o collettivo o universo) attraverso l‟utilizzo di distribuzioni di
frequenza rappresentate con tabelle e grafici. Sia nella ricerca scientifica e
tecnologica che nell‟ambito delle scienze economiche, sociali, politiche ed ambientali
si ha l‟esigenza di misurare efficacemente e quindi valutare gli effetti indotti da una
causa nota. La misura di posizione (location index) sintetizza con un solo valore
l‟intera distribuzione di frequenza e ne permette di effettuare raffronti nel tempo,
nello spazio o tra circostanze differenti. “Talvolta, ciò è rilevante per verificare se le
conseguenze di un‟azione nota abbiano prodotto un risultato desiderato, in quale
direzione e con quale intensità.” (D. Piccolo)
La Statistica descrittiva, dal significato stesso del termine, ha individuato diversi
indici o misure di posizione per una distribuzione di frequenza. Quelle cosiddette
“centrali” sono le più importanti e sono le medie (aritmetica semplice e ponderata,
geometrica e armonica), la moda e la mediana.
Dispense di econometria
Pag. 10
Per quanto riguarda i quantili (decili, centili), i percentili e i quartili occorre
precisare che essi rappresentano una misura di posizione, sebbene non centrale, solo
se presi singolarmente. Ad esempio il I decile, il 99° centile o il I quartile di una
distribuzione di frequenza descrivono una precisa posizione nella distribuzione di
frequenza. Se invece si vuole misurare la distanza fra di essi, si deve parlare di
misura di variabilità. Ad esempio la differenza interquartilica tra il I e il III quartile
non esprime più una misura di posizione ma di variabilità. Di seguito vengono
studiati le misure di posizione centrale per valori suddivisi in classi, individuando i
concetti di numerosità, ampiezza e valore centrale delle stesse.
Il concetto e il ruolo di questa misura sono centrali nello studio di un fenomeno
statistico. La media è un concetto immanente che l‟Uomo ha sempre utilizzato nella
sua vita quotidiana per far fronte alla mutevolezza e ai cambiamenti dei diversi
fattori con i quali si è dovuto sempre confrontare: ambiente, clima, nemici, territorio,
ecc. Nel “sentire comune” la Statistica è soltanto tutto ciò che riguarda le medie e
pertanto si ritiene che non sia “del tutto affidabile” se pretende di sintetizzare un
insieme di informazioni di una realtà complessa con un unico valore. Qui si
commette un grave errore, di concetto e di metodo, in quanto si confonde la
Statistica descrittiva che appunto inquadra e rappresenta la realtà efficacemente e
sinteticamente dalla Statistica inferenziale che invece, a partire da informazioni
circoscritte e limitate, induce ad assumere decisioni a valenza generale. Si possono
avere diversi approcci al concetto di media: secondo Cauchy, secondo Chisini,
secondo Wald, secondo Nagumo-Kolmogorov-de Finetti.
In questo contesto si usa il procedimento di calcolo della media “in frequenza” che
utilizza come peso la frequenza assoluta o relativa per valori suddivisi in classi. Va
detto che tale procedimento non è esatto come quello che usa tutte le osservazioni. Il
calcolo vede moltiplicate le n osservazioni per le relative frequenze assolute
rapportato al numero totale delle stesse che restituisce la cosiddetta media
aritmetica “in frequenza assoluta” così denotata:
h
∑ x in
Ma = i=1h
∑n
i=1
i
i
Se si prendono come “peso” le frequenze relative si ottiene la media in “frequenza
relativa” e la notazione diventa:
h
Ma = ∑ x i fi
i=1
Dispense di econometria
Pag. 11
Due proprietà importanti vanno preliminarmente sottolineate: 1)aggiungendo (o
sottraendo) a tutti i valori xi, la stessa quantità w, la media aritmetica è incrementata
(o ridotta) di tale quantità (proprietà traslativa); 2) moltiplicando (o dividendo) tutti
i valori xi per una stessa quantità k, diversa da zero, la media aritmetica risulta
moltiplicata (o divisa) per tale quantità . Esse sono espresse dalle seguenti
notazioni:
n
∑xi ± w
Ma = i=1
n
n
∑xi ± w
x ± x ± .. ± x .
n =M ± w
= 1 2
a
n
Ma = i=1
n
x ± x ± .. ± x .
n =M ± w
= 1 2
a
n
Devianza, varianza, s.q.m. e c.v. in frequenza assoluta e relativa
Concetti teorici
Sopra é stata trattata una misura di posizione centrale (media aritmetica in
frequenza assoluta e relativa), ma non si è esaminata l‟attitudine di un carattere a
distribuirsi intorno ai valori medi. Obiettivo di questo Paragrafo è quello di
esaminare tale processo classificando e definendo le principali misure di variabilità e
di indicare le formule o notazioni sottostanti a tali concetti teorici, nonché di
esplicitare il significato di Devianza, Varianza, Squarto quadratico medio e il
Coefficiente di variazione, riferito a caratteri unidimensionali. Viene analizzato il
Coefficiente di variazione in qualità di indicatore che misura la variabilità relativa
del carattere osservato espresso da un numero puro.
Devianza per valori suddivisi in classi. E` data dalla somma dei quadrati delle
differenze dalla media moltiplicata per le frequenze assolute espressa dalla seguente
notazione:
n
dev  ∑(x i - x)2n
i
i=1
Varianza per valori suddivisi in classi. E` data dalla somma dei quadrati delle
differenze dalla media aritmetica per la relativa frequenza assoluta diviso il totale
delle frequenze assolute stesse espressa dalla seguente notazione:
n
∑(x i - x)2 n
var =
i
i=1
n
 ni
i=1
oppure quando si usa fa frequenza relativa:
Dispense di econometria
Pag. 12
n
var =  (x - x)2 f
i1
i
i
Scarto quadratico medio (s.q.m.). E` dato dalla radice quadrata della varianza.
k
∑ x 2n
2
s.q.m. = σ =
i=1
i
i
k
∑n
ì=1
ì
oppure quando si usa fa frequenza relativa:
2
s.q.m. = σ =
n
2
∑ (x - x) f
i
i
i=1
Coefficiente di variazione. E` dato dal rapporto fra la deviazione standard e la media
aritmetica.
cv =
σ
x
per i = 1, 2,......., n
Indici di forma. Asimmetria. Curtosi
Concetti teorici
Dopo aver esaminato e rappresentato le misure di posizione centrale e di variabilità
relative a distribuzioni di frequenza per valori suddivisi per classi, è necessario, ai
fini di una completa descrizione di un fenomeno statistico, studiare la forma delle
distribuzioni stesse. I concetti di asimmetria e curtosi sono fondamentali nello studio
della forma di una distribuzione di frequenza. Per quanto riguarda l‟asimmetria
viene ripreso il grafico box-plot e i relativi cinque numeri di sintesi, la cui analisi
evidenzia visivamente se la distribuzione è simmetrica o asimmetrica, se è
asimmetrica a destra (positiva) o a sinistra (negativa). Ciò è possibile osservando la
distanza dalla mediana del I e III Quartile. Se essa è uguale la distribuzione risulta
Dispense di econometria
Pag. 13
simmetrica; se diversa la distribuzione è asimmetrica. Se l‟addensamento dei valori è
più a destra si è in presenza di asimmetria destra (o positiva) e viceversa.
I cinque numeri di sintesi con il relativo diagramma box-plot danno una indicazione
sulla forma della distribuzione che può essere:
Simmmetrica Quando la distanza fra il min e il I Quartile (Q1) e fra il III Quartile
(Q3) e il max, oppure fra il min e il II Quartile o Mediana (Q2) e fra il II Quartile o
Mediana (Q2) e il max è approssimativamente uguale. Nella Figura 6.1.1 è
rappresentata una distribuzione simmetrica
Min
Q1
Q2=Mediana
Q3
Max
Asimmetrica o obliqua a sinistra o negativa Quando la distanza fra il min e il II
Quartile o Mediana (Q2) è maggiore della distanza tra il II Quartile o Mediana (Q2) e
il max, oppure quando fra il I Quartile e la Mediana (Q2) essa è maggiore di quella
tra la Mediana (Q2)e il III Quartile
Min
Q1
Q2
Q3
Max
Asimmetria o obliqua a destra o positiva Quando la distanza fra il min e il II
Quartile o Mediana (Q2) è minore della distanza tra il II Quartile o Mediana (Q2) e il
max, oppure quando fra il I Quartile e la Mediana (Q2) essa è minore di quella tra la
Mediana (Q2)e il III Quartile
Min
Q1
Q2 = Mediana
Q3
Max
Dispense di econometria
Pag. 14
Proprietà dell’Asimmetria: 1) quando moda, media e mediana non coincidono si è
in presenza di una distribuzione asimmetrica; 2) quando queste tre misure di posizione
centrale coincidono non necessariamente la distribuzione è simmetrica in quanto la
eguaglianza è una condizione necessaria ma non sufficiente.
Gli indici di asimmetria più usati sono l’indice di Bowley e l’indice calcolato
con il momento terzo
Indice di asimmetria di Bowley
Q 3 + Q 1 - 2Q 2
Q 3 - Q1
I Bowley=
Indice di asimmetria calcolato con il momento terzo
M3
I
=
skew σ 3
3
1 ∑ (x - M(x)) * ni
=
n
σ3

0.00
0.02
0.04
Densità
0.06
0.08
0.10
Per quanto riguarda l‟analisi della curtosi, che studia il grado di appiattimento della
curva, si prendono in considerazione le curve: Mesocurtica, Platicurtica e
Leptocurtica.
Graficamente si
rappresentano come segue:
-40
-20
0
20
40
x
Curva Leptocurtica
Dispense di econometria
Pag. 15
0.04
0.03
0.02
Densità
0.01
0.00
-40
-20
0
20
40
x
0.025
0.020
0.005
0.010
0.015
Densità
0.030
0.035
0.040
Curva Mesocurtica
-20
-10
0
10
20
x
Curva
platicurtica
Per sintetizzare, attraverso un indice, il grado di appiattimento si utilizza quello di
curtosi calcolato con il memento quarto e si confronta con il valore fisso di curtosi
della curva mesocurtica o normale pari a 3. Si calcola poi lo scostamento. Se positivo
si è in presenza di una leptocurtica, se negativo di una platicurtica.
Indice di curtosi calcolato con il momento terzo
I
CUR
=
M4
σ4
4
1 ∑ (x i - μ) * n i

n
σ4
Scostamento= ICUR-3
Curva Mesocurtica: Scostamento=0
ICUR=3
Curva Platicurtica: Scostamento < 0 (o negativo) ICUR<3
Curva Leptocurtica: Scostamento > 0 (o positivo) ICUR> 3
Dispense di econometria
Pag. 16
Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte
manualmente relativi alla parte teorica trattata.
ESERCITAZIONE EMPIRICA 2
Riprendendo gli stessi dati delle Vendite si redige la tabella propedeutica per il
calcolo degli indici di variabilità e di forma per valori suddivisi in classi.
Classi x (v.c.)
6751564
15642453
24533342
33424231
42315120
Totale
(x - xmedia)
(x -xmedia)2
(x xmedia)2* n
(x (x - xmedia)4 n
xmedia)3*n
2,49497E+14
31388408783
n
x*n
1119,5
4
4478
2008,5
7
14059,5
2897,5
5
14487,5
3786,5
13
49224,5
679,8235294 462160,0311 6008080,405 4084434426
4675,5
5
23377,5
1568,823529 2461207,266 12306036,33 19305999352 1,51439E+14
34
105627
8121983,979 42770312,94
5,08347E+14
1045,882353
17314478263
3948870,325 15795481,3
1987,176471
1205991,561 8441940,924 -9270740889 7,12664E+13
1098,176471
43754,79585 218773,9792
47862053992
209,1764706
45762368,83
Media
3106,6765
aritmetica
Devianza
Varianza
42770312,94 1257950,381
S.q.m.
1121,583871
3,6097E+13
cv%
36,1023712
I cinque numeri di sintesi si calcolano riprendendo i dati delle Vendite per procedere
al riordino in modalità crescente.
675 761 820 1096 1602 1882 1916 2088 2114 2159 2295 2618 2730 2927 3056
3224 3354 3507 3519 3532 3636 3746 3754 3825 3842 4011 4113 4141 4226 4421
4630 5000 5015 5120
A questo punto si possono calcolare.
Minimo= 675
Massimo=5120
Posizione I Quartile=(n+1)/4= (34+1)/4=8,75^ arrotondato alla 9^ posizione
Dispense di econometria
Pag. 17
1000
2000
3000
4000
5000
Q1= 2114
Posizione II Quartile (o Mediana)=(n+1)/2= (34+1)/2=17,5^
Q2=( 3354 + 3507)/2=3430,5
Posizione III Quartile=3(n+1)/4= 3(34+1)/4=26,25^ arrotondato alla 26^
posizione
Q3= 4011
Per il calcolo dell‟asimmetria si utilizzano i seguenti indici:
Indice di Bowley= [(2114+4011)-2*3430,5]/(4011-2114)= -2114,183
Indice di asimmetria con il momento terzo=1/34*(-17314478263)/
(1121,583871)3 = -12,272
Entrambi gli indici affermano che esiste una asimmetria negativa ovvero le vendite
si distribuiscono più nella parte a sinistra della mediana che alla sua destra. La
rappresentazione grafica del Box-plot conferma il risultato degli indici.
Per il calcolo della curtosi si utilizza il seguente indice:
Indice di curtosi con il momento quarto=1/34*(5,08347e+14)/
(1121,583871)4=4.916228e+24
Nel Laboratorio con il software R vengono riportati gli script per svolgere la stessa
applicazione svolta manualmente relativa alla parte teorica trattata.
Dispense di econometria
Pag. 18
ESERCITAZIONE EMPIRICA CON R
library(labstatR
x <-c(1119.5,2008.5,2897.5,3786.5,4675.5);x ## valori centrali di classe
Freqass<-c(4, 7, 5, 13, 5);Freqass
##frequenze assolute
n <-sum(Freqass);n
##totale osservazioni
Freqrel<-Freqass/n;Freqrel
##frequenze relative
Media <- sum(x * Freqass)/n;Media
##media aritmetica in frequenza assoluta
Media <- sum(x * Freqrel);Media
##Media aritmetica in frequenza relativa
devianza <-((x - Media)^2 * FreqAss);devianza ## devianza per classi
varianza<-((x-Media)^2 * FreqAss)/n;varianza ## varianza per classi in frequenza assoluta
varianza<-((x-Media)^2 * Freqrel);varianza ## varianza per classi in frequenza relativa
devianza<-sum((x - Media)^2 * FreqAss);devianza ## devianza totale
varianza<- sum((x-Media)^2 * Freqrel);varianza ## varianza totale in frequenza assoluta
varianza<-sum((x-Media)^2 * Freqrel);varianza ## varianza totale in frequenza relativa
varianza); sqm
cv_perc<-(sqm/Media)*100;cv_perc
summary(x)
Ibowley<-(2008+3786-2*2898)/3786-2008;Ibowley
skew<-sum((x - Media)^3* FreqAss)/n*sqm^3;skew
kurt<-sum((x - Media)^4*FreqAss)/n*sqm^4;kurt
Connessione. Indici di connessione.
Concetti teorici
Il concetto di connessione è riferito prevalentemente a caratteri qualitativi
bidimensionali (in questo contesto si esaminano le distribuzioni bi-carattere o
bidimensionali) mentre quello di correlazione a caratteri quantitativi e quindi a
variabili multiple. Per l‟analisi dell‟ connessione tra due caratteri è necessario
disporre di osservazioni e dati organizzati in tabelle a doppia entrata o distribuzioni
multiple di frequenze che vengono definite di contingenza quando prendono in
considerazione caratteri qualitativi. Si esaminano ora i contenuti di una tabella a
doppia entrata. Le frequenze congiunte assolute individuano la connessione fra la
Dispense di econometria
Pag. 19
modalità del carattere X con quella relativa del carattere Y. Nella tabella a doppia
entrata seguente si riportano in simboli i valori in classi dei due caratteri X ed Y
X/Y
a-b c-d
e-f
yi1
yi2
yi3
l-m xi1
n11 n12
n13
n1.
s-t
xi2
n21 n22
n23
n2.
h-k xi3
n31 n32
n33
n3.
Tot
n.1
n.3
N
n.2
Tot
Se si prende a riferimento la frequenza congiunta assoluta n11 , il primo pedice indica
la modalità di riga 1 della X e il secondo la modalità di colonna 1 della Y. Se si
considera la frequenza marginale n1., il primo pedice indica la riga 1 e il punto
segnala la sommatoria delle modalità di colonna della Y riferite alla riga 1 della X.
Se si considera n.1, il primo pedice indica la sommatoria delle modalità di riga della X
riferite alla colonna 1 e il secondo la colonna 1. N è il numero totale delle
osservazioni.
Le frequenze relative condizionate sono utili per ottenere ulteriori indicazioni sulle
distribuzioni parziali di un carattere associate alle modalità dell‟altro carattere.
Per studiare il concetto di indipendenza distributiva tra due caratteri è necessario
studiare la relazione tra le frequenze congiunte assolute e le corrispondenti
frequenze teoriche. La frequenza teorica, relativa a w righe e k colonne, è data dal
rapporto fra il prodotto delle frequenze congiunte e il totale n di una tabella a
doppia entrata ed è definita dalla seguente notazione:
~
nwk =
n *n
w.
.h
n
∀ w = 1,2,..., n; k = 1,2,...,n
dove nw. sono le frequenze congiunte assolute marginali di riga e n.h sono quelle di
colonna.
Esiste “indipendenza distributiva tra due caratteri” quando tutte le frequenze
congiunte assolute sono uguali alle corrispondenti frequenze teoriche. E‟ invece
sufficiente che una sola frequenza teorica differisca dalla relativa frequenza
congiunta assoluta per giungere alla conclusione che “non vi è indipendenza
distributiva”.
Dispense di econometria
Pag. 20
Le Contingenze sono legate strettamente al concetto di indipendenza distributiva e
sono definite dalla differenza tra la frequenza congiunta assoluta e quella teorica e
quindi dalla notazione:
C
wk
= (nwk - ~
nwk )
dove nwh sono le frequenze congiunte assolute e
attese.
~
nwk
∀w = 1,2,...,n; k = 1,2,...,n
sono le frequenze teoriche o
Se le contingenze assolute hanno un valore positivo significa che tra le modalità dei
due caratteri esiste un‟attrazione in quanto la frequenza congiunta effettiva è minore
della frequenza teorica; se hanno valore negativo significa che tra le modalità dei due
caratteri esiste una repulsione in quanto la frequenza congiunta effettiva è maggiore
della frequenza teorica.
Per quanto riguarda le contingenze relative esse sono date dal rapporto fra le
contingenze assolute e le relative frequenze teoriche e sono definite dalla seguente
notazione
C wh
CR wh = ~ ∀ w = 1,2,..,n; h = 1,2,...,n
nwh
dove CR wh sono le contingenze relative,
teoriche.
C wh quelle
assolute e
~
nwk
le frequenze
La definizione teorica di connessione relativa a due caratteri non ne quantifica, però,
il livello o il grado o l‟ammontare. E‟ necessario, pertanto, disporre di indicatori
specifici quali l‟indice del Chi-quadrato che dà informazione, in media quadratica, di
quanto differiscono le frequenze effettive da quelle teoriche e quindi dà una misura
del grado di connessione tra i due caratteri oggetto di studio. Esso è definito dalla
seguente notazione:
Chi-quadrato=∑r ∑c (CASS /
~
n
wh
)
dove ∑r ∑c è la doppia sommatoria per riga e per colonna, CASS sono le contingenze
assolute mentre ~nwh sono le frequenze teoriche. Va citata per completezza anche la
formula operativa del calcolo del Chi-quadrato che normalmente restituisce un
risultato leggermente arrotondato rispetto a quello ottenuto con la notazione di cui
sopra . Essa è espressa dalla notazione:
w
Chi.quadrato = N(∑i=1
Dispense di econometria
h
∑=1
j
n2wh
- 1)
nw. • n.h
Pag. 21
dove nwh sono le frequenze assolute congiunte, nw. le frequenze marginali di riga e
n.h le frequenze marginali di colonna.
Poiché l‟indice Chi-quadrato si ottiene in valore assoluto è opportuno normalizzarlo
applicando la seguente notazione:
Chi-quadrato norm=Chi-quadrato/Chi-quadrato max
dove il Chi-quadrato max è dato, a sua volta, dalla notazione:
Chi-quadrato max = N[min(w-1),(h-1)]
che è ricompreso tra 0 e 1.
Esso assume valore zero (Chi-quadratonorm=0) quando esiste indipendenza
distributiva e valore uno (Chi-quadratonorm=1) quando si configura la massima
dipendenza distributiva o max connessione.
Per il calcolo dell‟indice di Cramer è necessario introdurre il concetto di indice di
contingenza quadratico il quale si trova applicando la seguente notazione:
Icq= Chi-quadrato/n
All‟indice di contingenza quadratico possono essere assegnate le seguenti proprietà:
1) elimina l‟influenza del numero di osservazioni; 2) rappresentando una versione
normalizzata dell‟indice chi-quadrato assume valori ricompresi tra 0 ed 1; 3) ha
valore 0 quando esiste una perfetta indipendenza distributiva; 4) ha valore 1 quando
esiste una perfetta dipendenza distributiva o massima connessione o associazione.
Per calcolare l‟indice di Cramer si possono utilizzare le due notazioni seguenti:
la prima, applicando la formula:
ICramer=
ICQ 2
[min(w - 1)(h - 1)]
la seconda, applicando la formula:
ICramer=
Chi - quadrato
Chi - quadratoMAX
L‟indice di Cramer , in questa seconda versione, può essere definito, anche, come la
radice quadrata del Chi-quadrato normalizzato.
Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte
manualmente relativi alla parte teorica trattata.
Dispense di econometria
Pag. 22
ESERCITAZIONE EMPIRICA 3
Si prenda un esempio nel quale si associano il carattere Y “Vendita Prodotti” che
assume le modalità A, B, C, D con il carattere X “Ripartizione Geografica” che
assume le modalità Nord Ovest, Nord Est, Centro, Sud e Isole. Nella Tabella
seguente sono riportate le frequenze congiunte assolute (per semplicità si “lavora”
solo con distribuzioni di frequenza congiunte per valori singoli e si lascia al lettore il
compito di analizzare quelle le cui modalità sono suddivise in classi)..
X\Y
Vendita prodotti (Y) (in migliaia di
euro)
Aree
geografiche
(x)
A
Nord ovest
12345
Nord est
C
TOTALE
8764
5413
26522
16789
10052
7689
34530
Centro
8756
4890
3078
16724
Sud e isole
4110
3294
1820
9224
42000
27000
18000
87000
Totale
B
Fonte: Dati simulati
Nella Tabella seguente sono riportate le frequenze relative condizionate per le
modalità del carattere Y|X=xi. Nella cella di prima riga e prima colonna è riportato
il rapporto tra la frequenza congiunta assoluta e la relativa marginale di colonna che
deve essere esteso a tutte le altre celle.
X\Y
Vendita prodotti (Y) (in migliaia
di euro)
Aree
geografiche (x)
A
Dispense di econometria
B
C
TOTALE
Pag. 23
Nord ovest
12345/42000=0,29
0,32
0,30
0,30
Nord est
0,40
0,38
0,43
0,40
Centro
0,21
0,18
0,17
0,19
Sud e isole
0,10
0,12
0,10
0,11
Totale
1,00
1,00
1,00
1,00
Fonte: Dati simulati
Nella Tabella seguente vengono riportate le frequenze relative condizionate per le
modalità del carattere X|Y=yi Nella cella prima riga e prima colonna è riportato il
rapporto tra la frequenza congiunta assoluta e la relativa marginale di riga che deve
essere esteso a tutte le altre celle.
X\Y
Vendita prodotti (Y) (in migliaia
di euro)
Aree
geografiche (x)
A
B
C
TOTALE
Nord ovest
12345/42000=0,29
0,32
0,30
0,30
Nord est
0,40
0,38
0,43
0,40
Centro
0,21
0,18
0,17
0,19
Sud e isole
0,10
0,12
0,10
0,11
Totale
1,00
1,00
1,00
1,00
Fonte: Dati simulati
Si possono fare alcuni esempi più specifici di frequenze condizionate relative. Se si
vuole conoscere, ad esempio, la distribuzione di frequenza del carattere Y
condizionato alla modalità Nord Est del carattere X, in simboli Y|X=Nord Est, si
estrae la seguente distribuzione parziale:
yi
A
B
C
ni
0,49 0,29 0,22
Tot
1
Se si vuole conoscere, ad esempio, la distribuzione di frequenza del carattere X
condizionato alla modalità Prodotto A del carattere Y, in simboli X|Y=Prodotto A,
si estrae la seguente distribuzione parziale:
xi
Nord Ovest
Nord
Est Centro Sud ed Isole Tot
Dispense di econometria
Pag. 24
ni
0,21
0,10
0,29
0,40
1
In entrambi i casi non si possono calcolare le medie condizionate poiché si è in
presenza di caratteri qualitativi. Per poter calcolare le medie condizionate si devono
prendere in considerazione caratteri quantitativi o qualitativi discretizzati ovvero
associare alle modalità un numero o una classe di numeri. Un esempio aiuta meglio a
capire il concetto teorico. Si disponga dei seguenti dati grezzi relativi a 15
osservazioni del carattere Y e del carattere X.
Carattere Y 1 7 3 4 8 9 2 1 3 4 4 4 8 9 7
Carattere X 1 7 9 4 8 8 2 1 3 4 4 9 8 9 7
Dalla distribuzione di dati grezzi si costruisce la Tabella seguente a doppia entrata.
E‟ opportuno suggerire al lettore le modalità di costruzione. Occorre, come detto
precedentemente, associare gli stessi valori assunti dai due caratteri e misurare
quante volte si ripetono. Ad esempio, la coppia di valori 1,1 si ripete 2 volte, quella
4,4 si ripete 3 volte, allora il lettore costruisce una tabella a doppia entrata nella
quale inserisce sulle righe le modalità assunte dal carattere X (1,2,3,4,5,6,7,8,9) e
sulle colonne quelle di Y (1,2,3,4,5,6,7,8,9) e all‟incrocio della riga 1 e colonna 1
mette 2 che rappresenta la frequenza congiunta assoluta di prima riga e prima
colonna e così via.
X/Y
1
2
3
4
7
8
9
Totale
1
2
0
0
0
0
0
0
2
2
0
1
0
0
0
0
0
1
3
0
0
1
0
0
0
0
1
4
0
0
0
3
0
0
0
3
7
0
0
0
0
2
0
0
2
8
0
0
0
0
0
2
1
3
9
0
0
1
1
0
0
1
3
Totale
2
1
2
4
2
2
2
15
Fonte: Dati simulati
E‟ possibile, ora, calcolare le medie condizionate, ad esempio la M(Y|X=9). Si estrae
la relativa distribuzione Y|X=9 dalla tabella a doppia entrata che viene di seguito
riportata:
Dispense di econometria
Pag. 25
yi
1 2 3 4 7
8 9
ni
0 0 1 1 0 0 1
La media condizionata M(Y|X=9) è data da (1x0)+(2x0) (3x1)+(4x1) (7x0)+(8x0)
(9x1)/15=(3+4+9)/15=1,067. E‟ opportuno ricordare che la distribuzione di
frequenza congiunta è per definizione una distribuzione bicarattere in quanto
riguarda congiuntamente entrambi i caratteri di interesse, mentre le distribuzioni
marginali e condizionate sono unidimensionali poiché esse si riferiscono ad un solo
carattere e quindi valgono tutti i concetti teorici studiati per le distribuzioni di
frequenza semplici.
Per calcolare il chi-quadrato con i dati dell‟esempio soprariportato si parte dalla
tabella a doppia entrata delle frequenze congiunte assolute:
X\Y
Vendita prodotti (Y) (in migliaia di euro)
Aree
geografiche
(x)
A
Nord ovest
12345
Nord est
C
TOTALE
8764
5413
26522
16789
10052
7689
34530
Centro
8756
4890
3078
16724
Sud e isole
4110
3294
1820
9224
42000
27000
18000
87000
Totale
B
Si redige la tabella delle frequenze teoriche:
X\Y
Vendita prodotti (Y) (in migliaia di euro)
Aree
geografiche
(x)
A
Nord ovest
12803.724
Nord est
C
TOTALE
8230.966
5487.310
26522
16669.655
10716.207
7144.138
34530
Centro
8073.655
5190.207
3460.138
16724
Sud e isole
4452.966
2862.621
1908.414
9224
Dispense di econometria
B
Pag. 26
Totale
42000
27000
18000
87000
Si redige la tabella delle contingenze assolute:
X\Y
Vendita prodotti (Y) (in migliaia di euro)
Aree
geografiche
(x)
A
Nord ovest
-458.7241
Nord est
119.3448
Centro
682.3448
Sud e isole
-342.9655
Totale
0
B
C
TOTALE
533.0345
-74.31034
0
-664.2069
544.86207
0
-300.2069
-382.13793
0
431.3793
-88.41379
0
0
0
0
Si redige la tabella delle contingenze assolute a quadrato diviso le frequenze
teoriche:
X\Y
Vendita prodotti (Y) (in migliaia di euro)
Aree
geografiche
(x)
A
Nord ovest
16.4348929
Nord est
0.8544381
Centro
57.6683613
17.36428
42.203346
Sud e isole
26.4150588
65.00621
4.096071
B
34.51913
41.16856
C
TOTALE
1.006327
41.555003
Totale
Il valore del Chi-quadrato è dato dalla somma dei valori di tutte le celle in
applicazione della formula teorica.
Chi-quadrato=348,2917
Per calcolare il chi-quadrato normalizzato debbo calcolare prima quello massimo
pari a:
Chi-quadrato max=174000
Il chi-quadrato normalizzato sarà:
Dispense di econometria
Pag. 27
Chi-quadrato norm=348,2917/174000= 0.002001676
L‟indice di Cramer sarà:
ICRAMER = 0.0447401
L‟indice di contingenza quadratico sarà:
ICONTQUADR = 0.040033
Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse
applicazioni svolte manualmente relativi alla parte teorica trattata.
ESERCITAZIONE EMPIRICA CON R
Di seguito si riporta il relativo codice:
tab<-matrix(c(12345,16789,8756,4110,8764,10052,4890,3294,5413,7689,3078,1820),4,3)
rownames(tab)<-c("Nord ovest","Nord est","Centro","Sud e isole")
colnames(tab)<-c("Prodotto A","Prodotto B","Prodotto C")
tab
tab_TE <- margin.table(tab,1)%*% t(margin.table(tab,2))/sum(tab);tab_TE
tab_COAS<-((tab-tab_TE)^2)/tab_TE;tab_COAS
tab_COAS<-(tab-tab_TE) ;tab_COAS
chi2<-((tab-tab_TE)^2)/tab_TE;chi2
## Valore del chi-quadrato
chi2<-sum(((tab-tab_TE)^2)/tab_TE);chi2
## Valore del chi-quadrato
chi_2max<-(sum(tab)*(min(dim(tab)-1)));chi_2max ## Valore del chi-quadrato massimo
chinorm<-chi2/chi_2max; chinorm
## Valore del chi-quadrato normalizzato
Cramer_1<-sqrt(chinorm);Cramer_1
## Valore dell'Indice di Cramer -primo modo
cont<-chi2/sum(tab);cont
## Valore dell'Indice diContingenza quadratico
Cramer_2<-sqrt(cont/2);Cramer_2
## Valore dell'Indice di Cramer -secondo modo
3.Richiami di Teoria e Calcolo delle Probabilità
Concetti teorici
Dispense di econometria
Pag. 28





Si riportano di seguito i concetti più importanti della teoria e calcolo delle
probabilità propedeutici allo studio dell‟Econometria
La frase “è probabile che esca il nero in una puntata alla roulette” mette in evidenza
che in una data prova l‟evento “esce il nero in una puntata alla roulette” ha una certa
probabilità di verificarsi. Il concetto di probabilità poggia sui seguenti elementi di
base, tra loro strettamente legati:
l’esperimento empirico
la prova
l’evento elementare
lo spazio degli eventi o evento certo o spazio campionario
l’evento composto
L‟esperimento empirico è la realizzazione di un'operazione empirica atta ad
individuare, accertare o precisare qualche aspetto specifico di un fenomeno
osservabile che potrebbe riguardare qualunque branca della conoscenza (fisica,
chimica, materiali, geologia, biologia, psicologia, economia, archeologia, ecc.).
La prova o esperimento aleatorio è un qualsivoglia processo che produce un esito
incerto.
L‟evento elementare E è uno dei possibili esiti di un esperimento.
Lo spazio campionario Ω è l‟insieme di tutti gli esiti possibili di un esperimento.
L‟evento composto è un qualunque sottoinsieme di Ω e si definisce più
semplicemente evento.
ESEMPI:
1)
Nel lancio di un dado regolare con spazio campionario Ω (dove i = 1,2,3,4,5,6
rappresentano gli eventi elementari), l‟evento E è “esce la faccia 1” per i=1
2)
Nel lancio di due dadi regolari con spazio campionario Ω (dove i = 1,2,3,4,5,6
rappresentano gli eventi elementari), l‟evento composto potrebbe essere “escono le
facce 1 e 2” per i=1,2.
3)
Nel lancio di una moneta regolare l‟insieme degli eventi è uguale a due con
i=1,2
L‟evento è quindi un sottoinsieme di Ω, si definisce Ω e si legge “ contenuto in
Ω” . L‟evento deve essere definito in modo rigoroso in ogni sua modalità al fine di
evitare ogni possibile ambiguità o fraintendimento o contestazione o incertezza.
ESEMPIO: Nel lancio di un dado regolare, il cui spazio campionario è Ω (dove Ω è
l‟insieme delle facce i per i=1,2,3,4,5,6), l‟evento E potrebbe essere l‟insieme Ω.
L‟evento (uscita delle facce 1,2) è quindi un sottoinsieme di E e si legge “contenuto
in E”.
Se si indica con E un evento e con (l‟evento negazione di E) allora è chiaro che se
E è vero
è falso. I due eventi si dicono contrari. Il grado di probabilità che un
certo evento ha di verificarsi può essere riassunto dalle seguenti notazioni:
p = 0 se l‟evento E è impossibile
p = 1 se l‟evento E è certo
0 < p <1 quando le osservazioni su E non ci conducono a nessuna delle due
conclusioni definitive ma ad una intermedia.
Dispense di econometria
Pag. 29
Nota: è bene ricordare che se un evento E ha probabilità nulle (0) di verificarsi non
per questo è impossibile che si verifichi e così un evento che ha probabilità certa (1)
di verificarsi non per questo è certo.
Definizioni di Probabilita`
Secondo l‟approccio classico la probabilità si definisce come il rapporto fra l‟evento
probabile e tutti gli eventi possibili purché egualmente probabili.
P=EPROB /E1 +E2 +........+EI
dove EPROB è l‟evento probabile e la sommatoria di EI è l‟insieme degli eventi
possibili equiprobabili.
ESEMPIO: in un giro di roulette le modalità del risultato sono complessivamente
37 come i numeri della ruota. Tali modalità costituiscono tutti i casi possibili
egualmente probabili. Quindi l‟evento “uscita del numero 2 in un giro di ruota” è
dato dal rapporto:
P(E) = p = 1/37
Secondo l‟approccio frequentista oppure secondo la concezione statistica la
probabilità è espressa in termini quantitativi da un valore empirico osservato: la
frequenza relativa.
Se si osserva un fenomeno attraverso un esperimento costituito da un certo numero
di prove in condizioni costanti, si definisce frequenza relativa il rapporto fra il
numero k, ovvero il numero delle volte nelle quali l‟evento E si è verificato ed il
numero totale n delle prove ovvero k/n. A questo concetto di misurazione statistica
della probabilità si associa la cosiddetta “legge empirica del caso”, attraverso la quale
si constata che al crescere di n la frequenza relativa tende, ancorché oscillando, ad un
valore stabile.
ESEMPIO: l‟esempio classico è rappresentato dal lancio ripetuto di una moneta e
dall‟evento “uscita della faccia Testa”. Al crescere di n la frequenza relativa tende
all‟evento Testa. Come conseguenza logica si può assumere che la frequenza relativa
– a condizione che n sia sufficientemente grande – misura la probabilità dell‟evento
E. E‟ abbastanza frequente nella scienza che un concetto teorico – la probabilità –
possa essere estratto da osservazioni empiriche sperimentali rappresentate dalla
frequenza relativa (metodo induttivo). Si riportano di seguito alcuni concetti chiave:
 P(Ω ) = 1 la probabilità del totale degli eventi elementari appartenenti allo spazio
campionario deve essere sempre uguale ad 1
 Se gli eventi E ed F non si sono mai presentati contemporaneamente nelle n prove
allora: EՈ F=Ø e Prob (E⋃ F)=Prob(E)+Prob(F)
 ≤ P(A) ≤ 1 la probabilità è sempre compresa tra zero e uno compresi
 P(  ) = 0
la probabilità dell‟evento nullo o impossibile è pari a zero
 F  E  P(F)  P(E) se l‟evento F è ricompreso in E allora la

P(F)  P(E)
 P( E ) = 1- P(E) la probabilità dell‟Evento contrario è data dal reciproco
 P(E) = 0  P(F  E)=P(F)
Il concetto di probabilità condizionata è molto importante nello studio dei fenomeni
casuali e fondamentale per assumere decisioni definitive sulla base di conoscenze
acquisite in itinere. Si affronta, poi, la tematica, altrettanto importante,
Dispense di econometria
Pag. 30
dell‟indipendenza stocastica attraverso lo studio di eventi indipendenti giungendo
alla determinazione della condizione di indipendenza.
.
Probabilità condizionata
Per assumere alcune decisioni definitive spesso è necessario rifarsi a risultati in
itinere scaturiti da decisioni intermedie. Occorre, cioè, ricercare la probabilità di un
evento condizionata al verificarsi di un altro evento di cui si conosce a priori l‟esito.
Si presenta la necessità, quindi, di dover calcolare la probabilità di un evento dopo
che si è verificato un altro evento collegato al primo sia dal punto di vista logico che
temporale.
Per esempio si può affermare di essere in presenza di una probabilità “condizionata”
nel caso dell‟estrazione “senza ripetizione o senza reimmissione” di una pallina di
colore verde, nella prima prova, dall‟urna contenente una sola pallina verde. La
probabilità che nella seconda prova esca una pallina verde è 0 in quanto l‟evento è
impossibile. Si evince, pertanto, che esiste una condizione: se l‟evento E si è
verificato, gli eventi elementari che formano F devono essere inclusi anche in E,
ovvero questi sono comuni a E ed F: “La probabilità di E dato che F si è verificato” è la
probabilità condizionata che è espressa dalla seguente notazione:
Prob(EF) = Prob(E  F)/Prob(F)
dalla quale, per formula inversa, si ottiene che:
Prob(F) = Prob(E  F)/Prob(E F)
ovvero la probabilità dell‟evento F è uguale al rapporto tra la probabilità
dell‟intersezione fra E ed F e la relativa probabilità condizionata; sempre per formula
inversa si può ottenere che:
Prob(E  F) = Prob(EF)/Prob(F)
ovvero la probabilità dell‟evento intersezione fra E ed F è uguale al rapporto tra la
probabilità di E condizionato ad F e la probabilità di F.
La probabilità condizionata soddisfa i due seguenti postulati:
1)
2)
Prob(EF) ≥ 0
Prob(Ω E) = Prob(Ω  E)/Prob(E) = Prob(E)/Prob(E) = 1
Alcuni autori assumono la definizione di “Probabilità condizionata” come un ulteriore
postulato.
E‟ importante riprendere due teoremi relativi alla probabilità condizionata. Il primo
prende in considerazione tre eventi E1, E2, E3 e stabilisce che la probabilità
dell‟evento intersezione fra loro è uguale alla probabilità del primo per il secondo
condizionato al primo e così via. In formula si ha:
Prob(E  E  E ) = Prob(E ) Prob(E E ) Prob (E E  E)
1
2 1
3 1
2
Dispense di econometria 1 2 3
Pag. 31
Il secondo prende in considerazione n eventi E1, E2,........... En a due a due mutuamente
esclusivi e stabilisce che la probabilità di un evento qualsiasi E, ammesso che esso
sia seguito da uno degli eventi singoli, è data dalla seguente notazione:
Prob(E)= Prob (E1) Prob (E| E1)+ Prob (E2) Prob (E| E2)+.................+ Prob (En)
Prob (E| En)
Eventi indipendenti
Per comprendere il concetto di indipendenza stocastica è necessario introdurre il
seguente postulato: se si prendono in considerazione eventi a due a due disgiunti E1,
E2, ovvero eventi per i quali Ei  Ej = Evento impossibile quando i≠j allora deve
valere la seguente notazione:
∞
∞
Prob( Ei ) = j ∑ Prob(Ei )
i=1
i=1
Ovvero che la probabilità della produttoria degli eventi Ei è uguale alla sommatoria
delle singole probabilità moltiplicato per il loro numero.
Per spiegare questo concetto è opportuno ripartire da quello di probabilità
condizionata. Si è visto, a tale proposito, che la probabilità condizionata di un evento
E, dato come verificato l‟evento F, modifica generalmente le possibilità del
verificarsi di quest‟ultimo.
Si può dedurre, in linea logica, che qualora esistano casi in cui la probabilità di E
dato F coincide con la probabilità di E, si determina una condizione di indipendenza.
Due eventi E ed F si dicono indipendenti, infatti, quando la conoscenza del
verificarsi di F non modifica la probabilità del verificarsi di E. Se non vale la
condizione di cui alla notazione seguente i due eventi E ed F si dicono dipendenti.
Prob(E  F)=Prob(E)Prob(F)
se Prob(F)>0
I due eventi soddisfano il concetto di simmetria ovvero se P(E)>0 e P(F)>0, E è
indipendente da F se F è indipendente da E e viceversa.
Si può fare l‟esempio di tre eventi E1, E2, E3 e si può ribadire, come già detto sopra,
che essi sono indipendenti quando lo sono a due a due per cui si può giungere alla
notazione che la P(Ei  Ej)=P(Ei) P(Ej) quando i≠j e i e j sono uguali al numero di
eventi (1,2,3).
PARTE SECONDA. Che cos‟è l‟Econometria. Elementi fondamentali
dell‟analisi di regressione
L‟‟Econometria tenta di dare una risposta in termini quantitativi ad una serie di
possibili domande. In merito si cita uno scritto tratto dalla Bocconi.
«Le scienze economiche utilizzano metodi quantitativi (cioè matematici e statistici)
per rispondere a domande quali:
 Qual è l‟effetto sull‟occupazione dei lavoratori italiani di una maggiore
immigrazione?
Dispense di econometria
Pag. 32
 Perché non è sufficiente semplicemente stampare moneta per creare posti
di lavoro?
 Quali sono i vantaggi per l‟Italia dell‟adozione dell‟Euro?
 Perché la Commissione Europea sta accusando Google di abuso di
posizione dominante sul mercato?
 Se crollano i prezzi delle case in Florida, perchè il mio vicino di casa perde
il lavoro?
 Perché all‟inizio del „900 l‟Argentina era più ricca degli Stati Uniti, e oggi
è vero il contrario?
 Durante una crisi, è meglio un mercato del lavoro con ammortizzatori
sociali come la cassa integrazione, oppure uno in cui si perde il posto ma si
ha un reddito minimo garantito?
 È meglio un sistema pensionistico pubblico o privato
 In tempo di crisi e disoccupazione, perché non ci mettiamo tutti d‟accordo:
 le famiglie consumano di più e lavorano di più, le imprese assumono di più,
e tutti stiamo meglio?
 Che cosa succede alla disoccupazione se si impone un salario minimo:
aumenta o diminuisce?
 È vero che una maggiore disuguaglianza del reddito ha prodotto la crisi
finanziaria attuale?
 La globalizzazione aumenta o diminuisce le disuguaglianze?
 Perché, se chiedessimo a ciascuno di finanziarli, non avremmo i parchi
pubblici?
 Perché i paesi con sistemi elettorali maggioritari crescono di più di quelli
con sistemi proporzionali?
L‟effetto più sorprendente dello studio delle scienze economiche è proprio scoprire
come sia possibile rispondere a domande simili (e a molte altre) in modo non ovvio,
usando metodi rigorosi e logici, senza lasciare troppo spazio alle opinioni o alle
“ideologie
Le scienze economiche permettono infatti di rispondere a domande del tipo:
“Perché le donne lavorano così poco in Italia?” oppure “Che cosa causa le crisi
finanziarie?” usando la matematica e la statistica.
Una valutazione superficiale concluderebbe che gli immigrati offrono lavoro a basso
costo, e quindi permettono alle aziende di licenziare i nostri lavoratori risparmiando
sui costi. Un economista, invece, ragionerebbe così: il lavoro degli immigrati
(meno specializzato) e il lavoro degli italiani (specializzato) sono due beni
complementari, cioè sono come gli scarponi da sci, uno non mi serve senza l‟altro.
Allo stesso modo, il lavoro specializzato serve poco se non è accompagnato da quello
meno specializzato. Quindi, paradossalmente, in diversi settori in crisi dell‟economia
italiana, per esempio quelli tradizionali come il tessile, molti lavoratori italiani
specializzati (tecnici e ingegneri) avrebbero perso il posto di lavoro se non avessimo
avuto un aumento dei flussi di lavoratori immigrati. In sintesi: il lavoro degli
immigrati paradossalmente spesso salva quello dei lavoratori italiani, e non il
contrario.
E i salari? In questo caso guardare ai dati è cruciale. A fronte di un 1% in più di
immigrati, supponiamo anche che i salari dei lavoratori di casa nostra scendano: ma
Dispense di econometria
Pag. 33
scendono dello 0,01 % oppure del 5%? La differenza è grande. A questo proposito ci
aiuta molto una disciplina, l‟econometria, ovvero la statistica applicata ai problemi
economici, che serve proprio a misurare con precisione le relazioni economiche.
L‟esempio precedente era in due parti: la prima (quella sui beni complementari) era
un “modello”, mentre la seconda (quella “econometrica”), riguardava la misurazione.
Fare scienza economica significa anche distinguere con chiarezza tra causa ed effetto
in un dato fenomeno: pensare in modo non ovvio al problema, e poi interrogare i
dati.
Fonte:https://www.unibocconi.it/wps/wcm/connect/79254841-eafc-4edc-9035f12fbe2ee599/231_15+Volantino+Economia+e+scienze+sociali.pdf?MOD=AJPER
ES
Alle domande economiche sono legati, come abbiamo visto sopra i dati.
La disponibilità dei dati è un presupposto fondamentale per l‟analisi econometrica.
In Econometria i dati possono essere sperimentali e non sperimentali ovvero se sono
tratti da esperimenti o da osservazioni non sperimentali. Esistono quattro tipologie
di dati:
 sezionali;
 temporali;
 panel
I primi riguardano le osservazioni (in statistica modalità o realizzazioni) su più unità
statistiche riferite ad un solo periodo o nell‟unità di tempo (ad esempio giorno,
settimana, trimestre, semestre, anno). Ad esempio il costo totale di produzione
riferito a 10 diversi prodotti (unità statistiche) nel III semestre (unità di
tempo:semestre) 2016.
I secondi riguardano le osservazioni su una sola unità statistica ma riferite a più
periodi. Ad esempio il costo totale di produzione riferito ad un solo prodotto (unità
statistica) nei dodici mesi (unità di tempo: mese) del 2016
I terzi riguardano le osservazioni su più unità statistiche riferite a più periodi. Ad
esempio il costo totale di produzione riferito a 10 diversi prodotti (unità statistiche)
nei dodici mesi (unità di tempo: mese) del 2016
E‟ opportuno citare che alle tre tipologie di dati si può accedere attraverso diverse
fonti. Le più importanti sono:
 esperimenti
 questionari di diverse tipologie;
 banche dati;
 dati simulati
Modello di regressione lineare semplice (o con un singolo regressore) (MRLS)
I concetti di interpolazione lineare, di variabile dipendente e indipendente, di
intercetta e di coefficiente angolare, di proporzionalità diretta ed inversa sono
richiami di matematica che all‟occorrenza vengono ripresi. Di seguito viene
Dispense di econometria
Pag. 34
esaminato il modello di Regressione lineare semplice (o con un regressore) ponendo
l‟attenzione sulle sue finalità, ma soprattutto sulla sua precisa specificazione e
sull‟individuazione della procedura adatta a studiare la relazione statistica fra due
variabili. Viene svolta un‟analisi sulle ipotesi a cui deve sottostare il modello e sulla
stima dei regressori e viene ripreso il metodo di stima dei regressori definito dei
Minimi Quadrati Ordinari (Ordinary Last Square O.L.S.). Per la specificazione del
modello di regressione lineare semplice si ricorre al concetto di relazione statistica fra
due variabili quantitative Y e X, descritta da una funzione lineare, e definita dalla
notazione:
Y=a + bX + ε
dove ε è una variabile casuale e per conseguenza anche Y è una variabile casuale (di
seguito indicate con l‟acronimo v.c.).
Il modello di regressione lineare ha diverse finalità: descrittiva, interpretativa e
previsiva. Gli aspetti più importanti che devono essere analizzati riguardano,
innanzitutto, la specificazione corretta del modello e il relativo metodo di stima,
nonché l‟impostazione delle ipotesi base sotto cui deve sottostare il modello stesso.
Si deve tenere conto, infine, che il modello di regressione andrà a rappresentare la
realtà osservata in modo approssimativo, senza pretendere di ricostruirla fedelmente
ed esattamente. Tuttavia i risultati stimati, rivenienti da un modello specificato con
rigore scientifico, aiutano a capire un fenomeno economico e sociale e permettono di
ottenere evidenza empirica utile, soprattutto, a livello previsivo. L‟inserimento di
una variabile casuale nel modello avviene per esigenze: di asistemicità connesse al
comportamento umano, di descrizione dell‟effetto congiunto di variabili non
misurabili, di imprecisione, dovute ad errori di misurazione. Per lo studio del
modello di regressione lineare semplice (o ad una sola variabile o univariato) è
opportuno stabilire a priori, come detto in precedenza, un insieme di ipotesi alle
quali deve sottostare il modello medesimo.
Nella Tabella seguente vengono riassunte tali ipotesi di base.
Ipotesi di base
1) Yi=a+bxi+εi
2) εi
3) E(εi )=0
4) xi
5) Var (εi )= σ 2
6) Cov(εi εj)=0
2
7) εi ~ N(μ,ϭ )
Modello univariato
Per ogni osservazione i = 1, 2,……..,n
Sono v.c. indipendenti e identicamente
distribuite (i.i.d.)
Valore atteso della v.c. εi è nullo
Realizzazioni della variabile esplicativa X
Per ogni osservazione i = 1, 2,……..,n
indipendentemente dal valore delle xi
Covarianza nulla per ogni i ≠ j
Normalità degli errori
8) Yi
v.c. indipendenti e identicamente distribuite
(i.i.d.)
9) yi
Realizzazioni della variabile dipendente Yi
Dispense di econometria
Note
Evidenzia ipotesi di linearità
Evidenzia ipotesi di indipendenza degli errori
Evidenzia ipotesi di normalità degli errori
Sono valori noti ipotizzati senza errore
equiparabili a valori deterministici
Omoschedasticità ovvero ipotesi di varianza
costante
Assenza di correlazione tra gli errori
Le v.c εi si distribuiscono secondo una Normale
2
con media μ e varianza ϭ
Data l’indipendenza delle v.c εi
Evidenzia una variabile dipendente che assume i
caratteri di v.c.
Pag. 35
10)
ortogonalità
Variabili non correlate
Si assume che Cov (εi εj)=0 ovvero Covarianza
nulla per ogni i ≠ j
La specificazione corretta del modello richiede un‟approfondita analisi del fenomeno
oggetto di studio e l‟individuazione delle variabili che lo influenzano. La scelta di
esse comporta il rischio di prendere in considerazione la variabile non determinante
della relazione statistica o di trascurarne alcune determinanti. Pertanto la
specificazione del modello necessita di un‟accurata e minuziosa ricerca del trade-off
tra la variabile dipendente o risposta e la variabile indipendente o esplicativa.
Occorre anche considerare che, sebbene le realizzazioni della X, x1 ,x2,……. xn siano
assimilabili a quelle deterministiche, la variabile dipendente Y, somma di una
componente deterministica e una stocastica, è una v.c. con varianza costante ϭ2 e con
valore atteso rappresentato dalla seguente notazione:
E(Yi X = x i ) = E(a + bxi + εi ) = E(a)+ E(bxi ) + E(εi ) = a + bE(x i )
Essendo, per l‟ipotesi 3, E( ε i )=0
Stima puntuale dei coefficienti di regressione con il Metodo dei Minimi Quadrati
Ordinari (O.L.S.)
Di seguito si affronta il problema, tra i più importanti del modello inferenziale, della
stima della retta e specificatamente dei coefficienti di regressione (comunemente
chiamati regressori); ovvero intercetta e coefficiente angolare. Utilizzando lo stesso
metodo si individua una retta che per ogni xi restituisce un valore di Yi che si
avvicina ai valori osservati yi . Tale retta è detta retta stimata ed assume la seguente
notazione:
yˆ i = aˆ + bˆ x i
Il metodo di stima dei minimi quadrati consente di stimare i valori di intercetta e
coefficiente angolare della stessa retta (regressori) in modo tale da rendere minimi
gli scarti tra valore stimato e quello osservato. Occorre, pertanto, uguagliare a zero
la derivata degli stessi scarti. In questo caso, per semplicità, si prende in
considerazione la sommatoria degli stessi. Si procede riprende la notazione del
modello stimato:
yˆ i = aˆ + bˆ xi  ε̂
i
da cui si ottiene che:
εˆ = yˆ - aˆ + bˆ x i
i
i
Dispense di econometria
Pag. 36
Poiché gli scarti possono assumere valori positivi o negativi, essi vengono elevati al
quadrato per far sì che prendano un valore sempre positivo, per cui:
2
2
εˆ i = (yˆ - aˆ + bˆ xi )
i
La funzione di perdita è rappresentata dalla notazione:
n
H(a,b) = ∑ (yˆ i - aˆ + bˆ xi )2
i=1
Ai fini del calcolo dei valori di â e b̂ occorre rendere minima la funzione di perdita
ovvero uguagliare a zero la derivata della stessa rispetto ad â e b̂ Soprassedendo
allo sviluppo del calcolo matematico, si può affermare che â (intercetta) e b̂
(coefficiente angolare) sono definite rispettivamente dalle due seguenti notazioni.
â = y - bx
n
σ
bˆ = 2XY 
σ
X
∑(xi - x)(yi - y)
i=1
n
∑(xi - x)2
i=1
dove ϭXY rappresenta la covarianza XY e ϭ2 la varianza non corretta della X.
Il valore di b̂ (coefficiente angolare) può essere definito anche dalla formula
operativa data dalla seguente nota
n
b=
σ XY
σ2X
n
n
n ∑x i y i - ∑x i ∑y i
i=1 i=1
oppure b = i=1
n
2
n
n ∑x i - ( ∑x i )2
i=1
i=1
Il concetto di residuo è rappresentato dalla differenza fra i valori osservati della Y, yi
e i valori della retta stimata con il metodo dei minimi quadrati ed espresso dalla
seguente notazione:
eˆ i = yi - yˆ i
Scomposizione della devianza totale
Dalla retta dei minimi quadrati si può desumere che la differenza fra i valori
osservati e quelli stimati delle realizzazioni della Y, che esprimono la devianza
totale, possono essere espressi come somma tra:
Dispense di econometria
Pag. 37
n
∑(yi - y)
2
n
=
n

2
∑ ( y i - y ) + ∑ eˆ 2i
i=1
i=1
i=1

dove yi sono i valori osservati, y il valore medio, y i quelli stimati.
La sommatoria degli errori o residui è definita dalla seguente notazione:
n
n
i=1
i=1
∑ê2i = ∑ ( y i - ŷ )2
Va ricordato che i valori suindicati debbono essere riferiti ad ogni valore di x.
La notazione attraverso la quale si calcola la Devianza totale può essere espressa
come segue:
DT =DS + DR
dove (DT) rappresenta la devianza totale; (DS) la devianza spiegata e (DR) la
devianza residua.
Coefficiente di determinazione
Dalla relazione tra la devianza totale, spiegata e residua si può ricavare un
importante indice statistico di adattamento della retta di regressione stimata ai dati
e cioè il coefficiente di determinazione che è dato dalla seguente notazione:
R2XY =
DS DT - DR
DR
=
= 1DT
DT
DT
oppure:
n
n
∑(yˆ i - y)2
R2 XY =
i=1
n
∑(yi - y)2
∑eˆ 2i
= 1-
i=1
i=1
n
∑(yi - y)2
i=1
Tale rapporto indica il livello di variabilità dei valori della Y spiegati dalla
variabile indipendente X. Nel Modello OLS il coefficiente di determinazione è legato
a quello di correlazione dalla seguente notazione:
R2XY = (ρXY )2 = (
dove ρ XY = (
σ XY 2
)
σ Xσ Y
σ XY
) è il coefficiente di correlazione di Bravais-Pearson.
σ Xσ Y
Dispense di econometria
Pag. 38
Stimatori puntuali dei coefficienti di regressione e relative proprietà.
Gli stimatori dei coefficienti di regressione (o regressori) sono definiti con i simboli
aˆ e bˆ e lo stimatore del valore atteso della variabile dipendente E(Yˆi )i varia al variare
del campione osservato. Lo stimatore della varianza campionaria s 2 è dato dal
rapporto della sommatoria degli errori e il numero di gradi di libertà degli stessi (n2). Le proprietà di questi stimatori sono riassunte nella Tabella seguente
Proprieta’
Stimatori
Correttezza o non distorsione (unbiased)
aˆ e bˆ
Se
Ŷi
Se E(Yˆi ) = aˆ + bˆ x i
E(aˆ ) = a e E(bˆ ) = b
n
s2
∑eˆ
i
Se s2 =
2
Efficienza
Presentano la
più bassa
varianza
Consistenza
Quando al crescere della
numerosità campionaria gli
stimatori aˆ e bˆ convergono
asintoticamente ai parametri
della popolazione a e b
i=1
n-2
Concetti di inferenza sul Modello.
L‟inferenza sul modello di regressione lineare semplice riguarda lo studio della stima
intervallare con il calcolo degli intervalli di confidenza e la verifica di ipotesi sui
regressori. Nel modello inferenziale generale i problemi di inferenza assumono una
grande importanza quando il ricercatore è interessato a stabilire se esiste una
relazione lineare tra variabili nonché a verificare quanta dispersione o variabilità
esiste tra le stesse e soprattutto la significatività statistica. La metodologia di
riferimento è quella basata sull‟utilizzo di appositi test ed in particolare il test F e
sull‟analisi della varianza attraverso l‟apposita tavola detta Anova (Analsys of
Variance).Viene svolto uno studio attento sull‟inferenza della v.c. dipendente o
risposta che, ai fini previsivi, riveste l‟importanza maggiore nel modello di
regressione in quanto i valori che essa assume determinano l‟andamento futuro
della relazione tra le due variabili studiate. Si riafferma il principio che ad ogni
valore della variabile indipendente, ipotizzabile come deterministico, si associa un
valore della v.c. risposta con un certo errore di previsione. Come detto sopra il
modello di regressione viene utilizzato ai fini previsivi, ovvero esso risponde
all‟esigenza di prevedere i valori singoli e medi della variabile risposta nonché della
v.c. errore di previsione. E‟ altrettanto importante, infatti, l‟analisi inferenziale sulla
v.c. errore di previsione come pure stabilire il relativo intervallo di confidenza ad un
certo livello di significatività.
Stimatori intervallari (Intervalli di confidenza)
Per il calcolo dei regressori del modello si possono utilizzare più metodi. In questa
sede se ne analizzano due: quello dei Minimi quadrati e quello di Massima
Dispense di econometria
Pag. 39
verosimiglianza che restituiscono gli stessi risultati. Le statistiche-test che si
applicano si rifanno al primo metodo. Per il coefficiente angolare la notazione è:
b - bˆ
~ tn-2
s (b)
e per l‟intercetta è:
a - aˆ
~ tn-2
s (a )
dove b è il “coefficiente angolare” (regressore 1) dei valori della y osservati per i
valori di x; b̂ è il “coefficiente angolare” di un valore di y stimato per un valore di x
e lo stesso dicasi per l‟”intercetta” (regressore 2); s(b) e s(a) sono gli Error Standard
rispettivamente dei regressori 1 e 2.
Le due statistiche-test si distribuiscono come una v.c. t di Student con n-2 gradi di
libertà.
Occorre stabilire le distribuzioni degli stimatori che per la Y assumono la notazione:
Yi~N (ϭ2, (aˆ + bˆ xi ) e per il termine di errore quella: εi~N(0, ϭ2) per i=1, 2, 3,… n
Per i due coefficienti di regressione (regressori) stimati
confidenza sono dati dalla seguente notazione:
â
e b̂ gli intervalli di
aˆ ± tα/2s(aˆ ) e bˆ ± tα/2s(bˆ )
“dove t α/2 indica quel valore critico per cui la probabilità di osservare valori della tStudent, con n-2 gradi di libertà, superiori o uguali a
t α/2
, è pari a α/2”.
Verifica di ipotesi
Per la verifica d‟ipotesi dei coefficienti di regressione (regressori) stimati
modello si imposta il seguente sistema di ipotesi degli stessi dato da:
H0 : bˆ = d vs H1 : bˆ ≠ d
â
e b̂ del
H0 : aˆ = c vs H1 : aˆ ≠ c
dove c e d sono due valori positivi prefissati.
La statistica-test per il coefficiente angolare b̂ è espressa dalla seguente notazione:
t=
bˆ - c
s (bˆ )
e per l‟intercetta da:
t=
aˆ - d
s(aˆ )
che si distribuiscono, sotto l‟ipotesi nulla, come una t di Student con n-2 gradi di
libertà.
Per c=d=0 il sistema di ipotesi diventa:
H0 : bˆ = 0 vs H1 : bˆ ≠ 0
Dispense di econometria
H0 : aˆ = 0 vs H1 : aˆ ≠ 0
Pag. 40
e pertanto la statistica-test per il coefficiente angolare diventa:
t=
bˆ
s (bˆ )
e per l‟intercetta â :
t=
aˆ
s (aˆ )
Analisi della varianza (o Anova). Test F
L‟analisi della varianza (o Anova) si basa sul concetto di scomposizione della
varianza totale che si esprime attraverso la seguente notazione:
(DT)/n=(DS)/n+(DR)/n
dove DT è la devianza totale; DS è la devianza spiegata e DR è la devianza residua
ed n è il numero di osservazioni ; (DT)/n è la varianza totale; (DS)/n è la varianza
spiegata e (DR)/n è la varianza residua.
Ad ognuno di questi valori viene associato il relativo numero di gradi di libertà.
Questo numero è dato dal totale delle osservazioni n meno il o i vincoli (o
restrizioni) a cui le quantità devono sottostare. Per la varianza totale (DT)/n il
numero di gradi di libertà è pari a n-1; per la varianza spiegata (DS)/n esso è pari a
1 e per la varianza residua (DR)/n pari a n-2. Infatti poiché DT/n=DS/n+DR/n i
relativi gradi di libertà saranno (n-1)=1+(n-2). Questi valori si ottengono
rispettando, appunto, la relazione di scomposizione sopradescritta.
DT/n =DS/n + DR/n
DT/n - DS/n = DR/n
(n-1)=1+(n-2)=n-1
►gradi di libertà
►gradi di libertà
(n-1)- 1=(n-2)
Se i valori di DT, DS e DR si rapportano con il numero di gradi di libertà, si ottiene
la media dei quadrati definita dalle rispettive notazioni MDT, MDS e MDR ovvero:
n
MDT=DT/(n-1)= ∑(yi - y)2 /(n - 1)
i=1
MDS=DS/1=
n
∑(yˆ
i
-y)2
i=1

dove yi rappresentano i valori osservati, y quello medio e y i quello stimato.
n
MDR=DR/(n-2)= ∑ eˆ 2i /(n - 2)
i=1
n
n
i=1
i=1
dove ∑ eˆ 2 i può essere esplicitata dalla notazione: ∑(yˆ -y)
Dispense di econometria
Pag. 41
Sulla base dei concetti esposti l‟analisi della varianza può essere riassunta nella
seguente Tabella:
Sorgente di variazione
Somma dei quadrati
Gradi di libertà
Regressione
DS (Devianza
spiegata)
DR(Devianza residua)
DT(Devianza totale)
1
Media dei quadrati Test F (o di
Fisher)
MDS=DS/1
F = MDS/MDR
n-2
n-1
MDR=DR/(n-2)
MDT=DT/(n-1)
Residuo
Totale
Nell‟analisi della varianza si prende in considerazione la statistica test F (o di
Fisher) il cui valore esprime la misura per l‟accettazione (o non rifiuto) o il rifiuto (o
non accettazione) dell‟ipotesi nulla:
H0 : bˆ = 0.
Più il valore della F è prossimo a 1 più si tende ad accettare (o a non rifiutare)
l‟ipotesi di interesse H0 mentre qualora la statistica test F fosse molto più grande di
1, si tende a rifiutare (o non accettare) l‟ipotesi nulla H0 ed accettare ( o non
rifiutare) l‟ipotesi alternativa:
H1 : bˆ ≠ 0.
Nel grafico seguente si può capire il significato del test F ai fini della bontà di
adattamento del modello di regressione lineare semplice.
Se la distanza tra il valore osservato y e quello stimato ŷ (y - ŷ ) fosse uguale alla
distanza fra il valore stimato e quello medio y ( ŷ - y ), il test F sarebbe pari a 1,
Dispense di econometria
Pag. 42
descrivendo il miglior adattamento possibile del modello ai dati. Nel grafico, invece,
la distanza tra il punto osservato y e quello stimato ŷ è molto più grande di quella
tra il punto stimato e quello medio per cui il test F assume valori molto maggiori
che tendono appunto a rifiutare l‟ipotesi nulla.
Inferenza per la variabile dipendente media e per la previsione
Precedentemente sono stati studiati gli intervalli di confidenza per i coefficienti di
regressione o (regressori) â e b̂ del modello. Ora si analizzano a livello inferenziale
previsivo gli intervalli di confidenza per il valore atteso della variabile dipendente
media ad un livello di confidenza o fiducia pari a (1-α).
Se si introduce l‟ipotesi 7) di normalità degli errori, si può affermare che lo stimatore
della variabile casuale risposta ŷ i si distribuisce come una Normale il cui scarto
standardizzo assume la notazione:
yˆ i - E(yˆ i x i )
s (yˆ i )
che si distribuisce come una t di Student con n-2 gradi di libertà.
L‟intervallo di confidenza per il valore atteso della ŷ i ad un livello di confidenza o
fiducia (1-α) è dato dalla seguente notazione:
yˆ i ± tα/2s(yˆ i )
E‟ importante, ora, svolgere lo studio del modello di regressione ai fini della
previsione sia del valore medio della Yi ovvero , E(yˆ i xi ) , sia di un singolo valore della
variabile dipendente yi. Nel primo caso occorre stimare il parametro rappresentato
dal valore atteso della yi ovvero E(yˆ i xi ) , corrispondente alla relazione lineare della
retta di regressione stimata aˆ + bˆ xi che presenterà un certo errore standard; nel
secondo caso bisogna valutare i singoli valori di yi che presenteranno, invece, un
errore standard maggiore di quello dello stimatore del valore atteso stesso E(yˆ i xi )
Gli scarti (o residui) eˆ i = yi - yˆ i rappresentano le realizzazioni della v.c. yi - Ŷi che si
definiscono errori di previsione. L‟intervallo di confidenza per la previsione di un
singolo valore Yi a un livello di confidenza o fiducia 1- α è espresso dalla seguente
notazione:
yˆ i ± tα/2s(yi - yˆ i )
Analisi dei residui
Nelle analisi precedenti si è posto l‟accento sull‟importanza della corretta e rigorosa
specificazione del modello di regressione nonché sul fatto che le ipotesi di base del
modello stesso siano soddisfatte. A queste condizioni gli stimatori, ottenuti con il
Dispense di econometria
Pag. 43
0.5
0.0
-1.5 -1.0 -0.5
res$std.res
1.0
1.5
2.0
metodo dei minimi quadrati, possono essere utilizzati per stimare i parametri di
interesse che mostrano evidenza statistica su quelli incogniti della popolazione.
Qualora una o più ipotesi di base non sia soddisfatta, il modello non è ben specificato
e il suo utilizzo presenta alcuni limiti. Esiste una tecnica metodologica che permette
di analizzare le cause di una “bad specification” detta analisi dei residui. In particolare
si studia l‟analisi grafica dei residui. Il Grafico seguente ottenuto con R ne
rappresenta un esempio.
30
40
50
60
x
Grafico dei
residui
dove si può osservare, anche solo visivamente, che i residui si dispongono intorno
allo zero con valori positivi e negativi e che nel complesso si elidono, assegnando al
modello stimato un buon grado di adattamento.
I grafici seguenti aiutano a capire se l‟ipotesi di normalità dei residui è rispettata.
lm(v1 ~ .)
Normal Q-Q
15
0
-2
-1
0 500
20
1
2
20
Standardized residuals
15
-1000
Residuals
1500
Residuals vs Fitted
-2000
14
14
1500
2500
3500
4500
-2
-1
0
1
2
Fitted values
Theoretical Quantiles
Scale-Location
Residuals vs Leverage
0
-1
1.0
11
14
Cook's distance
-3
0.5
1
2
15
-2
20
Standardized residuals
15
0.0
Standardized residuals
1.5
14
1500
2500
3500
Fitted values
4500
0.00
0.04
0.08
0.5
0.12
Leverage
Ipotesi di base del Modello di Regressione lineare semplice (MRLS)
Dispense di econometria
Pag. 44
Si ricorda che le ipotesi di base sugli errori o residui sono quelle di: normalità,
linearità, omoschedasticità o varianza costante, indipendenza.
Viene svolta l‟analisi dei residui attraverso lo studio del grafico che li rappresenta e
delle osservazioni anomale (dette outliers) delle quali è necessario analizzare
attentamente il peso e l‟ incidenza sul modello.
Normalità degli errori.
Come detto precedentemente, si assume che le v.c. ε i si distribuiscano normalmente
εi~N(0, ϭ2) per i=1, 2, 3,… n
Nel modello specificato le osservazioni yi sono realizzazioni di v.c. Normali yi per
grandi campioni con valore medio o atteso E(yˆ i ) = aˆ + bˆ x i e varianza ϭ2, la cui notazione
in simboli è rappresentata da:
yi~N [( aˆ + bˆ x i ) ; ϭ2]
L‟assunzione dell‟ipotesi di Normalità degli errori si regge sul fatto che, come detto
in precedenza, il modello tenta di stimare la variabile risposta per ogni valore della
variabile esplicativa, ma quest‟ultima può essere influenzata nell‟analisi dei fenomeni
economici e sociali da innumerevoli altri fattori. Per effetto del Teorema del limite
centrale, la distribuzione del termine di errore tenderà ad una Normale
all‟aumentare della numerosità campionaria. L‟ipotesi di normalità cui deve
sottostare il modello, implica altre importanti considerazioni sugli stimatori dei
regressori. Per verificare tale ipotesi si usa la metodologia dei residui standardizzati
che prende in considerazione il rapporto tra i residui e l‟errore standard della
regressione dato da:
eˆ 2i std 
Se la
Yi
eˆ 2i
s2
si distribuisce normalmente con varianza costante
σ 2 e media aˆ + bˆ x i ,
i residui
standardizzati tenderanno a distribuirsi secondo una Normale standardizzata N~
(0,1) al crescere della numerosità campionaria n. Si costruisce l‟istogramma dei
residui standardizzati e si verifica se il diagramma presenta una forma vicina a
quella della Normale. Per piccoli campioni i residui standardizzati si distribuiscono
secondo una t di Student con n-2 gradi di libertà.
Quattro grafici aiutano a capire se il modello sottostà all‟ipotesi di normalità: quello
di regressione, l‟istogramma dei residui standardizzati, il grafico di dispersione dei
residui standardizzati ed infine un grafico P-P (Normal Probability Plot).
Quest‟ultimo mette a confronto le proporzioni cumulate per la v.c. errore
standardizzato con il suo valore medio o atteso nel caso di un campione distribuito
normalmente.
Linearità
La prima ipotesi che si analizza è quella di linearità.
Dispense di econometria
Pag. 45
Per verificare se la relazione funzionale fra la variabile dipendente e quella
esplicativa è lineare si può, in prima approssimazione, osservare il grafico a
dispersione e verificare se i punti osservati si dispongono o meno lungo una
traiettoria più o meno lineare.
Oppure si può studiare il grafico dei residui che offre la misura della variabilità dei
dati osservati rispetto ad un valore 0. La distribuzione dei valori al di sopra o al di
sotto del valore zero, come visto nel Grafico 22.7.1, mostra quanto il modello
sottostà a tale ipotesi. E‟ importante svolgere una considerazione ulteriore
all‟adattamento del modello lineare. Se si rilevasse un valore del rapporto di
determinazione molto basso, ciò non significa che in assoluto non esiste una correlazione tra
le due variabili osservate. Si può affermare soltanto che il modello di regressione non
evidenzia un legame lineare, senza escludere che potrebbe esserci, invece, un legame non
lineare tra le due variabili.
Omoschedasticità (o di varianza costante)
Se la varianza delle Yi è costante, l‟analisi del grafico dei residui mostra una
distribuzione regolare dei valori intorno, sopra e sotto lo zero ovvero all‟aumentare
dei valori della Yi disposti sull‟asse delle ascisse, la distanza dei valori sotto lo zero
eguaglia la distanza di quelli sopra lo zero e viceversa.
Nel caso di varianza non costante (eteroschedasticità), invece, la distanza dei residui
positivi o negativi rispetto allo zero aumenta all‟aumentare dei valori della Yi e cioè
si può osservare una distribuzione dei residui intorno allo zero detta “ad imbuto”.
La presenza di eteroschedasticità nella relazione funzionale lineare fra due variabili
(dipendente ed esplicativa) Y e X comporta che gli stimatori dei regressori ottenuti
con il metodo dei minimi quadrati ordinari, pur rimanendo corretti (o non distorti),
non sono più efficienti ovvero non hanno la più bassa varianza e quindi il loro uso
può determinare risultati errati che inducono, soprattutto per quanto riguarda le
procedure inferenziali previsive, ad errori.
In questa situazione si devono utilizzare metodologie e tecniche diverse in quanto
non valgono più i calcoli per la varianza e lo “standard error” degli stimatori come
pure non valgono più gli intervalli di confidenza sui regressori trovati con il Metodo
dei minimi quadrati (MMQ) e la relativa verifica d‟ipotesi. Si deve usare, quindi, un
metodo diverso da quello dei Minimi Quadrati Ordinari ed applicare quello dei
Minimi Quadrati Ponderati che prende in considerazione le osservazioni con minore
varianza assegnandogli nell‟analisi inferenziale una maggiore importanza.
Indipendenza degli errori
Una considerazione particolare va fatta sull‟analisi della varianza di una relazione
funzionale lineare fra due variabili (dipendente ed esplicativa) Y e X rispetto al
momento in cui le osservazioni vengono rilevate.
In questo caso entra in gioco il concetto di ”asse dei tempi” ovvero dello sviluppo
temporale dell‟analisi dei residui.
Dispense di econometria
Pag. 46
Si può dire genericamente che gli errori (residui) ε i non sono indipendenti se la loro
distribuzione assume uno sviluppo intorno allo zero ovvero, se nell‟istante 0 l‟errore
(residuo) ε 0 assume un valore positivo, molto probabilmente nell‟istante 1 l‟errore
ε 1 assumerà ugualmente un valore positivo.
In questo caso si può affermare di essere in presenza di non indipendenza o
autocorrelazione positiva, nel caso contrario si ha autocorrelazione negativa.
In situazione di autocorrelazione si verificano gli stessi inconvenienti osservati per
l‟eteroschedasticità (o varianza non costante) ovvero la relazione funzionale lineare
fra due variabili (dipendente ed esplicativa) Y e X comporta che gli stimatori dei
regressori, ottenuti con il metodo dei minimi quadrati ordinari, pur rimanendo
corretti (o non distorti), non sono più efficienti ovvero non hanno la più bassa
varianza e quindi il loro uso può determinare risultati errati che inducono,
soprattutto per quanto riguarda le procedure inferenziali previsive, ad errori.
Anche in questo caso per calcolare gli stimatori si devono utilizzare metodologie e
tecniche diverse in quanto non valgono più i calcoli per la varianza e lo “standard
error” degli stimatori come pure non valgono più gli intervalli di confidenza trovati
con il MMQO (Metodo dei Minimi Quadrati Ordinari) e la relativa verifica d‟ipotesi.
Valori anomali e metodi di individuazione
Nell‟analisi delle osservazioni della relazione lineare fra la viabile dipendente e la
variabile esplicativa Y e X si osservano n realizzazioni x i e y i ; tra esse si può
verificare che alcune sono del tutto diverse e si dispongono sul piano cartesiano in
modo anomalo ovvero molto distanti dal trend relativo alla maggior parte delle
osservazioni. In questo caso siamo in presenza di valori anomali (o outliers) che
evidenziano una relazione diversa tra la variabile dipendente (o risposta) e quella
indipendente o esplicativa.
L‟analisi del modello di regressione è condizionato da questi valori che inducono ad
una stima dei coefficienti di regressione (o regressori) ovviamente errata con
conseguenze sia di natura inferenziale descrittiva che previsiva. Infatti il valore di
intercetta, se presente nella relazione, e quello del coefficiente della retta dei minimi
quadrati stimata saranno condizionati da queste realizzazioni anomale.
Si procede, anche in questo caso, all‟analisi del grafico dei residui standardizzati e del
grafico di normalità P-P (Normal Probability Plot) attraverso i quali si individuano
i valori anomali che inducono alla conclusione che il modello di regressione lineare
rappresenta in modo non corretto la relazione funzionale tra la Y e la X.
Svolta l‟analisi inferenziale che deve cercare di comprendere le ragioni dell‟anomalia,
si escludono i valori anomali supponendo che tali osservazioni non incidono sulla
bontà dell‟adattamento dei valori stimati rispetto a quelli osservati.
Dispense di econometria
Pag. 47
Considerazioni finali
Si vogliono svolgere alcune considerazioni sul modello di regressione lineare in
quanto la sua validità dipende da una serie di fattori che devono essere sempre tenuti
presenti per non incorrere in valutazioni errate. E‟ importante essere cauti quando si
vuole utilizzare il modello al di fuori del “range” dei valori osservati, come pure è
importante che la stima dell‟intercetta per X=0 sia fatta solo se è stato osservato un
numero elevato di valori della X intorno allo 0.
Un‟altra cautela è rappresentata dalla generalizzazione dei risultati che il modello di
regressione lineare restituisce; essa è possibile solo se la relazione funzionale tra la Y
e la X rimane la stessa di quella dei dati osservati.
Nell‟introdurre questo argomento si è fatta menzione al concetto di causa-effetto tra
la Y e la X.
E‟ opportuno tenere sempre presente che tale concetto non vale in assoluto nel
modello regressivo, infatti non è detto che, se cambia una variabile, necessariamente
vari anche l‟altra a causa di un legame diretto tra le due.
Sulla base delle considerazioni svolte sopra si vogliono enfatizzare due concetti già
richiamati: il primo riguarda la cautela con cui debbono essere presi i risultati del
modello e il secondo attiene al fatto che si deve indagare a fondo sulla relazione tra
le due variabili senza limitarsi al solo studio di quella lineare.
Può esistere, anche, il problema dell‟omissione di altre variabili che possono
influenzare la relazione tra la X e la Y. Questo sarà il problema che verrà esaminato
successivamente dove viene studiato, anche se in sintesi, il modello di regressione
multipla.
LABORATORIO STUDIO GUIDATO
Nel Laboratorio Studio guidato vengono riportati gli script per svolgere le stesse
applicazioni svolte manualmente relativi alla parte teorica trattata.
ESERCITAZIONE EMPIRICA 4. (SUL MODELLO DI REGRESSIONE LINEARE SEMPLICE
CON SOLUZIONE MANUALE)
L‟ Amministratore Delegato della Alpha SpA vuole conoscere la relazione
intercorsa tra i ricavi e il numero dei dipendenti nel periodo 2006-2010. Egli
Dispense di econometria
Pag. 48
incarica il Dott. Rossi di svolgere un‟analisi appropriata da cui emerge che le coppie
di dati osservati tra la variabile dipendente (Y) Ricavi di vendita (KEuro) e la
variabile indipendente (X) (Numero di addetti) sono: (0-4;250-10;255-11;36514;485-18;592-25). Il Dott. Rossi ha il compito di stimare i parametri (regressori)
della retta di regressione semplice ovvero l‟intercetta â e il coefficiente angolare b̂
PASSO PRIMO Per prima cosa egli richiama un concetto molto importante ed
utile ai fini della comprensione dei contenuti della regressione lineare semplice
ovvero quello dello spostamento del baricentro degli assi cartesiani sulle medie delle
due variabili
Rappresentazione grafica dei regressori
(Y) Numero dipendenti
Valore osservato Y=25

Valore stimato Y
retta stimata
centroide o baricentro
yi
o
stesso coefficiente angolare
M(Y)=13,67
Valore medio Y
Intercetta (a)
coefficiente angolare (b)
0 250 255
365
485
592
(X) Ricavi di vendita
M(X)= 324,5
PASSO SECONDO Il Grafico evidenzia chiaramente che le medie della X
(0+250+255+365+485+592)/6=324,5 e della Y è
(4+10+11+14+18+25)/6=13,6666 costituiscono una coppia di punti sugli assi
cartesiani che giacciono sulla retta di regressione e traslano in avanti il baricentro o
centroide della stessa senza modificare la relazione tra le due variabili
PASSO TERZO Egli ritiene che è particolarmente importante rappresentare
graficamente le distanze proiettate ortogonalmente sull‟asse delle ordinate per un
dato valore di x e, precisamente, la distanza tra il valore osservato ed il valore
medio (devianza totale DT), la distanza fra il valore osservato e quello stimato
(devianza residua DR) e quella tra il valore stimato e quello medio (devianza
spiegata DS). Nel Grafico seguente si evidenziano appunto le differenze fra i valori
osservati, medi e stimati.
Dispense di econometria
Pag. 49
PASSO QUARTO Dal Grafico evince chiaramente che le distanze dal valore
osservato al valore medio possono essere scomposte in due parti: la prima data dalla
differenza tra il valore osservato e quello stimato, detta anche residuo, la seconda
dalla differenza del valore stimato e quello medio, detta anche spiegata che può
essere espressa dalla seguente notazione:
(yi - y )=( yi - ŷ )+( ŷ - y )
PASSO QUINTO Costruisce la Tabella seguente propedeutica attraverso la quale
rappresenta i calcoli della covarianza Cov(X,Y) e della varianza della X (variabile
indipendente o esplicativa)
x
0
250
255
365
485
592
y
4
10
11
14
18
25
(x-xmedia)
0-324,5= -324,5
250-324,5= -74,5
255-324,5= -69,5
365-324,5= 40,5
485-324,5= 160,5
592-324,5= 267,5
(y-ymedia)
4-13,67= -9,67
10-13,67=-3,67
11-13,67=-2,67
14-13,67= 0,33
18-13,67= 4,33
25-13,67=11,33
(x-xmedia)*(y-ymedia)
3137,915
273,415
185,565
13,365
694,965
3030,775
7336,000
(x-xmedia)2
105300,25
5550,25
4830,25
1640,25
25760,25
71556,25
214637,50
Fonte: Dati simulati
PASSO SESTO
Calcola i valori del coefficiente angolare b̂ dato da:
Dispense di econometria
Pag. 50
b̂ = Cov (x,y)/ Var(x)=7336/214637,5 =0,03417
e l‟intercetta:
aˆ = y - bˆ x
Sostituendo avrà:
a= ymedia – b*xmedia = 13,6666 – 0,03417*324,5 =13,67-11,0881 =2,5785
L‟equazione della retta stimata è data dalla seguente notazione:
yˆ i = aˆ + bˆ x i = 2,5785 + 0,03417 xi
PASSO SETTIMO Egli rappresenta, con l‟ausilio di R, il Grafico a dispersione
relativo ai dati osservati con sovrapposta la retta stimata.
500
450
350
400
Spese totale mensile
550
600
Grafico retta stimata
700
800
900
1000
Spesa per consumi alimentari mensile
ESERCITAZIONE EMPIRICA 5.
SULL’INFERENZA DEL MODELLO DI REGRESSIONE
LINEARE SEMPLICE CON SOLUZIONE MANUALE
Il Responsabile di Marketing della Beta SpA vuole elaborare il modello di
regressione lineare semplice tra la variabile spesa totale mensile e spesa per consumi
alimentari mensile in un campione di 7 famiglie e successivamente intende svolgere
un‟analisi inferenziale calcolando l‟intervallo di confidenza per i regressori e la
verifica di ipotesi sugli stessi ad un livello di significatività del 5%.
PASSO PRIMO. Egli predispone la Tabella dei dati seguente ottenuti da una
rilevazione campionaria su sette famiglie:
y
315,44
Dispense di econometria
x
687,34
Pag. 51
382,12
404,21
455,98
497,13
521,67
634,78
702,89
785,89
867,12
899,76
945,78
1067,34
Fonte: Dati simulati
PASSO SECONDO. Predispone la seguente Tabella propedeutica per il calcolo del
coefficiente angolare b̂ e l‟intercetta â :
x
687,34
702,89
785,89
867,12
899,76
945,78
1067,34
Totale
Media(x)
Media(y)
y
315,44
382,12
404,21
455,98
497,13
521,67
634,78
(x-xmedia)
-163,5343
-147,9843
-64,9843
16,2457
48,8857
94,9057
216,4657
(y-ymedia)
4-13,67= -9,67
10-13,67=-3,67
11-13,67=-2,67
14-13,67= 0,33
18-13,67= 4,33
25-13,67=11,33
(x-xmedia)*(y-ymedia)
23437,9674
11341,7271
3544,9856
-45,1863
1875,6750
5970,3829
38101,9858
84227,5376
2
(x-xmedia)
26743,4626
21899,3488
4222,9574
263,9232
2389,8131
9007,0946
46857,4055
111384,0052
850,8743
458,7614
e li calcola applicando le formule normali espresse dalle seguenti notazioni:
aˆ = y - bx  458,7614 - 0,756191 * 850,8743  -184,6621
n
σ
bˆ = 2XY 
σ
X
∑(xi - x)(yi - y)
i=1
n
∑(xi - x)2

84227,5376
 0,756191
111384,0052
i=1
PASSO TERZO. Egli presenta l‟output di riepilogo della Regressione nella
Tabella seguente ottenuto con il software R che conferma i risultati ottenuti con
svolgimento manuale relativi ai valori dei regressori stimati.
Call:
lm(formula = y ~ x)
Residuals:
1
2
3
4
5
6
7
-19.658 35.263 -5.411 -15.066 1.402 -8.858 12.329
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -184.66171 53.05399 -3.481 0.0176 *
x
0.75619 0.06168 12.260 6.39e-05 ***
Dispense di econometria
Pag. 52
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 20.58 on 5 degrees of freedom
Multiple R-squared: 0.9678, Adjusted R-squared: 0.9614
F-statistic: 150.3 on 1 and 5 DF, p-value: 6.388e-05
PASSO QUARTO. Il calcolo del coefficiente angolare può essere svolto utilizzando
la formula operativa seguente
n
n
n
n ∑x i y i - ∑x i - ∑y i
σ XY
i=1 i=1 = 7 * 2816665.572 - 5956,12 - 3211,33 = 0,75966
bˆ =
oppure bˆ = i=1n
2
2 n
σ X
7 * 5179292,68 - (3211,33)2
n ∑x i - ( ∑x i )2
i=1
i=1
e quindi si calcola l‟intercetta:
aˆ = Yi - bˆ Xi = 458,76- 0,75966302 x 850,87= -187,61
Si può notare che i risultati presentano qualche differenza, sebbene lieve,
rispetto al calcolo precedente da cui si desume che l’algoritmo sottostante al
software R riprende la formula normale.
PASSO QUINTO. A questo punto imposta la Tabella propedeutica per calcolare
l‟errore standard della regressione, dell‟intercetta e del coefficiente angolare nonché
l‟ANOVA e la statistica-test F di Fisher con il relativi p-value:
Realizzazioni
della y
Realizzazioni
della x
yi
xi
315,44
687,34
687,342 = 472436,2756
382,12
702,89
702,892= 494054,3521
404,21
785,89
455,98
867,12
497,13
899,76
521,67
945,78
634,78
1067,34
3211,33
5956,12
Media (y)=
458,7614
Devianza delle x
xi 2
785,892= 617623,0921
867,122= 751897,0944
899,762= 809568,0576
945,782= 894499,8084
1067,342= 1139214,676
Dispense di econometria
5179292,68
(x - x)2
(687,34-850, 8743)2
(702,89-850, 8743)2
Valori y
media
Valori y stimati
yˆ i = aˆ + bˆ x i  -184,662 + 0.756191 * x
-184,662+0.756191*687,34=335,0983
y
458,7614
458,7614
-184,662+0.756191*702,89=346,8571
(785,89-850, 8743)2
-184,662+0.756191*785,89=409,6209
458,7614
(867,12-850, 8743)2
-184,662+0.756191*867,12=471,0463
458,7614
(899,76-850, 8743)2
-184,662+0.756191*899,76=495,7283
458,7614
(945,78-850, 8743)2
-184,662+0.756191*945,78=530,5282
458,7614
(1067,34-850, 8743)2
-184,662+0.756191*1067,34=622,4508
458,7614
111384,0052
Pag. 53
Media (x)=
850,8743
Devianza residua
Devianza spiegata
2
(y i - yˆ )
(yˆ i - y )
(315,44-458,7614)2=20541,0237
(315,44-335,0983) 2=386,4488
(335,0983-458,7614) 2=15292,5623
(382,12-458,7614)2=5873,9042
(382,12-346,8571) 2=1243,4721
(346,8571-458,7614) 2=12522,5724
(404,21-458,7614)2=2975,8552
(404,21-409,6209) 2=29,2778
(409,6209-458,7614) 2=2414,7887
(455,98-458,7614)2=7,7362
(455,98-471,0463) 2=226,9934
(471,0463-458,7614) 2=150,9188
(497,13-458,7614)2=1472,1495
(497,13-495,7283) 2=1,9648
(495,7283-458,7614) 2=1366,5517
(521,67-458,7614)2=3957,4919
(521,67-530,5282) 2=78,4677
(530,5282-458,7614) 2=5150,4736
(634,78-458,7614)2=30982,5476
(634,78-622,4508) 2=152,0092
(622,4508-458,7614) 2=26794,2197
65810,7083
2118,6338
63692,0872
Devianza totale delle y
(y i - y )
2
2
PASSO SESTO. Dalla Tabella emerge che la DT=DS+DR=> 65811=2119+63692
(valori arrotondati) e quindi è verificata la teoria. Inoltre che
MDS=DS/1=63692/1=63692; MDR= DR/5=2119/5=424. La statistica-test F di
Fisher è data da MDS/MDR=63692/424=150,31. La probabilità della F empirica
risulta pari a 0,00006388 (6.388e-05)
PASSO SETTIMO. Si può constatare che i risultati relativi all‟analisi della
varianza (ANOVA) ottenuti manualmente coincidono perfettamente con quelli che il
software R ci restituisce come si potrà vedere nel Laboratorio con software R.
Analysis of Variance Table
Response: y
Df
Sum Sq
Mean Sq
F value
x
1
63692
63692
150.31
Residuals
5
2119
424
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Pr(>F)
6.388e-05 ***
PASSO OTTAVO. Ora calcola l‟error standard degli errori della regressione:
error standard(MSE) =
Dispense di econometria
n
∑(y i - yˆ i )2 =
n - 2 i=1
1
1
7-2
* 2118,6338 = 20,5846
Pag. 54
e successivamente l‟error standard dell‟intercetta â come segue:
n
∑x i
( i=1 )2
1
error standard dell'intercetta = error std(regr) *
+ n 2=
7 (x i - x)
5956,12 2
)
7
 20,59*
+
7 111384,0052
1
(
= 20,5846*
1
7
+
(850,8743)2
111384,0052
= 53,0539
e del coefficiente angolare b̂ come segue:
err std del coeff. angolare= error std(regr) / (x i - x)2
20,5846
20,5846
=
= 0,06168
111384,0052 333,7424
PASSO NONO. Il Responsabile può calcolare, ora, l‟intervallo di confidenza per i
due regressori ad un livello di significatività α=0,05. Egli sa che la v.c. error
standard si distribuisce come una “t di Student” con n-2 gradi di libertà
(7-2=5)
e pertanto il t-critico, risultante dalle Tavole, è pari a 2,571 in quanto la
distribuzione e il relativo test è bilatero con α/2=0,025.
Per l‟intercetta â si avrà:
-184,662-(2,570582*53,0539) ≤ a≤ -184,662+ (2,570582*53,0539)
sostituendo si avrà:
IC => [-321,041 ; -48,282]
Per il coefficiente di correlazione o angolare b̂ si avrà:
0,75619-(2,570582*0,06168) ≤ b≤ 0,75619+ (2,570582*0,06168)
sostituendo si avrà:
IC =>[0,5976 ; 0,9147]
PASSO DECIMO. Risultano confermati i risultati che il software restituisce con
quelli calcolati manualmente.
2.5 %
97.5 %
(Intercept) -321.04132 -48.28210
x
0.59764
0.91474
Dispense di econometria
Pag. 55
PASSO UNDICESIMO. Egli vuole, infine, svolgere un‟analisi sulla verifica di
ipotesi sui regressori stimati â e b̂ del modello di regressione. Specifica il sistema di
ipotesi per entrambi i regressori come segue:
H0 : bˆ = 0 vs H1 : bˆ ≠ 0
H0 : aˆ = 0 vs H1 : aˆ ≠ 0
La statistica-test per il coefficiente angolare è data dalla notazione seguente:
t
0,75619 - 0
 12,26
0,06168
La statistica-test per l‟intercetta è data dalla notazione seguente:
t
- 184,6621 - 0
 -3,481
53,0539
I valori delle statistiche-test t di Student per i due regressori ottenuti manualmente
confermano quelli che il software R ci restituisce. Entrambe si distribuiscono, sotto
l‟ipotesi nulla, come una t di Student con n-2 gradi di libertà e quindi dalle Tavole
oppure utilizzando il codice di R si evince che la probabilità della t empirica per un
livello di significatività di 0,05 è pari a 0,00006388 per il coefficiente angolare e
0,0176 per l‟intercetta.
PASSO DODICESIMO. Si vuole ora individuare il significato dei valori riportati
nell‟output di R. E‟ opportuno premettere che i gradi di libertà sono 1, 5 e 6; poiché i
regressori sono due si avrà k-1= (2-1)=1 per la regressione; poiché le osservazioni
sono 7 e i regressori 2 si avrà N-k=7-2=5 per il residuo; per il totale N-1=(7-1)=6
che è anche uguale alla somma dei gradi di libertà per la regressione e per il residuo
1+5=6. In alto (Call) viene riportato il codice R per una Regressione lineare
semplice di y su x. Sotto (Residuals) si trovano i valori dei Residui. Sotto ancora si
trova la tabella dei Coefficienti (Coefficients) con i valori stimati dei parametri della
Regressione (Intercetta e coefficiente angolare) seguito da quelli dei rispettivi error
standard (Std.Error), della statistica-test t di Student (t value) e dal pvalue(Pr(>|t|). Sotto ancora si trovano gli asterischi che indicano il livello di
significatività (Signif. Codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1) in ordine allo
0%, 1%, 5%, 10% e 100%. Sotto ancora si trova il valore dello standard error dei
residui con i relative gradi di libertà (Residual standard error: 20.58 on 5 degrees of
freedom), i valori del coefficiente di determinazione semplice e aggiustato (Multiple
R-squared: 0.9678, Adjusted R-squared: 0.9614) ed infine nell‟ultima riga si trova
il valore della statistica-test F di Fisher con i relativi gradi di libertà al numeratore e
al denominatore con la relativa probabilità (F-statistic: 150.3 on 1 and 5 DF, pvalue: 6.388e-05)
Dispense di econometria
Pag. 56
Nel nostro esempio, posto α=0.01, si rifiuta H0 e si conclude che 10 miglia orarie in
più di velocità determinano in media un aumento (poiché il segno del valore stimato
di Beta è positivo).
Nel Grafico seguente viene mostrata la distribuzione t di Student per un test
bilatero al livello di confidenza del 95% con 5 gradi di libertà riferito ai dati della
Regressione sopra utilizzati per dimostrare che si può assumere la relativa regola di
decisione avendo contezza del valore della t empirica che cade nella regione di rifiuto
per entrambi i regressori.
Dal Grafico emerge chiaramente che i valori della t empirica si collocano per
entrambi i regressori nelle regioni di rifiuto. Allo stesso risultato si perviene
utilizzando la tecnica del p-value. Stabilito a priori dal ricercatore un livello di
significatività del 5% e fissato il sistema di ipotesi per i parametri della regressione
H0 : bˆ = 0 vs H1 : bˆ ≠ 0
H0 : aˆ = 0 vs H1 : aˆ ≠ 0
si mette a confronto il livello di significatività α/2 (pari a 0,05/2=0,025 in quanto il
test è bilatero o a due code) con il valore del p-value (Pr(>|t|) che risulta essere
0.0176 per l‟intercetta e 6.39e-05 per il coefficiente angolare. Si può notare che
entrambi sono minori di 0,025 e quindi si rifiuta l‟ipotesi nulla affermando che esiste
una relazione lineare tra la spesa totale mensile e la spesa per consumi alimentari
mensile.
Dispense di econometria
Pag. 57
La significatività statistica del Modello è provata dalla statistica-test F di Fisher.
Stabilito a priori un livello di significatività alfa al 5% si prendono in considerazione
la F empirica, pari in questo caso a 150.3 con 1 and 5 g.d.l. rispettivamente al
numeratore e al denominatore e la F critica che per alfa=o.o5 è pari a 2,45. Si
conclude pertanto che il Modello spiega bene i dati da un punto di vista statistico.
LABORATORIO CON SOFTWARE R
Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse
applicazioni svolte manualmente relativi alla parte teorica trattata.
ESERCITAZIONE EMPIRICA CON R
L‟Applicazione svolta manualmente nel laboratorio studio guidato è ripresa
integralmente nel laboratorio con il software R. Di seguito si riporta il relativo
codice:
library(labstatR)
y<-c(315.44, 382.12, 404.21, 455.98, 497.13, 521.67, 634.78)
# Dati di input della variabile Spesa per consumi alimentari mensile
x<-c(687.34, 702.89, 785.89, 867.12, 899.76, 945.78, 1067.34)
# Dati di input della variabile Spese totale mensile
n <- 7
# Numero osservazioni
modello <- lm(formula = y ~ x)
summary(modello)
#Restituisce l'output della Regressione
par(bg="cornsilk")
plot(x,y,xlab="Spesa per consumi alimentari mensile ",
ylab=" Spese totale mensile ",main="Grafico retta stimata")
abline(modello,col="red")
#Grafico a dispersione con la sovrapposizione della retta stimata#
round(confint(object = modello, parm = c(1, 2), level = 0.95), digits = 5) # Intervallo di confidenza per i regressori al livello di significatività del 5%
per un test bilatero
round(confint(object = modello, parm = c(1, 2), level = 0.99), digits = 5) # Intervallo di confidenza per i regressori al livello di significatività del 1%
per un test bilatero
anova(object = modello)
# Restituisce i valori della devianza spiegata, residua, i gradi di libertà e la
statistica F con il relativo p-value
qqnorm (residuals(modello),main="Normalità degli errori", ylab="Residui", xlab="Quantili")
qqline (residuals(modello),col="red")
# Restituisce il grafico dei residui con sovrapposta la retta stimata
p<-1-pt(q=12.260 ,df=5);p
p*2
# Valore della probabilità della t empirica per l'intercetta
p<-pt(q=-3.481 ,df=5);p
p*2
# Valore della probabilità della t empirica per il coefficiente angolare
qt(p=0.01763981/2,5)
# Valore del quantile empirico della statistica-test t di Student per l’intercetta
qt(p=6.38825e-05/2,5)
# Valore del quantile empirico della statistica-test t di Student per il coefficiente
angolare
qt(p=0.025,5)
# Valore del quantile critico della statistica-test t di Student
curve(dt(x, 5), -4, 4, ylab="Densità")
# Grafico della funzione di densità della t di Student per 5 gradi di libertà
1-pf(150.3, 1, 5)
# Valore della probabilità della F empirica
Dispense di econometria
Pag. 58
qf(1-6.39e-05,1, 5)
qf(1-0.05,1, 5)
curve(df(x, 1, 5),0,155)
numeratore e 5 gradi di libertà al denominatore
# Valore del quantile empirico della F di Fisher
# Valore del quantile critico della F di Fisher
# Grafico della funzione di densità della F di Fisher per 1 grado di libertà al
Si riportano di seguito una serie di output parziali di R suddivisi in vari Passi,
PASSO PRIMO. Si mandano in esecuzione le prime sei righe di codice e si ottiene
l‟output della regressione:
Call:
lm(formula = y ~ x)
Residuals:
1
2
3
4
5
6
7
-19.658 35.263 -5.411 -15.066 1.402 -8.858 12.329
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -184.66171 53.05399 -3.481 0.0176 *
x
0.75619
0.06168 12.260 6.39e-05 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 20.58 on 5 degrees of freedom
Multiple R-squared: 0.9678, Adjusted R-squared: 0.9614
F-statistic: 150.3 on 1 and 5 DF, p-value: 6.388e-05
PASSO SECONDO. Si mandano in esecuzione le righe di codice dalla 7 alla 10 e si
ottiene il grafico a dispersione con sovrapposta la retta stimata:
500
450
350
400
Spese totale mensile
550
600
Grafico retta stimata
700
800
900
1000
Spesa per consumi alimentari mensile
PASSO TERZO. Si mandano in esecuzione le righe di codice dalla 11 alla 12 e si
ottengono gli intervalli di confidenza per i regressori al livello di significatività
rispettivamente del 5% e dell‟1%:
2.5 %
97.5 %
(Intercept) -321.04132 -48.28210
x
0.59764 0.91474
0.5 %
99.5 %
(Intercept) -398.5830 29.25955
x
0.5075 1.00489
Dispense di econometria
Pag. 59
PASSO QUARTO. Si manda in esecuzione la riga di codice 13 e si ottiene l‟Analisi
della Varianza (ANOVA)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x
1 63692 63692 150.31 6.388e-05 ***
Residuals 5 2119 424
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
PASSO QUINTO. Si mandano in esecuzione le righe di codice dalla 14 alla 15 e si
ottiene il grafico dei residui con sovrapposta la retta stimata:
10
-20
-10
0
Residui
20
30
Normalità degli errori
-1.0
-0.5
0.0
0.5
1.0
Quantili
PASSO SESTO. Si spiegano i risultati dell‟output della regressione iniziando da
valore del t value (ovvero la statistica-test t di Student con n-2 gradi di libertà) per
l‟intercetta che si ottiene: -184,66171/53,05399=-3,481 (ovvero il rapporto fra il
valore stimato dell‟intercetta e il suo error standard); lo stesso dicasi per il
coefficiente angolare che si ottiene: 0,75619/0,06168=12,260 (ovvero il rapporto fra
il valore stimato del coefficiente angolare e il suo error standard). Per quanto
riguarda il valore del P(<|t|) ovvero la probabilità della t empirica si calcola la
probabilità mandando in esecuzione le righe dalla 16 alla 19 ottenendo i relativi
valori.
[1] 6.38825e-05
> p<-pt(q=-3.481 ,df=5);p
[1] 0.008819907
> p*2
[1] 0.01763981
PASSO SETTIMO. Si può effettuare l‟operazione inversa ovvero dalla probabilità al
quantile. In questo caso occorre fare attenzione. Il software R restituisce un valore
di p-value complessivo delle due code della t di Studente (ad esempio per un test a
due code al livello di significatività del 5% 0,025*2=0,05). Per calcolare il quantile
occorre dividere per due il valore della P(<|t|) dell‟intercetta e del coefficiente
Dispense di econometria
Pag. 60
angolare. Lo stesso dicasi per il quantile della t di Student critica. Mandando in
esecuzione le linee di codice dalla 20 alla 22 si ottiene:
> qt(p=0.01763981/2,5)
[1] -3.481
> qt(p=6.38825e-05/2,5)
[1] -12.26
qt(p=0.025,5)
[1] -2.570582
0.2
0.0
0.1
Densità
0.3
PASSO OTTAVO. A questo punto si può rappresentare il grafico della v.c. t di
Student con 5 gradi di libertà dove vengono individuati i quantili e le regioni di
rifiuto ed accettazione per un test bilatero. Si manda in esecuzione la linea di codice
23 e si ottiene:
-4
-2
0
2
4
x
Riportando sull‟asse delle ascisse i quantili critici (-2,57 a sx e +2,57 a dx)
automaticamente si individuano le regioni di accettazione e di rifiuto. Riportando
quelli empirici -3.481 e -12.26 si può scegliere la regola di decisione se accettare o
meno l‟ipotesi nulla in un sistema di ipotesi per un test bilatero (dominio-∞.+∞) .
PASSO NONO. Per quanto riguarda i valori del Residual standard error: 20.58 on 5
degrees of freedom, del Multiple R-squared: 0.9678, del Adjusted R-squared e della
F-statistic si rimanda ai calcoli riportati nel Laboratorio studio guidato.
PASSO DECIMO. Da ultimo si vuole spiegare il valore del p-value della F-statistic
(ovvero la probabilità della statistica test F di Fiher empirica). Mandando in
esecuzione le riga di codice 24 si ottiene:
> 1-pf(150.3, 1, 5)
[1] 6.389035e-05
PASSO UNDICESIMO. Si può effettuare l‟operazione inversa ovvero dalla
probabilità al quantile sia per la F empirica che per la F critica. Si mandano in
esecuzione le linee di codice 25 e 26 e si ottiene:
qf(1-6.39e-05,1, 5)
[1] 150.2907
> qf(1-0.05,1, 5)
Dispense di econometria
Pag. 61
[1] 6.607891
0.08
0.06
0.00
0.02
0.04
df(x, 1, 5)
0.10
0.12
0.14
PASSO DODICESIMO. A questo punto si può rappresentare il grafico della v.c. F
di Fisher con 1 e 5 gradi di libertà rispettivamente al numeratore e al denominatore
dove vengono individuati i quantili e le regioni di rifiuto ed accettazione per un test
unilatero dx. Si manda in esecuzione la linea di codice 27 e si ottiene:
0
50
100
150
x
Riportando sull‟asse delle ascisse il quantile critico 0 6.607891 automaticamente si
individuano le regioni di accettazione e di rifiuto. Riportando quello empirico
150.2907si può scegliere la regola di decisione se accettare o meno l‟ipotesi nulla in
un sistema di ipotesi per un test unilatero dx (dominio o, +∞).
Modello di Regressione lineare multipla o a più regressori .
Nella specificazione del Modello la prima assunzione che può venir meno è quella
relativa alle eventuali variabili omesse o introduzione di nuove variabili esplicative
funzionali alla spiegazione della variabile dipendente. A tale scopo si studia il
Modello di Regressione multipla (o con più regressori) che tiene conto di più
variabili esplicative. La notazione generalizzata che lo esplicita è la seguente:
dove
Yi = 0 + 1 X1i +2 X2i + . . . k Xki +i
0 = intercetta
1 = coeff. ang (o pendenza) di Y rispetto alla variabile X1 tenendo costanti le
variabili X2,…. Xk
2 = coeff. ang (o pendenza) di Y rispetto alla variabile X2 tenendo costanti le
variabili X1, . . . , Xk
Dispense di econometria
Pag. 62
k = coeff. ang (o pendenza) di Y rispetto alla variabile Xk tenendo costanti le
variabili X1, X2, , . . Xk-1.
i = vettore degli errori
Yi= vettore dei valori osservati
Si osservino 6 realizzazioni (i=1 a 6) e si assuma che il Modello abbia due variabili
esplicative; l‟equazione del Modello può essere scritta come segue:
Y1 =0+1 X11 +2 X21+1
Y2 =0+1 X12 +2 X22+2
Y3 =0+1 X13 +2 X23+3
Y4 =0+1 X14 +2 X24+4
Y5 =0+1 X15 +2 X25+5
Y6 =0+1 X16 +2 X26+6
In forma matriciale o vettoriale o compatta l‟espressione diventa:
Y=X+
dove Y è il vettore delle osservazioni della variabile dipendente;  e  sono
rispettivamente i vettori dei parametri e degli errori della regressione relativi alla
popolazione e X la matrice delle osservazioni delle variabili indipendenti. I
coefficienti di regressione campionari (b0 ,b1 e b2 )vengono usati come stimatori dei
corrispondenti parametri della popolazione (0, 1 e 2). L„espressione campionaria
dell‟equazione di un modello di regressione multipla con due variabili esplicative ha
la forma seguente.
Y=b0+ b1 X1i + b X2i+i
L‟equivalente notazione si può esprimere in forma matriciale (o compatta) come
segue:
Y=bX+
Soprassedendo alla dimostrazione matematica il vettore dei parametri del Modello è
dato dalla seguente notazione:
1
bˆ =(X' X) X' y
dove la matrice X ha dimensioni (6x3); la prima colonna sarà formata da tutti 1
necessaria per il calcolo dell‟ordinata all‟origine (intercetta); X’ la matrice trasposta
(3x6); y è il vettore dei valori osservati della variabile dipendente.
Di seguito si riporta la formula del coeffciente di determinazione per una regressione
lineare multipla:
Dispense di econometria
Pag. 63
Per passare dal coefficiente di determinazione a quello aggiustato si applica la
seguente notazione:
R
2
= 1
n 1 

2
1  R  n  k  1 
in cui n sono il numero di osservazioni e k il numero delle variabili indipendenti della
regressione campionaria stimata
Verifica di ipotesi sui parametri del Modello di Regressione lineare multipla.
In primo luogo si verifica l‟ipotesi di indipendenza lineare della variabile dipendente
Y dai k regressori ovvero l‟ipotesi di significatività del Modello espressa dalla
seguente notazione:
H0: β1 =β2=…….= βk =0 vs H1: β1 = ≠β2 ……..≠βk ≠0
La Statistica test che verifica la significatività statistica del Modello è la F di Fisher
espressa dalla seguente notazione:
F=
s2regr
s2residua

Dregr (Y)/k
Dresidua (Y)/n
k 1
F
k,(n
 k  1)
dove F è il valore della statistica-test empirica e F(k,n-k-1) è quella critica. Stabilito
a priori un livello di significatività pari ad alfa il test è significativo se F> F(k,n-k-1)
e quindi si rifiuta l‟ipotesi nulla allo stesso livello alfa.
Dato che Dregr (Y)= R2 *D(Y) e Dresidua (Y)= (1-R2)*D(Y) la F può essere espressa
dalla seguente notazione:
F=
2
R /k
2
(1 - R )/n
k 1
In secondo luogo si verifica l‟ipotesi di indipendenza lineare della variabile
dipendente Y da Xw (restando costanti gli altri k-1 regressori)
H0: βw=0 vs H1: βw ≠0
Dispense di econometria
Pag. 64
Tenuto conto che il vettore dei parametri b si distribuisce secondo una Normale
multivariata (in simboli [b~NMULT (β,σ2(X’X)-1] ) e preso un qualsiasi elemento del
vettore, ad esempio bw , questo si distribuisce secondo una Normale standardizzata:
bw
2
~NMULT (β,σ dww]
dove dww è il w-esimo elemento della diagonale principale della matrice inversa (X’X)1
.
Se la varianza è nota il regressore, come detto sopra, si distribuisce secondo una
normale standardizzata e il valore del quantile z sarà:
b
z=
w
β
σ
w
2
~N (0,1)
Supponendo che si sia in presenza di piccoli campioni e di varianza incognita essa
verrà stimata con quella residua per cui regressori si distribuiscano secondo una t di
Student e il valore del quantile della stessa sarà:
b
t=
w
σ
2
Stabilito un livello di significatività a priori alfa si confrontano i valori della t
empirica con quelli della t critica e se il primo è maggiore del secondo si rifiuta
l‟ipotesi nulla. Si può assumere quindi la regola di decisione secondo la quale il
contributo di Xw è statisticamente significativo in un modello in cui sono presenti
altri regressori.
Intervalli di confidenza sui parametri del Modello di Regressione lineare multipla.
Stabilito un livello di confidenza pari a 1-alfa e in presenza di varianza incognita il
relativo intervallo per βw può essere espresso dalla seguente notazione:
b w  t α/2,nk 1
s2residua * dww
Diagnostica
La diagnostica può essere svolta:
1. sulla struttura del modello;
2. sulla trasformazione del modello
3. sulle ipotesi degli errori;
4. sulla ricerca di osservazioni insolite
Per quanto riguarda la prima occorre svolgere a priori un‟analisi sulla specificazione
corretta del modello attraverso l‟individuazione delle variabili indipendenti e
soprattutto la variabile risposta coerenti e adatte allo studio del fenomeno osservato.
Dispense di econometria
Pag. 65
Successivamente è necessario analizzare:
a. i problemi sui regressori;
b. gli errori sui regressori
Per quanto riguarda la diagnostica sulla struttura del modello e sui problemi relativi
ai regressori si esamina soltanto il problema della eventuale presenza di
multicollinearità. Di seguito si sviluppa la relativa analisi.
Multicollinearità perfetta e imperfetta.
Come introdotto nelle ipotesi del modello di regressione lineare multipla, si può
verificare che le stime dei parametri di regressione esistono solo se la matrice di
varianze-covarianze X’X è invertibile. Affinché questa condizione sia soddisfatta,
occorre che la matrice abbia rango pieno e, quindi, che le variabili introdotte
nell‟analisi non siano dipendenti l‟una dall‟altra. Nel caso in cui nel modello vengano
introdotte variabili perfettamente dipendenti tra loro, si avrà, come conseguenza,
una errata specificazione del modello, nel senso che il numero dei parametri risulta
eccessivo rispetto a quello effettivamente necessario e si è, quindi, in presenza di
multicollinearità. Pur nella condizione che non vengano introdotte variabili
perfettamente collineari, si possono avere situazioni in cui i rapporti tra di esse siano
legate da dipendenza complicate, ad esempio dovute a variazioni concordi delle
variabili che, comunque, porteranno il determinante della matrice di varianzecovarianze X’X ad assumere valori molto vicini ad un valore nullo.
Una situazione di multicollinearità delle variabili esplicative ha gravi conseguenze
sull‟attendibilità della stima dei parametri. In tal caso, infatti, le stime dei coefficienti
avranno una varianza molto alta, con la conseguenza che, a volte, potranno
assumere un senso sbagliato.
Vi sono due ipotesi di multicollinearità, perfetta ed imperfetta. Si parla di
multicollinearità perfetta quando viene violata l‟assunzione secondo cui nessun
regressore è combinazione lineare di uno o più degli altri regressori; in questo caso
la matrice X è singolare, e la matrice inversa di (X’X) -1 non è definita. Si riprenda la
notazione del Modello a due variabili esplicative:
Y= β 0+ β1 x1i + β2x2i+i
dove β1 misura l‟impatto di x1 su y tenendo costante x2 e β2 misura l‟impatto di x2
su y tenendo costante x1; se x1 è perfetta combinazione lineare di x2 , ad esempio,
secondo la seguente notazione:
x1i = α 0+ α 1 x2i
x1 cambierà quando x2 cambia. Quindi non si potrà tenere costante x1 per stimare
β2.
Questa situazione è molto rara, infatti, solitamente quando si parla di
multicollinearità tra i regressori si fa riferimento a quella imperfetta, che si verifica
quando due o più regressori sono linearmente dipendenti in modo imperfetto, vi sarà
Dispense di econometria
Pag. 66
solo una quota di variabilità di un regressore non spiegata dalla variabilità dell‟altro
regressore:
La matrice di varianze-covarianze (X’X) può essere esplicitata come segue:
∑ x21i
∑ x1i x2i
X’X= ∑ x1i x2i ∑ x22i
∑ x21i
∑ x1i x2i
Si procede al calcolo della matrice di varianze covarianze inversa moltiplicandola per
l‟inverso del suo determinante:
∑ x1i x2i
∑ x22i
* 1/∑ x21i*∑ x22i- (∑ x1i x2i) 2
(X’X) -1 = ∑ x1i x2i ∑ x22i
∑ x21i
∑ x1i x2i
Le varianze di β1 e β2 e la covarianza (β1,β2) saranno espresse dalle seguenti
notazioni:
Var (β1)=σ2 (X’X) -1= σ2 * ∑ x22i
/∑ x21i-∑ x22i- (∑ x1i x2i) 2
Var (β2)=σ2 (X’X) -1= σ2 * ∑ x21i
/∑ x21i-∑ x22i- (∑ x1i x2i) 2
Covar (β1 , β2)=-σ2 (X’X) -1= -σ2 * ∑ x1i x2i
/∑ x21i-∑ x22i- (∑ x1i x2i) 2
A questo punto si vuole dimostrare che in presenza di ina relazione lineare tra x1 e
x2 si determina una situazione di multicollinearità.
La quantità ∑ x1i x2i per sostituzione della x1i = α 0+ α 1 x2i diventa:
∑ x1i x2i = α 1 ∑ x22i
Le varianze di β1 e β2 e la covarianza β1 , β2 diventeranno:
Var (β1)=σ2 (X’X) -1= σ2 * ∑ x22i
/∑ x21i-∑ x22i- α 1 ∑ x2i2
Var (β2)=σ2 (X’X) -1= σ2 * ∑ x21i
/∑ x21i-∑ x22i- α 1 ∑ x2i2
Covar (β1 , β2)=-σ2 (X’X) -1= -σ2 * α 1 ∑ x2i2/∑ x21i-∑ x22i- (∑ x1i x2i)
Dispense di econometria
Pag. 67
E‟ facile constatare che gli stimatori OLS non sono più efficienti in quanto
all‟aumentare della relazione lineare tra x1 e x2 aumenta α 1, diminuisce il
denominatore, aumenta il valore delle frazioni e quindi aumentano le relative
varianze dei due stimatori che, per conseguenza, non possono essere più utilizzati
soprattutto ai fini previsivi.
Per individuare la presenza di multicollinearità tra i regressori si prendono in
considerazione i seguenti indicatori:
a) il coefficiente di determinazione (R2);
b) il coefficiente di tolleranza t = 1- R2
c) Variance Inflation Factor (VIF)=1/1- R2
d) Matrice di correlazione tra le covariate; in caso di multicollinearità si ha
un‟elevata correlazione tra i regressori. Inoltre si dimostra che i VIF sono dati dagli
elementi della diagonale principale di R-1;
Si esamina il VIF che verrà implementato solo nel Laboratorio con il software R in
quanto non si intendono svolgere i relativi calcoli matriciali. Ai fini della
misurazione della multicollinearità, secondo l‟autore, i valori di VIF superiori a 20
evidenziano grossi problemi; quelli tra 7 e 20 problemi non gravi ma crescenti;
inferiori a 7 una sostanziale assenza. E successivamente si analizza la matrice di
correlazione attraverso la quale può essere individuata la presenza di
multicollinearità laddove il o i valori dei coefficienti di correlazione fra le variabili
siano molto elevati.
Accertata la presenza di multicollinearità si pone il problema, come detto sopra,
degli stimatori OLS che non risultano più efficienti e quindi inutilizzabili. Cosa fare?
Si possono svolgere alcune operazioni attraverso le quali tentare di eliminare tale
incongruenza. La prima potrebbe essere quella di aumentare, se possibile, il numero
di osservazioni in modo da rendere la matrice X a rango pieno; la seconda è quella di
rimuovere le variabili indipendenti (covariate) tra loro correlate; utilizzare la tecnica
delle “principal component regression (PCR) oppure quella della “ridge regression”.
In questa sede verrà applicata solo la seconda.
Per quanto riguarda la trasformazione del modello verranno esaminati:
a. modelli polinomiali;
b. modelli con variabile dipendente binaria: probabilistico, logit, probit
c. modelli non parametrici;
d. modelli bayesiani;
e. modelli a variabili strumentali
Modello di Regressione polinomiale
Dispense di econometria
Pag. 68
Il Modello di regressione lineare semplice potrebbe non avere una bontà di
adattamento ai dati non significativa dal punto di vista statistico. Ciò non significa
che fra la variabile dipendente e quella risposta non esista una relazione. Si può
affermare soltanto che non esiste una relazione di tipo lineare ma che potrebbe
esistere una non lineare. In questo contesto viene esaminata la Regressione
polinomiale intesa come una semplice estensione della forma lineare di un modello
polinomiale del secondo ordine e cioè una forma quadratica (è opportuno ricordare
che la retta è una forma polinomiale del primo ordine):
La relazione matematica del Modello diventa:
Y=a + b1 X + b2 Z+ ε
dove Z=X2
Si può facilmente evincere che si è in presenza di un modello quadratico che, dal
punto di vista della stima, è lineare nei parametri e quindi per il calcolo dei
regressori stimati si può utilizzare il metodo dei minimi quadrati ordinari. La
relazione diventa pertanto a due variabili esplicative configurando la fattispecie di
regressione multipla.
LABORATORIO STUDIO GUIDATO
Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte
manualmente relativi alla parte teorica trattata.
ESERCITAZIONE EMPIRICA 5. (Sul modello di regressione lineare multipla con
soluzione manuale)
Il Responsabile di Marketing della Alfa SpA vuole elaborare il modello di
regressione lineare multipla tra la variabile dipendente vendite (y) e due variabili
esplicative spese di produzione (x1) e spese di promozione (x2) in un campione di 6
punti vendita. Egli vuole svolgere i calcoli matriciali per individuare il vettore dei
parametri e successivamente il coefficiente di determinazione normale e aggiustato.
Successivamente intende svolgere un‟analisi inferenziale calcolando l‟intervallo di
confidenza per i regressori e la verifica di ipotesi sugli stessi ad un livello di
significatività del 5%.
Dispense di econometria
Pag. 69
PASSO PRIMO. Egli predispone la Tabella dei dati seguente ottenuti da una
rilevazione campionaria su sette famiglie.
y
1212
1314
1116
1242
1306
1278
Media(y)=1244,667
x1
6,5
6,8
7,1
5,4
5,9
5,1
x2
2,1
2,4
2,8
2,9
2,4
2,3
Fonte: Dati simulati
PASSO SECONDO. Riporta di seguito i calcoli matriciali per ottenere la matrice
di varianze-covarianze (X’X). Si parte dalla matrice origine X(6x3), si calcola la sua
trasposta X’ (3x6), si moltiplicano e si ottiene (X’X) (3x3)
PASSO TERZO. Si calcola l‟inversa (X’X)-1 (3x3) e si riporta il vettore y(6x1)
PASSO QUARTO. Si effettua la verifica che la matrice è invertibile attraverso la
moltiplicazione della matrice di varianze-covarianze per la sua inversa
(X’X) (X’X)-1(3x3)
Dispense di econometria
Pag. 70
La verifica conferma la teoria secondo cui il prodotto matriciale soprarichiamato
deve dare come risultato la matrice diagonale.
PASSO QUINTO. Si calcola il vettore dei parametri applicando la notazione
seguente:
1
bˆ =(X' X) X' y
PASSO SESTO. Si calcola il coefficiente di determinazione applicando la notazione
seguente:
Il numeratore della formula è pari a 10375.13 e il denominatore è pari a 27304.35
per cui R2 diventa:
R2=10375.13/27304.35=0.3799809
PASSO SETTIMO. Si calcola il coefficiente di determinazione aggiustato
applicando la seguente notazione:
R
2
= 1


2
 1  R
 n n k 1 1

Sostituendo ai simboli i valori si ottiene:
R 2 =1-[(1-0.3799809)*(6-1)/(6-2-1)= -0.03336509
Dispense di econometria
Pag. 71
LABORATORIO CON SOFTWARE R
Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse
applicazioni svolte manualmente relativi alla parte teorica trattata.
ESERCITAZIONE EMPIRICA CON R (SUL MODELLO DI REGRESSIONE LINEARE
MULTIPLA)
L‟Applicazione svolta manualmente nel Laboratorio studio guidato ha riguardato
solo sei osservazioni su altrettanti punti vendita. Nel laboratorio con il software R si
analizza l‟intero data frame su 34 punti vendita. Di seguito si riporta il relativo
codice:
vendite<- read.csv2("vendite.csv", header=TRUE) ; vendite
attach(vendite)
res<-lm(v1~v2+v3);res
summary(res)
Ouput di R
Call:
lm(formula = v1 ~ v2 + v3)
Residuals:
Min
1Q Median
3Q Max
-1680.96 -406.40 53.45 297.48 1342.43
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5837.5208 628.1502 9.293 1.79e-10 ***
v2
-53.2173
6.8522 -7.766 9.20e-09 ***
v3
3.6131
0.6852 5.273 9.82e-06 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 638.1 on 31 degrees of freedom
Multiple R-squared: 0.7577, Adjusted R-squared: 0.7421
Dispense di econometria
Pag. 72
F-statistic: 48.48 on 2 and 31 DF, p-value: 2.863e-10
PASSO PRIMO. Si analizzano in modo più dettagliato i risultati:
a) il Residual standard error, pari a 638.1, rappresenta l‟errore standard dei
residui e il suo valore elevato al quadrato stima la varianza dell‟errore che
risulta
pertanto σ2=638.12 =407171,61
b) il Multiple R-squared, pari a 0.7577, rappresenta il coefficiente di
determinazione R2.
c) l‟Adjusted R-squared, pari a 0.7421, rappresenta il coefficiente di
determinazione R2 corretto che tiene conto dei diversi gradi di libertà
associati alla stima della
varianza della componente di errore: 31 gdl (nr. osservazioni-numero
parametri di regressione=n-k=34-3=31) e della varianza totale
(nr. osservazioni-1=34-1=33). Esso è sempre minore di R2.
d) valori stimati dei parametri (Coefficients)
(Intercept) v1
v2
5837.5208 -53.2173
3.6131
e) gli Std error (Errori standard) dei parametri, pari a 628.1502 per l‟intercetta,
6.8522 per v2 e 0.6852 per v3 rappresentano la stima della deviazione standard
(radice quadrata della varianza) degli stimatori dei parametri. L‟errore
standard misura la variabilità delle stime prodotte dallo stimatore intorno alla
propria
media (variabilità campionaria).
f) test sul coefficiente di regressione β. Interessa capire se β è uguale a zero
(assenza di effetti sulla variabile dipendente) o no (presenza di effetti) e pertanto il
programma R mette a verifica l‟ipotesi:
H0: β =0 vs H1 : β ≠0
g) il p-value associato a t. Esprime il valore dell‟area sottesa alla distribuzione t di
Student (con 48 gdl) a sinistra di -9.464 e a destra di +9.464 (per il fatto che il
test è bilaterale). Esso va confrontato con α la probabilità dell‟errore di I tipo
che abbiamo scelto. Se p-value< α si rifiuta l‟ipotesi nulla e si decide che Beta è
diverso da zero. In tal caso, si passa ad interpretare il significato del valore
stimato del parametro β.
h) la F-statistic, pari a 48.48 con 2 e 31gradi di libertà (g.d.l.) rispettivamente al
numeratore e al denominatore, è la statistica-test F di Fisher che evidenzia il
livello di significatività del Modello
PASSO SECONDO. Si ricorda che la statistica test è una t di Student che ha qui 31
gdl (nr. osservazioni-numero parametri di regressione=34-3=31) così composta:
Dispense di econometria
Pag. 73
stima parametro-valore del parametro sotto H0/errore standard della stima= stima
parametro-0/errore standard della stima
Il valore della t di Student empirica per i tre parametri stimati si trova svolgendo
rispettivamente le tre operazioni seguenti:
1) per l‟intercetta (5837.5208/628.1502=9.293)
2) per la v1 (-53.2173/6.8522=7.766)
3) per la v2 (
PASSO TERZO.
Nel grafico seguente si riporta la v.c F di Fisher individuando le regioni di rifiuto e
di accettazione nonché la F empirica e quella critica
Dal Grafico si evince chiaramente che la F empirica cade ampiamente dentro la
Regione di Rifiuto per cui si rifiuta l‟ipotesi nulla secondo la quale i regressori sono
uguali a zero e si accetta quella alternativa che sono diversi da zero per un test
bilatero. La regola di decisione è pertanto quella che stabilisce che tra la variabile
indipendente e quella risposta esiste una relazione lineare.
PASSO QUARTO. Si riporta ora l‟intero codice da utilizzare per l‟analisi del
Modello di Regressione lineare multipla con R
Dispense di econometria
Pag. 74
vendite<- read.csv2("venditeR.csv", header=TRUE) ; vendite
attach(vendite)
modello<-lm(Vendite~Spese.produz+Spese.promoz);modello
summary(modello)
round(confint(object = modello, parm = c(1, 2), level = 0.95), digits = 5)
round(confint(object = modello, parm = c(1, 2), level = 0.99), digits = 5)
anova(object = modello)
modello1<-lm(Vendite~Spese.produz);res
summary(modello1)
plot(Spese.produz,Vendite)
plot(Spese.produz,Vendite,xlab="Spese produzione ",
ylab="Vendite",main="Grafico retta stimata Vendite")
abline(modello1,col="red") #Sovrapposizione retta stimata#
qqnorm (residuals(modello1),main="Normalità degli errori", ylab="Residui", xlab="Quantili")
qqline (residuals(modello1),col="red")
modello2<-lm(Vendite~Spese.promoz);modello2
summary(modello2)
plot(Spese.promoz,Vendite)
plot(Spese.promoz,Vendite,xlab="Spese promozione",
ylab="vendite",main="Grafico retta stimata Vendite")
abline(modello2,col="red") #Sovrapposizione retta stimata#
p<-1-pt(q=0.852 ,df=11);p
p*2
p<-1-pt(q=2.346 ,df=11);p
p*2
p<-1-pt(q=2.523 ,df=11);p
p*2
qt(p=0.4125/2,11)
qt(p=0.025,11)
curve(dt(x, 11), -4, 4, ylab="Densità")
curve(pt(x, 5), -10, 10, ylab="Ripartizione")
1-pf(150.3, 1, 5)
qf(1-6.39e-05,1, 5)
rf(x, df1, df2)
curve(df(x, 1, 5),0,155)
curve(pf(x, 1, 5),0,155)
df(x, 2, 31)
pf(q, 2, 31)
qf(0.95, 2, 31)
qf(0.05, 2, 31)
rf(n, 2, 31)
d_1 <- 2
d_2 <- 31
curve(df(x, 2, 31), 0, 50, ylab="Densità")
curve(pf(x, 2, 31), 0, 50, ylab="Ripartizione"))
Dispense di econometria
Pag. 75
PASSO QUINTO. Per poter lavorare con R lo studente deve svolgere le
operazioni seguenti:
1. apre R e se non ha effettuato il dowload lo effettui;
2. costruisca un file Excel con propri dati contenente una variabile dipendente e
almeno due esplicative;
3. salvi il file Excel con l‟estensione csv con separatore di elenco, è consigliabile
salvarlo su una cartella di C (ad esempio nominandola Mydata);
4. clicca sulla Console e setti la directory sulla quale ha salvato il file in Excel;
5. importi il file sulla base delle seguenti righe di codice
6. come visto nel Laboratorio con software R precedente il lettore può mandare
in esecuzione le linee di codice che gli interessano ed ottenere i relativi output
ESERCITAZIONE EMPIRICA CON R (SULLA MULTICOLLINEARITÀ DEL MODELLO DI
REGRESSIONE LINEARE MULTIPLA)
PASSO PRIMO. Si riprendono le linee di codice che restituiscono, mandandole in
esecuzione, l‟ouput della Regressione lineare multipla e si vuole svolgere un‟analisi
di multicollinearità sul Modello:
vendite<- read.csv2("venditeR.csv", header=TRUE) ; vendite
attach(vendite)
modello<-lm(Vendite~Spese.produz+Spese.promoz);modello
summary(modello)
PASSO SECONDO. Si ottiene il relativo output
Call:
lm(formula = v1 ~ v2 + v3)
Residuals:
Min
1Q Median
3Q Max
-1680.96 -406.40 53.45 297.48 1342.43
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5837.5208 628.1502 9.293 1.79e-10 ***
v2
-53.2173
6.8522 -7.766 9.20e-09 ***
v3
3.6131
0.6852 5.273 9.82e-06 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 638.1 on 31 degrees of freedom
Multiple R-squared: 0.7577, Adjusted R-squared: 0.7421
F-statistic: 48.48 on 2 and 31 DF, p-value: 2.863e-10
Dispense di econometria
Pag. 76
PASSO TERZO. Si riporta di seguito l‟intero codice di R.
library(faraway)
vendite<- read.csv2("vendite.csv", header=TRUE) ; vendite
attach(vendite)
vif(vendite)
res<-lm(v1~v2+v3);res
summary(res)
vif1<-1/(1-0.7577);vif1
res<-lm(v2~v1+v3);res
summary(res)
vif2<-1/(1-0.6637);vif2
res<-lm(v3~v1+v2);res
summary(res)
vif3<-1/(1-0.4778);vif3
cor(vendite)
PASSO QUARTO. Mandando in esecuzione le prime quattro linee di codice si
otterranno i valori del VIF per la variabile dipendente v1 e per le due indipendenti
v2 e v3:
v1
v2
4.127557 2.973575
v3
1.914794
Osservando i risultati si può affermare decisamente che il Modello esaminato non è
affetto da problemi di multicollinearità.
PASSO QUINTO. Mandando in esecuzione le linee di codice dalla 5 alla 6 si
ottiene l‟output della regressione per v1
Call:
lm(formula = v1 ~ v2 + v3)
Residuals:
Min
1Q Median
3Q Max
-1680.96 -406.40 53.45 297.48 1342.43
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5837.5208 628.1502 9.293 1.79e-10 ***
v2
-53.2173 6.8522 -7.766 9.20e-09 ***
v3
3.6131 0.6852 5.273 9.82e-06 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 638.1 on 31 degrees of freedom
Multiple R-squared: 0.7577, Adjusted R-squared: 0.7421
Dispense di econometria
Pag. 77
F-statistic: 48.48 on 2 and 31 DF, p-value: 2.863e-10
PASSO SESTO. Si estrae dall‟output il valore del Multiple R-squared e mandando
in esecuzione la linea di codice 7 si ottiene la conferma del valore del vif per v1
vif1<-1/(1-0.7577);vif1
[1] 4.127115
PASSO SETTIMO. Mandando in esecuzione le linee di codice dalla 8 alla 9 si
ottiene l‟output della regressione per v2
Call:
lm(formula = v2 ~ v1 + v3)
Residuals:
Min
1Q Median
3Q Max
-21.0829 -5.3099 -0.1607 5.4311 17.1000
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 100.148963 4.985988 20.086 < 2e-16 ***
v1
-0.012412 0.001598 -7.766 9.2e-09 ***
v3
0.041559 0.012329 3.371 0.00202 **
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.744 on 31 degrees of freedom
Multiple R-squared: 0.6637, Adjusted R-squared: 0.642
F-statistic: 30.59 on 2 and 31 DF, p-value: 4.615e-08
PASSO OTTAVO. Si estrae dall‟output il valore del Multiple R-squared e
mandando in esecuzione la linea di codice 10 si ottiene la conferma del valore del vif
per v2
vif2<-1/(1-0.6637);vif2
[1] 2.973536
PASSO NONO. Mandando in esecuzione le linee di codice dalla 11 alla 12 si
ottiene l‟output della regressione per v2
Call:
lm(formula = v3 ~ v1 + v2)
Residuals:
Min 1Q Median 3Q Max
-266.14 -62.41 37.99 81.81 213.86
Coefficients:
Dispense di econometria
Pag. 78
Estimate Std. Error t value Pr(>|t|)
(Intercept) -519.53552 213.06824 -2.438 0.02068 *
v1
0.13086 0.02482 5.273 9.82e-06 ***
v2
6.45397 1.91464 3.371 0.00202 **
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 121.4 on 31 degrees of freedom
Multiple R-squared: 0.4778, Adjusted R-squared: 0.4441
F-statistic: 14.18 on 2 and 31 DF, p-value: 4.237e-05
PASSO DECIMO. Si estrae dall‟output il valore del Multiple R-squared e
mandando in esecuzione la linea di codice 13 si ottiene la conferma del valore del vif
per v3
vif3<-1/(1-0.4778);vif3
[1] 1.914975
PASSO UNDICESIMO. Mandando in esecuzione la riga di codice 14 si ottiene il
seguente output di R relativo alla matrice di correlazione del modello:
Vendite
Sp_.prod_tot
Spese.promoz
Sp_.prod_var
Vendite
1.0000000
0.5806252
0.6082111
0.5460031
Sp_.prod_tot
0.5806252
1.0000000
0.2193109
0.9966994
Spese.promoz Sp_.prod_var
0.6082111
0.5460031
0.2193109
0.9966994
1.0000000
0.2135900
0.2135900
1.0000000
ESERCITAZIONE EMPIRICA CON R (SULLA MULTICOLLINEARITÀ DEL MODELLO DI
REGRESSIONE LINEARE MULTIPLA)
Si prenda in considerazione ora il data frame “Vendite R1” che presenta una terza
variabile indipendente “Sp_.Prod_var” e si voglia svolgere un‟analisi di
multicollinearità:
PASSO PRIMO. Si riporta di seguito l‟intero codice di R.
library(faraway)
vendite<- read.csv2("vendite R1.csv", header=TRUE) ; vendite
attach(vendite)
vif(vendite)
modello<-lm(Vendite~Sp_.prod_tot+Spese.promoz+Sp_.prod_var);modello
summary(modello)
vif1<-1/(1-0.7188);vif1
modello<-lm(Sp_.prod_tot~+Vendite+Spese.promoz+Sp_.prod_var);modello
Dispense di econometria
Pag. 79
summary(modello)
vif2<-1/(1-0.9959);vif2
modello<-lm(Spese.promoz~Vendite+Sp_.prod_tot+Sp_.prod_var);modello
summary(modello)
vif3<-1/(1-0.4674);vif3
modello<-lm(Sp_.prod_var~+Vendite+Spese.promoz+Sp_.prod_tot);modello
summary(modello)
vif4<-1/(1-0.9956);vif4
cor(vendite)
PASSO SECONDO. Mandando in esecuzione le prime 3 righe di codice vengono
rappresentati i dati del data frame osservato:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Vendite Sp_.prod_tot Spese.promoz Sp_.prod_var
4154
312
121
31
4532
344
102
34
3988
307
132
30
3722
311
127
32
3946
401
177
40
3211
298
104
29
4021
345
148
35
4724
367
171
37
5432
444
215
44
5033
376
198
38
4598
598
109
60
4817
509
156
50
2111
311
108
33
3278
265
143
27
PASSO TERZO. Mandando in esecuzione la riga 4 si ottiene il vettore dei valori
dei vif per le vendite, le spese di produzione totali, le spese di promozione e le spese
di produzione variabili
Vendite
3.556445
Sp_.prod_tot Spese.promoz Sp_.prod_var
243.719418 1.877666
227.528195
Come si può osservare l‟indicatore VIF evidenzia la presenza di una fortissima
correlazione fra le variabili indipendenti Sp_.prod_tot e Sp_.prod_var
PASSO QUARTO. Mandando in esecuzione le righe di codice dalla 5 alla 6 si
ottiene l‟output della regressione per v1:
Call:
lm(formula = Vendite ~ Sp_.prod_tot + Spese.promoz + Sp_.prod_var)
Residuals:
Min 1Q Median 3Q Max
-739.6 -339.3 72.9 382.8 781.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Dispense di econometria
Pag. 80
(Intercept) 1172.622 777.727 1.508 0.1625
Sp_.prod_tot 47.318 19.388 2.441 0.0348 *
Spese.promoz 11.500 4.117 2.793 0.0190 *
Sp_.prod_var -437.424 196.900 -2.222 0.0506 .
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 519.3 on 10 degrees of freedom
Multiple R-squared: 0.7188, Adjusted R-squared: 0.6345
F-statistic: 8.521 on 3 and 10 DF, p-value: 0.004162
PASSO QUINTO. Si estrae dall‟output il valore del Multiple R-squared e
mandando in esecuzione la linea di codice 7 si ottiene la conferma del valore del vif
per v1
vif1<-1/(1-0.7188);vif1
[1] 3.556188
modello<-lm(Sp_.prod_tot~+Vendite+Spese.promoz+Sp_.prod_var);modello
PASSO SESTO. Mandando in esecuzione le righe di codice dalla 8 alla 9 si ottiene
l‟output della regressione per v2:
Call:
lm(formula = Sp_.prod_tot ~ +Vendite + Spese.promoz + Sp_.prod_var)
Residuals:
Min 1Q Median 3Q Max
-7.458 -4.490 -1.493 5.207 11.116
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -14.153536 10.185354 -1.390 0.1948
Vendite
0.007889 0.003232 2.441 0.0348 *
Spese.promoz -0.079944 0.066272 -1.206 0.2555
Sp_.prod_var 9.793764 0.249871 39.195 2.79e-12 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.706 on 10 degrees of freedom
Multiple R-squared: 0.9959, Adjusted R-squared: 0.9947
F-statistic: 809.1 on 3 and 10 DF, p-value: 3.143e-12
PASSO SETTIMO. Si estrae dall‟output il valore del Multiple R-squared e
mandando in esecuzione la linea di codice 10 si ottiene la conferma del valore del vif
per v2
vif2<-1/(1-0.9959);vif2
[1] 243.9024
PASSO OTTAVO. Mandando in esecuzione le righe di codice dalla 11 alla 12 si
ottiene l‟output della regressione per v3:
Dispense di econometria
Pag. 81
Call:
lm(formula = Spese.promoz ~ Vendite + Sp_.prod_tot + Sp_.prod_var)
Residuals:
Min 1Q Median 3Q Max
-52.807 -14.808 0.909 14.509 45.244
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 19.52748 49.21406 0.397 0.700
Vendite
0.03811 0.01364 2.793 0.019 *
Sp_.prod_tot -1.58899 1.31725 -1.206 0.255
Sp_.prod_var 14.97574 13.01777 1.150 0.277
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 29.9 on 10 degrees of freedom
Multiple R-squared: 0.4674, Adjusted R-squared: 0.3077
F-statistic: 2.926 on 3 and 10 DF, p-value: 0.08631
PASSO NONO. Si estrae dall‟output il valore del Multiple R-squared e mandando
in esecuzione la linea di codice 13 si ottiene la conferma del valore del vif per v3
vif3<-1/(1-0.4674);vif3
[1] 1.877582
PASSO DECIMO. Mandando in esecuzione le righe di codice dalla 14 alla 15 si
ottiene l‟output della regressione per v4:
Call:
lm(formula = Sp_.prod_var ~ +Vendite + Spese.promoz + Sp_.prod_tot)
Residuals:
Min 1Q Median 3Q Max
-1.1520 -0.4994 0.1012 0.4570 0.7357
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.5353305 1.0229099 1.501 0.1643
Vendite -0.0007554 0.0003400 -2.222 0.0506 .
Spese.promoz 0.0078044 0.0067840 1.150 0.2767
Sp_.prod_tot 0.1014455 0.0025882 39.195 2.79e-12 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6825 on 10 degrees of freedom
Multiple R-squared: 0.9956, Adjusted R-squared: 0.9943
F-statistic: 755.1 on 3 and 10 DF, p-value: 4.431e-12
PASSO UNDICESIMO. Si estrae dall‟output il valore del Multiple R-squared e
mandando in esecuzione la linea di codice 16 si ottiene la conferma del valore del vif
per v4
Dispense di econometria
Pag. 82
vif4<-1/(1-0.9956);vif4
[1] 227.2727
Si può notare che in tutti i modelli esaminati il regressore Sp_.prod_var non è
significativo statisticamente. Inoltre viene applicata la formula del vif che restituisce
i valori ottenuti con il codice vif(vendite)
PASSO DODICESIMO. Mandando in esecuzione la riga di codice 17 si ottiene il
seguente output di R relativo alla matrice di correlazione del modello
Vendite
Sp_.prod_tot
Spese.promoz
Sp_.prod_var
Vendite
1.0000000
0.5806252
0.6082111
0.5460031
Sp_.prod_tot
0.5806252
1.0000000
0.2193109
0.9966994
Spese.promoz
0.6082111
0.2193109
1.0000000
0.2135900
Sp_.prod_var
0.5460031
0.9966994
0.2135900
1.0000000
Osservando la matrice di correlazione si può notare che i valori dei coeffciienti
relativi alla variabile indipendente Sp_.prod_var è estremamente elevato
La diagnostica effettuata applicando due tipi di check evidenzia un problema di
multicollinearità che si può risolvere eliminando la viabile indipendente
Sp_.prod_var che significa in buona sostanza limitare l‟analisi al modello precedente
conposto da due sole variabili indipendenti statisticamente altamente significative.
ESERCITAZIONE EMPIRICA CON R (SULLA REGRESSIONE POLINOMIALE)
Il Responsabile della produzione della Alfa SpA vuole studiare la relazione fra il
costo fisso e le quantità prodotte. Dispone delle seguenti osservazioni:
costo fisso (y): 121,110,100,90,80,75,70,64,58,57,56,55,48,44,42
quantità prodotta (x): 1.9,2.4,2.5,2.6,2.7,2.8,2.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1
Egli vuole elaborare il modello di regressione lineare semplice che si adatta meglio
ai dati.
PASSO PRIMO. Si riporta di seguito le linee di codice di R per la rappresentazione
grafica dello scatter-plot.
library(labstatR)
library(car)
y<-c(121,110,100,90,80,75,70,64,58,57,56,55,48,44,42) ### Costi fissi
x<-c(1.9,2.4,2.5,2.6,2.7,2.8,2.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1)##à Quantità prodotta
scatterplot(y,x) ###Grafico che individua come si predispongono i dati con evidenzia
Dispense di econometria
Pag. 83
9
8
7
6
2
3
4
5
x
40
60
80
100
120
y
Dall‟analisi dello scatterplot si evince chiaramente che i dati sono disposti più
secondo una curva che secondo una retta.
PASSO SECONDO. Si implementa come prima istanza un modello di regressione
lineare semplice mandando in esecuzione le seguenti linee di codice:
modello <- lm(formula = y ~ x)
summary(modello)##Ouput del Modello tra Costi fissi e Quantità prodotta
PASSO TERZO. Si ottiene il seguente output:
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-17.277 -13.072 -3.954 8.347 30.735
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 105.252 8.551
12.308
1.54e-08 ***
x
-7.888 1.748
-4.512
0.000584 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Dispense di econometria
Pag. 84
Residual standard error: 15.79 on 13 degrees of freedom
Multiple R-squared: 0.6103, Adjusted R-squared: 0.5803
F-statistic: 20.36 on 1 and 13 DF, p-value: 0.0005842
PASSO QUARTO. Si vuole svolgere l‟analisi della varianza del modello mandando
in esecuzione la seguente linea di codice:
anova(modello)
PASSO QUINTO. Si ottiene il seguente output:
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x
1 5073.7 5073.7 20.359 0.0005842 ***
Residuals 13 3239.7 249.2
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
PASSO SESTO. Si vuole rappresentare il grafico a dispersione con sovrapposta la
retta stimata mandando in esecuzione le seguenti linee di codice:
par(bg="cornsilk")
plot(x,y,xlab="Spesa per consumi alimentari mensile ",
ylab=" Spese totale mensile ",main="Grafico retta stimata")
abline(modello,col="red")
80
40
60
Costi fissi
100
120
Grafico retta stimata
2
3
4
5
6
7
8
9
Quantità prodotta
Dispense di econometria
Pag. 85
PASSO SETTIMO. Si introduce il modello polinomiale mandando in esecuzione le
seguenti linee di codice:
z<- x^2 # Introduzione della variable z=x^2
modello1 <- lm(formula = y ~ x+z)
summary(modello1)##Ouput del Modello polinomiale tra Costi fissi e Quantità prodotta
anova(modello1)##Analisi della varianza del Modello polinomiale
PASSO OTTAVO. Si ottiene il seguente output:
Call:
lm(formula = y ~ x + z)
Residuals:
Min
1Q Median
3Q Max
-12.9929 -7.5890 -0.7167 7.2338 13.8221
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 181.1805 15.8473 11.433 8.28e-08 ***
x
-42.9055 7.0062 -6.124 5.15e-05 ***
z
3.1199 0.6175 5.053 0.000283 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.291 on 12 degrees of freedom
Multiple R-squared: 0.8754, Adjusted R-squared: 0.8546
F-statistic: 42.15 on 2 and 12 DF, p-value: 3.742e-06
PASSO NONO. Si vuole calcolare l‟ANOVA mandando in esecuzione la seguente
linea di codice:
>anova(modello1)##Analisi della varianza del Modello polinomiale
PASSO DECIMO. Si ottiene il relativo output:
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x
1 5073.7 5073.7 58.777 5.797e-06 ***
z
1 2203.8 2203.8 25.531 0.0002832 ***
Residuals 12 1035.8 86.3
--Dispense di econometria
Pag. 86
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Si può notare come il modello polinomiale sia più significativo e quindi da preferire.
PASSO UNDICESIMO. Si rappresenta il grafico a dispersione con sovrapposta la
curva stimata.
80
40
60
Costi fissi
100
120
Grafico a dispersione con sovrapposta curva stimata
2
3
4
5
6
7
8
9
Quantità prodotta
PASSO DODICESIMO. Si riporta di seguito l-intero codice di R
library(labstatR)
library(car)
y<-c(121,110,100,90,80,75,70,64,58,57,56,55,48,44,42) ### Costi fissi
x<-c(1.9,2.4,2.5,2.6,2.7,2.8,2.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1)##à Quantità prodotta
scatterplot(y,x) ###Grafico che individua come si predispongono i dati con evidenziato box-plot
modello <- lm(formula = y ~ x)
summary(modello)##Ouput del Modello tra Costi fissi e Quantità prodotta
anova(modello) ##Analisi della varianza del Modello
par(bg="cornsilk")
plot(x,y,xlab="Quantità prodotta ",
ylab=" Costi fissi ",main="Grafico retta stimata")
abline(modello,col="red")# grafico a dispersione con sovrapposta retta stimata
z<- x^2 # Introduzione della variable z=x^2
modello1 <- lm(formula = y ~ x+z)
summary(modello1)##Ouput del Modello polinomiale tra Costi fissi e Quantità prodotta
anova(modello1)##Analisi della varianza del Modello polinomiale
par(bg="cornsilk")
plot(x,y,xlab="Quantità prodotta ",
ylab=" Costi fissi ",main="Grafico retta stimata")
yfit <- modello1$coef[1]+modello1$coef[2]*xfit+modello1$coef[3]*xfit^2
plot(x,y,xlab="Quantità prodotta ",
ylab=" Costi fissi ",main="Grafico a dispersione con sovrapposta curva stimata")
Dispense di econometria
Pag. 87
lines(xfit, yfit, col="red")# grafico a dispersione con sovrapposta retta stimata )
CORRETTORE PROVA DEL 28 APRILE 2017
UNIVERSITA’ DI BARI
DIPARTIMENTO DI ECONOMIA E MANAGEMENT
Prova scritta di ECONOMETRIA
Prof. Raoul COCCARDA
Informativa sulle modalità d’esame di Econometria
Il sottoscritto: ____________________________________________________________
matricola: ________________________________________________________________
dà atto di essere stato informato circa le modalità e le regole inerenti allo svolgimento dell’esame:
1. L’esame si svolge in forma scritta ed è composto da 28 domande a risposta multipla, a ciascuna delle quali è assegnato un punto e
due domande aperte che valgono due punti ciascuna; la durata della prova è di 60 minuti; il voto massimo raggiungibile è 30 e
lode.
2. Una volta iniziata la prova d’esame, in qualsiasi momento, è data facoltà al candidato di rinunciare alla prosecuzione dell’esame
stesso; di tale rinuncia viene dato atto nel verbale d’esame.
3. Durante la prova d’esame non è consentito abbandonare l’aula, né utilizzare supporti cartacei o telematici di ausilio alla redazione e
compilazione della prova (materiali di studio, appunti, telefoni cellulari, smartphone, laptop, ecc.). E’ consentito solo l’uso di una
calcolatrice non scientifica. L’utilizzo di materiali diversi da quelli consentiti sarà motivo di annullamento della prova.
4. Lo studente ha la facoltà di richiedere il sostenimento della prova orale, a condizione che abbia riportato nello scritto un punteggio
di almeno 16/30; l’eventuale prova orale si svolgerà il lunedì successivo a quello della prova scritta
Data _____/______/______
Firma dello studente____________________________
Sezione 1 – Domande a risposta multipla
1)
2)
3)
4)
5)
6)
Il coefficiente angolare di una retta misura:
Risposta 1 La pendenza della retta
Risposta 2 L’ascissa della retta
Risposta 3 L’ordinata della retta
Risposta 4 L’intercetta della retta
a
b
c
d
L’intercetta di una retta y=a+b*x può essere definita come:
Risposta 1 Il valore della x quando la y=0
Risposta 2 Il valore della y quando la x=0
Risposta 3 Il valore di b*x quando la y=0
Risposta 4 Il valore della b*x quando la x=0
a
b
c
d
Quale grafico rappresenta un insieme di coppie x,y?
Risposta 1 ad area
Risposta 2 a barre verticali
Risposta 3 a torta
Risposta 4 a dispersione
a
b
c
d
Qual è la funzione lineare che definisce il Modello di Regressione lineare semplice (MRLS)
Risposta 1 Y=a + bX + ε
Risposta 2 Y=a + bX
Risposta 3 Y=a + X
Risposta 4 Y=a + b + ε
Come si definisce la Y in una relazione lineare?
Risposta 1 variabile esplicativa
Risposta 2 variabile indipendente
Risposta 3 variabile coniugata
Risposta 4 variabile dipendente o risposta
La variabile dipendente Y in un MRLS con notazione Y=a + bX + ε è:
Risposta 1 una variabile deterministica
Risposta 2 una variabile casuale (v.c.)
Risposta 3 una variabile casuale (v.c.) essendo ε per definizione una v.c.
Risposta 4 una variabile casuale (v.c.) non essendo ε per definizione una v.c.
Dispense di econometria
a
b
c
d
a
b
c
d
a
b
c
d
Pag. 88
7)
Il termine di errore
del MRLS ε sottostà a quali ipotesi di base:
Risposta 1 è una v.c. i.i.d. con E(ε)=0; Var (εi )= σ
2
; Cov(εi εj)=0; εi ~ N(μ,ϭ2)
Risposta 2 è una v.c. i.i.d. con E(ε)=0; Var (εi )= σ
2
; Cov(εi εj)=0
9)
b
Risposta 3 è una v.c. i.i.d. con E(ε)=0; ; Cov(εi εj)=0; εi ~ N(μ,ϭ )
c
Risposta 4 è una v.c. i.i.d. con E(ε)=0; εi ~ N(μ,ϭ2)
d
2
8)
a
Quante tipologie di dati si utilizzano in Econometria
Risposta 1 sezionali
Risposta 2 temporali
Risposta 3 panel
Risposta 4 sezionali, temporali e panel
a
b
c
d
La formula con cui si calcola il coeff. angolare con il Metodo dei Minimi Quadrati Ordinari è:
Risposta 1 covarianza(x,y)/devianza (x)
Risposta 2 covarianza(y,x)/varianza(x)
Risposta 3 devianza(x)/varianza(x,y)
Risposta 4 covarianza(x,y)/varianza (x)
a
b
c
d
10) La formula con cui si calcola l’intercetta con il Metodo dei Minimi Quadrati Ordinari è:
Risposta 1 media(y) –media(x)
Risposta 2 media(x) –b*media(y)
Risposta 3 media(y) –b*media(x)
Risposta 4 mediana (x) –b*media(y)
11) La devianza totale è uguale a:
Risposta 1 DT=DS-DR
Risposta 2 DT=DS+DR
Risposta 3 DS=DT+DR
Risposta 4 DR=DT+DS
a
b
c
d
a
b
c
d
12) Il coefficiente di determinazione normale è dato da:
Risposta 1 1-DS/DT
Risposta 2 DS/DT
Risposta 3 DT/DR
Risposta 4 1-DR/DT
a
b
c
d
13) In un MRLS il coefficiente di determinazione normale è legato al rho da quale notazione:
Risposta 1 R2 =(rho) 2
Risposta 2 R2 =1-(rho) 2
Risposta 3 R2 =1/(rho) 2
Risposta 4 R2 = cov(x,y)*(rho) 2
a
b
c
d
14) Quando lo stimatore intercetta si dice corretto o non distorto
Risposta 1 Se il suo valore atteso non è uguale al valore dell’intercetta della popolazione
Risposta 2 Se il suo valore atteso converge al valore della sua varianza
Risposta 3 Se il suo valore atteso è uguale al valore dell’intercetta della popolazione
Risposta 4 Se il suo valore atteso converge al valore della sua deviazione standard
a
b
c
d
15) Dati due stimatori T1 e T2 quale dei due è più efficiente
Risposta 1 quello che ha la media maggiore
Risposta 2 quello che ha la mediana minore
Risposta 3 quello che ha la moda maggiore
Risposta 4 quello che presenta la più bassa varianza
a
b
c
d
16) Il MRLS sottostà a quali ipotesi di base
Risposta 1 linearità
Risposta 2 omoschedasticità
Risposta 3 indipendenza, linearità, omoschedasticità, normalità
Risposta 4 normalità
a
b
c
d
17) Come si distribuiscono i regressori del MRLS per piccoli campioni
Risposta 1 secondo una Normale
Risposta 2 secondo una t di Studente con n-2 gradi di libertà
Risposta 3 secondo una Chi-quadrato
Risposta 4 secondo una F di Fisher
a
b
c
d
18) Quale sistema di ipotesi si imposta per il coeff. ang. per un test bilatero
Dispense di econometria
Pag. 89
H0 : bˆ = d vs H1 : bˆ ≠ d
Risposta 2 H0 : bˆ = d vs H1 : bˆ  d
Risposta 3 H0 : bˆ = d vs H1 : bˆ  d
Risposta 4 H1 : bˆ = d vs H0 : bˆ ≠ d
Risposta 1
a
b
c
d
19) Qual è la formula con la quale si calcola l’intervallo di confidenza per l’intercetta in un MRLS (test bilatero)
Risposta 1
aˆ ± t α/2s(aˆ )
a
Risposta 2
aˆ ± t α/2s(bˆ )
b
Risposta 3
bˆ ± t α/2s(aˆ )
c
Risposta 4
aˆ ± t α s(aˆ )
d
20) Con quale formula si calcola la devianza residua media MDR in un MRLS
Risposta 1 MDS=DR/(n-2)
Risposta 2 MDR=DR/(n-2)
Risposta 3 MDR=DS/(n-2)
Risposta 4 MDT=DR/(n-2)
a
b
c
d
21) Con quale formula si calcola la statistica-test F di Fisher
Risposta 1 F= MDS/MDR
Risposta 2 F= MDT/MDR
Risposta 3 F= MDS/MDR
Risposta 4 F= MDS/MDT
a
b
c
d
22) Che cos’è l’ANOVA
Risposta 1 è l’analisi
Risposta 2 è l’analisi
Risposta 3 è l’analisi
Risposta 4 è l’analisi
a
b
c
d
della
della
della
della
media
devianza
varianza
varianza che contiene i gradi di libertà e i valori di MDS, MDR e MDT
23) In un MRLS per un valore della x quanti valori della y si possono avere
Risposta 1 uno
Risposta 2 tre
Risposta 3 due
Risposta 4 quattro
a
b
c
d
24) La devianza residua si trova applicando la seguente differenza
Risposta 1 y(oss) –y(medio)
Risposta 2 y(stim) –y(medio)
Risposta 3 y(oss) –y(stim)
Risposta 4 y(medio) –y(oss)
a
b
c
d
25) Come si esprime in forma matriciale o compatta l’equazione del Modello di Regressione lineare multipla
Risposta 1 Y=βX+є
Risposta 2 Y=βX
Risposta 3 Y=X+є
Risposta 4 Y=β+є
a
b
c
d
26) Con quale formula matriciale si calcola il vettore dei coeff. di regressione nel MRLM
1
Risposta 1 bˆ =(X' X)
y
a
1
X' y
Risposta 2 bˆ =(X)
b
1
Risposta 3 bˆ =(X' X) X' y
c
Risposta 4 b̂ =(X' X)X' y
d
27) Con quale script si calcola l’output del MRLS fra y ed x con il software R
Risposta 1 modello < lm(y~x)
summary(modello)
Risposta 2 modello <- lm(y e x)
summary(modello)
Dispense di econometria
a
b
Pag. 90
Risposta 3 modello<-lm(y + x)
summary(modello)
Risposta 4 modello<-lm(y - x)
summary(modello)
28) Con quale script si importa un data frame da excel e come si rendono indipendenti le colonne
Risposta 1 dataframe<- read.csv2("nome del file.txt", header=TRUE) ; dataframe
attach(dataframe)
Risposta 2 dataframe<- read.csv2("nome del file.csv", header=TRUE) ; dataframe
attach(dataframe)
Risposta 3 dataframe<- read("nome del file.txt", header=TRUE) ; dataframe
attach(dataframe)
Risposta 4 dataframe<- csv2("nome del file.csv", header=TRUE) ; dataframe
attach(dataframe)
c
d
a
b
c
d
Sezione 2 – Domande a risposta aperta
Domanda aperta 1. Dati i seguenti valori di output di R:
Estimate
Std. Error
t value
Pr(>|t|)
(Intercept)
-184.66171
53.05399
-3.481
0.0176
x
0.75619
0.06168
12.260
6.39e-05
calcolare i valori mancanti [per quanto riguarda il p-value della t empirica Pr(>|t|) indicare solo la procedura
di calcolo] e stabilire a quale livello i regressori sono significativi
L’intercetta è significativa al 5% (un asterisco). Il coefficiente angolare allo 0% (tre asterischi)
Domanda aperta 2. Dati i seguenti valori dell’ANOVA ottenuti con il software R:
Response: y
Df
x
1
Residuals 5
Sum Sq Mean Sq
63692 63692
2119
424
F value
150.3 on 1 and 5 DF
Pr(>F)
p-value: 6.388e-05
calcolare i valori mancanti (per quanto riguarda il p-value della F empirica Pr(>F)indicare solo la procedura di
calcolo) e stabilire a quale livello la regressione è significativa
La regressione è significativa allo 0% (tre asterischi)
Firma dello studente ____________________________
Dispense di econometria
Pag. 91