3333 PARTE PRIMA. Introduzione e Richiami Vengono ripresi di seguito alcuni concetti base di matematica, di statistica descrittiva, inferenziale e di calcolo delle probabilità. Dispense di econometria Pag. 1 Richiami di matematica I riferimenti ai concetti matematici più importanti propedeutici allo studio dell‟Econometria riguardano principalmente lo studio dei logaritmi, delle disequazioni, dell‟algebra matriciale e delle funzioni di una o più variabili e verranno ripresi di volta in volta che se ne presenta la necessità. 2.Richiami di Statistica descrittiva Concetti teorici. Di seguito vengono riportati i contenuti più importanti della Statistica descrittiva seguendo una logica propedeutica allo studio dell‟Econometria. Si cerca di individuare una linea di continuità tra un modello univariato o bivariato semplicemete descrittivo ed uno probabilistico. Distribuzioni di frequenze per valori suddivisi in classi. Frequenza assoluta, relativa, cumulata assoluta e relativa La frequenza esprime il numero di volte che la modalità di un carattere si presenta nella popolazione di interesse. Essa può essere assoluta, quando esplicita il numero di volte che la modalità del carattere si ripete; relativa, che si ottiene dal rapporto tra frequenza assoluta e il numero totale delle osservazioni e si denota con N; relativa percentuale ovvero uguale al prodotto della frequenza relativa per 100. Cumulata assoluta, quando si sommano le frequenze assolute; cumulate relative, quando si sommano le frequenze relative. La frequenza può essere riferita a singole modalità relative a uno o più caratteri della popolazione di interesse oppure a modalità rappresentate per classi di valori. La classe è un sub-intervallo del campo di variazione del carattere di interesse. L‟ampiezza delle classi dipende dalle caratteristiche del fenomeno osservato e dal grado di significatività che esse assumono nella statistica descrittiva e inferenziale. La generica classe è definita come: (ai-1 , ai ) per i = 1, 2,...., k all‟interno della quale vanno inserite tutte le modalità del carattere comprese nell‟intervallo reale: ai-1 < a ≤ ai Le classi si caratterizzano con un valore minimo coincidente con l‟estremo sinistro; con un valore massimo, coincidente con l‟estremo destro. Esse devono essere disgiunte ovvero senza sovrapposizioni; devono essere esaustive ovvero contenente Dispense di econometria Pag. 2 un valore min e max; normalmente sono chiuse a destra ovvero il valore estremo destro della classe non è ricompreso; possono essere equi-ampie ovvero aventi tutte la stessa ampiezza e equi-frequenti ovvero aventi tutte la stessa frequenza. Per distribuzioni di valori suddivisi in classi si può utilizzare, ai fini del calcolo delle misure centrali e di variabilità, il valore centrale di classe, tenendo conto che tale procedura presenta un certo grado di approssimazione dei risultati. Va ricordato che per classi non equi-ampie, ai fini della loro rappresentazione grafica, è necessario disegnare per ognuna di esse un rettangolo la cui area si ottiene dal prodotto della base corrispondente all‟ampiezza di classe (ai-1,ai) per l‟altezza data dalla densità di frequenza trovata. E‟ inoltre importante sottolineare che per la rappresentazione grafica della moda si è obbligati ad utilizzare la densità di classe come altezza del rettangolo o barra verticale di un istogramma. Per stabilire il numero delle classi e la loro ampiezza in una distribuzione di frequenza occorre trovare prima di tutto il valore minimo ed il valore massimo la cui differenza rappresenta l'intervallo di variazione dato dalla notazione: I= Max - Min e poi scegliere arbitrariamente il numero degli intervalli di classe (o più semplicemente il numero delle classi), in genere corrispondente alla radice quadrata della numerosità della popolazione, espressa dalla seguente notazione: k= N dove k rappresenta il numero delle classi ed N la numerosità della popolazione. Si dividono quindi le osservazioni per il numero di classi trovato k. Il numero delle classi dovrebbe essere, in ogni modo, non inferiore a 5 e non superiore a 20. Per determinare l'ampiezza si applica la seguente notazione: a= Max - Min k dove k è il numero delle classi, Max è il valore massimo delle osservazioni e Min è il valore minimo. Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte manualmente relativi alla parte teorica trattata. Dispense di econometria Pag. 3 ESERCITAZIONE EMPIRICA 1 Nella Tabella seguente vengono riportati i dati di una rilevazione da questionario su 34 punti vendita di cui si sono osservati i caratteri Vendite, Prezzo e Promozione. Punti vendita Vendi Prez te zo Promozi one Punti vendita Vendi te Prezzo Promozion e 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 4141 3842 3056 3519 4226 4630 3507 3754 5000 5120 4011 5015 1916 675 3636 3224 2295 200 200 200 200 400 400 400 400 600 600 600 600 200 200 200 200 400 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 2730 2618 4421 4113 3746 3532 3825 1096 761 2088 820 2114 1882 2159 1602 3354 2927 400 400 400 600 600 600 600 200 200 200 200 400 400 400 400 600 600 59 59 59 59 59 59 59 59 59 59 59 59 79 79 79 79 79 79 79 79 79 79 79 79 99 99 99 99 99 99 99 99 99 99 Fonte: Google Si riprendono i dati del carattere vendite e si costruiscono cinque classi equi ampie: I=Max-Min=5120-675=4445 k = N = 34 5,8 (non si utilizza l‟arrotondamento matematico; si arrotonda a 5 classi) a= Max - Min =(5120k 675)/5=889 (ampiezza di classe) Nella Tabella seguente si riportano le classi calcolate e tutte le frequenze. Classi Freq. ass. Freq.rel. Freq.rel.% Freq. cum. Ass. Freq. cum.relative 675-1564 4 0.1176471 11,76471 4 0.1176471 1564-2453 7 0.2058824 20,58824 11 0.3235294 2453-3342 5 0.1470588 14,70588 16 0.4705882 3342-4231 13 0.3823529 38,23529 29 0.8529412 4231-5120 5 0.1470588 14,70588 34 1,0000000 Totale 34 1,0000000 100.0000 Nel Grafico seguente si riporta l‟istogramma delle Vendite per valori suddivisi in classi. Dispense di econometria Pag. 4 Frequenze Relative Istogramma delle Classi di Vendite 675 1564 2453 3342 4231 5120 Classi di Vendite Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse applicazioni svolte manualmente relativi alla parte teorica trattata. PREMESSA Introduzione ad R Che cos‟è R. R è un ambiente di sviluppo pensato appositamente per la realizzazione di analisi statistiche. Si tratta di un linguaggio di programmazione open source ovvero "gratis". Fondamentalmente R è un pacchetto statistico che permette di elaborare dati, eseguire calcoli dai più semplici ai più complessi, ottenere rappresentazioni grafiche e molto altro ancora... Il software R è un punto di riferimento per tutto ciò che riguarda le analisi statistiche; è sopratutto un linguaggio di programmazione che è in grado di creare istruzioni personalizzate utilizzando l'apposita R Console. Rende l'Utente indipendente da una costosa licenza software www.r-project.org Come usare R. http://www.didatticainterattiva.it/files/appendice-iii-consigli-per-l-uso-di-R.pdf Esempio di importazione dei dati da Excel a R. Dispense di econometria Pag. 5 A. Se non si è scaricato si provveda ad effettuare il download svolgendo la seguente procedura: 1. da un Browser, ad esempio Google Crome, si accede al sito di R scrivendo nell‟apposito check box –software R-; 2. cliccare su “R: The R Project for Statistical Computing https://www.rproject.org/Traduci questa pagina. R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. CRAN - Mirrors · Of /src/base/R-3 · About R · Books” ; 3. si apre la pagina The R Project for Statistical Computing Getting Started dove è inserito il link download cliccando il quale si apre il CRAN Mirrors scorrendo il quale si trovano quattro indirizzi riferiti alle università italiane; sceglierne una e cliccandoci sopra si apre la pagina: The Comprehensive R Archive NetworkDownload and Install R. Precompiled binary distributions of the base system and contributed packages, Windows and Mac users most likely want one of these versions of R: Download R for Linux Download R for (Mac) OS X Download R for Windows 4. Scegliere il sistema operativo montato sul vostro dispositivo ed effettuare il download 5. Per aprire R occorre cliccare due volte sull‟icona che normalmente si trova sul Desktop o aprire il software dal menu di windows cliccando su “Programmi” . Avviando R viene mostrato il prompt >sulla R Console su cui si può agire direttamente inserendo i comandi e premendo il tasto ”Invio” oppure si può operare dal menu “File” scegliendo l‟opzione “Nuovo script” che apre una nuova finestra “R Senza Titolo-Editor di R” . Su questa si può agire scrivendo le righe di codice che interessano, poi con il tasto destro del mouse si apre un menu a tendina, si sceglie l‟opzione “Seleziona tutti” e da ultimo l‟opzione “Esegui linea o selezione” da cui si ottiene l‟output in R Console. Lo stesso risultato lo si ottiene agendo dal menu “Modifica”, stessa opzione “Esegui linea o selezione” oppure, usando il tasto F5. Per evitare che, alla sua riapertura, R ricarichi di default il precedente spazio di lavoro ricordarsi di o salvare oppure cliccare sul NO nella finestra di dialogo. Nelle due Tavole seguenti si mostrano il prompt di R Console con la freccia azzurra mostra e la procedura File-Nuovo script con le due frecce rosse ed inoltre la procedura per mandare in esecuzione le linee di codice. Tasto destro – Seleziona tutti – Esegui linea o selezione come si evince dalle due frecce rosse. Oppure le linee di codice possono essere inserite direttamente dal prompt> come evidenziato dalla freccia blu Dispense di econometria Pag. 6 Tavole seguenti evidenziano la procedura con cui si può modificare o annullare ciò che si è scritto precedentemente. Le due frecce rosse evidenziano la procedura Modifica – Annulla. Cliccando sull‟opzione “Pulisci Console” si cancella tutto ciò che vi è scritto (freccia blu) e la procedura da utilizzare quando si vuole uscire da R. La freccia rossa indica il No ovvero che non si vogliono salvare le linee di codice dell‟Editor di R. La freccia blu indica il Si ovvero che si vogliono salvare le linee di codice dell‟Editor di R. Dispense di econometria Pag. 7 B. Aprire un file Excel; in questo caso si dispone del file nominato: “Q_01” relativo ai risultati emersi da un Questionario somministrato a 190 individui etichettati e svolgere la seguente procedura: a. dalla Barra degli strumenti superiore cliccare su File-Salva con nome; b. scorrere il cursore fino al tipo di estensione da settare; in questo caso si sceglie CSV(delimitato da separatore di elenco): c. indicare l‟indirizzo di destinazione del file; in questo caso il percorso è C:\Mydata d. potrebbe comparire il box seguente: Dispense di econometria Pag. 8 cliccare Si e. aprire il programma Note Pad++ (oppure un semplice Blocco Note) e salvare il file QUES1 nella directory C:/Mydata/; f. si può notare che la formattazione del file è cambiata e che il separatore di campo è il punto e virgola; g. aprire ora il software R; cambiare la directory scegliendo quella di lavoro; in questo caso è: “C:/Mydata”; basta scrivere nel prompt della R Console il comando: setwd(“C:/Mydata”) La Tavola seguente riporta la procedura con cui si può desumere quale directory di lavoro è presente in R e quale directory si vuole scegliere. Con il comando getwd() di individua la directory presente su R (freccia rossa). Con il comando setwd() va a scegliere la directory di lavoro (freccia blu). In questo caso il percorso è: C:/Mydata. Per completare il quadro di come funziona R si rimanda anche al sito www.didatticainterattiva.it nella Sezione Software-R. ESERCITAZIONE EMPIRICA CON R x<-c(4141,3842,3056,3519,4226,4630,3507,3754,5000,5120,4011,5015,1916,675,3636,3224, Dispense di econometria Pag. 9 2295,2730,2618,4421,4113,3746,3532,3825,1096,761,2088,820,2114,1882,2159,1602,3354,2927); x k<-5; k n<- length(x); n Classi <- seq(min(x),max(x),length.out = k + 1);Classi FreqAss <- hist(x,Classi,plot = FALSE)$counts;FreqAss FreqRel <- FreqAss / n ;FreqRel FreqRelPerc <- 100 * FreqRel;FreqRelPerc Freq_cum_ass<-cumsum(FreqAss);Freq_cum_ass Freq_cum_rel<-(Freq_cum_ass)/n;Freq_cum_rel par(bg="cornsilk") h <- hist(x,Classi,plot = FALSE) h$counts <- FreqRel plot(h,ylab = "Frequenze Relative",xlab="Classi di Vendite",axes = FALSE, main = "Istogramma delle Classi di Vendite", col="red") axis(1,at = Classi,cex.axis = 1.1) axis(2,at = c(0,round(h$counts,digits = 2)),cex.axis = 1.1 Dopo aver aperto R si copia e si incolla lo script nell‟Editor e riga per riga si manda in esecuzione trovando i risultati già calcolati nell‟Applicazione svolta manualmente Media aritmetica in frequenza assoluta e relativa Concetti teorici Fin qui è stata svolta un‟analisi del fenomeno statistico attraverso la descrizione di un insieme di modalità di un carattere, riferite ad un insieme di unità statistiche (popolazione o collettivo o universo) attraverso l‟utilizzo di distribuzioni di frequenza rappresentate con tabelle e grafici. Sia nella ricerca scientifica e tecnologica che nell‟ambito delle scienze economiche, sociali, politiche ed ambientali si ha l‟esigenza di misurare efficacemente e quindi valutare gli effetti indotti da una causa nota. La misura di posizione (location index) sintetizza con un solo valore l‟intera distribuzione di frequenza e ne permette di effettuare raffronti nel tempo, nello spazio o tra circostanze differenti. “Talvolta, ciò è rilevante per verificare se le conseguenze di un‟azione nota abbiano prodotto un risultato desiderato, in quale direzione e con quale intensità.” (D. Piccolo) La Statistica descrittiva, dal significato stesso del termine, ha individuato diversi indici o misure di posizione per una distribuzione di frequenza. Quelle cosiddette “centrali” sono le più importanti e sono le medie (aritmetica semplice e ponderata, geometrica e armonica), la moda e la mediana. Dispense di econometria Pag. 10 Per quanto riguarda i quantili (decili, centili), i percentili e i quartili occorre precisare che essi rappresentano una misura di posizione, sebbene non centrale, solo se presi singolarmente. Ad esempio il I decile, il 99° centile o il I quartile di una distribuzione di frequenza descrivono una precisa posizione nella distribuzione di frequenza. Se invece si vuole misurare la distanza fra di essi, si deve parlare di misura di variabilità. Ad esempio la differenza interquartilica tra il I e il III quartile non esprime più una misura di posizione ma di variabilità. Di seguito vengono studiati le misure di posizione centrale per valori suddivisi in classi, individuando i concetti di numerosità, ampiezza e valore centrale delle stesse. Il concetto e il ruolo di questa misura sono centrali nello studio di un fenomeno statistico. La media è un concetto immanente che l‟Uomo ha sempre utilizzato nella sua vita quotidiana per far fronte alla mutevolezza e ai cambiamenti dei diversi fattori con i quali si è dovuto sempre confrontare: ambiente, clima, nemici, territorio, ecc. Nel “sentire comune” la Statistica è soltanto tutto ciò che riguarda le medie e pertanto si ritiene che non sia “del tutto affidabile” se pretende di sintetizzare un insieme di informazioni di una realtà complessa con un unico valore. Qui si commette un grave errore, di concetto e di metodo, in quanto si confonde la Statistica descrittiva che appunto inquadra e rappresenta la realtà efficacemente e sinteticamente dalla Statistica inferenziale che invece, a partire da informazioni circoscritte e limitate, induce ad assumere decisioni a valenza generale. Si possono avere diversi approcci al concetto di media: secondo Cauchy, secondo Chisini, secondo Wald, secondo Nagumo-Kolmogorov-de Finetti. In questo contesto si usa il procedimento di calcolo della media “in frequenza” che utilizza come peso la frequenza assoluta o relativa per valori suddivisi in classi. Va detto che tale procedimento non è esatto come quello che usa tutte le osservazioni. Il calcolo vede moltiplicate le n osservazioni per le relative frequenze assolute rapportato al numero totale delle stesse che restituisce la cosiddetta media aritmetica “in frequenza assoluta” così denotata: h ∑ x in Ma = i=1h ∑n i=1 i i Se si prendono come “peso” le frequenze relative si ottiene la media in “frequenza relativa” e la notazione diventa: h Ma = ∑ x i fi i=1 Dispense di econometria Pag. 11 Due proprietà importanti vanno preliminarmente sottolineate: 1)aggiungendo (o sottraendo) a tutti i valori xi, la stessa quantità w, la media aritmetica è incrementata (o ridotta) di tale quantità (proprietà traslativa); 2) moltiplicando (o dividendo) tutti i valori xi per una stessa quantità k, diversa da zero, la media aritmetica risulta moltiplicata (o divisa) per tale quantità . Esse sono espresse dalle seguenti notazioni: n ∑xi ± w Ma = i=1 n n ∑xi ± w x ± x ± .. ± x . n =M ± w = 1 2 a n Ma = i=1 n x ± x ± .. ± x . n =M ± w = 1 2 a n Devianza, varianza, s.q.m. e c.v. in frequenza assoluta e relativa Concetti teorici Sopra é stata trattata una misura di posizione centrale (media aritmetica in frequenza assoluta e relativa), ma non si è esaminata l‟attitudine di un carattere a distribuirsi intorno ai valori medi. Obiettivo di questo Paragrafo è quello di esaminare tale processo classificando e definendo le principali misure di variabilità e di indicare le formule o notazioni sottostanti a tali concetti teorici, nonché di esplicitare il significato di Devianza, Varianza, Squarto quadratico medio e il Coefficiente di variazione, riferito a caratteri unidimensionali. Viene analizzato il Coefficiente di variazione in qualità di indicatore che misura la variabilità relativa del carattere osservato espresso da un numero puro. Devianza per valori suddivisi in classi. E` data dalla somma dei quadrati delle differenze dalla media moltiplicata per le frequenze assolute espressa dalla seguente notazione: n dev ∑(x i - x)2n i i=1 Varianza per valori suddivisi in classi. E` data dalla somma dei quadrati delle differenze dalla media aritmetica per la relativa frequenza assoluta diviso il totale delle frequenze assolute stesse espressa dalla seguente notazione: n ∑(x i - x)2 n var = i i=1 n ni i=1 oppure quando si usa fa frequenza relativa: Dispense di econometria Pag. 12 n var = (x - x)2 f i1 i i Scarto quadratico medio (s.q.m.). E` dato dalla radice quadrata della varianza. k ∑ x 2n 2 s.q.m. = σ = i=1 i i k ∑n ì=1 ì oppure quando si usa fa frequenza relativa: 2 s.q.m. = σ = n 2 ∑ (x - x) f i i i=1 Coefficiente di variazione. E` dato dal rapporto fra la deviazione standard e la media aritmetica. cv = σ x per i = 1, 2,......., n Indici di forma. Asimmetria. Curtosi Concetti teorici Dopo aver esaminato e rappresentato le misure di posizione centrale e di variabilità relative a distribuzioni di frequenza per valori suddivisi per classi, è necessario, ai fini di una completa descrizione di un fenomeno statistico, studiare la forma delle distribuzioni stesse. I concetti di asimmetria e curtosi sono fondamentali nello studio della forma di una distribuzione di frequenza. Per quanto riguarda l‟asimmetria viene ripreso il grafico box-plot e i relativi cinque numeri di sintesi, la cui analisi evidenzia visivamente se la distribuzione è simmetrica o asimmetrica, se è asimmetrica a destra (positiva) o a sinistra (negativa). Ciò è possibile osservando la distanza dalla mediana del I e III Quartile. Se essa è uguale la distribuzione risulta Dispense di econometria Pag. 13 simmetrica; se diversa la distribuzione è asimmetrica. Se l‟addensamento dei valori è più a destra si è in presenza di asimmetria destra (o positiva) e viceversa. I cinque numeri di sintesi con il relativo diagramma box-plot danno una indicazione sulla forma della distribuzione che può essere: Simmmetrica Quando la distanza fra il min e il I Quartile (Q1) e fra il III Quartile (Q3) e il max, oppure fra il min e il II Quartile o Mediana (Q2) e fra il II Quartile o Mediana (Q2) e il max è approssimativamente uguale. Nella Figura 6.1.1 è rappresentata una distribuzione simmetrica Min Q1 Q2=Mediana Q3 Max Asimmetrica o obliqua a sinistra o negativa Quando la distanza fra il min e il II Quartile o Mediana (Q2) è maggiore della distanza tra il II Quartile o Mediana (Q2) e il max, oppure quando fra il I Quartile e la Mediana (Q2) essa è maggiore di quella tra la Mediana (Q2)e il III Quartile Min Q1 Q2 Q3 Max Asimmetria o obliqua a destra o positiva Quando la distanza fra il min e il II Quartile o Mediana (Q2) è minore della distanza tra il II Quartile o Mediana (Q2) e il max, oppure quando fra il I Quartile e la Mediana (Q2) essa è minore di quella tra la Mediana (Q2)e il III Quartile Min Q1 Q2 = Mediana Q3 Max Dispense di econometria Pag. 14 Proprietà dell’Asimmetria: 1) quando moda, media e mediana non coincidono si è in presenza di una distribuzione asimmetrica; 2) quando queste tre misure di posizione centrale coincidono non necessariamente la distribuzione è simmetrica in quanto la eguaglianza è una condizione necessaria ma non sufficiente. Gli indici di asimmetria più usati sono l’indice di Bowley e l’indice calcolato con il momento terzo Indice di asimmetria di Bowley Q 3 + Q 1 - 2Q 2 Q 3 - Q1 I Bowley= Indice di asimmetria calcolato con il momento terzo M3 I = skew σ 3 3 1 ∑ (x - M(x)) * ni = n σ3 0.00 0.02 0.04 Densità 0.06 0.08 0.10 Per quanto riguarda l‟analisi della curtosi, che studia il grado di appiattimento della curva, si prendono in considerazione le curve: Mesocurtica, Platicurtica e Leptocurtica. Graficamente si rappresentano come segue: -40 -20 0 20 40 x Curva Leptocurtica Dispense di econometria Pag. 15 0.04 0.03 0.02 Densità 0.01 0.00 -40 -20 0 20 40 x 0.025 0.020 0.005 0.010 0.015 Densità 0.030 0.035 0.040 Curva Mesocurtica -20 -10 0 10 20 x Curva platicurtica Per sintetizzare, attraverso un indice, il grado di appiattimento si utilizza quello di curtosi calcolato con il memento quarto e si confronta con il valore fisso di curtosi della curva mesocurtica o normale pari a 3. Si calcola poi lo scostamento. Se positivo si è in presenza di una leptocurtica, se negativo di una platicurtica. Indice di curtosi calcolato con il momento terzo I CUR = M4 σ4 4 1 ∑ (x i - μ) * n i n σ4 Scostamento= ICUR-3 Curva Mesocurtica: Scostamento=0 ICUR=3 Curva Platicurtica: Scostamento < 0 (o negativo) ICUR<3 Curva Leptocurtica: Scostamento > 0 (o positivo) ICUR> 3 Dispense di econometria Pag. 16 Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte manualmente relativi alla parte teorica trattata. ESERCITAZIONE EMPIRICA 2 Riprendendo gli stessi dati delle Vendite si redige la tabella propedeutica per il calcolo degli indici di variabilità e di forma per valori suddivisi in classi. Classi x (v.c.) 6751564 15642453 24533342 33424231 42315120 Totale (x - xmedia) (x -xmedia)2 (x xmedia)2* n (x (x - xmedia)4 n xmedia)3*n 2,49497E+14 31388408783 n x*n 1119,5 4 4478 2008,5 7 14059,5 2897,5 5 14487,5 3786,5 13 49224,5 679,8235294 462160,0311 6008080,405 4084434426 4675,5 5 23377,5 1568,823529 2461207,266 12306036,33 19305999352 1,51439E+14 34 105627 8121983,979 42770312,94 5,08347E+14 1045,882353 17314478263 3948870,325 15795481,3 1987,176471 1205991,561 8441940,924 -9270740889 7,12664E+13 1098,176471 43754,79585 218773,9792 47862053992 209,1764706 45762368,83 Media 3106,6765 aritmetica Devianza Varianza 42770312,94 1257950,381 S.q.m. 1121,583871 3,6097E+13 cv% 36,1023712 I cinque numeri di sintesi si calcolano riprendendo i dati delle Vendite per procedere al riordino in modalità crescente. 675 761 820 1096 1602 1882 1916 2088 2114 2159 2295 2618 2730 2927 3056 3224 3354 3507 3519 3532 3636 3746 3754 3825 3842 4011 4113 4141 4226 4421 4630 5000 5015 5120 A questo punto si possono calcolare. Minimo= 675 Massimo=5120 Posizione I Quartile=(n+1)/4= (34+1)/4=8,75^ arrotondato alla 9^ posizione Dispense di econometria Pag. 17 1000 2000 3000 4000 5000 Q1= 2114 Posizione II Quartile (o Mediana)=(n+1)/2= (34+1)/2=17,5^ Q2=( 3354 + 3507)/2=3430,5 Posizione III Quartile=3(n+1)/4= 3(34+1)/4=26,25^ arrotondato alla 26^ posizione Q3= 4011 Per il calcolo dell‟asimmetria si utilizzano i seguenti indici: Indice di Bowley= [(2114+4011)-2*3430,5]/(4011-2114)= -2114,183 Indice di asimmetria con il momento terzo=1/34*(-17314478263)/ (1121,583871)3 = -12,272 Entrambi gli indici affermano che esiste una asimmetria negativa ovvero le vendite si distribuiscono più nella parte a sinistra della mediana che alla sua destra. La rappresentazione grafica del Box-plot conferma il risultato degli indici. Per il calcolo della curtosi si utilizza il seguente indice: Indice di curtosi con il momento quarto=1/34*(5,08347e+14)/ (1121,583871)4=4.916228e+24 Nel Laboratorio con il software R vengono riportati gli script per svolgere la stessa applicazione svolta manualmente relativa alla parte teorica trattata. Dispense di econometria Pag. 18 ESERCITAZIONE EMPIRICA CON R library(labstatR x <-c(1119.5,2008.5,2897.5,3786.5,4675.5);x ## valori centrali di classe Freqass<-c(4, 7, 5, 13, 5);Freqass ##frequenze assolute n <-sum(Freqass);n ##totale osservazioni Freqrel<-Freqass/n;Freqrel ##frequenze relative Media <- sum(x * Freqass)/n;Media ##media aritmetica in frequenza assoluta Media <- sum(x * Freqrel);Media ##Media aritmetica in frequenza relativa devianza <-((x - Media)^2 * FreqAss);devianza ## devianza per classi varianza<-((x-Media)^2 * FreqAss)/n;varianza ## varianza per classi in frequenza assoluta varianza<-((x-Media)^2 * Freqrel);varianza ## varianza per classi in frequenza relativa devianza<-sum((x - Media)^2 * FreqAss);devianza ## devianza totale varianza<- sum((x-Media)^2 * Freqrel);varianza ## varianza totale in frequenza assoluta varianza<-sum((x-Media)^2 * Freqrel);varianza ## varianza totale in frequenza relativa varianza); sqm cv_perc<-(sqm/Media)*100;cv_perc summary(x) Ibowley<-(2008+3786-2*2898)/3786-2008;Ibowley skew<-sum((x - Media)^3* FreqAss)/n*sqm^3;skew kurt<-sum((x - Media)^4*FreqAss)/n*sqm^4;kurt Connessione. Indici di connessione. Concetti teorici Il concetto di connessione è riferito prevalentemente a caratteri qualitativi bidimensionali (in questo contesto si esaminano le distribuzioni bi-carattere o bidimensionali) mentre quello di correlazione a caratteri quantitativi e quindi a variabili multiple. Per l‟analisi dell‟ connessione tra due caratteri è necessario disporre di osservazioni e dati organizzati in tabelle a doppia entrata o distribuzioni multiple di frequenze che vengono definite di contingenza quando prendono in considerazione caratteri qualitativi. Si esaminano ora i contenuti di una tabella a doppia entrata. Le frequenze congiunte assolute individuano la connessione fra la Dispense di econometria Pag. 19 modalità del carattere X con quella relativa del carattere Y. Nella tabella a doppia entrata seguente si riportano in simboli i valori in classi dei due caratteri X ed Y X/Y a-b c-d e-f yi1 yi2 yi3 l-m xi1 n11 n12 n13 n1. s-t xi2 n21 n22 n23 n2. h-k xi3 n31 n32 n33 n3. Tot n.1 n.3 N n.2 Tot Se si prende a riferimento la frequenza congiunta assoluta n11 , il primo pedice indica la modalità di riga 1 della X e il secondo la modalità di colonna 1 della Y. Se si considera la frequenza marginale n1., il primo pedice indica la riga 1 e il punto segnala la sommatoria delle modalità di colonna della Y riferite alla riga 1 della X. Se si considera n.1, il primo pedice indica la sommatoria delle modalità di riga della X riferite alla colonna 1 e il secondo la colonna 1. N è il numero totale delle osservazioni. Le frequenze relative condizionate sono utili per ottenere ulteriori indicazioni sulle distribuzioni parziali di un carattere associate alle modalità dell‟altro carattere. Per studiare il concetto di indipendenza distributiva tra due caratteri è necessario studiare la relazione tra le frequenze congiunte assolute e le corrispondenti frequenze teoriche. La frequenza teorica, relativa a w righe e k colonne, è data dal rapporto fra il prodotto delle frequenze congiunte e il totale n di una tabella a doppia entrata ed è definita dalla seguente notazione: ~ nwk = n *n w. .h n ∀ w = 1,2,..., n; k = 1,2,...,n dove nw. sono le frequenze congiunte assolute marginali di riga e n.h sono quelle di colonna. Esiste “indipendenza distributiva tra due caratteri” quando tutte le frequenze congiunte assolute sono uguali alle corrispondenti frequenze teoriche. E‟ invece sufficiente che una sola frequenza teorica differisca dalla relativa frequenza congiunta assoluta per giungere alla conclusione che “non vi è indipendenza distributiva”. Dispense di econometria Pag. 20 Le Contingenze sono legate strettamente al concetto di indipendenza distributiva e sono definite dalla differenza tra la frequenza congiunta assoluta e quella teorica e quindi dalla notazione: C wk = (nwk - ~ nwk ) dove nwh sono le frequenze congiunte assolute e attese. ~ nwk ∀w = 1,2,...,n; k = 1,2,...,n sono le frequenze teoriche o Se le contingenze assolute hanno un valore positivo significa che tra le modalità dei due caratteri esiste un‟attrazione in quanto la frequenza congiunta effettiva è minore della frequenza teorica; se hanno valore negativo significa che tra le modalità dei due caratteri esiste una repulsione in quanto la frequenza congiunta effettiva è maggiore della frequenza teorica. Per quanto riguarda le contingenze relative esse sono date dal rapporto fra le contingenze assolute e le relative frequenze teoriche e sono definite dalla seguente notazione C wh CR wh = ~ ∀ w = 1,2,..,n; h = 1,2,...,n nwh dove CR wh sono le contingenze relative, teoriche. C wh quelle assolute e ~ nwk le frequenze La definizione teorica di connessione relativa a due caratteri non ne quantifica, però, il livello o il grado o l‟ammontare. E‟ necessario, pertanto, disporre di indicatori specifici quali l‟indice del Chi-quadrato che dà informazione, in media quadratica, di quanto differiscono le frequenze effettive da quelle teoriche e quindi dà una misura del grado di connessione tra i due caratteri oggetto di studio. Esso è definito dalla seguente notazione: Chi-quadrato=∑r ∑c (CASS / ~ n wh ) dove ∑r ∑c è la doppia sommatoria per riga e per colonna, CASS sono le contingenze assolute mentre ~nwh sono le frequenze teoriche. Va citata per completezza anche la formula operativa del calcolo del Chi-quadrato che normalmente restituisce un risultato leggermente arrotondato rispetto a quello ottenuto con la notazione di cui sopra . Essa è espressa dalla notazione: w Chi.quadrato = N(∑i=1 Dispense di econometria h ∑=1 j n2wh - 1) nw. • n.h Pag. 21 dove nwh sono le frequenze assolute congiunte, nw. le frequenze marginali di riga e n.h le frequenze marginali di colonna. Poiché l‟indice Chi-quadrato si ottiene in valore assoluto è opportuno normalizzarlo applicando la seguente notazione: Chi-quadrato norm=Chi-quadrato/Chi-quadrato max dove il Chi-quadrato max è dato, a sua volta, dalla notazione: Chi-quadrato max = N[min(w-1),(h-1)] che è ricompreso tra 0 e 1. Esso assume valore zero (Chi-quadratonorm=0) quando esiste indipendenza distributiva e valore uno (Chi-quadratonorm=1) quando si configura la massima dipendenza distributiva o max connessione. Per il calcolo dell‟indice di Cramer è necessario introdurre il concetto di indice di contingenza quadratico il quale si trova applicando la seguente notazione: Icq= Chi-quadrato/n All‟indice di contingenza quadratico possono essere assegnate le seguenti proprietà: 1) elimina l‟influenza del numero di osservazioni; 2) rappresentando una versione normalizzata dell‟indice chi-quadrato assume valori ricompresi tra 0 ed 1; 3) ha valore 0 quando esiste una perfetta indipendenza distributiva; 4) ha valore 1 quando esiste una perfetta dipendenza distributiva o massima connessione o associazione. Per calcolare l‟indice di Cramer si possono utilizzare le due notazioni seguenti: la prima, applicando la formula: ICramer= ICQ 2 [min(w - 1)(h - 1)] la seconda, applicando la formula: ICramer= Chi - quadrato Chi - quadratoMAX L‟indice di Cramer , in questa seconda versione, può essere definito, anche, come la radice quadrata del Chi-quadrato normalizzato. Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte manualmente relativi alla parte teorica trattata. Dispense di econometria Pag. 22 ESERCITAZIONE EMPIRICA 3 Si prenda un esempio nel quale si associano il carattere Y “Vendita Prodotti” che assume le modalità A, B, C, D con il carattere X “Ripartizione Geografica” che assume le modalità Nord Ovest, Nord Est, Centro, Sud e Isole. Nella Tabella seguente sono riportate le frequenze congiunte assolute (per semplicità si “lavora” solo con distribuzioni di frequenza congiunte per valori singoli e si lascia al lettore il compito di analizzare quelle le cui modalità sono suddivise in classi).. X\Y Vendita prodotti (Y) (in migliaia di euro) Aree geografiche (x) A Nord ovest 12345 Nord est C TOTALE 8764 5413 26522 16789 10052 7689 34530 Centro 8756 4890 3078 16724 Sud e isole 4110 3294 1820 9224 42000 27000 18000 87000 Totale B Fonte: Dati simulati Nella Tabella seguente sono riportate le frequenze relative condizionate per le modalità del carattere Y|X=xi. Nella cella di prima riga e prima colonna è riportato il rapporto tra la frequenza congiunta assoluta e la relativa marginale di colonna che deve essere esteso a tutte le altre celle. X\Y Vendita prodotti (Y) (in migliaia di euro) Aree geografiche (x) A Dispense di econometria B C TOTALE Pag. 23 Nord ovest 12345/42000=0,29 0,32 0,30 0,30 Nord est 0,40 0,38 0,43 0,40 Centro 0,21 0,18 0,17 0,19 Sud e isole 0,10 0,12 0,10 0,11 Totale 1,00 1,00 1,00 1,00 Fonte: Dati simulati Nella Tabella seguente vengono riportate le frequenze relative condizionate per le modalità del carattere X|Y=yi Nella cella prima riga e prima colonna è riportato il rapporto tra la frequenza congiunta assoluta e la relativa marginale di riga che deve essere esteso a tutte le altre celle. X\Y Vendita prodotti (Y) (in migliaia di euro) Aree geografiche (x) A B C TOTALE Nord ovest 12345/42000=0,29 0,32 0,30 0,30 Nord est 0,40 0,38 0,43 0,40 Centro 0,21 0,18 0,17 0,19 Sud e isole 0,10 0,12 0,10 0,11 Totale 1,00 1,00 1,00 1,00 Fonte: Dati simulati Si possono fare alcuni esempi più specifici di frequenze condizionate relative. Se si vuole conoscere, ad esempio, la distribuzione di frequenza del carattere Y condizionato alla modalità Nord Est del carattere X, in simboli Y|X=Nord Est, si estrae la seguente distribuzione parziale: yi A B C ni 0,49 0,29 0,22 Tot 1 Se si vuole conoscere, ad esempio, la distribuzione di frequenza del carattere X condizionato alla modalità Prodotto A del carattere Y, in simboli X|Y=Prodotto A, si estrae la seguente distribuzione parziale: xi Nord Ovest Nord Est Centro Sud ed Isole Tot Dispense di econometria Pag. 24 ni 0,21 0,10 0,29 0,40 1 In entrambi i casi non si possono calcolare le medie condizionate poiché si è in presenza di caratteri qualitativi. Per poter calcolare le medie condizionate si devono prendere in considerazione caratteri quantitativi o qualitativi discretizzati ovvero associare alle modalità un numero o una classe di numeri. Un esempio aiuta meglio a capire il concetto teorico. Si disponga dei seguenti dati grezzi relativi a 15 osservazioni del carattere Y e del carattere X. Carattere Y 1 7 3 4 8 9 2 1 3 4 4 4 8 9 7 Carattere X 1 7 9 4 8 8 2 1 3 4 4 9 8 9 7 Dalla distribuzione di dati grezzi si costruisce la Tabella seguente a doppia entrata. E‟ opportuno suggerire al lettore le modalità di costruzione. Occorre, come detto precedentemente, associare gli stessi valori assunti dai due caratteri e misurare quante volte si ripetono. Ad esempio, la coppia di valori 1,1 si ripete 2 volte, quella 4,4 si ripete 3 volte, allora il lettore costruisce una tabella a doppia entrata nella quale inserisce sulle righe le modalità assunte dal carattere X (1,2,3,4,5,6,7,8,9) e sulle colonne quelle di Y (1,2,3,4,5,6,7,8,9) e all‟incrocio della riga 1 e colonna 1 mette 2 che rappresenta la frequenza congiunta assoluta di prima riga e prima colonna e così via. X/Y 1 2 3 4 7 8 9 Totale 1 2 0 0 0 0 0 0 2 2 0 1 0 0 0 0 0 1 3 0 0 1 0 0 0 0 1 4 0 0 0 3 0 0 0 3 7 0 0 0 0 2 0 0 2 8 0 0 0 0 0 2 1 3 9 0 0 1 1 0 0 1 3 Totale 2 1 2 4 2 2 2 15 Fonte: Dati simulati E‟ possibile, ora, calcolare le medie condizionate, ad esempio la M(Y|X=9). Si estrae la relativa distribuzione Y|X=9 dalla tabella a doppia entrata che viene di seguito riportata: Dispense di econometria Pag. 25 yi 1 2 3 4 7 8 9 ni 0 0 1 1 0 0 1 La media condizionata M(Y|X=9) è data da (1x0)+(2x0) (3x1)+(4x1) (7x0)+(8x0) (9x1)/15=(3+4+9)/15=1,067. E‟ opportuno ricordare che la distribuzione di frequenza congiunta è per definizione una distribuzione bicarattere in quanto riguarda congiuntamente entrambi i caratteri di interesse, mentre le distribuzioni marginali e condizionate sono unidimensionali poiché esse si riferiscono ad un solo carattere e quindi valgono tutti i concetti teorici studiati per le distribuzioni di frequenza semplici. Per calcolare il chi-quadrato con i dati dell‟esempio soprariportato si parte dalla tabella a doppia entrata delle frequenze congiunte assolute: X\Y Vendita prodotti (Y) (in migliaia di euro) Aree geografiche (x) A Nord ovest 12345 Nord est C TOTALE 8764 5413 26522 16789 10052 7689 34530 Centro 8756 4890 3078 16724 Sud e isole 4110 3294 1820 9224 42000 27000 18000 87000 Totale B Si redige la tabella delle frequenze teoriche: X\Y Vendita prodotti (Y) (in migliaia di euro) Aree geografiche (x) A Nord ovest 12803.724 Nord est C TOTALE 8230.966 5487.310 26522 16669.655 10716.207 7144.138 34530 Centro 8073.655 5190.207 3460.138 16724 Sud e isole 4452.966 2862.621 1908.414 9224 Dispense di econometria B Pag. 26 Totale 42000 27000 18000 87000 Si redige la tabella delle contingenze assolute: X\Y Vendita prodotti (Y) (in migliaia di euro) Aree geografiche (x) A Nord ovest -458.7241 Nord est 119.3448 Centro 682.3448 Sud e isole -342.9655 Totale 0 B C TOTALE 533.0345 -74.31034 0 -664.2069 544.86207 0 -300.2069 -382.13793 0 431.3793 -88.41379 0 0 0 0 Si redige la tabella delle contingenze assolute a quadrato diviso le frequenze teoriche: X\Y Vendita prodotti (Y) (in migliaia di euro) Aree geografiche (x) A Nord ovest 16.4348929 Nord est 0.8544381 Centro 57.6683613 17.36428 42.203346 Sud e isole 26.4150588 65.00621 4.096071 B 34.51913 41.16856 C TOTALE 1.006327 41.555003 Totale Il valore del Chi-quadrato è dato dalla somma dei valori di tutte le celle in applicazione della formula teorica. Chi-quadrato=348,2917 Per calcolare il chi-quadrato normalizzato debbo calcolare prima quello massimo pari a: Chi-quadrato max=174000 Il chi-quadrato normalizzato sarà: Dispense di econometria Pag. 27 Chi-quadrato norm=348,2917/174000= 0.002001676 L‟indice di Cramer sarà: ICRAMER = 0.0447401 L‟indice di contingenza quadratico sarà: ICONTQUADR = 0.040033 Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse applicazioni svolte manualmente relativi alla parte teorica trattata. ESERCITAZIONE EMPIRICA CON R Di seguito si riporta il relativo codice: tab<-matrix(c(12345,16789,8756,4110,8764,10052,4890,3294,5413,7689,3078,1820),4,3) rownames(tab)<-c("Nord ovest","Nord est","Centro","Sud e isole") colnames(tab)<-c("Prodotto A","Prodotto B","Prodotto C") tab tab_TE <- margin.table(tab,1)%*% t(margin.table(tab,2))/sum(tab);tab_TE tab_COAS<-((tab-tab_TE)^2)/tab_TE;tab_COAS tab_COAS<-(tab-tab_TE) ;tab_COAS chi2<-((tab-tab_TE)^2)/tab_TE;chi2 ## Valore del chi-quadrato chi2<-sum(((tab-tab_TE)^2)/tab_TE);chi2 ## Valore del chi-quadrato chi_2max<-(sum(tab)*(min(dim(tab)-1)));chi_2max ## Valore del chi-quadrato massimo chinorm<-chi2/chi_2max; chinorm ## Valore del chi-quadrato normalizzato Cramer_1<-sqrt(chinorm);Cramer_1 ## Valore dell'Indice di Cramer -primo modo cont<-chi2/sum(tab);cont ## Valore dell'Indice diContingenza quadratico Cramer_2<-sqrt(cont/2);Cramer_2 ## Valore dell'Indice di Cramer -secondo modo 3.Richiami di Teoria e Calcolo delle Probabilità Concetti teorici Dispense di econometria Pag. 28 Si riportano di seguito i concetti più importanti della teoria e calcolo delle probabilità propedeutici allo studio dell‟Econometria La frase “è probabile che esca il nero in una puntata alla roulette” mette in evidenza che in una data prova l‟evento “esce il nero in una puntata alla roulette” ha una certa probabilità di verificarsi. Il concetto di probabilità poggia sui seguenti elementi di base, tra loro strettamente legati: l’esperimento empirico la prova l’evento elementare lo spazio degli eventi o evento certo o spazio campionario l’evento composto L‟esperimento empirico è la realizzazione di un'operazione empirica atta ad individuare, accertare o precisare qualche aspetto specifico di un fenomeno osservabile che potrebbe riguardare qualunque branca della conoscenza (fisica, chimica, materiali, geologia, biologia, psicologia, economia, archeologia, ecc.). La prova o esperimento aleatorio è un qualsivoglia processo che produce un esito incerto. L‟evento elementare E è uno dei possibili esiti di un esperimento. Lo spazio campionario Ω è l‟insieme di tutti gli esiti possibili di un esperimento. L‟evento composto è un qualunque sottoinsieme di Ω e si definisce più semplicemente evento. ESEMPI: 1) Nel lancio di un dado regolare con spazio campionario Ω (dove i = 1,2,3,4,5,6 rappresentano gli eventi elementari), l‟evento E è “esce la faccia 1” per i=1 2) Nel lancio di due dadi regolari con spazio campionario Ω (dove i = 1,2,3,4,5,6 rappresentano gli eventi elementari), l‟evento composto potrebbe essere “escono le facce 1 e 2” per i=1,2. 3) Nel lancio di una moneta regolare l‟insieme degli eventi è uguale a due con i=1,2 L‟evento è quindi un sottoinsieme di Ω, si definisce Ω e si legge “ contenuto in Ω” . L‟evento deve essere definito in modo rigoroso in ogni sua modalità al fine di evitare ogni possibile ambiguità o fraintendimento o contestazione o incertezza. ESEMPIO: Nel lancio di un dado regolare, il cui spazio campionario è Ω (dove Ω è l‟insieme delle facce i per i=1,2,3,4,5,6), l‟evento E potrebbe essere l‟insieme Ω. L‟evento (uscita delle facce 1,2) è quindi un sottoinsieme di E e si legge “contenuto in E”. Se si indica con E un evento e con (l‟evento negazione di E) allora è chiaro che se E è vero è falso. I due eventi si dicono contrari. Il grado di probabilità che un certo evento ha di verificarsi può essere riassunto dalle seguenti notazioni: p = 0 se l‟evento E è impossibile p = 1 se l‟evento E è certo 0 < p <1 quando le osservazioni su E non ci conducono a nessuna delle due conclusioni definitive ma ad una intermedia. Dispense di econometria Pag. 29 Nota: è bene ricordare che se un evento E ha probabilità nulle (0) di verificarsi non per questo è impossibile che si verifichi e così un evento che ha probabilità certa (1) di verificarsi non per questo è certo. Definizioni di Probabilita` Secondo l‟approccio classico la probabilità si definisce come il rapporto fra l‟evento probabile e tutti gli eventi possibili purché egualmente probabili. P=EPROB /E1 +E2 +........+EI dove EPROB è l‟evento probabile e la sommatoria di EI è l‟insieme degli eventi possibili equiprobabili. ESEMPIO: in un giro di roulette le modalità del risultato sono complessivamente 37 come i numeri della ruota. Tali modalità costituiscono tutti i casi possibili egualmente probabili. Quindi l‟evento “uscita del numero 2 in un giro di ruota” è dato dal rapporto: P(E) = p = 1/37 Secondo l‟approccio frequentista oppure secondo la concezione statistica la probabilità è espressa in termini quantitativi da un valore empirico osservato: la frequenza relativa. Se si osserva un fenomeno attraverso un esperimento costituito da un certo numero di prove in condizioni costanti, si definisce frequenza relativa il rapporto fra il numero k, ovvero il numero delle volte nelle quali l‟evento E si è verificato ed il numero totale n delle prove ovvero k/n. A questo concetto di misurazione statistica della probabilità si associa la cosiddetta “legge empirica del caso”, attraverso la quale si constata che al crescere di n la frequenza relativa tende, ancorché oscillando, ad un valore stabile. ESEMPIO: l‟esempio classico è rappresentato dal lancio ripetuto di una moneta e dall‟evento “uscita della faccia Testa”. Al crescere di n la frequenza relativa tende all‟evento Testa. Come conseguenza logica si può assumere che la frequenza relativa – a condizione che n sia sufficientemente grande – misura la probabilità dell‟evento E. E‟ abbastanza frequente nella scienza che un concetto teorico – la probabilità – possa essere estratto da osservazioni empiriche sperimentali rappresentate dalla frequenza relativa (metodo induttivo). Si riportano di seguito alcuni concetti chiave: P(Ω ) = 1 la probabilità del totale degli eventi elementari appartenenti allo spazio campionario deve essere sempre uguale ad 1 Se gli eventi E ed F non si sono mai presentati contemporaneamente nelle n prove allora: EՈ F=Ø e Prob (E⋃ F)=Prob(E)+Prob(F) ≤ P(A) ≤ 1 la probabilità è sempre compresa tra zero e uno compresi P( ) = 0 la probabilità dell‟evento nullo o impossibile è pari a zero F E P(F) P(E) se l‟evento F è ricompreso in E allora la P(F) P(E) P( E ) = 1- P(E) la probabilità dell‟Evento contrario è data dal reciproco P(E) = 0 P(F E)=P(F) Il concetto di probabilità condizionata è molto importante nello studio dei fenomeni casuali e fondamentale per assumere decisioni definitive sulla base di conoscenze acquisite in itinere. Si affronta, poi, la tematica, altrettanto importante, Dispense di econometria Pag. 30 dell‟indipendenza stocastica attraverso lo studio di eventi indipendenti giungendo alla determinazione della condizione di indipendenza. . Probabilità condizionata Per assumere alcune decisioni definitive spesso è necessario rifarsi a risultati in itinere scaturiti da decisioni intermedie. Occorre, cioè, ricercare la probabilità di un evento condizionata al verificarsi di un altro evento di cui si conosce a priori l‟esito. Si presenta la necessità, quindi, di dover calcolare la probabilità di un evento dopo che si è verificato un altro evento collegato al primo sia dal punto di vista logico che temporale. Per esempio si può affermare di essere in presenza di una probabilità “condizionata” nel caso dell‟estrazione “senza ripetizione o senza reimmissione” di una pallina di colore verde, nella prima prova, dall‟urna contenente una sola pallina verde. La probabilità che nella seconda prova esca una pallina verde è 0 in quanto l‟evento è impossibile. Si evince, pertanto, che esiste una condizione: se l‟evento E si è verificato, gli eventi elementari che formano F devono essere inclusi anche in E, ovvero questi sono comuni a E ed F: “La probabilità di E dato che F si è verificato” è la probabilità condizionata che è espressa dalla seguente notazione: Prob(EF) = Prob(E F)/Prob(F) dalla quale, per formula inversa, si ottiene che: Prob(F) = Prob(E F)/Prob(E F) ovvero la probabilità dell‟evento F è uguale al rapporto tra la probabilità dell‟intersezione fra E ed F e la relativa probabilità condizionata; sempre per formula inversa si può ottenere che: Prob(E F) = Prob(EF)/Prob(F) ovvero la probabilità dell‟evento intersezione fra E ed F è uguale al rapporto tra la probabilità di E condizionato ad F e la probabilità di F. La probabilità condizionata soddisfa i due seguenti postulati: 1) 2) Prob(EF) ≥ 0 Prob(Ω E) = Prob(Ω E)/Prob(E) = Prob(E)/Prob(E) = 1 Alcuni autori assumono la definizione di “Probabilità condizionata” come un ulteriore postulato. E‟ importante riprendere due teoremi relativi alla probabilità condizionata. Il primo prende in considerazione tre eventi E1, E2, E3 e stabilisce che la probabilità dell‟evento intersezione fra loro è uguale alla probabilità del primo per il secondo condizionato al primo e così via. In formula si ha: Prob(E E E ) = Prob(E ) Prob(E E ) Prob (E E E) 1 2 1 3 1 2 Dispense di econometria 1 2 3 Pag. 31 Il secondo prende in considerazione n eventi E1, E2,........... En a due a due mutuamente esclusivi e stabilisce che la probabilità di un evento qualsiasi E, ammesso che esso sia seguito da uno degli eventi singoli, è data dalla seguente notazione: Prob(E)= Prob (E1) Prob (E| E1)+ Prob (E2) Prob (E| E2)+.................+ Prob (En) Prob (E| En) Eventi indipendenti Per comprendere il concetto di indipendenza stocastica è necessario introdurre il seguente postulato: se si prendono in considerazione eventi a due a due disgiunti E1, E2, ovvero eventi per i quali Ei Ej = Evento impossibile quando i≠j allora deve valere la seguente notazione: ∞ ∞ Prob( Ei ) = j ∑ Prob(Ei ) i=1 i=1 Ovvero che la probabilità della produttoria degli eventi Ei è uguale alla sommatoria delle singole probabilità moltiplicato per il loro numero. Per spiegare questo concetto è opportuno ripartire da quello di probabilità condizionata. Si è visto, a tale proposito, che la probabilità condizionata di un evento E, dato come verificato l‟evento F, modifica generalmente le possibilità del verificarsi di quest‟ultimo. Si può dedurre, in linea logica, che qualora esistano casi in cui la probabilità di E dato F coincide con la probabilità di E, si determina una condizione di indipendenza. Due eventi E ed F si dicono indipendenti, infatti, quando la conoscenza del verificarsi di F non modifica la probabilità del verificarsi di E. Se non vale la condizione di cui alla notazione seguente i due eventi E ed F si dicono dipendenti. Prob(E F)=Prob(E)Prob(F) se Prob(F)>0 I due eventi soddisfano il concetto di simmetria ovvero se P(E)>0 e P(F)>0, E è indipendente da F se F è indipendente da E e viceversa. Si può fare l‟esempio di tre eventi E1, E2, E3 e si può ribadire, come già detto sopra, che essi sono indipendenti quando lo sono a due a due per cui si può giungere alla notazione che la P(Ei Ej)=P(Ei) P(Ej) quando i≠j e i e j sono uguali al numero di eventi (1,2,3). PARTE SECONDA. Che cos‟è l‟Econometria. Elementi fondamentali dell‟analisi di regressione L‟‟Econometria tenta di dare una risposta in termini quantitativi ad una serie di possibili domande. In merito si cita uno scritto tratto dalla Bocconi. «Le scienze economiche utilizzano metodi quantitativi (cioè matematici e statistici) per rispondere a domande quali: Qual è l‟effetto sull‟occupazione dei lavoratori italiani di una maggiore immigrazione? Dispense di econometria Pag. 32 Perché non è sufficiente semplicemente stampare moneta per creare posti di lavoro? Quali sono i vantaggi per l‟Italia dell‟adozione dell‟Euro? Perché la Commissione Europea sta accusando Google di abuso di posizione dominante sul mercato? Se crollano i prezzi delle case in Florida, perchè il mio vicino di casa perde il lavoro? Perché all‟inizio del „900 l‟Argentina era più ricca degli Stati Uniti, e oggi è vero il contrario? Durante una crisi, è meglio un mercato del lavoro con ammortizzatori sociali come la cassa integrazione, oppure uno in cui si perde il posto ma si ha un reddito minimo garantito? È meglio un sistema pensionistico pubblico o privato In tempo di crisi e disoccupazione, perché non ci mettiamo tutti d‟accordo: le famiglie consumano di più e lavorano di più, le imprese assumono di più, e tutti stiamo meglio? Che cosa succede alla disoccupazione se si impone un salario minimo: aumenta o diminuisce? È vero che una maggiore disuguaglianza del reddito ha prodotto la crisi finanziaria attuale? La globalizzazione aumenta o diminuisce le disuguaglianze? Perché, se chiedessimo a ciascuno di finanziarli, non avremmo i parchi pubblici? Perché i paesi con sistemi elettorali maggioritari crescono di più di quelli con sistemi proporzionali? L‟effetto più sorprendente dello studio delle scienze economiche è proprio scoprire come sia possibile rispondere a domande simili (e a molte altre) in modo non ovvio, usando metodi rigorosi e logici, senza lasciare troppo spazio alle opinioni o alle “ideologie Le scienze economiche permettono infatti di rispondere a domande del tipo: “Perché le donne lavorano così poco in Italia?” oppure “Che cosa causa le crisi finanziarie?” usando la matematica e la statistica. Una valutazione superficiale concluderebbe che gli immigrati offrono lavoro a basso costo, e quindi permettono alle aziende di licenziare i nostri lavoratori risparmiando sui costi. Un economista, invece, ragionerebbe così: il lavoro degli immigrati (meno specializzato) e il lavoro degli italiani (specializzato) sono due beni complementari, cioè sono come gli scarponi da sci, uno non mi serve senza l‟altro. Allo stesso modo, il lavoro specializzato serve poco se non è accompagnato da quello meno specializzato. Quindi, paradossalmente, in diversi settori in crisi dell‟economia italiana, per esempio quelli tradizionali come il tessile, molti lavoratori italiani specializzati (tecnici e ingegneri) avrebbero perso il posto di lavoro se non avessimo avuto un aumento dei flussi di lavoratori immigrati. In sintesi: il lavoro degli immigrati paradossalmente spesso salva quello dei lavoratori italiani, e non il contrario. E i salari? In questo caso guardare ai dati è cruciale. A fronte di un 1% in più di immigrati, supponiamo anche che i salari dei lavoratori di casa nostra scendano: ma Dispense di econometria Pag. 33 scendono dello 0,01 % oppure del 5%? La differenza è grande. A questo proposito ci aiuta molto una disciplina, l‟econometria, ovvero la statistica applicata ai problemi economici, che serve proprio a misurare con precisione le relazioni economiche. L‟esempio precedente era in due parti: la prima (quella sui beni complementari) era un “modello”, mentre la seconda (quella “econometrica”), riguardava la misurazione. Fare scienza economica significa anche distinguere con chiarezza tra causa ed effetto in un dato fenomeno: pensare in modo non ovvio al problema, e poi interrogare i dati. Fonte:https://www.unibocconi.it/wps/wcm/connect/79254841-eafc-4edc-9035f12fbe2ee599/231_15+Volantino+Economia+e+scienze+sociali.pdf?MOD=AJPER ES Alle domande economiche sono legati, come abbiamo visto sopra i dati. La disponibilità dei dati è un presupposto fondamentale per l‟analisi econometrica. In Econometria i dati possono essere sperimentali e non sperimentali ovvero se sono tratti da esperimenti o da osservazioni non sperimentali. Esistono quattro tipologie di dati: sezionali; temporali; panel I primi riguardano le osservazioni (in statistica modalità o realizzazioni) su più unità statistiche riferite ad un solo periodo o nell‟unità di tempo (ad esempio giorno, settimana, trimestre, semestre, anno). Ad esempio il costo totale di produzione riferito a 10 diversi prodotti (unità statistiche) nel III semestre (unità di tempo:semestre) 2016. I secondi riguardano le osservazioni su una sola unità statistica ma riferite a più periodi. Ad esempio il costo totale di produzione riferito ad un solo prodotto (unità statistica) nei dodici mesi (unità di tempo: mese) del 2016 I terzi riguardano le osservazioni su più unità statistiche riferite a più periodi. Ad esempio il costo totale di produzione riferito a 10 diversi prodotti (unità statistiche) nei dodici mesi (unità di tempo: mese) del 2016 E‟ opportuno citare che alle tre tipologie di dati si può accedere attraverso diverse fonti. Le più importanti sono: esperimenti questionari di diverse tipologie; banche dati; dati simulati Modello di regressione lineare semplice (o con un singolo regressore) (MRLS) I concetti di interpolazione lineare, di variabile dipendente e indipendente, di intercetta e di coefficiente angolare, di proporzionalità diretta ed inversa sono richiami di matematica che all‟occorrenza vengono ripresi. Di seguito viene Dispense di econometria Pag. 34 esaminato il modello di Regressione lineare semplice (o con un regressore) ponendo l‟attenzione sulle sue finalità, ma soprattutto sulla sua precisa specificazione e sull‟individuazione della procedura adatta a studiare la relazione statistica fra due variabili. Viene svolta un‟analisi sulle ipotesi a cui deve sottostare il modello e sulla stima dei regressori e viene ripreso il metodo di stima dei regressori definito dei Minimi Quadrati Ordinari (Ordinary Last Square O.L.S.). Per la specificazione del modello di regressione lineare semplice si ricorre al concetto di relazione statistica fra due variabili quantitative Y e X, descritta da una funzione lineare, e definita dalla notazione: Y=a + bX + ε dove ε è una variabile casuale e per conseguenza anche Y è una variabile casuale (di seguito indicate con l‟acronimo v.c.). Il modello di regressione lineare ha diverse finalità: descrittiva, interpretativa e previsiva. Gli aspetti più importanti che devono essere analizzati riguardano, innanzitutto, la specificazione corretta del modello e il relativo metodo di stima, nonché l‟impostazione delle ipotesi base sotto cui deve sottostare il modello stesso. Si deve tenere conto, infine, che il modello di regressione andrà a rappresentare la realtà osservata in modo approssimativo, senza pretendere di ricostruirla fedelmente ed esattamente. Tuttavia i risultati stimati, rivenienti da un modello specificato con rigore scientifico, aiutano a capire un fenomeno economico e sociale e permettono di ottenere evidenza empirica utile, soprattutto, a livello previsivo. L‟inserimento di una variabile casuale nel modello avviene per esigenze: di asistemicità connesse al comportamento umano, di descrizione dell‟effetto congiunto di variabili non misurabili, di imprecisione, dovute ad errori di misurazione. Per lo studio del modello di regressione lineare semplice (o ad una sola variabile o univariato) è opportuno stabilire a priori, come detto in precedenza, un insieme di ipotesi alle quali deve sottostare il modello medesimo. Nella Tabella seguente vengono riassunte tali ipotesi di base. Ipotesi di base 1) Yi=a+bxi+εi 2) εi 3) E(εi )=0 4) xi 5) Var (εi )= σ 2 6) Cov(εi εj)=0 2 7) εi ~ N(μ,ϭ ) Modello univariato Per ogni osservazione i = 1, 2,……..,n Sono v.c. indipendenti e identicamente distribuite (i.i.d.) Valore atteso della v.c. εi è nullo Realizzazioni della variabile esplicativa X Per ogni osservazione i = 1, 2,……..,n indipendentemente dal valore delle xi Covarianza nulla per ogni i ≠ j Normalità degli errori 8) Yi v.c. indipendenti e identicamente distribuite (i.i.d.) 9) yi Realizzazioni della variabile dipendente Yi Dispense di econometria Note Evidenzia ipotesi di linearità Evidenzia ipotesi di indipendenza degli errori Evidenzia ipotesi di normalità degli errori Sono valori noti ipotizzati senza errore equiparabili a valori deterministici Omoschedasticità ovvero ipotesi di varianza costante Assenza di correlazione tra gli errori Le v.c εi si distribuiscono secondo una Normale 2 con media μ e varianza ϭ Data l’indipendenza delle v.c εi Evidenzia una variabile dipendente che assume i caratteri di v.c. Pag. 35 10) ortogonalità Variabili non correlate Si assume che Cov (εi εj)=0 ovvero Covarianza nulla per ogni i ≠ j La specificazione corretta del modello richiede un‟approfondita analisi del fenomeno oggetto di studio e l‟individuazione delle variabili che lo influenzano. La scelta di esse comporta il rischio di prendere in considerazione la variabile non determinante della relazione statistica o di trascurarne alcune determinanti. Pertanto la specificazione del modello necessita di un‟accurata e minuziosa ricerca del trade-off tra la variabile dipendente o risposta e la variabile indipendente o esplicativa. Occorre anche considerare che, sebbene le realizzazioni della X, x1 ,x2,……. xn siano assimilabili a quelle deterministiche, la variabile dipendente Y, somma di una componente deterministica e una stocastica, è una v.c. con varianza costante ϭ2 e con valore atteso rappresentato dalla seguente notazione: E(Yi X = x i ) = E(a + bxi + εi ) = E(a)+ E(bxi ) + E(εi ) = a + bE(x i ) Essendo, per l‟ipotesi 3, E( ε i )=0 Stima puntuale dei coefficienti di regressione con il Metodo dei Minimi Quadrati Ordinari (O.L.S.) Di seguito si affronta il problema, tra i più importanti del modello inferenziale, della stima della retta e specificatamente dei coefficienti di regressione (comunemente chiamati regressori); ovvero intercetta e coefficiente angolare. Utilizzando lo stesso metodo si individua una retta che per ogni xi restituisce un valore di Yi che si avvicina ai valori osservati yi . Tale retta è detta retta stimata ed assume la seguente notazione: yˆ i = aˆ + bˆ x i Il metodo di stima dei minimi quadrati consente di stimare i valori di intercetta e coefficiente angolare della stessa retta (regressori) in modo tale da rendere minimi gli scarti tra valore stimato e quello osservato. Occorre, pertanto, uguagliare a zero la derivata degli stessi scarti. In questo caso, per semplicità, si prende in considerazione la sommatoria degli stessi. Si procede riprende la notazione del modello stimato: yˆ i = aˆ + bˆ xi ε̂ i da cui si ottiene che: εˆ = yˆ - aˆ + bˆ x i i i Dispense di econometria Pag. 36 Poiché gli scarti possono assumere valori positivi o negativi, essi vengono elevati al quadrato per far sì che prendano un valore sempre positivo, per cui: 2 2 εˆ i = (yˆ - aˆ + bˆ xi ) i La funzione di perdita è rappresentata dalla notazione: n H(a,b) = ∑ (yˆ i - aˆ + bˆ xi )2 i=1 Ai fini del calcolo dei valori di â e b̂ occorre rendere minima la funzione di perdita ovvero uguagliare a zero la derivata della stessa rispetto ad â e b̂ Soprassedendo allo sviluppo del calcolo matematico, si può affermare che â (intercetta) e b̂ (coefficiente angolare) sono definite rispettivamente dalle due seguenti notazioni. â = y - bx n σ bˆ = 2XY σ X ∑(xi - x)(yi - y) i=1 n ∑(xi - x)2 i=1 dove ϭXY rappresenta la covarianza XY e ϭ2 la varianza non corretta della X. Il valore di b̂ (coefficiente angolare) può essere definito anche dalla formula operativa data dalla seguente nota n b= σ XY σ2X n n n ∑x i y i - ∑x i ∑y i i=1 i=1 oppure b = i=1 n 2 n n ∑x i - ( ∑x i )2 i=1 i=1 Il concetto di residuo è rappresentato dalla differenza fra i valori osservati della Y, yi e i valori della retta stimata con il metodo dei minimi quadrati ed espresso dalla seguente notazione: eˆ i = yi - yˆ i Scomposizione della devianza totale Dalla retta dei minimi quadrati si può desumere che la differenza fra i valori osservati e quelli stimati delle realizzazioni della Y, che esprimono la devianza totale, possono essere espressi come somma tra: Dispense di econometria Pag. 37 n ∑(yi - y) 2 n = n 2 ∑ ( y i - y ) + ∑ eˆ 2i i=1 i=1 i=1 dove yi sono i valori osservati, y il valore medio, y i quelli stimati. La sommatoria degli errori o residui è definita dalla seguente notazione: n n i=1 i=1 ∑ê2i = ∑ ( y i - ŷ )2 Va ricordato che i valori suindicati debbono essere riferiti ad ogni valore di x. La notazione attraverso la quale si calcola la Devianza totale può essere espressa come segue: DT =DS + DR dove (DT) rappresenta la devianza totale; (DS) la devianza spiegata e (DR) la devianza residua. Coefficiente di determinazione Dalla relazione tra la devianza totale, spiegata e residua si può ricavare un importante indice statistico di adattamento della retta di regressione stimata ai dati e cioè il coefficiente di determinazione che è dato dalla seguente notazione: R2XY = DS DT - DR DR = = 1DT DT DT oppure: n n ∑(yˆ i - y)2 R2 XY = i=1 n ∑(yi - y)2 ∑eˆ 2i = 1- i=1 i=1 n ∑(yi - y)2 i=1 Tale rapporto indica il livello di variabilità dei valori della Y spiegati dalla variabile indipendente X. Nel Modello OLS il coefficiente di determinazione è legato a quello di correlazione dalla seguente notazione: R2XY = (ρXY )2 = ( dove ρ XY = ( σ XY 2 ) σ Xσ Y σ XY ) è il coefficiente di correlazione di Bravais-Pearson. σ Xσ Y Dispense di econometria Pag. 38 Stimatori puntuali dei coefficienti di regressione e relative proprietà. Gli stimatori dei coefficienti di regressione (o regressori) sono definiti con i simboli aˆ e bˆ e lo stimatore del valore atteso della variabile dipendente E(Yˆi )i varia al variare del campione osservato. Lo stimatore della varianza campionaria s 2 è dato dal rapporto della sommatoria degli errori e il numero di gradi di libertà degli stessi (n2). Le proprietà di questi stimatori sono riassunte nella Tabella seguente Proprieta’ Stimatori Correttezza o non distorsione (unbiased) aˆ e bˆ Se Ŷi Se E(Yˆi ) = aˆ + bˆ x i E(aˆ ) = a e E(bˆ ) = b n s2 ∑eˆ i Se s2 = 2 Efficienza Presentano la più bassa varianza Consistenza Quando al crescere della numerosità campionaria gli stimatori aˆ e bˆ convergono asintoticamente ai parametri della popolazione a e b i=1 n-2 Concetti di inferenza sul Modello. L‟inferenza sul modello di regressione lineare semplice riguarda lo studio della stima intervallare con il calcolo degli intervalli di confidenza e la verifica di ipotesi sui regressori. Nel modello inferenziale generale i problemi di inferenza assumono una grande importanza quando il ricercatore è interessato a stabilire se esiste una relazione lineare tra variabili nonché a verificare quanta dispersione o variabilità esiste tra le stesse e soprattutto la significatività statistica. La metodologia di riferimento è quella basata sull‟utilizzo di appositi test ed in particolare il test F e sull‟analisi della varianza attraverso l‟apposita tavola detta Anova (Analsys of Variance).Viene svolto uno studio attento sull‟inferenza della v.c. dipendente o risposta che, ai fini previsivi, riveste l‟importanza maggiore nel modello di regressione in quanto i valori che essa assume determinano l‟andamento futuro della relazione tra le due variabili studiate. Si riafferma il principio che ad ogni valore della variabile indipendente, ipotizzabile come deterministico, si associa un valore della v.c. risposta con un certo errore di previsione. Come detto sopra il modello di regressione viene utilizzato ai fini previsivi, ovvero esso risponde all‟esigenza di prevedere i valori singoli e medi della variabile risposta nonché della v.c. errore di previsione. E‟ altrettanto importante, infatti, l‟analisi inferenziale sulla v.c. errore di previsione come pure stabilire il relativo intervallo di confidenza ad un certo livello di significatività. Stimatori intervallari (Intervalli di confidenza) Per il calcolo dei regressori del modello si possono utilizzare più metodi. In questa sede se ne analizzano due: quello dei Minimi quadrati e quello di Massima Dispense di econometria Pag. 39 verosimiglianza che restituiscono gli stessi risultati. Le statistiche-test che si applicano si rifanno al primo metodo. Per il coefficiente angolare la notazione è: b - bˆ ~ tn-2 s (b) e per l‟intercetta è: a - aˆ ~ tn-2 s (a ) dove b è il “coefficiente angolare” (regressore 1) dei valori della y osservati per i valori di x; b̂ è il “coefficiente angolare” di un valore di y stimato per un valore di x e lo stesso dicasi per l‟”intercetta” (regressore 2); s(b) e s(a) sono gli Error Standard rispettivamente dei regressori 1 e 2. Le due statistiche-test si distribuiscono come una v.c. t di Student con n-2 gradi di libertà. Occorre stabilire le distribuzioni degli stimatori che per la Y assumono la notazione: Yi~N (ϭ2, (aˆ + bˆ xi ) e per il termine di errore quella: εi~N(0, ϭ2) per i=1, 2, 3,… n Per i due coefficienti di regressione (regressori) stimati confidenza sono dati dalla seguente notazione: â e b̂ gli intervalli di aˆ ± tα/2s(aˆ ) e bˆ ± tα/2s(bˆ ) “dove t α/2 indica quel valore critico per cui la probabilità di osservare valori della tStudent, con n-2 gradi di libertà, superiori o uguali a t α/2 , è pari a α/2”. Verifica di ipotesi Per la verifica d‟ipotesi dei coefficienti di regressione (regressori) stimati modello si imposta il seguente sistema di ipotesi degli stessi dato da: H0 : bˆ = d vs H1 : bˆ ≠ d â e b̂ del H0 : aˆ = c vs H1 : aˆ ≠ c dove c e d sono due valori positivi prefissati. La statistica-test per il coefficiente angolare b̂ è espressa dalla seguente notazione: t= bˆ - c s (bˆ ) e per l‟intercetta da: t= aˆ - d s(aˆ ) che si distribuiscono, sotto l‟ipotesi nulla, come una t di Student con n-2 gradi di libertà. Per c=d=0 il sistema di ipotesi diventa: H0 : bˆ = 0 vs H1 : bˆ ≠ 0 Dispense di econometria H0 : aˆ = 0 vs H1 : aˆ ≠ 0 Pag. 40 e pertanto la statistica-test per il coefficiente angolare diventa: t= bˆ s (bˆ ) e per l‟intercetta â : t= aˆ s (aˆ ) Analisi della varianza (o Anova). Test F L‟analisi della varianza (o Anova) si basa sul concetto di scomposizione della varianza totale che si esprime attraverso la seguente notazione: (DT)/n=(DS)/n+(DR)/n dove DT è la devianza totale; DS è la devianza spiegata e DR è la devianza residua ed n è il numero di osservazioni ; (DT)/n è la varianza totale; (DS)/n è la varianza spiegata e (DR)/n è la varianza residua. Ad ognuno di questi valori viene associato il relativo numero di gradi di libertà. Questo numero è dato dal totale delle osservazioni n meno il o i vincoli (o restrizioni) a cui le quantità devono sottostare. Per la varianza totale (DT)/n il numero di gradi di libertà è pari a n-1; per la varianza spiegata (DS)/n esso è pari a 1 e per la varianza residua (DR)/n pari a n-2. Infatti poiché DT/n=DS/n+DR/n i relativi gradi di libertà saranno (n-1)=1+(n-2). Questi valori si ottengono rispettando, appunto, la relazione di scomposizione sopradescritta. DT/n =DS/n + DR/n DT/n - DS/n = DR/n (n-1)=1+(n-2)=n-1 ►gradi di libertà ►gradi di libertà (n-1)- 1=(n-2) Se i valori di DT, DS e DR si rapportano con il numero di gradi di libertà, si ottiene la media dei quadrati definita dalle rispettive notazioni MDT, MDS e MDR ovvero: n MDT=DT/(n-1)= ∑(yi - y)2 /(n - 1) i=1 MDS=DS/1= n ∑(yˆ i -y)2 i=1 dove yi rappresentano i valori osservati, y quello medio e y i quello stimato. n MDR=DR/(n-2)= ∑ eˆ 2i /(n - 2) i=1 n n i=1 i=1 dove ∑ eˆ 2 i può essere esplicitata dalla notazione: ∑(yˆ -y) Dispense di econometria Pag. 41 Sulla base dei concetti esposti l‟analisi della varianza può essere riassunta nella seguente Tabella: Sorgente di variazione Somma dei quadrati Gradi di libertà Regressione DS (Devianza spiegata) DR(Devianza residua) DT(Devianza totale) 1 Media dei quadrati Test F (o di Fisher) MDS=DS/1 F = MDS/MDR n-2 n-1 MDR=DR/(n-2) MDT=DT/(n-1) Residuo Totale Nell‟analisi della varianza si prende in considerazione la statistica test F (o di Fisher) il cui valore esprime la misura per l‟accettazione (o non rifiuto) o il rifiuto (o non accettazione) dell‟ipotesi nulla: H0 : bˆ = 0. Più il valore della F è prossimo a 1 più si tende ad accettare (o a non rifiutare) l‟ipotesi di interesse H0 mentre qualora la statistica test F fosse molto più grande di 1, si tende a rifiutare (o non accettare) l‟ipotesi nulla H0 ed accettare ( o non rifiutare) l‟ipotesi alternativa: H1 : bˆ ≠ 0. Nel grafico seguente si può capire il significato del test F ai fini della bontà di adattamento del modello di regressione lineare semplice. Se la distanza tra il valore osservato y e quello stimato ŷ (y - ŷ ) fosse uguale alla distanza fra il valore stimato e quello medio y ( ŷ - y ), il test F sarebbe pari a 1, Dispense di econometria Pag. 42 descrivendo il miglior adattamento possibile del modello ai dati. Nel grafico, invece, la distanza tra il punto osservato y e quello stimato ŷ è molto più grande di quella tra il punto stimato e quello medio per cui il test F assume valori molto maggiori che tendono appunto a rifiutare l‟ipotesi nulla. Inferenza per la variabile dipendente media e per la previsione Precedentemente sono stati studiati gli intervalli di confidenza per i coefficienti di regressione o (regressori) â e b̂ del modello. Ora si analizzano a livello inferenziale previsivo gli intervalli di confidenza per il valore atteso della variabile dipendente media ad un livello di confidenza o fiducia pari a (1-α). Se si introduce l‟ipotesi 7) di normalità degli errori, si può affermare che lo stimatore della variabile casuale risposta ŷ i si distribuisce come una Normale il cui scarto standardizzo assume la notazione: yˆ i - E(yˆ i x i ) s (yˆ i ) che si distribuisce come una t di Student con n-2 gradi di libertà. L‟intervallo di confidenza per il valore atteso della ŷ i ad un livello di confidenza o fiducia (1-α) è dato dalla seguente notazione: yˆ i ± tα/2s(yˆ i ) E‟ importante, ora, svolgere lo studio del modello di regressione ai fini della previsione sia del valore medio della Yi ovvero , E(yˆ i xi ) , sia di un singolo valore della variabile dipendente yi. Nel primo caso occorre stimare il parametro rappresentato dal valore atteso della yi ovvero E(yˆ i xi ) , corrispondente alla relazione lineare della retta di regressione stimata aˆ + bˆ xi che presenterà un certo errore standard; nel secondo caso bisogna valutare i singoli valori di yi che presenteranno, invece, un errore standard maggiore di quello dello stimatore del valore atteso stesso E(yˆ i xi ) Gli scarti (o residui) eˆ i = yi - yˆ i rappresentano le realizzazioni della v.c. yi - Ŷi che si definiscono errori di previsione. L‟intervallo di confidenza per la previsione di un singolo valore Yi a un livello di confidenza o fiducia 1- α è espresso dalla seguente notazione: yˆ i ± tα/2s(yi - yˆ i ) Analisi dei residui Nelle analisi precedenti si è posto l‟accento sull‟importanza della corretta e rigorosa specificazione del modello di regressione nonché sul fatto che le ipotesi di base del modello stesso siano soddisfatte. A queste condizioni gli stimatori, ottenuti con il Dispense di econometria Pag. 43 0.5 0.0 -1.5 -1.0 -0.5 res$std.res 1.0 1.5 2.0 metodo dei minimi quadrati, possono essere utilizzati per stimare i parametri di interesse che mostrano evidenza statistica su quelli incogniti della popolazione. Qualora una o più ipotesi di base non sia soddisfatta, il modello non è ben specificato e il suo utilizzo presenta alcuni limiti. Esiste una tecnica metodologica che permette di analizzare le cause di una “bad specification” detta analisi dei residui. In particolare si studia l‟analisi grafica dei residui. Il Grafico seguente ottenuto con R ne rappresenta un esempio. 30 40 50 60 x Grafico dei residui dove si può osservare, anche solo visivamente, che i residui si dispongono intorno allo zero con valori positivi e negativi e che nel complesso si elidono, assegnando al modello stimato un buon grado di adattamento. I grafici seguenti aiutano a capire se l‟ipotesi di normalità dei residui è rispettata. lm(v1 ~ .) Normal Q-Q 15 0 -2 -1 0 500 20 1 2 20 Standardized residuals 15 -1000 Residuals 1500 Residuals vs Fitted -2000 14 14 1500 2500 3500 4500 -2 -1 0 1 2 Fitted values Theoretical Quantiles Scale-Location Residuals vs Leverage 0 -1 1.0 11 14 Cook's distance -3 0.5 1 2 15 -2 20 Standardized residuals 15 0.0 Standardized residuals 1.5 14 1500 2500 3500 Fitted values 4500 0.00 0.04 0.08 0.5 0.12 Leverage Ipotesi di base del Modello di Regressione lineare semplice (MRLS) Dispense di econometria Pag. 44 Si ricorda che le ipotesi di base sugli errori o residui sono quelle di: normalità, linearità, omoschedasticità o varianza costante, indipendenza. Viene svolta l‟analisi dei residui attraverso lo studio del grafico che li rappresenta e delle osservazioni anomale (dette outliers) delle quali è necessario analizzare attentamente il peso e l‟ incidenza sul modello. Normalità degli errori. Come detto precedentemente, si assume che le v.c. ε i si distribuiscano normalmente εi~N(0, ϭ2) per i=1, 2, 3,… n Nel modello specificato le osservazioni yi sono realizzazioni di v.c. Normali yi per grandi campioni con valore medio o atteso E(yˆ i ) = aˆ + bˆ x i e varianza ϭ2, la cui notazione in simboli è rappresentata da: yi~N [( aˆ + bˆ x i ) ; ϭ2] L‟assunzione dell‟ipotesi di Normalità degli errori si regge sul fatto che, come detto in precedenza, il modello tenta di stimare la variabile risposta per ogni valore della variabile esplicativa, ma quest‟ultima può essere influenzata nell‟analisi dei fenomeni economici e sociali da innumerevoli altri fattori. Per effetto del Teorema del limite centrale, la distribuzione del termine di errore tenderà ad una Normale all‟aumentare della numerosità campionaria. L‟ipotesi di normalità cui deve sottostare il modello, implica altre importanti considerazioni sugli stimatori dei regressori. Per verificare tale ipotesi si usa la metodologia dei residui standardizzati che prende in considerazione il rapporto tra i residui e l‟errore standard della regressione dato da: eˆ 2i std Se la Yi eˆ 2i s2 si distribuisce normalmente con varianza costante σ 2 e media aˆ + bˆ x i , i residui standardizzati tenderanno a distribuirsi secondo una Normale standardizzata N~ (0,1) al crescere della numerosità campionaria n. Si costruisce l‟istogramma dei residui standardizzati e si verifica se il diagramma presenta una forma vicina a quella della Normale. Per piccoli campioni i residui standardizzati si distribuiscono secondo una t di Student con n-2 gradi di libertà. Quattro grafici aiutano a capire se il modello sottostà all‟ipotesi di normalità: quello di regressione, l‟istogramma dei residui standardizzati, il grafico di dispersione dei residui standardizzati ed infine un grafico P-P (Normal Probability Plot). Quest‟ultimo mette a confronto le proporzioni cumulate per la v.c. errore standardizzato con il suo valore medio o atteso nel caso di un campione distribuito normalmente. Linearità La prima ipotesi che si analizza è quella di linearità. Dispense di econometria Pag. 45 Per verificare se la relazione funzionale fra la variabile dipendente e quella esplicativa è lineare si può, in prima approssimazione, osservare il grafico a dispersione e verificare se i punti osservati si dispongono o meno lungo una traiettoria più o meno lineare. Oppure si può studiare il grafico dei residui che offre la misura della variabilità dei dati osservati rispetto ad un valore 0. La distribuzione dei valori al di sopra o al di sotto del valore zero, come visto nel Grafico 22.7.1, mostra quanto il modello sottostà a tale ipotesi. E‟ importante svolgere una considerazione ulteriore all‟adattamento del modello lineare. Se si rilevasse un valore del rapporto di determinazione molto basso, ciò non significa che in assoluto non esiste una correlazione tra le due variabili osservate. Si può affermare soltanto che il modello di regressione non evidenzia un legame lineare, senza escludere che potrebbe esserci, invece, un legame non lineare tra le due variabili. Omoschedasticità (o di varianza costante) Se la varianza delle Yi è costante, l‟analisi del grafico dei residui mostra una distribuzione regolare dei valori intorno, sopra e sotto lo zero ovvero all‟aumentare dei valori della Yi disposti sull‟asse delle ascisse, la distanza dei valori sotto lo zero eguaglia la distanza di quelli sopra lo zero e viceversa. Nel caso di varianza non costante (eteroschedasticità), invece, la distanza dei residui positivi o negativi rispetto allo zero aumenta all‟aumentare dei valori della Yi e cioè si può osservare una distribuzione dei residui intorno allo zero detta “ad imbuto”. La presenza di eteroschedasticità nella relazione funzionale lineare fra due variabili (dipendente ed esplicativa) Y e X comporta che gli stimatori dei regressori ottenuti con il metodo dei minimi quadrati ordinari, pur rimanendo corretti (o non distorti), non sono più efficienti ovvero non hanno la più bassa varianza e quindi il loro uso può determinare risultati errati che inducono, soprattutto per quanto riguarda le procedure inferenziali previsive, ad errori. In questa situazione si devono utilizzare metodologie e tecniche diverse in quanto non valgono più i calcoli per la varianza e lo “standard error” degli stimatori come pure non valgono più gli intervalli di confidenza sui regressori trovati con il Metodo dei minimi quadrati (MMQ) e la relativa verifica d‟ipotesi. Si deve usare, quindi, un metodo diverso da quello dei Minimi Quadrati Ordinari ed applicare quello dei Minimi Quadrati Ponderati che prende in considerazione le osservazioni con minore varianza assegnandogli nell‟analisi inferenziale una maggiore importanza. Indipendenza degli errori Una considerazione particolare va fatta sull‟analisi della varianza di una relazione funzionale lineare fra due variabili (dipendente ed esplicativa) Y e X rispetto al momento in cui le osservazioni vengono rilevate. In questo caso entra in gioco il concetto di ”asse dei tempi” ovvero dello sviluppo temporale dell‟analisi dei residui. Dispense di econometria Pag. 46 Si può dire genericamente che gli errori (residui) ε i non sono indipendenti se la loro distribuzione assume uno sviluppo intorno allo zero ovvero, se nell‟istante 0 l‟errore (residuo) ε 0 assume un valore positivo, molto probabilmente nell‟istante 1 l‟errore ε 1 assumerà ugualmente un valore positivo. In questo caso si può affermare di essere in presenza di non indipendenza o autocorrelazione positiva, nel caso contrario si ha autocorrelazione negativa. In situazione di autocorrelazione si verificano gli stessi inconvenienti osservati per l‟eteroschedasticità (o varianza non costante) ovvero la relazione funzionale lineare fra due variabili (dipendente ed esplicativa) Y e X comporta che gli stimatori dei regressori, ottenuti con il metodo dei minimi quadrati ordinari, pur rimanendo corretti (o non distorti), non sono più efficienti ovvero non hanno la più bassa varianza e quindi il loro uso può determinare risultati errati che inducono, soprattutto per quanto riguarda le procedure inferenziali previsive, ad errori. Anche in questo caso per calcolare gli stimatori si devono utilizzare metodologie e tecniche diverse in quanto non valgono più i calcoli per la varianza e lo “standard error” degli stimatori come pure non valgono più gli intervalli di confidenza trovati con il MMQO (Metodo dei Minimi Quadrati Ordinari) e la relativa verifica d‟ipotesi. Valori anomali e metodi di individuazione Nell‟analisi delle osservazioni della relazione lineare fra la viabile dipendente e la variabile esplicativa Y e X si osservano n realizzazioni x i e y i ; tra esse si può verificare che alcune sono del tutto diverse e si dispongono sul piano cartesiano in modo anomalo ovvero molto distanti dal trend relativo alla maggior parte delle osservazioni. In questo caso siamo in presenza di valori anomali (o outliers) che evidenziano una relazione diversa tra la variabile dipendente (o risposta) e quella indipendente o esplicativa. L‟analisi del modello di regressione è condizionato da questi valori che inducono ad una stima dei coefficienti di regressione (o regressori) ovviamente errata con conseguenze sia di natura inferenziale descrittiva che previsiva. Infatti il valore di intercetta, se presente nella relazione, e quello del coefficiente della retta dei minimi quadrati stimata saranno condizionati da queste realizzazioni anomale. Si procede, anche in questo caso, all‟analisi del grafico dei residui standardizzati e del grafico di normalità P-P (Normal Probability Plot) attraverso i quali si individuano i valori anomali che inducono alla conclusione che il modello di regressione lineare rappresenta in modo non corretto la relazione funzionale tra la Y e la X. Svolta l‟analisi inferenziale che deve cercare di comprendere le ragioni dell‟anomalia, si escludono i valori anomali supponendo che tali osservazioni non incidono sulla bontà dell‟adattamento dei valori stimati rispetto a quelli osservati. Dispense di econometria Pag. 47 Considerazioni finali Si vogliono svolgere alcune considerazioni sul modello di regressione lineare in quanto la sua validità dipende da una serie di fattori che devono essere sempre tenuti presenti per non incorrere in valutazioni errate. E‟ importante essere cauti quando si vuole utilizzare il modello al di fuori del “range” dei valori osservati, come pure è importante che la stima dell‟intercetta per X=0 sia fatta solo se è stato osservato un numero elevato di valori della X intorno allo 0. Un‟altra cautela è rappresentata dalla generalizzazione dei risultati che il modello di regressione lineare restituisce; essa è possibile solo se la relazione funzionale tra la Y e la X rimane la stessa di quella dei dati osservati. Nell‟introdurre questo argomento si è fatta menzione al concetto di causa-effetto tra la Y e la X. E‟ opportuno tenere sempre presente che tale concetto non vale in assoluto nel modello regressivo, infatti non è detto che, se cambia una variabile, necessariamente vari anche l‟altra a causa di un legame diretto tra le due. Sulla base delle considerazioni svolte sopra si vogliono enfatizzare due concetti già richiamati: il primo riguarda la cautela con cui debbono essere presi i risultati del modello e il secondo attiene al fatto che si deve indagare a fondo sulla relazione tra le due variabili senza limitarsi al solo studio di quella lineare. Può esistere, anche, il problema dell‟omissione di altre variabili che possono influenzare la relazione tra la X e la Y. Questo sarà il problema che verrà esaminato successivamente dove viene studiato, anche se in sintesi, il modello di regressione multipla. LABORATORIO STUDIO GUIDATO Nel Laboratorio Studio guidato vengono riportati gli script per svolgere le stesse applicazioni svolte manualmente relativi alla parte teorica trattata. ESERCITAZIONE EMPIRICA 4. (SUL MODELLO DI REGRESSIONE LINEARE SEMPLICE CON SOLUZIONE MANUALE) L‟ Amministratore Delegato della Alpha SpA vuole conoscere la relazione intercorsa tra i ricavi e il numero dei dipendenti nel periodo 2006-2010. Egli Dispense di econometria Pag. 48 incarica il Dott. Rossi di svolgere un‟analisi appropriata da cui emerge che le coppie di dati osservati tra la variabile dipendente (Y) Ricavi di vendita (KEuro) e la variabile indipendente (X) (Numero di addetti) sono: (0-4;250-10;255-11;36514;485-18;592-25). Il Dott. Rossi ha il compito di stimare i parametri (regressori) della retta di regressione semplice ovvero l‟intercetta â e il coefficiente angolare b̂ PASSO PRIMO Per prima cosa egli richiama un concetto molto importante ed utile ai fini della comprensione dei contenuti della regressione lineare semplice ovvero quello dello spostamento del baricentro degli assi cartesiani sulle medie delle due variabili Rappresentazione grafica dei regressori (Y) Numero dipendenti Valore osservato Y=25 Valore stimato Y retta stimata centroide o baricentro yi o stesso coefficiente angolare M(Y)=13,67 Valore medio Y Intercetta (a) coefficiente angolare (b) 0 250 255 365 485 592 (X) Ricavi di vendita M(X)= 324,5 PASSO SECONDO Il Grafico evidenzia chiaramente che le medie della X (0+250+255+365+485+592)/6=324,5 e della Y è (4+10+11+14+18+25)/6=13,6666 costituiscono una coppia di punti sugli assi cartesiani che giacciono sulla retta di regressione e traslano in avanti il baricentro o centroide della stessa senza modificare la relazione tra le due variabili PASSO TERZO Egli ritiene che è particolarmente importante rappresentare graficamente le distanze proiettate ortogonalmente sull‟asse delle ordinate per un dato valore di x e, precisamente, la distanza tra il valore osservato ed il valore medio (devianza totale DT), la distanza fra il valore osservato e quello stimato (devianza residua DR) e quella tra il valore stimato e quello medio (devianza spiegata DS). Nel Grafico seguente si evidenziano appunto le differenze fra i valori osservati, medi e stimati. Dispense di econometria Pag. 49 PASSO QUARTO Dal Grafico evince chiaramente che le distanze dal valore osservato al valore medio possono essere scomposte in due parti: la prima data dalla differenza tra il valore osservato e quello stimato, detta anche residuo, la seconda dalla differenza del valore stimato e quello medio, detta anche spiegata che può essere espressa dalla seguente notazione: (yi - y )=( yi - ŷ )+( ŷ - y ) PASSO QUINTO Costruisce la Tabella seguente propedeutica attraverso la quale rappresenta i calcoli della covarianza Cov(X,Y) e della varianza della X (variabile indipendente o esplicativa) x 0 250 255 365 485 592 y 4 10 11 14 18 25 (x-xmedia) 0-324,5= -324,5 250-324,5= -74,5 255-324,5= -69,5 365-324,5= 40,5 485-324,5= 160,5 592-324,5= 267,5 (y-ymedia) 4-13,67= -9,67 10-13,67=-3,67 11-13,67=-2,67 14-13,67= 0,33 18-13,67= 4,33 25-13,67=11,33 (x-xmedia)*(y-ymedia) 3137,915 273,415 185,565 13,365 694,965 3030,775 7336,000 (x-xmedia)2 105300,25 5550,25 4830,25 1640,25 25760,25 71556,25 214637,50 Fonte: Dati simulati PASSO SESTO Calcola i valori del coefficiente angolare b̂ dato da: Dispense di econometria Pag. 50 b̂ = Cov (x,y)/ Var(x)=7336/214637,5 =0,03417 e l‟intercetta: aˆ = y - bˆ x Sostituendo avrà: a= ymedia – b*xmedia = 13,6666 – 0,03417*324,5 =13,67-11,0881 =2,5785 L‟equazione della retta stimata è data dalla seguente notazione: yˆ i = aˆ + bˆ x i = 2,5785 + 0,03417 xi PASSO SETTIMO Egli rappresenta, con l‟ausilio di R, il Grafico a dispersione relativo ai dati osservati con sovrapposta la retta stimata. 500 450 350 400 Spese totale mensile 550 600 Grafico retta stimata 700 800 900 1000 Spesa per consumi alimentari mensile ESERCITAZIONE EMPIRICA 5. SULL’INFERENZA DEL MODELLO DI REGRESSIONE LINEARE SEMPLICE CON SOLUZIONE MANUALE Il Responsabile di Marketing della Beta SpA vuole elaborare il modello di regressione lineare semplice tra la variabile spesa totale mensile e spesa per consumi alimentari mensile in un campione di 7 famiglie e successivamente intende svolgere un‟analisi inferenziale calcolando l‟intervallo di confidenza per i regressori e la verifica di ipotesi sugli stessi ad un livello di significatività del 5%. PASSO PRIMO. Egli predispone la Tabella dei dati seguente ottenuti da una rilevazione campionaria su sette famiglie: y 315,44 Dispense di econometria x 687,34 Pag. 51 382,12 404,21 455,98 497,13 521,67 634,78 702,89 785,89 867,12 899,76 945,78 1067,34 Fonte: Dati simulati PASSO SECONDO. Predispone la seguente Tabella propedeutica per il calcolo del coefficiente angolare b̂ e l‟intercetta â : x 687,34 702,89 785,89 867,12 899,76 945,78 1067,34 Totale Media(x) Media(y) y 315,44 382,12 404,21 455,98 497,13 521,67 634,78 (x-xmedia) -163,5343 -147,9843 -64,9843 16,2457 48,8857 94,9057 216,4657 (y-ymedia) 4-13,67= -9,67 10-13,67=-3,67 11-13,67=-2,67 14-13,67= 0,33 18-13,67= 4,33 25-13,67=11,33 (x-xmedia)*(y-ymedia) 23437,9674 11341,7271 3544,9856 -45,1863 1875,6750 5970,3829 38101,9858 84227,5376 2 (x-xmedia) 26743,4626 21899,3488 4222,9574 263,9232 2389,8131 9007,0946 46857,4055 111384,0052 850,8743 458,7614 e li calcola applicando le formule normali espresse dalle seguenti notazioni: aˆ = y - bx 458,7614 - 0,756191 * 850,8743 -184,6621 n σ bˆ = 2XY σ X ∑(xi - x)(yi - y) i=1 n ∑(xi - x)2 84227,5376 0,756191 111384,0052 i=1 PASSO TERZO. Egli presenta l‟output di riepilogo della Regressione nella Tabella seguente ottenuto con il software R che conferma i risultati ottenuti con svolgimento manuale relativi ai valori dei regressori stimati. Call: lm(formula = y ~ x) Residuals: 1 2 3 4 5 6 7 -19.658 35.263 -5.411 -15.066 1.402 -8.858 12.329 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -184.66171 53.05399 -3.481 0.0176 * x 0.75619 0.06168 12.260 6.39e-05 *** Dispense di econometria Pag. 52 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 20.58 on 5 degrees of freedom Multiple R-squared: 0.9678, Adjusted R-squared: 0.9614 F-statistic: 150.3 on 1 and 5 DF, p-value: 6.388e-05 PASSO QUARTO. Il calcolo del coefficiente angolare può essere svolto utilizzando la formula operativa seguente n n n n ∑x i y i - ∑x i - ∑y i σ XY i=1 i=1 = 7 * 2816665.572 - 5956,12 - 3211,33 = 0,75966 bˆ = oppure bˆ = i=1n 2 2 n σ X 7 * 5179292,68 - (3211,33)2 n ∑x i - ( ∑x i )2 i=1 i=1 e quindi si calcola l‟intercetta: aˆ = Yi - bˆ Xi = 458,76- 0,75966302 x 850,87= -187,61 Si può notare che i risultati presentano qualche differenza, sebbene lieve, rispetto al calcolo precedente da cui si desume che l’algoritmo sottostante al software R riprende la formula normale. PASSO QUINTO. A questo punto imposta la Tabella propedeutica per calcolare l‟errore standard della regressione, dell‟intercetta e del coefficiente angolare nonché l‟ANOVA e la statistica-test F di Fisher con il relativi p-value: Realizzazioni della y Realizzazioni della x yi xi 315,44 687,34 687,342 = 472436,2756 382,12 702,89 702,892= 494054,3521 404,21 785,89 455,98 867,12 497,13 899,76 521,67 945,78 634,78 1067,34 3211,33 5956,12 Media (y)= 458,7614 Devianza delle x xi 2 785,892= 617623,0921 867,122= 751897,0944 899,762= 809568,0576 945,782= 894499,8084 1067,342= 1139214,676 Dispense di econometria 5179292,68 (x - x)2 (687,34-850, 8743)2 (702,89-850, 8743)2 Valori y media Valori y stimati yˆ i = aˆ + bˆ x i -184,662 + 0.756191 * x -184,662+0.756191*687,34=335,0983 y 458,7614 458,7614 -184,662+0.756191*702,89=346,8571 (785,89-850, 8743)2 -184,662+0.756191*785,89=409,6209 458,7614 (867,12-850, 8743)2 -184,662+0.756191*867,12=471,0463 458,7614 (899,76-850, 8743)2 -184,662+0.756191*899,76=495,7283 458,7614 (945,78-850, 8743)2 -184,662+0.756191*945,78=530,5282 458,7614 (1067,34-850, 8743)2 -184,662+0.756191*1067,34=622,4508 458,7614 111384,0052 Pag. 53 Media (x)= 850,8743 Devianza residua Devianza spiegata 2 (y i - yˆ ) (yˆ i - y ) (315,44-458,7614)2=20541,0237 (315,44-335,0983) 2=386,4488 (335,0983-458,7614) 2=15292,5623 (382,12-458,7614)2=5873,9042 (382,12-346,8571) 2=1243,4721 (346,8571-458,7614) 2=12522,5724 (404,21-458,7614)2=2975,8552 (404,21-409,6209) 2=29,2778 (409,6209-458,7614) 2=2414,7887 (455,98-458,7614)2=7,7362 (455,98-471,0463) 2=226,9934 (471,0463-458,7614) 2=150,9188 (497,13-458,7614)2=1472,1495 (497,13-495,7283) 2=1,9648 (495,7283-458,7614) 2=1366,5517 (521,67-458,7614)2=3957,4919 (521,67-530,5282) 2=78,4677 (530,5282-458,7614) 2=5150,4736 (634,78-458,7614)2=30982,5476 (634,78-622,4508) 2=152,0092 (622,4508-458,7614) 2=26794,2197 65810,7083 2118,6338 63692,0872 Devianza totale delle y (y i - y ) 2 2 PASSO SESTO. Dalla Tabella emerge che la DT=DS+DR=> 65811=2119+63692 (valori arrotondati) e quindi è verificata la teoria. Inoltre che MDS=DS/1=63692/1=63692; MDR= DR/5=2119/5=424. La statistica-test F di Fisher è data da MDS/MDR=63692/424=150,31. La probabilità della F empirica risulta pari a 0,00006388 (6.388e-05) PASSO SETTIMO. Si può constatare che i risultati relativi all‟analisi della varianza (ANOVA) ottenuti manualmente coincidono perfettamente con quelli che il software R ci restituisce come si potrà vedere nel Laboratorio con software R. Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value x 1 63692 63692 150.31 Residuals 5 2119 424 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Pr(>F) 6.388e-05 *** PASSO OTTAVO. Ora calcola l‟error standard degli errori della regressione: error standard(MSE) = Dispense di econometria n ∑(y i - yˆ i )2 = n - 2 i=1 1 1 7-2 * 2118,6338 = 20,5846 Pag. 54 e successivamente l‟error standard dell‟intercetta â come segue: n ∑x i ( i=1 )2 1 error standard dell'intercetta = error std(regr) * + n 2= 7 (x i - x) 5956,12 2 ) 7 20,59* + 7 111384,0052 1 ( = 20,5846* 1 7 + (850,8743)2 111384,0052 = 53,0539 e del coefficiente angolare b̂ come segue: err std del coeff. angolare= error std(regr) / (x i - x)2 20,5846 20,5846 = = 0,06168 111384,0052 333,7424 PASSO NONO. Il Responsabile può calcolare, ora, l‟intervallo di confidenza per i due regressori ad un livello di significatività α=0,05. Egli sa che la v.c. error standard si distribuisce come una “t di Student” con n-2 gradi di libertà (7-2=5) e pertanto il t-critico, risultante dalle Tavole, è pari a 2,571 in quanto la distribuzione e il relativo test è bilatero con α/2=0,025. Per l‟intercetta â si avrà: -184,662-(2,570582*53,0539) ≤ a≤ -184,662+ (2,570582*53,0539) sostituendo si avrà: IC => [-321,041 ; -48,282] Per il coefficiente di correlazione o angolare b̂ si avrà: 0,75619-(2,570582*0,06168) ≤ b≤ 0,75619+ (2,570582*0,06168) sostituendo si avrà: IC =>[0,5976 ; 0,9147] PASSO DECIMO. Risultano confermati i risultati che il software restituisce con quelli calcolati manualmente. 2.5 % 97.5 % (Intercept) -321.04132 -48.28210 x 0.59764 0.91474 Dispense di econometria Pag. 55 PASSO UNDICESIMO. Egli vuole, infine, svolgere un‟analisi sulla verifica di ipotesi sui regressori stimati â e b̂ del modello di regressione. Specifica il sistema di ipotesi per entrambi i regressori come segue: H0 : bˆ = 0 vs H1 : bˆ ≠ 0 H0 : aˆ = 0 vs H1 : aˆ ≠ 0 La statistica-test per il coefficiente angolare è data dalla notazione seguente: t 0,75619 - 0 12,26 0,06168 La statistica-test per l‟intercetta è data dalla notazione seguente: t - 184,6621 - 0 -3,481 53,0539 I valori delle statistiche-test t di Student per i due regressori ottenuti manualmente confermano quelli che il software R ci restituisce. Entrambe si distribuiscono, sotto l‟ipotesi nulla, come una t di Student con n-2 gradi di libertà e quindi dalle Tavole oppure utilizzando il codice di R si evince che la probabilità della t empirica per un livello di significatività di 0,05 è pari a 0,00006388 per il coefficiente angolare e 0,0176 per l‟intercetta. PASSO DODICESIMO. Si vuole ora individuare il significato dei valori riportati nell‟output di R. E‟ opportuno premettere che i gradi di libertà sono 1, 5 e 6; poiché i regressori sono due si avrà k-1= (2-1)=1 per la regressione; poiché le osservazioni sono 7 e i regressori 2 si avrà N-k=7-2=5 per il residuo; per il totale N-1=(7-1)=6 che è anche uguale alla somma dei gradi di libertà per la regressione e per il residuo 1+5=6. In alto (Call) viene riportato il codice R per una Regressione lineare semplice di y su x. Sotto (Residuals) si trovano i valori dei Residui. Sotto ancora si trova la tabella dei Coefficienti (Coefficients) con i valori stimati dei parametri della Regressione (Intercetta e coefficiente angolare) seguito da quelli dei rispettivi error standard (Std.Error), della statistica-test t di Student (t value) e dal pvalue(Pr(>|t|). Sotto ancora si trovano gli asterischi che indicano il livello di significatività (Signif. Codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1) in ordine allo 0%, 1%, 5%, 10% e 100%. Sotto ancora si trova il valore dello standard error dei residui con i relative gradi di libertà (Residual standard error: 20.58 on 5 degrees of freedom), i valori del coefficiente di determinazione semplice e aggiustato (Multiple R-squared: 0.9678, Adjusted R-squared: 0.9614) ed infine nell‟ultima riga si trova il valore della statistica-test F di Fisher con i relativi gradi di libertà al numeratore e al denominatore con la relativa probabilità (F-statistic: 150.3 on 1 and 5 DF, pvalue: 6.388e-05) Dispense di econometria Pag. 56 Nel nostro esempio, posto α=0.01, si rifiuta H0 e si conclude che 10 miglia orarie in più di velocità determinano in media un aumento (poiché il segno del valore stimato di Beta è positivo). Nel Grafico seguente viene mostrata la distribuzione t di Student per un test bilatero al livello di confidenza del 95% con 5 gradi di libertà riferito ai dati della Regressione sopra utilizzati per dimostrare che si può assumere la relativa regola di decisione avendo contezza del valore della t empirica che cade nella regione di rifiuto per entrambi i regressori. Dal Grafico emerge chiaramente che i valori della t empirica si collocano per entrambi i regressori nelle regioni di rifiuto. Allo stesso risultato si perviene utilizzando la tecnica del p-value. Stabilito a priori dal ricercatore un livello di significatività del 5% e fissato il sistema di ipotesi per i parametri della regressione H0 : bˆ = 0 vs H1 : bˆ ≠ 0 H0 : aˆ = 0 vs H1 : aˆ ≠ 0 si mette a confronto il livello di significatività α/2 (pari a 0,05/2=0,025 in quanto il test è bilatero o a due code) con il valore del p-value (Pr(>|t|) che risulta essere 0.0176 per l‟intercetta e 6.39e-05 per il coefficiente angolare. Si può notare che entrambi sono minori di 0,025 e quindi si rifiuta l‟ipotesi nulla affermando che esiste una relazione lineare tra la spesa totale mensile e la spesa per consumi alimentari mensile. Dispense di econometria Pag. 57 La significatività statistica del Modello è provata dalla statistica-test F di Fisher. Stabilito a priori un livello di significatività alfa al 5% si prendono in considerazione la F empirica, pari in questo caso a 150.3 con 1 and 5 g.d.l. rispettivamente al numeratore e al denominatore e la F critica che per alfa=o.o5 è pari a 2,45. Si conclude pertanto che il Modello spiega bene i dati da un punto di vista statistico. LABORATORIO CON SOFTWARE R Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse applicazioni svolte manualmente relativi alla parte teorica trattata. ESERCITAZIONE EMPIRICA CON R L‟Applicazione svolta manualmente nel laboratorio studio guidato è ripresa integralmente nel laboratorio con il software R. Di seguito si riporta il relativo codice: library(labstatR) y<-c(315.44, 382.12, 404.21, 455.98, 497.13, 521.67, 634.78) # Dati di input della variabile Spesa per consumi alimentari mensile x<-c(687.34, 702.89, 785.89, 867.12, 899.76, 945.78, 1067.34) # Dati di input della variabile Spese totale mensile n <- 7 # Numero osservazioni modello <- lm(formula = y ~ x) summary(modello) #Restituisce l'output della Regressione par(bg="cornsilk") plot(x,y,xlab="Spesa per consumi alimentari mensile ", ylab=" Spese totale mensile ",main="Grafico retta stimata") abline(modello,col="red") #Grafico a dispersione con la sovrapposizione della retta stimata# round(confint(object = modello, parm = c(1, 2), level = 0.95), digits = 5) # Intervallo di confidenza per i regressori al livello di significatività del 5% per un test bilatero round(confint(object = modello, parm = c(1, 2), level = 0.99), digits = 5) # Intervallo di confidenza per i regressori al livello di significatività del 1% per un test bilatero anova(object = modello) # Restituisce i valori della devianza spiegata, residua, i gradi di libertà e la statistica F con il relativo p-value qqnorm (residuals(modello),main="Normalità degli errori", ylab="Residui", xlab="Quantili") qqline (residuals(modello),col="red") # Restituisce il grafico dei residui con sovrapposta la retta stimata p<-1-pt(q=12.260 ,df=5);p p*2 # Valore della probabilità della t empirica per l'intercetta p<-pt(q=-3.481 ,df=5);p p*2 # Valore della probabilità della t empirica per il coefficiente angolare qt(p=0.01763981/2,5) # Valore del quantile empirico della statistica-test t di Student per l’intercetta qt(p=6.38825e-05/2,5) # Valore del quantile empirico della statistica-test t di Student per il coefficiente angolare qt(p=0.025,5) # Valore del quantile critico della statistica-test t di Student curve(dt(x, 5), -4, 4, ylab="Densità") # Grafico della funzione di densità della t di Student per 5 gradi di libertà 1-pf(150.3, 1, 5) # Valore della probabilità della F empirica Dispense di econometria Pag. 58 qf(1-6.39e-05,1, 5) qf(1-0.05,1, 5) curve(df(x, 1, 5),0,155) numeratore e 5 gradi di libertà al denominatore # Valore del quantile empirico della F di Fisher # Valore del quantile critico della F di Fisher # Grafico della funzione di densità della F di Fisher per 1 grado di libertà al Si riportano di seguito una serie di output parziali di R suddivisi in vari Passi, PASSO PRIMO. Si mandano in esecuzione le prime sei righe di codice e si ottiene l‟output della regressione: Call: lm(formula = y ~ x) Residuals: 1 2 3 4 5 6 7 -19.658 35.263 -5.411 -15.066 1.402 -8.858 12.329 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -184.66171 53.05399 -3.481 0.0176 * x 0.75619 0.06168 12.260 6.39e-05 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 20.58 on 5 degrees of freedom Multiple R-squared: 0.9678, Adjusted R-squared: 0.9614 F-statistic: 150.3 on 1 and 5 DF, p-value: 6.388e-05 PASSO SECONDO. Si mandano in esecuzione le righe di codice dalla 7 alla 10 e si ottiene il grafico a dispersione con sovrapposta la retta stimata: 500 450 350 400 Spese totale mensile 550 600 Grafico retta stimata 700 800 900 1000 Spesa per consumi alimentari mensile PASSO TERZO. Si mandano in esecuzione le righe di codice dalla 11 alla 12 e si ottengono gli intervalli di confidenza per i regressori al livello di significatività rispettivamente del 5% e dell‟1%: 2.5 % 97.5 % (Intercept) -321.04132 -48.28210 x 0.59764 0.91474 0.5 % 99.5 % (Intercept) -398.5830 29.25955 x 0.5075 1.00489 Dispense di econometria Pag. 59 PASSO QUARTO. Si manda in esecuzione la riga di codice 13 e si ottiene l‟Analisi della Varianza (ANOVA) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 63692 63692 150.31 6.388e-05 *** Residuals 5 2119 424 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 PASSO QUINTO. Si mandano in esecuzione le righe di codice dalla 14 alla 15 e si ottiene il grafico dei residui con sovrapposta la retta stimata: 10 -20 -10 0 Residui 20 30 Normalità degli errori -1.0 -0.5 0.0 0.5 1.0 Quantili PASSO SESTO. Si spiegano i risultati dell‟output della regressione iniziando da valore del t value (ovvero la statistica-test t di Student con n-2 gradi di libertà) per l‟intercetta che si ottiene: -184,66171/53,05399=-3,481 (ovvero il rapporto fra il valore stimato dell‟intercetta e il suo error standard); lo stesso dicasi per il coefficiente angolare che si ottiene: 0,75619/0,06168=12,260 (ovvero il rapporto fra il valore stimato del coefficiente angolare e il suo error standard). Per quanto riguarda il valore del P(<|t|) ovvero la probabilità della t empirica si calcola la probabilità mandando in esecuzione le righe dalla 16 alla 19 ottenendo i relativi valori. [1] 6.38825e-05 > p<-pt(q=-3.481 ,df=5);p [1] 0.008819907 > p*2 [1] 0.01763981 PASSO SETTIMO. Si può effettuare l‟operazione inversa ovvero dalla probabilità al quantile. In questo caso occorre fare attenzione. Il software R restituisce un valore di p-value complessivo delle due code della t di Studente (ad esempio per un test a due code al livello di significatività del 5% 0,025*2=0,05). Per calcolare il quantile occorre dividere per due il valore della P(<|t|) dell‟intercetta e del coefficiente Dispense di econometria Pag. 60 angolare. Lo stesso dicasi per il quantile della t di Student critica. Mandando in esecuzione le linee di codice dalla 20 alla 22 si ottiene: > qt(p=0.01763981/2,5) [1] -3.481 > qt(p=6.38825e-05/2,5) [1] -12.26 qt(p=0.025,5) [1] -2.570582 0.2 0.0 0.1 Densità 0.3 PASSO OTTAVO. A questo punto si può rappresentare il grafico della v.c. t di Student con 5 gradi di libertà dove vengono individuati i quantili e le regioni di rifiuto ed accettazione per un test bilatero. Si manda in esecuzione la linea di codice 23 e si ottiene: -4 -2 0 2 4 x Riportando sull‟asse delle ascisse i quantili critici (-2,57 a sx e +2,57 a dx) automaticamente si individuano le regioni di accettazione e di rifiuto. Riportando quelli empirici -3.481 e -12.26 si può scegliere la regola di decisione se accettare o meno l‟ipotesi nulla in un sistema di ipotesi per un test bilatero (dominio-∞.+∞) . PASSO NONO. Per quanto riguarda i valori del Residual standard error: 20.58 on 5 degrees of freedom, del Multiple R-squared: 0.9678, del Adjusted R-squared e della F-statistic si rimanda ai calcoli riportati nel Laboratorio studio guidato. PASSO DECIMO. Da ultimo si vuole spiegare il valore del p-value della F-statistic (ovvero la probabilità della statistica test F di Fiher empirica). Mandando in esecuzione le riga di codice 24 si ottiene: > 1-pf(150.3, 1, 5) [1] 6.389035e-05 PASSO UNDICESIMO. Si può effettuare l‟operazione inversa ovvero dalla probabilità al quantile sia per la F empirica che per la F critica. Si mandano in esecuzione le linee di codice 25 e 26 e si ottiene: qf(1-6.39e-05,1, 5) [1] 150.2907 > qf(1-0.05,1, 5) Dispense di econometria Pag. 61 [1] 6.607891 0.08 0.06 0.00 0.02 0.04 df(x, 1, 5) 0.10 0.12 0.14 PASSO DODICESIMO. A questo punto si può rappresentare il grafico della v.c. F di Fisher con 1 e 5 gradi di libertà rispettivamente al numeratore e al denominatore dove vengono individuati i quantili e le regioni di rifiuto ed accettazione per un test unilatero dx. Si manda in esecuzione la linea di codice 27 e si ottiene: 0 50 100 150 x Riportando sull‟asse delle ascisse il quantile critico 0 6.607891 automaticamente si individuano le regioni di accettazione e di rifiuto. Riportando quello empirico 150.2907si può scegliere la regola di decisione se accettare o meno l‟ipotesi nulla in un sistema di ipotesi per un test unilatero dx (dominio o, +∞). Modello di Regressione lineare multipla o a più regressori . Nella specificazione del Modello la prima assunzione che può venir meno è quella relativa alle eventuali variabili omesse o introduzione di nuove variabili esplicative funzionali alla spiegazione della variabile dipendente. A tale scopo si studia il Modello di Regressione multipla (o con più regressori) che tiene conto di più variabili esplicative. La notazione generalizzata che lo esplicita è la seguente: dove Yi = 0 + 1 X1i +2 X2i + . . . k Xki +i 0 = intercetta 1 = coeff. ang (o pendenza) di Y rispetto alla variabile X1 tenendo costanti le variabili X2,…. Xk 2 = coeff. ang (o pendenza) di Y rispetto alla variabile X2 tenendo costanti le variabili X1, . . . , Xk Dispense di econometria Pag. 62 k = coeff. ang (o pendenza) di Y rispetto alla variabile Xk tenendo costanti le variabili X1, X2, , . . Xk-1. i = vettore degli errori Yi= vettore dei valori osservati Si osservino 6 realizzazioni (i=1 a 6) e si assuma che il Modello abbia due variabili esplicative; l‟equazione del Modello può essere scritta come segue: Y1 =0+1 X11 +2 X21+1 Y2 =0+1 X12 +2 X22+2 Y3 =0+1 X13 +2 X23+3 Y4 =0+1 X14 +2 X24+4 Y5 =0+1 X15 +2 X25+5 Y6 =0+1 X16 +2 X26+6 In forma matriciale o vettoriale o compatta l‟espressione diventa: Y=X+ dove Y è il vettore delle osservazioni della variabile dipendente; e sono rispettivamente i vettori dei parametri e degli errori della regressione relativi alla popolazione e X la matrice delle osservazioni delle variabili indipendenti. I coefficienti di regressione campionari (b0 ,b1 e b2 )vengono usati come stimatori dei corrispondenti parametri della popolazione (0, 1 e 2). L„espressione campionaria dell‟equazione di un modello di regressione multipla con due variabili esplicative ha la forma seguente. Y=b0+ b1 X1i + b X2i+i L‟equivalente notazione si può esprimere in forma matriciale (o compatta) come segue: Y=bX+ Soprassedendo alla dimostrazione matematica il vettore dei parametri del Modello è dato dalla seguente notazione: 1 bˆ =(X' X) X' y dove la matrice X ha dimensioni (6x3); la prima colonna sarà formata da tutti 1 necessaria per il calcolo dell‟ordinata all‟origine (intercetta); X’ la matrice trasposta (3x6); y è il vettore dei valori osservati della variabile dipendente. Di seguito si riporta la formula del coeffciente di determinazione per una regressione lineare multipla: Dispense di econometria Pag. 63 Per passare dal coefficiente di determinazione a quello aggiustato si applica la seguente notazione: R 2 = 1 n 1 2 1 R n k 1 in cui n sono il numero di osservazioni e k il numero delle variabili indipendenti della regressione campionaria stimata Verifica di ipotesi sui parametri del Modello di Regressione lineare multipla. In primo luogo si verifica l‟ipotesi di indipendenza lineare della variabile dipendente Y dai k regressori ovvero l‟ipotesi di significatività del Modello espressa dalla seguente notazione: H0: β1 =β2=…….= βk =0 vs H1: β1 = ≠β2 ……..≠βk ≠0 La Statistica test che verifica la significatività statistica del Modello è la F di Fisher espressa dalla seguente notazione: F= s2regr s2residua Dregr (Y)/k Dresidua (Y)/n k 1 F k,(n k 1) dove F è il valore della statistica-test empirica e F(k,n-k-1) è quella critica. Stabilito a priori un livello di significatività pari ad alfa il test è significativo se F> F(k,n-k-1) e quindi si rifiuta l‟ipotesi nulla allo stesso livello alfa. Dato che Dregr (Y)= R2 *D(Y) e Dresidua (Y)= (1-R2)*D(Y) la F può essere espressa dalla seguente notazione: F= 2 R /k 2 (1 - R )/n k 1 In secondo luogo si verifica l‟ipotesi di indipendenza lineare della variabile dipendente Y da Xw (restando costanti gli altri k-1 regressori) H0: βw=0 vs H1: βw ≠0 Dispense di econometria Pag. 64 Tenuto conto che il vettore dei parametri b si distribuisce secondo una Normale multivariata (in simboli [b~NMULT (β,σ2(X’X)-1] ) e preso un qualsiasi elemento del vettore, ad esempio bw , questo si distribuisce secondo una Normale standardizzata: bw 2 ~NMULT (β,σ dww] dove dww è il w-esimo elemento della diagonale principale della matrice inversa (X’X)1 . Se la varianza è nota il regressore, come detto sopra, si distribuisce secondo una normale standardizzata e il valore del quantile z sarà: b z= w β σ w 2 ~N (0,1) Supponendo che si sia in presenza di piccoli campioni e di varianza incognita essa verrà stimata con quella residua per cui regressori si distribuiscano secondo una t di Student e il valore del quantile della stessa sarà: b t= w σ 2 Stabilito un livello di significatività a priori alfa si confrontano i valori della t empirica con quelli della t critica e se il primo è maggiore del secondo si rifiuta l‟ipotesi nulla. Si può assumere quindi la regola di decisione secondo la quale il contributo di Xw è statisticamente significativo in un modello in cui sono presenti altri regressori. Intervalli di confidenza sui parametri del Modello di Regressione lineare multipla. Stabilito un livello di confidenza pari a 1-alfa e in presenza di varianza incognita il relativo intervallo per βw può essere espresso dalla seguente notazione: b w t α/2,nk 1 s2residua * dww Diagnostica La diagnostica può essere svolta: 1. sulla struttura del modello; 2. sulla trasformazione del modello 3. sulle ipotesi degli errori; 4. sulla ricerca di osservazioni insolite Per quanto riguarda la prima occorre svolgere a priori un‟analisi sulla specificazione corretta del modello attraverso l‟individuazione delle variabili indipendenti e soprattutto la variabile risposta coerenti e adatte allo studio del fenomeno osservato. Dispense di econometria Pag. 65 Successivamente è necessario analizzare: a. i problemi sui regressori; b. gli errori sui regressori Per quanto riguarda la diagnostica sulla struttura del modello e sui problemi relativi ai regressori si esamina soltanto il problema della eventuale presenza di multicollinearità. Di seguito si sviluppa la relativa analisi. Multicollinearità perfetta e imperfetta. Come introdotto nelle ipotesi del modello di regressione lineare multipla, si può verificare che le stime dei parametri di regressione esistono solo se la matrice di varianze-covarianze X’X è invertibile. Affinché questa condizione sia soddisfatta, occorre che la matrice abbia rango pieno e, quindi, che le variabili introdotte nell‟analisi non siano dipendenti l‟una dall‟altra. Nel caso in cui nel modello vengano introdotte variabili perfettamente dipendenti tra loro, si avrà, come conseguenza, una errata specificazione del modello, nel senso che il numero dei parametri risulta eccessivo rispetto a quello effettivamente necessario e si è, quindi, in presenza di multicollinearità. Pur nella condizione che non vengano introdotte variabili perfettamente collineari, si possono avere situazioni in cui i rapporti tra di esse siano legate da dipendenza complicate, ad esempio dovute a variazioni concordi delle variabili che, comunque, porteranno il determinante della matrice di varianzecovarianze X’X ad assumere valori molto vicini ad un valore nullo. Una situazione di multicollinearità delle variabili esplicative ha gravi conseguenze sull‟attendibilità della stima dei parametri. In tal caso, infatti, le stime dei coefficienti avranno una varianza molto alta, con la conseguenza che, a volte, potranno assumere un senso sbagliato. Vi sono due ipotesi di multicollinearità, perfetta ed imperfetta. Si parla di multicollinearità perfetta quando viene violata l‟assunzione secondo cui nessun regressore è combinazione lineare di uno o più degli altri regressori; in questo caso la matrice X è singolare, e la matrice inversa di (X’X) -1 non è definita. Si riprenda la notazione del Modello a due variabili esplicative: Y= β 0+ β1 x1i + β2x2i+i dove β1 misura l‟impatto di x1 su y tenendo costante x2 e β2 misura l‟impatto di x2 su y tenendo costante x1; se x1 è perfetta combinazione lineare di x2 , ad esempio, secondo la seguente notazione: x1i = α 0+ α 1 x2i x1 cambierà quando x2 cambia. Quindi non si potrà tenere costante x1 per stimare β2. Questa situazione è molto rara, infatti, solitamente quando si parla di multicollinearità tra i regressori si fa riferimento a quella imperfetta, che si verifica quando due o più regressori sono linearmente dipendenti in modo imperfetto, vi sarà Dispense di econometria Pag. 66 solo una quota di variabilità di un regressore non spiegata dalla variabilità dell‟altro regressore: La matrice di varianze-covarianze (X’X) può essere esplicitata come segue: ∑ x21i ∑ x1i x2i X’X= ∑ x1i x2i ∑ x22i ∑ x21i ∑ x1i x2i Si procede al calcolo della matrice di varianze covarianze inversa moltiplicandola per l‟inverso del suo determinante: ∑ x1i x2i ∑ x22i * 1/∑ x21i*∑ x22i- (∑ x1i x2i) 2 (X’X) -1 = ∑ x1i x2i ∑ x22i ∑ x21i ∑ x1i x2i Le varianze di β1 e β2 e la covarianza (β1,β2) saranno espresse dalle seguenti notazioni: Var (β1)=σ2 (X’X) -1= σ2 * ∑ x22i /∑ x21i-∑ x22i- (∑ x1i x2i) 2 Var (β2)=σ2 (X’X) -1= σ2 * ∑ x21i /∑ x21i-∑ x22i- (∑ x1i x2i) 2 Covar (β1 , β2)=-σ2 (X’X) -1= -σ2 * ∑ x1i x2i /∑ x21i-∑ x22i- (∑ x1i x2i) 2 A questo punto si vuole dimostrare che in presenza di ina relazione lineare tra x1 e x2 si determina una situazione di multicollinearità. La quantità ∑ x1i x2i per sostituzione della x1i = α 0+ α 1 x2i diventa: ∑ x1i x2i = α 1 ∑ x22i Le varianze di β1 e β2 e la covarianza β1 , β2 diventeranno: Var (β1)=σ2 (X’X) -1= σ2 * ∑ x22i /∑ x21i-∑ x22i- α 1 ∑ x2i2 Var (β2)=σ2 (X’X) -1= σ2 * ∑ x21i /∑ x21i-∑ x22i- α 1 ∑ x2i2 Covar (β1 , β2)=-σ2 (X’X) -1= -σ2 * α 1 ∑ x2i2/∑ x21i-∑ x22i- (∑ x1i x2i) Dispense di econometria Pag. 67 E‟ facile constatare che gli stimatori OLS non sono più efficienti in quanto all‟aumentare della relazione lineare tra x1 e x2 aumenta α 1, diminuisce il denominatore, aumenta il valore delle frazioni e quindi aumentano le relative varianze dei due stimatori che, per conseguenza, non possono essere più utilizzati soprattutto ai fini previsivi. Per individuare la presenza di multicollinearità tra i regressori si prendono in considerazione i seguenti indicatori: a) il coefficiente di determinazione (R2); b) il coefficiente di tolleranza t = 1- R2 c) Variance Inflation Factor (VIF)=1/1- R2 d) Matrice di correlazione tra le covariate; in caso di multicollinearità si ha un‟elevata correlazione tra i regressori. Inoltre si dimostra che i VIF sono dati dagli elementi della diagonale principale di R-1; Si esamina il VIF che verrà implementato solo nel Laboratorio con il software R in quanto non si intendono svolgere i relativi calcoli matriciali. Ai fini della misurazione della multicollinearità, secondo l‟autore, i valori di VIF superiori a 20 evidenziano grossi problemi; quelli tra 7 e 20 problemi non gravi ma crescenti; inferiori a 7 una sostanziale assenza. E successivamente si analizza la matrice di correlazione attraverso la quale può essere individuata la presenza di multicollinearità laddove il o i valori dei coefficienti di correlazione fra le variabili siano molto elevati. Accertata la presenza di multicollinearità si pone il problema, come detto sopra, degli stimatori OLS che non risultano più efficienti e quindi inutilizzabili. Cosa fare? Si possono svolgere alcune operazioni attraverso le quali tentare di eliminare tale incongruenza. La prima potrebbe essere quella di aumentare, se possibile, il numero di osservazioni in modo da rendere la matrice X a rango pieno; la seconda è quella di rimuovere le variabili indipendenti (covariate) tra loro correlate; utilizzare la tecnica delle “principal component regression (PCR) oppure quella della “ridge regression”. In questa sede verrà applicata solo la seconda. Per quanto riguarda la trasformazione del modello verranno esaminati: a. modelli polinomiali; b. modelli con variabile dipendente binaria: probabilistico, logit, probit c. modelli non parametrici; d. modelli bayesiani; e. modelli a variabili strumentali Modello di Regressione polinomiale Dispense di econometria Pag. 68 Il Modello di regressione lineare semplice potrebbe non avere una bontà di adattamento ai dati non significativa dal punto di vista statistico. Ciò non significa che fra la variabile dipendente e quella risposta non esista una relazione. Si può affermare soltanto che non esiste una relazione di tipo lineare ma che potrebbe esistere una non lineare. In questo contesto viene esaminata la Regressione polinomiale intesa come una semplice estensione della forma lineare di un modello polinomiale del secondo ordine e cioè una forma quadratica (è opportuno ricordare che la retta è una forma polinomiale del primo ordine): La relazione matematica del Modello diventa: Y=a + b1 X + b2 Z+ ε dove Z=X2 Si può facilmente evincere che si è in presenza di un modello quadratico che, dal punto di vista della stima, è lineare nei parametri e quindi per il calcolo dei regressori stimati si può utilizzare il metodo dei minimi quadrati ordinari. La relazione diventa pertanto a due variabili esplicative configurando la fattispecie di regressione multipla. LABORATORIO STUDIO GUIDATO Nel Laboratorio Studio guidato vengono riportate le applicazioni svolte manualmente relativi alla parte teorica trattata. ESERCITAZIONE EMPIRICA 5. (Sul modello di regressione lineare multipla con soluzione manuale) Il Responsabile di Marketing della Alfa SpA vuole elaborare il modello di regressione lineare multipla tra la variabile dipendente vendite (y) e due variabili esplicative spese di produzione (x1) e spese di promozione (x2) in un campione di 6 punti vendita. Egli vuole svolgere i calcoli matriciali per individuare il vettore dei parametri e successivamente il coefficiente di determinazione normale e aggiustato. Successivamente intende svolgere un‟analisi inferenziale calcolando l‟intervallo di confidenza per i regressori e la verifica di ipotesi sugli stessi ad un livello di significatività del 5%. Dispense di econometria Pag. 69 PASSO PRIMO. Egli predispone la Tabella dei dati seguente ottenuti da una rilevazione campionaria su sette famiglie. y 1212 1314 1116 1242 1306 1278 Media(y)=1244,667 x1 6,5 6,8 7,1 5,4 5,9 5,1 x2 2,1 2,4 2,8 2,9 2,4 2,3 Fonte: Dati simulati PASSO SECONDO. Riporta di seguito i calcoli matriciali per ottenere la matrice di varianze-covarianze (X’X). Si parte dalla matrice origine X(6x3), si calcola la sua trasposta X’ (3x6), si moltiplicano e si ottiene (X’X) (3x3) PASSO TERZO. Si calcola l‟inversa (X’X)-1 (3x3) e si riporta il vettore y(6x1) PASSO QUARTO. Si effettua la verifica che la matrice è invertibile attraverso la moltiplicazione della matrice di varianze-covarianze per la sua inversa (X’X) (X’X)-1(3x3) Dispense di econometria Pag. 70 La verifica conferma la teoria secondo cui il prodotto matriciale soprarichiamato deve dare come risultato la matrice diagonale. PASSO QUINTO. Si calcola il vettore dei parametri applicando la notazione seguente: 1 bˆ =(X' X) X' y PASSO SESTO. Si calcola il coefficiente di determinazione applicando la notazione seguente: Il numeratore della formula è pari a 10375.13 e il denominatore è pari a 27304.35 per cui R2 diventa: R2=10375.13/27304.35=0.3799809 PASSO SETTIMO. Si calcola il coefficiente di determinazione aggiustato applicando la seguente notazione: R 2 = 1 2 1 R n n k 1 1 Sostituendo ai simboli i valori si ottiene: R 2 =1-[(1-0.3799809)*(6-1)/(6-2-1)= -0.03336509 Dispense di econometria Pag. 71 LABORATORIO CON SOFTWARE R Nel Laboratorio con il software R vengono riportati gli script per svolgere le stesse applicazioni svolte manualmente relativi alla parte teorica trattata. ESERCITAZIONE EMPIRICA CON R (SUL MODELLO DI REGRESSIONE LINEARE MULTIPLA) L‟Applicazione svolta manualmente nel Laboratorio studio guidato ha riguardato solo sei osservazioni su altrettanti punti vendita. Nel laboratorio con il software R si analizza l‟intero data frame su 34 punti vendita. Di seguito si riporta il relativo codice: vendite<- read.csv2("vendite.csv", header=TRUE) ; vendite attach(vendite) res<-lm(v1~v2+v3);res summary(res) Ouput di R Call: lm(formula = v1 ~ v2 + v3) Residuals: Min 1Q Median 3Q Max -1680.96 -406.40 53.45 297.48 1342.43 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5837.5208 628.1502 9.293 1.79e-10 *** v2 -53.2173 6.8522 -7.766 9.20e-09 *** v3 3.6131 0.6852 5.273 9.82e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 638.1 on 31 degrees of freedom Multiple R-squared: 0.7577, Adjusted R-squared: 0.7421 Dispense di econometria Pag. 72 F-statistic: 48.48 on 2 and 31 DF, p-value: 2.863e-10 PASSO PRIMO. Si analizzano in modo più dettagliato i risultati: a) il Residual standard error, pari a 638.1, rappresenta l‟errore standard dei residui e il suo valore elevato al quadrato stima la varianza dell‟errore che risulta pertanto σ2=638.12 =407171,61 b) il Multiple R-squared, pari a 0.7577, rappresenta il coefficiente di determinazione R2. c) l‟Adjusted R-squared, pari a 0.7421, rappresenta il coefficiente di determinazione R2 corretto che tiene conto dei diversi gradi di libertà associati alla stima della varianza della componente di errore: 31 gdl (nr. osservazioni-numero parametri di regressione=n-k=34-3=31) e della varianza totale (nr. osservazioni-1=34-1=33). Esso è sempre minore di R2. d) valori stimati dei parametri (Coefficients) (Intercept) v1 v2 5837.5208 -53.2173 3.6131 e) gli Std error (Errori standard) dei parametri, pari a 628.1502 per l‟intercetta, 6.8522 per v2 e 0.6852 per v3 rappresentano la stima della deviazione standard (radice quadrata della varianza) degli stimatori dei parametri. L‟errore standard misura la variabilità delle stime prodotte dallo stimatore intorno alla propria media (variabilità campionaria). f) test sul coefficiente di regressione β. Interessa capire se β è uguale a zero (assenza di effetti sulla variabile dipendente) o no (presenza di effetti) e pertanto il programma R mette a verifica l‟ipotesi: H0: β =0 vs H1 : β ≠0 g) il p-value associato a t. Esprime il valore dell‟area sottesa alla distribuzione t di Student (con 48 gdl) a sinistra di -9.464 e a destra di +9.464 (per il fatto che il test è bilaterale). Esso va confrontato con α la probabilità dell‟errore di I tipo che abbiamo scelto. Se p-value< α si rifiuta l‟ipotesi nulla e si decide che Beta è diverso da zero. In tal caso, si passa ad interpretare il significato del valore stimato del parametro β. h) la F-statistic, pari a 48.48 con 2 e 31gradi di libertà (g.d.l.) rispettivamente al numeratore e al denominatore, è la statistica-test F di Fisher che evidenzia il livello di significatività del Modello PASSO SECONDO. Si ricorda che la statistica test è una t di Student che ha qui 31 gdl (nr. osservazioni-numero parametri di regressione=34-3=31) così composta: Dispense di econometria Pag. 73 stima parametro-valore del parametro sotto H0/errore standard della stima= stima parametro-0/errore standard della stima Il valore della t di Student empirica per i tre parametri stimati si trova svolgendo rispettivamente le tre operazioni seguenti: 1) per l‟intercetta (5837.5208/628.1502=9.293) 2) per la v1 (-53.2173/6.8522=7.766) 3) per la v2 ( PASSO TERZO. Nel grafico seguente si riporta la v.c F di Fisher individuando le regioni di rifiuto e di accettazione nonché la F empirica e quella critica Dal Grafico si evince chiaramente che la F empirica cade ampiamente dentro la Regione di Rifiuto per cui si rifiuta l‟ipotesi nulla secondo la quale i regressori sono uguali a zero e si accetta quella alternativa che sono diversi da zero per un test bilatero. La regola di decisione è pertanto quella che stabilisce che tra la variabile indipendente e quella risposta esiste una relazione lineare. PASSO QUARTO. Si riporta ora l‟intero codice da utilizzare per l‟analisi del Modello di Regressione lineare multipla con R Dispense di econometria Pag. 74 vendite<- read.csv2("venditeR.csv", header=TRUE) ; vendite attach(vendite) modello<-lm(Vendite~Spese.produz+Spese.promoz);modello summary(modello) round(confint(object = modello, parm = c(1, 2), level = 0.95), digits = 5) round(confint(object = modello, parm = c(1, 2), level = 0.99), digits = 5) anova(object = modello) modello1<-lm(Vendite~Spese.produz);res summary(modello1) plot(Spese.produz,Vendite) plot(Spese.produz,Vendite,xlab="Spese produzione ", ylab="Vendite",main="Grafico retta stimata Vendite") abline(modello1,col="red") #Sovrapposizione retta stimata# qqnorm (residuals(modello1),main="Normalità degli errori", ylab="Residui", xlab="Quantili") qqline (residuals(modello1),col="red") modello2<-lm(Vendite~Spese.promoz);modello2 summary(modello2) plot(Spese.promoz,Vendite) plot(Spese.promoz,Vendite,xlab="Spese promozione", ylab="vendite",main="Grafico retta stimata Vendite") abline(modello2,col="red") #Sovrapposizione retta stimata# p<-1-pt(q=0.852 ,df=11);p p*2 p<-1-pt(q=2.346 ,df=11);p p*2 p<-1-pt(q=2.523 ,df=11);p p*2 qt(p=0.4125/2,11) qt(p=0.025,11) curve(dt(x, 11), -4, 4, ylab="Densità") curve(pt(x, 5), -10, 10, ylab="Ripartizione") 1-pf(150.3, 1, 5) qf(1-6.39e-05,1, 5) rf(x, df1, df2) curve(df(x, 1, 5),0,155) curve(pf(x, 1, 5),0,155) df(x, 2, 31) pf(q, 2, 31) qf(0.95, 2, 31) qf(0.05, 2, 31) rf(n, 2, 31) d_1 <- 2 d_2 <- 31 curve(df(x, 2, 31), 0, 50, ylab="Densità") curve(pf(x, 2, 31), 0, 50, ylab="Ripartizione")) Dispense di econometria Pag. 75 PASSO QUINTO. Per poter lavorare con R lo studente deve svolgere le operazioni seguenti: 1. apre R e se non ha effettuato il dowload lo effettui; 2. costruisca un file Excel con propri dati contenente una variabile dipendente e almeno due esplicative; 3. salvi il file Excel con l‟estensione csv con separatore di elenco, è consigliabile salvarlo su una cartella di C (ad esempio nominandola Mydata); 4. clicca sulla Console e setti la directory sulla quale ha salvato il file in Excel; 5. importi il file sulla base delle seguenti righe di codice 6. come visto nel Laboratorio con software R precedente il lettore può mandare in esecuzione le linee di codice che gli interessano ed ottenere i relativi output ESERCITAZIONE EMPIRICA CON R (SULLA MULTICOLLINEARITÀ DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA) PASSO PRIMO. Si riprendono le linee di codice che restituiscono, mandandole in esecuzione, l‟ouput della Regressione lineare multipla e si vuole svolgere un‟analisi di multicollinearità sul Modello: vendite<- read.csv2("venditeR.csv", header=TRUE) ; vendite attach(vendite) modello<-lm(Vendite~Spese.produz+Spese.promoz);modello summary(modello) PASSO SECONDO. Si ottiene il relativo output Call: lm(formula = v1 ~ v2 + v3) Residuals: Min 1Q Median 3Q Max -1680.96 -406.40 53.45 297.48 1342.43 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5837.5208 628.1502 9.293 1.79e-10 *** v2 -53.2173 6.8522 -7.766 9.20e-09 *** v3 3.6131 0.6852 5.273 9.82e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 638.1 on 31 degrees of freedom Multiple R-squared: 0.7577, Adjusted R-squared: 0.7421 F-statistic: 48.48 on 2 and 31 DF, p-value: 2.863e-10 Dispense di econometria Pag. 76 PASSO TERZO. Si riporta di seguito l‟intero codice di R. library(faraway) vendite<- read.csv2("vendite.csv", header=TRUE) ; vendite attach(vendite) vif(vendite) res<-lm(v1~v2+v3);res summary(res) vif1<-1/(1-0.7577);vif1 res<-lm(v2~v1+v3);res summary(res) vif2<-1/(1-0.6637);vif2 res<-lm(v3~v1+v2);res summary(res) vif3<-1/(1-0.4778);vif3 cor(vendite) PASSO QUARTO. Mandando in esecuzione le prime quattro linee di codice si otterranno i valori del VIF per la variabile dipendente v1 e per le due indipendenti v2 e v3: v1 v2 4.127557 2.973575 v3 1.914794 Osservando i risultati si può affermare decisamente che il Modello esaminato non è affetto da problemi di multicollinearità. PASSO QUINTO. Mandando in esecuzione le linee di codice dalla 5 alla 6 si ottiene l‟output della regressione per v1 Call: lm(formula = v1 ~ v2 + v3) Residuals: Min 1Q Median 3Q Max -1680.96 -406.40 53.45 297.48 1342.43 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5837.5208 628.1502 9.293 1.79e-10 *** v2 -53.2173 6.8522 -7.766 9.20e-09 *** v3 3.6131 0.6852 5.273 9.82e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 638.1 on 31 degrees of freedom Multiple R-squared: 0.7577, Adjusted R-squared: 0.7421 Dispense di econometria Pag. 77 F-statistic: 48.48 on 2 and 31 DF, p-value: 2.863e-10 PASSO SESTO. Si estrae dall‟output il valore del Multiple R-squared e mandando in esecuzione la linea di codice 7 si ottiene la conferma del valore del vif per v1 vif1<-1/(1-0.7577);vif1 [1] 4.127115 PASSO SETTIMO. Mandando in esecuzione le linee di codice dalla 8 alla 9 si ottiene l‟output della regressione per v2 Call: lm(formula = v2 ~ v1 + v3) Residuals: Min 1Q Median 3Q Max -21.0829 -5.3099 -0.1607 5.4311 17.1000 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 100.148963 4.985988 20.086 < 2e-16 *** v1 -0.012412 0.001598 -7.766 9.2e-09 *** v3 0.041559 0.012329 3.371 0.00202 ** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.744 on 31 degrees of freedom Multiple R-squared: 0.6637, Adjusted R-squared: 0.642 F-statistic: 30.59 on 2 and 31 DF, p-value: 4.615e-08 PASSO OTTAVO. Si estrae dall‟output il valore del Multiple R-squared e mandando in esecuzione la linea di codice 10 si ottiene la conferma del valore del vif per v2 vif2<-1/(1-0.6637);vif2 [1] 2.973536 PASSO NONO. Mandando in esecuzione le linee di codice dalla 11 alla 12 si ottiene l‟output della regressione per v2 Call: lm(formula = v3 ~ v1 + v2) Residuals: Min 1Q Median 3Q Max -266.14 -62.41 37.99 81.81 213.86 Coefficients: Dispense di econometria Pag. 78 Estimate Std. Error t value Pr(>|t|) (Intercept) -519.53552 213.06824 -2.438 0.02068 * v1 0.13086 0.02482 5.273 9.82e-06 *** v2 6.45397 1.91464 3.371 0.00202 ** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 121.4 on 31 degrees of freedom Multiple R-squared: 0.4778, Adjusted R-squared: 0.4441 F-statistic: 14.18 on 2 and 31 DF, p-value: 4.237e-05 PASSO DECIMO. Si estrae dall‟output il valore del Multiple R-squared e mandando in esecuzione la linea di codice 13 si ottiene la conferma del valore del vif per v3 vif3<-1/(1-0.4778);vif3 [1] 1.914975 PASSO UNDICESIMO. Mandando in esecuzione la riga di codice 14 si ottiene il seguente output di R relativo alla matrice di correlazione del modello: Vendite Sp_.prod_tot Spese.promoz Sp_.prod_var Vendite 1.0000000 0.5806252 0.6082111 0.5460031 Sp_.prod_tot 0.5806252 1.0000000 0.2193109 0.9966994 Spese.promoz Sp_.prod_var 0.6082111 0.5460031 0.2193109 0.9966994 1.0000000 0.2135900 0.2135900 1.0000000 ESERCITAZIONE EMPIRICA CON R (SULLA MULTICOLLINEARITÀ DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA) Si prenda in considerazione ora il data frame “Vendite R1” che presenta una terza variabile indipendente “Sp_.Prod_var” e si voglia svolgere un‟analisi di multicollinearità: PASSO PRIMO. Si riporta di seguito l‟intero codice di R. library(faraway) vendite<- read.csv2("vendite R1.csv", header=TRUE) ; vendite attach(vendite) vif(vendite) modello<-lm(Vendite~Sp_.prod_tot+Spese.promoz+Sp_.prod_var);modello summary(modello) vif1<-1/(1-0.7188);vif1 modello<-lm(Sp_.prod_tot~+Vendite+Spese.promoz+Sp_.prod_var);modello Dispense di econometria Pag. 79 summary(modello) vif2<-1/(1-0.9959);vif2 modello<-lm(Spese.promoz~Vendite+Sp_.prod_tot+Sp_.prod_var);modello summary(modello) vif3<-1/(1-0.4674);vif3 modello<-lm(Sp_.prod_var~+Vendite+Spese.promoz+Sp_.prod_tot);modello summary(modello) vif4<-1/(1-0.9956);vif4 cor(vendite) PASSO SECONDO. Mandando in esecuzione le prime 3 righe di codice vengono rappresentati i dati del data frame osservato: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Vendite Sp_.prod_tot Spese.promoz Sp_.prod_var 4154 312 121 31 4532 344 102 34 3988 307 132 30 3722 311 127 32 3946 401 177 40 3211 298 104 29 4021 345 148 35 4724 367 171 37 5432 444 215 44 5033 376 198 38 4598 598 109 60 4817 509 156 50 2111 311 108 33 3278 265 143 27 PASSO TERZO. Mandando in esecuzione la riga 4 si ottiene il vettore dei valori dei vif per le vendite, le spese di produzione totali, le spese di promozione e le spese di produzione variabili Vendite 3.556445 Sp_.prod_tot Spese.promoz Sp_.prod_var 243.719418 1.877666 227.528195 Come si può osservare l‟indicatore VIF evidenzia la presenza di una fortissima correlazione fra le variabili indipendenti Sp_.prod_tot e Sp_.prod_var PASSO QUARTO. Mandando in esecuzione le righe di codice dalla 5 alla 6 si ottiene l‟output della regressione per v1: Call: lm(formula = Vendite ~ Sp_.prod_tot + Spese.promoz + Sp_.prod_var) Residuals: Min 1Q Median 3Q Max -739.6 -339.3 72.9 382.8 781.5 Coefficients: Estimate Std. Error t value Pr(>|t|) Dispense di econometria Pag. 80 (Intercept) 1172.622 777.727 1.508 0.1625 Sp_.prod_tot 47.318 19.388 2.441 0.0348 * Spese.promoz 11.500 4.117 2.793 0.0190 * Sp_.prod_var -437.424 196.900 -2.222 0.0506 . --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 519.3 on 10 degrees of freedom Multiple R-squared: 0.7188, Adjusted R-squared: 0.6345 F-statistic: 8.521 on 3 and 10 DF, p-value: 0.004162 PASSO QUINTO. Si estrae dall‟output il valore del Multiple R-squared e mandando in esecuzione la linea di codice 7 si ottiene la conferma del valore del vif per v1 vif1<-1/(1-0.7188);vif1 [1] 3.556188 modello<-lm(Sp_.prod_tot~+Vendite+Spese.promoz+Sp_.prod_var);modello PASSO SESTO. Mandando in esecuzione le righe di codice dalla 8 alla 9 si ottiene l‟output della regressione per v2: Call: lm(formula = Sp_.prod_tot ~ +Vendite + Spese.promoz + Sp_.prod_var) Residuals: Min 1Q Median 3Q Max -7.458 -4.490 -1.493 5.207 11.116 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -14.153536 10.185354 -1.390 0.1948 Vendite 0.007889 0.003232 2.441 0.0348 * Spese.promoz -0.079944 0.066272 -1.206 0.2555 Sp_.prod_var 9.793764 0.249871 39.195 2.79e-12 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 6.706 on 10 degrees of freedom Multiple R-squared: 0.9959, Adjusted R-squared: 0.9947 F-statistic: 809.1 on 3 and 10 DF, p-value: 3.143e-12 PASSO SETTIMO. Si estrae dall‟output il valore del Multiple R-squared e mandando in esecuzione la linea di codice 10 si ottiene la conferma del valore del vif per v2 vif2<-1/(1-0.9959);vif2 [1] 243.9024 PASSO OTTAVO. Mandando in esecuzione le righe di codice dalla 11 alla 12 si ottiene l‟output della regressione per v3: Dispense di econometria Pag. 81 Call: lm(formula = Spese.promoz ~ Vendite + Sp_.prod_tot + Sp_.prod_var) Residuals: Min 1Q Median 3Q Max -52.807 -14.808 0.909 14.509 45.244 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 19.52748 49.21406 0.397 0.700 Vendite 0.03811 0.01364 2.793 0.019 * Sp_.prod_tot -1.58899 1.31725 -1.206 0.255 Sp_.prod_var 14.97574 13.01777 1.150 0.277 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 29.9 on 10 degrees of freedom Multiple R-squared: 0.4674, Adjusted R-squared: 0.3077 F-statistic: 2.926 on 3 and 10 DF, p-value: 0.08631 PASSO NONO. Si estrae dall‟output il valore del Multiple R-squared e mandando in esecuzione la linea di codice 13 si ottiene la conferma del valore del vif per v3 vif3<-1/(1-0.4674);vif3 [1] 1.877582 PASSO DECIMO. Mandando in esecuzione le righe di codice dalla 14 alla 15 si ottiene l‟output della regressione per v4: Call: lm(formula = Sp_.prod_var ~ +Vendite + Spese.promoz + Sp_.prod_tot) Residuals: Min 1Q Median 3Q Max -1.1520 -0.4994 0.1012 0.4570 0.7357 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.5353305 1.0229099 1.501 0.1643 Vendite -0.0007554 0.0003400 -2.222 0.0506 . Spese.promoz 0.0078044 0.0067840 1.150 0.2767 Sp_.prod_tot 0.1014455 0.0025882 39.195 2.79e-12 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6825 on 10 degrees of freedom Multiple R-squared: 0.9956, Adjusted R-squared: 0.9943 F-statistic: 755.1 on 3 and 10 DF, p-value: 4.431e-12 PASSO UNDICESIMO. Si estrae dall‟output il valore del Multiple R-squared e mandando in esecuzione la linea di codice 16 si ottiene la conferma del valore del vif per v4 Dispense di econometria Pag. 82 vif4<-1/(1-0.9956);vif4 [1] 227.2727 Si può notare che in tutti i modelli esaminati il regressore Sp_.prod_var non è significativo statisticamente. Inoltre viene applicata la formula del vif che restituisce i valori ottenuti con il codice vif(vendite) PASSO DODICESIMO. Mandando in esecuzione la riga di codice 17 si ottiene il seguente output di R relativo alla matrice di correlazione del modello Vendite Sp_.prod_tot Spese.promoz Sp_.prod_var Vendite 1.0000000 0.5806252 0.6082111 0.5460031 Sp_.prod_tot 0.5806252 1.0000000 0.2193109 0.9966994 Spese.promoz 0.6082111 0.2193109 1.0000000 0.2135900 Sp_.prod_var 0.5460031 0.9966994 0.2135900 1.0000000 Osservando la matrice di correlazione si può notare che i valori dei coeffciienti relativi alla variabile indipendente Sp_.prod_var è estremamente elevato La diagnostica effettuata applicando due tipi di check evidenzia un problema di multicollinearità che si può risolvere eliminando la viabile indipendente Sp_.prod_var che significa in buona sostanza limitare l‟analisi al modello precedente conposto da due sole variabili indipendenti statisticamente altamente significative. ESERCITAZIONE EMPIRICA CON R (SULLA REGRESSIONE POLINOMIALE) Il Responsabile della produzione della Alfa SpA vuole studiare la relazione fra il costo fisso e le quantità prodotte. Dispone delle seguenti osservazioni: costo fisso (y): 121,110,100,90,80,75,70,64,58,57,56,55,48,44,42 quantità prodotta (x): 1.9,2.4,2.5,2.6,2.7,2.8,2.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1 Egli vuole elaborare il modello di regressione lineare semplice che si adatta meglio ai dati. PASSO PRIMO. Si riporta di seguito le linee di codice di R per la rappresentazione grafica dello scatter-plot. library(labstatR) library(car) y<-c(121,110,100,90,80,75,70,64,58,57,56,55,48,44,42) ### Costi fissi x<-c(1.9,2.4,2.5,2.6,2.7,2.8,2.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1)##à Quantità prodotta scatterplot(y,x) ###Grafico che individua come si predispongono i dati con evidenzia Dispense di econometria Pag. 83 9 8 7 6 2 3 4 5 x 40 60 80 100 120 y Dall‟analisi dello scatterplot si evince chiaramente che i dati sono disposti più secondo una curva che secondo una retta. PASSO SECONDO. Si implementa come prima istanza un modello di regressione lineare semplice mandando in esecuzione le seguenti linee di codice: modello <- lm(formula = y ~ x) summary(modello)##Ouput del Modello tra Costi fissi e Quantità prodotta PASSO TERZO. Si ottiene il seguente output: Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -17.277 -13.072 -3.954 8.347 30.735 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 105.252 8.551 12.308 1.54e-08 *** x -7.888 1.748 -4.512 0.000584 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Dispense di econometria Pag. 84 Residual standard error: 15.79 on 13 degrees of freedom Multiple R-squared: 0.6103, Adjusted R-squared: 0.5803 F-statistic: 20.36 on 1 and 13 DF, p-value: 0.0005842 PASSO QUARTO. Si vuole svolgere l‟analisi della varianza del modello mandando in esecuzione la seguente linea di codice: anova(modello) PASSO QUINTO. Si ottiene il seguente output: Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 5073.7 5073.7 20.359 0.0005842 *** Residuals 13 3239.7 249.2 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 PASSO SESTO. Si vuole rappresentare il grafico a dispersione con sovrapposta la retta stimata mandando in esecuzione le seguenti linee di codice: par(bg="cornsilk") plot(x,y,xlab="Spesa per consumi alimentari mensile ", ylab=" Spese totale mensile ",main="Grafico retta stimata") abline(modello,col="red") 80 40 60 Costi fissi 100 120 Grafico retta stimata 2 3 4 5 6 7 8 9 Quantità prodotta Dispense di econometria Pag. 85 PASSO SETTIMO. Si introduce il modello polinomiale mandando in esecuzione le seguenti linee di codice: z<- x^2 # Introduzione della variable z=x^2 modello1 <- lm(formula = y ~ x+z) summary(modello1)##Ouput del Modello polinomiale tra Costi fissi e Quantità prodotta anova(modello1)##Analisi della varianza del Modello polinomiale PASSO OTTAVO. Si ottiene il seguente output: Call: lm(formula = y ~ x + z) Residuals: Min 1Q Median 3Q Max -12.9929 -7.5890 -0.7167 7.2338 13.8221 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 181.1805 15.8473 11.433 8.28e-08 *** x -42.9055 7.0062 -6.124 5.15e-05 *** z 3.1199 0.6175 5.053 0.000283 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.291 on 12 degrees of freedom Multiple R-squared: 0.8754, Adjusted R-squared: 0.8546 F-statistic: 42.15 on 2 and 12 DF, p-value: 3.742e-06 PASSO NONO. Si vuole calcolare l‟ANOVA mandando in esecuzione la seguente linea di codice: >anova(modello1)##Analisi della varianza del Modello polinomiale PASSO DECIMO. Si ottiene il relativo output: Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 5073.7 5073.7 58.777 5.797e-06 *** z 1 2203.8 2203.8 25.531 0.0002832 *** Residuals 12 1035.8 86.3 --Dispense di econometria Pag. 86 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Si può notare come il modello polinomiale sia più significativo e quindi da preferire. PASSO UNDICESIMO. Si rappresenta il grafico a dispersione con sovrapposta la curva stimata. 80 40 60 Costi fissi 100 120 Grafico a dispersione con sovrapposta curva stimata 2 3 4 5 6 7 8 9 Quantità prodotta PASSO DODICESIMO. Si riporta di seguito l-intero codice di R library(labstatR) library(car) y<-c(121,110,100,90,80,75,70,64,58,57,56,55,48,44,42) ### Costi fissi x<-c(1.9,2.4,2.5,2.6,2.7,2.8,2.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1)##à Quantità prodotta scatterplot(y,x) ###Grafico che individua come si predispongono i dati con evidenziato box-plot modello <- lm(formula = y ~ x) summary(modello)##Ouput del Modello tra Costi fissi e Quantità prodotta anova(modello) ##Analisi della varianza del Modello par(bg="cornsilk") plot(x,y,xlab="Quantità prodotta ", ylab=" Costi fissi ",main="Grafico retta stimata") abline(modello,col="red")# grafico a dispersione con sovrapposta retta stimata z<- x^2 # Introduzione della variable z=x^2 modello1 <- lm(formula = y ~ x+z) summary(modello1)##Ouput del Modello polinomiale tra Costi fissi e Quantità prodotta anova(modello1)##Analisi della varianza del Modello polinomiale par(bg="cornsilk") plot(x,y,xlab="Quantità prodotta ", ylab=" Costi fissi ",main="Grafico retta stimata") yfit <- modello1$coef[1]+modello1$coef[2]*xfit+modello1$coef[3]*xfit^2 plot(x,y,xlab="Quantità prodotta ", ylab=" Costi fissi ",main="Grafico a dispersione con sovrapposta curva stimata") Dispense di econometria Pag. 87 lines(xfit, yfit, col="red")# grafico a dispersione con sovrapposta retta stimata ) CORRETTORE PROVA DEL 28 APRILE 2017 UNIVERSITA’ DI BARI DIPARTIMENTO DI ECONOMIA E MANAGEMENT Prova scritta di ECONOMETRIA Prof. Raoul COCCARDA Informativa sulle modalità d’esame di Econometria Il sottoscritto: ____________________________________________________________ matricola: ________________________________________________________________ dà atto di essere stato informato circa le modalità e le regole inerenti allo svolgimento dell’esame: 1. L’esame si svolge in forma scritta ed è composto da 28 domande a risposta multipla, a ciascuna delle quali è assegnato un punto e due domande aperte che valgono due punti ciascuna; la durata della prova è di 60 minuti; il voto massimo raggiungibile è 30 e lode. 2. Una volta iniziata la prova d’esame, in qualsiasi momento, è data facoltà al candidato di rinunciare alla prosecuzione dell’esame stesso; di tale rinuncia viene dato atto nel verbale d’esame. 3. Durante la prova d’esame non è consentito abbandonare l’aula, né utilizzare supporti cartacei o telematici di ausilio alla redazione e compilazione della prova (materiali di studio, appunti, telefoni cellulari, smartphone, laptop, ecc.). E’ consentito solo l’uso di una calcolatrice non scientifica. L’utilizzo di materiali diversi da quelli consentiti sarà motivo di annullamento della prova. 4. Lo studente ha la facoltà di richiedere il sostenimento della prova orale, a condizione che abbia riportato nello scritto un punteggio di almeno 16/30; l’eventuale prova orale si svolgerà il lunedì successivo a quello della prova scritta Data _____/______/______ Firma dello studente____________________________ Sezione 1 – Domande a risposta multipla 1) 2) 3) 4) 5) 6) Il coefficiente angolare di una retta misura: Risposta 1 La pendenza della retta Risposta 2 L’ascissa della retta Risposta 3 L’ordinata della retta Risposta 4 L’intercetta della retta a b c d L’intercetta di una retta y=a+b*x può essere definita come: Risposta 1 Il valore della x quando la y=0 Risposta 2 Il valore della y quando la x=0 Risposta 3 Il valore di b*x quando la y=0 Risposta 4 Il valore della b*x quando la x=0 a b c d Quale grafico rappresenta un insieme di coppie x,y? Risposta 1 ad area Risposta 2 a barre verticali Risposta 3 a torta Risposta 4 a dispersione a b c d Qual è la funzione lineare che definisce il Modello di Regressione lineare semplice (MRLS) Risposta 1 Y=a + bX + ε Risposta 2 Y=a + bX Risposta 3 Y=a + X Risposta 4 Y=a + b + ε Come si definisce la Y in una relazione lineare? Risposta 1 variabile esplicativa Risposta 2 variabile indipendente Risposta 3 variabile coniugata Risposta 4 variabile dipendente o risposta La variabile dipendente Y in un MRLS con notazione Y=a + bX + ε è: Risposta 1 una variabile deterministica Risposta 2 una variabile casuale (v.c.) Risposta 3 una variabile casuale (v.c.) essendo ε per definizione una v.c. Risposta 4 una variabile casuale (v.c.) non essendo ε per definizione una v.c. Dispense di econometria a b c d a b c d a b c d Pag. 88 7) Il termine di errore del MRLS ε sottostà a quali ipotesi di base: Risposta 1 è una v.c. i.i.d. con E(ε)=0; Var (εi )= σ 2 ; Cov(εi εj)=0; εi ~ N(μ,ϭ2) Risposta 2 è una v.c. i.i.d. con E(ε)=0; Var (εi )= σ 2 ; Cov(εi εj)=0 9) b Risposta 3 è una v.c. i.i.d. con E(ε)=0; ; Cov(εi εj)=0; εi ~ N(μ,ϭ ) c Risposta 4 è una v.c. i.i.d. con E(ε)=0; εi ~ N(μ,ϭ2) d 2 8) a Quante tipologie di dati si utilizzano in Econometria Risposta 1 sezionali Risposta 2 temporali Risposta 3 panel Risposta 4 sezionali, temporali e panel a b c d La formula con cui si calcola il coeff. angolare con il Metodo dei Minimi Quadrati Ordinari è: Risposta 1 covarianza(x,y)/devianza (x) Risposta 2 covarianza(y,x)/varianza(x) Risposta 3 devianza(x)/varianza(x,y) Risposta 4 covarianza(x,y)/varianza (x) a b c d 10) La formula con cui si calcola l’intercetta con il Metodo dei Minimi Quadrati Ordinari è: Risposta 1 media(y) –media(x) Risposta 2 media(x) –b*media(y) Risposta 3 media(y) –b*media(x) Risposta 4 mediana (x) –b*media(y) 11) La devianza totale è uguale a: Risposta 1 DT=DS-DR Risposta 2 DT=DS+DR Risposta 3 DS=DT+DR Risposta 4 DR=DT+DS a b c d a b c d 12) Il coefficiente di determinazione normale è dato da: Risposta 1 1-DS/DT Risposta 2 DS/DT Risposta 3 DT/DR Risposta 4 1-DR/DT a b c d 13) In un MRLS il coefficiente di determinazione normale è legato al rho da quale notazione: Risposta 1 R2 =(rho) 2 Risposta 2 R2 =1-(rho) 2 Risposta 3 R2 =1/(rho) 2 Risposta 4 R2 = cov(x,y)*(rho) 2 a b c d 14) Quando lo stimatore intercetta si dice corretto o non distorto Risposta 1 Se il suo valore atteso non è uguale al valore dell’intercetta della popolazione Risposta 2 Se il suo valore atteso converge al valore della sua varianza Risposta 3 Se il suo valore atteso è uguale al valore dell’intercetta della popolazione Risposta 4 Se il suo valore atteso converge al valore della sua deviazione standard a b c d 15) Dati due stimatori T1 e T2 quale dei due è più efficiente Risposta 1 quello che ha la media maggiore Risposta 2 quello che ha la mediana minore Risposta 3 quello che ha la moda maggiore Risposta 4 quello che presenta la più bassa varianza a b c d 16) Il MRLS sottostà a quali ipotesi di base Risposta 1 linearità Risposta 2 omoschedasticità Risposta 3 indipendenza, linearità, omoschedasticità, normalità Risposta 4 normalità a b c d 17) Come si distribuiscono i regressori del MRLS per piccoli campioni Risposta 1 secondo una Normale Risposta 2 secondo una t di Studente con n-2 gradi di libertà Risposta 3 secondo una Chi-quadrato Risposta 4 secondo una F di Fisher a b c d 18) Quale sistema di ipotesi si imposta per il coeff. ang. per un test bilatero Dispense di econometria Pag. 89 H0 : bˆ = d vs H1 : bˆ ≠ d Risposta 2 H0 : bˆ = d vs H1 : bˆ d Risposta 3 H0 : bˆ = d vs H1 : bˆ d Risposta 4 H1 : bˆ = d vs H0 : bˆ ≠ d Risposta 1 a b c d 19) Qual è la formula con la quale si calcola l’intervallo di confidenza per l’intercetta in un MRLS (test bilatero) Risposta 1 aˆ ± t α/2s(aˆ ) a Risposta 2 aˆ ± t α/2s(bˆ ) b Risposta 3 bˆ ± t α/2s(aˆ ) c Risposta 4 aˆ ± t α s(aˆ ) d 20) Con quale formula si calcola la devianza residua media MDR in un MRLS Risposta 1 MDS=DR/(n-2) Risposta 2 MDR=DR/(n-2) Risposta 3 MDR=DS/(n-2) Risposta 4 MDT=DR/(n-2) a b c d 21) Con quale formula si calcola la statistica-test F di Fisher Risposta 1 F= MDS/MDR Risposta 2 F= MDT/MDR Risposta 3 F= MDS/MDR Risposta 4 F= MDS/MDT a b c d 22) Che cos’è l’ANOVA Risposta 1 è l’analisi Risposta 2 è l’analisi Risposta 3 è l’analisi Risposta 4 è l’analisi a b c d della della della della media devianza varianza varianza che contiene i gradi di libertà e i valori di MDS, MDR e MDT 23) In un MRLS per un valore della x quanti valori della y si possono avere Risposta 1 uno Risposta 2 tre Risposta 3 due Risposta 4 quattro a b c d 24) La devianza residua si trova applicando la seguente differenza Risposta 1 y(oss) –y(medio) Risposta 2 y(stim) –y(medio) Risposta 3 y(oss) –y(stim) Risposta 4 y(medio) –y(oss) a b c d 25) Come si esprime in forma matriciale o compatta l’equazione del Modello di Regressione lineare multipla Risposta 1 Y=βX+є Risposta 2 Y=βX Risposta 3 Y=X+є Risposta 4 Y=β+є a b c d 26) Con quale formula matriciale si calcola il vettore dei coeff. di regressione nel MRLM 1 Risposta 1 bˆ =(X' X) y a 1 X' y Risposta 2 bˆ =(X) b 1 Risposta 3 bˆ =(X' X) X' y c Risposta 4 b̂ =(X' X)X' y d 27) Con quale script si calcola l’output del MRLS fra y ed x con il software R Risposta 1 modello < lm(y~x) summary(modello) Risposta 2 modello <- lm(y e x) summary(modello) Dispense di econometria a b Pag. 90 Risposta 3 modello<-lm(y + x) summary(modello) Risposta 4 modello<-lm(y - x) summary(modello) 28) Con quale script si importa un data frame da excel e come si rendono indipendenti le colonne Risposta 1 dataframe<- read.csv2("nome del file.txt", header=TRUE) ; dataframe attach(dataframe) Risposta 2 dataframe<- read.csv2("nome del file.csv", header=TRUE) ; dataframe attach(dataframe) Risposta 3 dataframe<- read("nome del file.txt", header=TRUE) ; dataframe attach(dataframe) Risposta 4 dataframe<- csv2("nome del file.csv", header=TRUE) ; dataframe attach(dataframe) c d a b c d Sezione 2 – Domande a risposta aperta Domanda aperta 1. Dati i seguenti valori di output di R: Estimate Std. Error t value Pr(>|t|) (Intercept) -184.66171 53.05399 -3.481 0.0176 x 0.75619 0.06168 12.260 6.39e-05 calcolare i valori mancanti [per quanto riguarda il p-value della t empirica Pr(>|t|) indicare solo la procedura di calcolo] e stabilire a quale livello i regressori sono significativi L’intercetta è significativa al 5% (un asterisco). Il coefficiente angolare allo 0% (tre asterischi) Domanda aperta 2. Dati i seguenti valori dell’ANOVA ottenuti con il software R: Response: y Df x 1 Residuals 5 Sum Sq Mean Sq 63692 63692 2119 424 F value 150.3 on 1 and 5 DF Pr(>F) p-value: 6.388e-05 calcolare i valori mancanti (per quanto riguarda il p-value della F empirica Pr(>F)indicare solo la procedura di calcolo) e stabilire a quale livello la regressione è significativa La regressione è significativa allo 0% (tre asterischi) Firma dello studente ____________________________ Dispense di econometria Pag. 91