Regressione lineare con un solo regressore La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti incogniti di una retta. Lo scopo principale è di stimare l’effetto causale misurato come effetto che l’incremento una unità di X ha su Y – coefficiente angolare. Per ora, restringiamo il problema e pensiamo a far passare una linea retta fra i dati di 2 variabili, Y e X, in cui X è l’unico regressore. 1 Il problema di inferenza che ci poniamo è lo stesso di quello che ci si pone per le medie, differenze fra le medie etc. Inferenza sulla pendenza di una retta comprende: • Stima: • • • Test di ipotesi: • • In che maniera dovremmo tracciare una linea attraverso i dati per stimarne la pendenza? (Minimi Quadrati Ordinari, Ordinary Least Square, OLS). Quali sono gli svantaggi e i vantaggi di OLS? Come verificare se la pendenza è statisticamente zero? Intervallo di confidenza: • Come costruire un intervallo di confidenza per tale pendenza? 2 La retta di regressione della popolazione: Voti = β0 + β1STR β1 = pendenza della retta di regressione della popolazione = ∆ Voti ∆ STR = di quanto cambia il voto quando STR cambia di una unità • Perchè β0 e β1 sono parametri della “popolazione”? • Vorremmo conoscere è il vero valore della popolazione di β1. • Dato che non lo conosciamo β1, lo stimiamo usando i dati 3 Notazione generale Yi = β0 + β1Xi + ui, i = 1,…, n • X è la variabile indipendente o regressore • Y è la variabile dependente • β0 = intercetta • β1 = pendenza • ui = l’errore di regressione • l’errore di regressione contiene i fattori omessi, o gli errori di misurazione di Y. In genere, questi fattori omessi sono altri fattori, oltre alla variabile X, che influenzano Y. 4 La retta di regressione e il termine di errore 5 Le stime “Ordinary Least Squares” Come possiamo ottenere delle stime di β0 e β1 dai dati? Considerando che Y è lo stimatore dei minimi quadrati di µY , la media campionaria Y è la soluzione di, n min m ∑ (Yi − m ) 2 , i =1 minimizza la somma degli errori al quadrato fra tutti i possibili stimatori m, dove m è uno stimatore di µY Analogamente, lo stimatore dei minimi quadrati di (“ordinary least squares” o “OLS”) dei parametri sconosciuti β0 e β1, è soluzione di n min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2 i =1 6 Retta di regressione della popolazione: Voti = β0 + β1STR β1 = ∆ Voti ∆ STR 7 n Lo stimatore OLS risolve : min b ,b ∑[Yi − (b0 + b1 X i )]2 0 1 i =1 • Lo stimatore OLS minimizza le differenze fra i valori “attuali” Yi e valori “predetti” dalla retta di regressione, al quadrato. Dimostrazione(App. 4.2). • I risultati di queste operazioni sono gli stimatori OLS di β0 e β1. 8 Applicazione: Voti – STR Pendenza stimata = βˆ1 = – 2.28 Intercetta stimata = βˆ = 698.9 0 Linea di regressione stimata: V̂oti = 698.9 – 2.28×STR 9 Intercetta e coefficiente angolare V̂oti = 698.9 – 2.28×STR • interpretazione: I distretti con uno studente in più per insegnante in media ricevono voti di 2.28 punti più bassi. ∆ Voti • Cioè, ∆ STR = –2.28 • L’intercetta (letteralmente) significa che, secondo le nostre stime i distretti senza studenti avrebbero un voto predetto di 698.9. • Questa interpretazione non ha senso. È estrapolata fuori dall’intervallo dei dati e in questo caso non ha senso economicamente. Non sempre così! 10 Valori previsti e residui: Uno dei distretti nel campione è Antelope, CA, per cui STR = 19.33 e Voti = 657.8 Yˆ = 698.9 – 2.28×19.33 = 654.8 Valore predetto: Antelope residui: uˆ Antelope = 657.8 – 654.8 = 3.0 11 OLS : esempio di output - stata regress testscr str, robust Regression with robust standard errors Number of obs F( 1, 418) Prob > F R-squared Root MSE = = = = = 420 19.26 0.0000 0.0512 18.581 ------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 698.933 10.36436 67.44 0.000 678.5602 719.3057 _cons | ------------------------------------------------------------------------- V̂oti = 698.9 – 2.28×STR (discuteremo dopo del resto) 12 Misure di “bontà” della regressione Una domanda che sorge spontanea è: quanto è buona l’approssimazione della retta di regressione o quanto riesce a spiegare i dati. Ci sono due statistiche di riferimento complementari che forniscono misure di adeguatezza: • L’ R2 della regressione misura la frazione della varianza di Y che è spiegata da X; è priva di unità di misura e può assumere valori che vanno da 0 (non c’è approssimazione) a 1 (approssimazione perfetta) • Errore standard della regressione (SER) misura la grandezza dei residui di regressione in termini delle unità di Y 13 L’ R2 è la frazione della varianza campionaria di Yi “spiegata” dalla regressione Yi = Yˆi + uˆi = previsioni OLS + residui OLS ⇒ var (Y) campionaria = var(Yˆ )campionaria + var( uˆ )campionaria (???) i i ⇒ Somma totale dei quadrati (TSS) = “spiegata” SS (ESS) + “residua” SS (RSS) ⇒ TSS = ESS + RSS n 2 Definizione di R : ESS R = = TSS 2 2 ˆ ˆ ( Y − Y ) ∑ i i =1 n 2 ( Y Y ) − ∑ i i =1 • R2 = 0 significa che ESS = 0 • R2 = 1 significa che ESS = TSS • 0 ≤ R2 ≤ 1 14 Lo Standard Error della Regressione (SER) SER misura la distanza dalla media della distribuzione di u. SER è (circa) la deviazione standard campionaria dei residui OLS: SER = = 1 n 2 ˆ ˆ ( u − u ) ∑ i n − 2 i =1 1 n 2 uˆi ∑ n − 2 i =1 1 n (dato che û = ∑ uˆi = 0). n i =1 15 SER = 1 n 2 uˆi ∑ n − 2 i =1 • Ha come unità di misura le stesse di u, e dunque di Y • Misura in media quanto sono “grandi” i residui OLS (l’errore medio fatto imponendo una certa retta di regressione) • La radice della media degli errori al quadrato- root mean squared error (RMSE) è simile al SER: RMSE = 1 n 2 uˆi ∑ n i =1 Misura la stessa cosa del SER – l’unica differenza è la divisione per 1/n invece che per 1/(n–2). Correzione gradi di libertà 2 parametri stimati. 16 V̂oti = 698.9 – 2.28×STR, R2 = .05, SER = 18.6 Interpretazione: STR spiega solo una piccola parte della variazione nei voti. Ha senso questa conclusione? Possiamo dunque concludere che STR non è importante per trarre delle conclusioni di politica economica? 17 Le Assunzioni dei Minimi Quadrati Quali sono le proprietà dello stomatore OLS? Deve essere corretto e con una varianza piccola. Sotto quali condizioni ciò accade? Iniziamo facendo alcune assunzioni su come Y e X sono correlate e come i dati sono stati raccolti (schema campionario) 18 Assunzioni dei Minimi Quadrati Yi = β0 + β1Xi + ui, i = 1,…, n 1. u è una v.c., la distribuzione di u condizionata a X ha media zero: E(u|X = x) = 0. Ciò implica che βˆ1 è corretto (lo vediamo successivamente) 2. (Xi,Yi), i =1,…,n, sono i.i.d. • è vero se X, Y sono raccolte con un campionamento casuale semplice • ci conduce alla distribuzione campionaria di βˆ0 e βˆ1 3. “outliers” di X e/o Y sono rari. • Tecnicamente, X e Y hanno un momento di 4° ordine finito • Outliers possono dare origine ad un valore di βˆ1 privo di significato 19 Assunzione #1: E(u|X = x) = 0. Per ogni dato valore di X, la media di u è zero: Es: Votii = β0 + β1STRi + ui, ui = altri fattori • Cosa sono questi “altri fattori”? • E(u|X=x) = 0 è plausibile? 20 Consideriamo un esperimento ideale casuale e controllato: • X casualmente assegnata (studenti casualmente assegnati a classi di diversa grandezza; pazienti casualmente assegnati a trattamenti medici). Un computer assegna X casualmente senza informazioni sugli individui. • Poichè X è assegnata casualmente, tutte le altre caratteristiche inidividuali, u,sono indipendentemente distribuite rispetto a X • Dunque, un esperimento ideale casuale e controllato, E(u|X = x) = 0 (Assunzione #1 verificata) • Negli esperimenti reali, o nel caso di dati osservati dobbiamo stare più attenti. 21 Assunzione #2: (Xi,Yi), i = 1,…,n sono i.i.d. Ciò si verifica automaticamente se le entità (individui, distretti) sono campionate con un campionamento casuale semplice: prima l’entità è selezionata poi, per quella entità, X e Y sono osservate. Un caso in cui il campionamento è tipicamente non-i.i.d. si verifica con le “serie storiche” 22 Assunzione #3: E(X4) < ∞ and E(Y4) < ∞ • Un grande outlier è un valore estremo di X o Y • tecnicamente, se i valori di X e Y cadono all’interno di un intervallo chiuso, allora hanno quarto momento finito. • Un outlier molto grande può fortemente influenzare i risultati 23 Un’altra ragione per cui è utile il diagramma a nuvola! 24 Distribuzione campionaria dello stimatore OLS Lo stimatore OLS è calcolato usando un campione di dati; un campione diverso darà origine a valori diversi di βˆ1 . Questa è la ragione per cui si parla di “incertezza campionaria” di βˆ1 . Dunque abbiamo bisogno di: • quantificare l’incertezza campionaria associata a βˆ1 • usare βˆ1 per i test d’ipotesi (es. H0: β1 = 0, H1: β1 ≠ 0 ) • costruire un intervallo di confidenza per β1 • tutto ciò richiede la conoscenza della distribuzione campionaria dello stimatore OLS. In 2 passi… • Nozioni di probabilità • Distribuzione dello stimatore OLS 25 Nozioni di probabilità Quello che concerne la probabilità può essere riassunto in 3 ipotesi. Popolazione Il gruppo di interesse (es: tutti i possibili distretti scolastici) Variabili casuali: Y, X (es: Voti, STR) Distribuzione congiunta di (Y, X) La funzione di regressione per la popolazione è lineare E(u|X) = 0 (Assunzione #1) X, Y hanno quarto momento finito (Assunzione #3) Dati raccolti da campionamento casuale semplice: {(Xi, Yi)}, i = 1,…, n, sono i.i.d. (Assunzione #2) 26 Come per Y , βˆ1 ha una distribuzione campionaria. • Cos’è E( βˆ1 )? (qual’è il centro della distribuzione?) se E( βˆ1 ) = β1, OLS è corretto • Cos’è var( βˆ1 )? (misura della incertezza campionaria) • Qual’è la distribuzione campionaria di βˆ1 nei piccoli campioni? Può essere molto complicato • Qual’è la distribuzione campionaria di βˆ1 nei grandi campioni? Relativamente semplice, βˆ1 nei grandi campioni è normalmente distribuito. 27 L’Appendice 4.3 dimostra che n βˆ1 – β1 = ∑( X i =1 n i − X )u i 2 ( X − X ) ∑ i i =1 28 Prova di correttezza n ∑ ( X i − X )u i E( βˆ1 ) – β1 = E i =n1 ( X − X )2 i ∑ i =1 n ∑ ( X i − X )u i = E E i =n1 ,..., X X 1 n ∑ ( X i − X )2 i =1 = 0 poichè E(ui|Xi=x) = 0 da Assunzione #1 • L’Assunzione #1 implica che E( βˆ1 ) = β1 • Cioè, βˆ è uno stimatore corretto di β1. 1 • Per dettagli App. 4.3 29 1 var[( X i − µ x )ui ] ˆ var( β1 – β 1) = × . 4 n σX Riassumendo • βˆ è corretto: E( βˆ ) = β1 , proprio come Y ! 1 1 • var( βˆ1 ) è inversamente proportionale a n, proprio come Y ! 30 L’esatta distribuzione campionaria è complicata – dipende dalla distribuzione di (Y, X) – ma quando n è grande c’è una buona approssimazione: (1) Poiché var( βˆ ) è proporzionale a 1/n e E( βˆ ) = β1 1 1 p βˆ1 → β1 (2) quando n è grande, la distribuzione campionaria di βˆ1 si approssima alla distribuzione normale (CLT) 31 Approssimazione a n-grande βˆ1 – β1 ≈ 1 n vi ∑ n i =1 σ 2 X , dove vi = (Xi – X )ui 1 n • Quando n è grande dal CLT deriva che ∑ vi si distribuisce n i =1 approssimativamente come N(0, σ v2 / n ). • così, per n grande, βˆ si distribuisce approssimativamente 1 2 σ βˆ1 ~ N β1 , v4 nσ X , dove vi = (Xi – µX)ui 32 Matematicamente 1 var[( X i − µ x )ui ] ˆ var( β1 – β1) = × n σ X4 dove σ X2 = var(Xi). La varianza di X appare al quadrato al denominatore – quanto più cresce la distanza della media di X più diminuisce la varianza di β1. Intuitivamente Quanto più X varia, più c’è informazione nei dati e questa informazione può essere utilizzata per approssimare meglio la retta di regressione… 33 C’è lo stesso numero di punti blu e neri – quali punti forniscono una retta di regressione più accurata? 34 Riassunto sulla distribuzione di Se le Assunzioni sono verificate, allora β̂1 • La distribuzione campionaria esatta (con piccolo n) di βˆ1 ha: • E( βˆ ) = β1 ( βˆ corretto) 1 1 1 var[( X i − µ x )ui ] 1 ˆ • var( β1 ) = × ∝ (proporzionale) . 4 n σX n • A parte media e varianza la distribuzione campionaria esatta di βˆ1 è complicata e dipende dalla distribuzione di (X,u) p • βˆ1 → β1 ( βˆ1 consistente) βˆ1 − E ( βˆ1 ) • Quando n è grande, ~ N(0,1) (CLT) var( βˆ1 ) Tutto ciò richiama quanto già visto per Y . Ora possiamo andare avanti con test e intervalli di confidenza… • 35 Test d’ipotesi e intervalli di confidenza Sommario • Ora che conosciamo la distribuzione campionaria dello stimatore OLS, possiamo condurre test d’ipotesi su β1 e costruire un intervalli di confidenza • Inoltre daremo uno sguardo ai seguenti argomenti: • Regressioni quando X è binaria (0/1) • eteroschedasticità e omoschedasticità • Efficienza dello stimatore OLS • Uso della statistica-t nel test di ipotesi 36 4 passi principali: 1. definire la popolazione oggetto di interesse 2. derivare la distribuzione campionaria dello stimatore 3. stimare la varianza della distribuzione campionaria (per il TLC è l’unica cosa di cui abbiamo bisogno se n è grande) – cioè trovare gli standard error (SE) dello stimatore usando solo i dati a disposizione 4. Usare βˆ1 per ottenere una stima puntuale e il suo SE per test di ipotesi e intervallo di confidenza. 37 Oggetto di interesse: β1 in, Yi = β0 + β1Xi + ui, i = 1,…, n β1 = ∆Y/∆X, per un cambio in X (effetto causale) 38 Test d’ipotesi e SE β̂1 L’obiettivo è di testare un’ipotesi, come β1 = 0 test di significativita’ usando i dati per cercare di concludere se l’H0 è vera o no. General setup Ipotesi nulla e alternativa a due-code: H0: β1 = β1,0 vs. H1: β1 ≠ β1,0 β1,0 il valore ipotizzato sotto la nulla. Ipotesi nulla e alternativa a una-coda: H0: β1 = β1,0 vs. H1: β1 < β1,0 39 Approccio generale: construiamo una statistica t, calcoliamo il pvalore (o lo confrontiamo con il valore critico di N(0,1)) • In generale: t =(stima-valore ipotizzato)/SE(stimatore) dove SE(stimatore) è la radice quadrata di uno stimatore della varianza dello stimatore. Y − µY ,0 • Per testare la media di Y: t= sY / n βˆ1 − β1,0 • Per testare β1, t= , SE ( βˆ1 ) Dove SE( βˆ1 ) = la radice quadrata di uno stimatore della varianza della distribuzione campionaria di βˆ ed è calcolato 1 dal software 40 Riassunto: H0: β1 = β1,0 vs H1: β1 ≠ β1,0, • t-statistica βˆ1 − β1,0 βˆ1 − β1,0 t= = ˆ SE ( β1 ) σˆ β2ˆ 1 • Rifiutiamo al 5% se |t| > 1.96 • Il p-valore è p = Pr[|t| > |tatt|] = probabilità nelle code della distribuzione fuori da |tatt|; rifiutiamo al 5% se il p-valore è < 5%. • Approssimazione valida per n grande. 41 Esempio: Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR standard errors forniti dal software: SE( βˆ0 ) = 10.4 SE( βˆ1 ) = 0.52 βˆ1 − β1,0 −2.28 − 0 statistica t per testare cheβ1,0 = 0 = = = –4.38 0.52 SE ( βˆ1 ) • All’ 1% il valore critico è di 2.58, perciò… • Alternativamente abbiamo il p-valore 42 The p-valore è di 0.00001 (10–5) 43 Intervalli di confidenza per β1 Poichè la statistica t per β1 è N(0,1) nei grandi campioni, costruire un intervallo di confidenza al 95% è la stessa cosa del caso della media campionaria: intervallo di confidenza al 95% per β1 = { βˆ ± 1.96×SE( βˆ )} 1 1 44 Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR SE( βˆ0 ) = 10.4 SE( βˆ1 ) = 0.52 95% intervallo di confidenza di βˆ1 : { βˆ1 ± 1.96×SE( βˆ1 )} = {–2.28 ± 1.96×0.52} = (–3.30, –1.26) Le seguenti conclusioni sono identiche: • L’intervallo di confidenza al 95% non include lo zero; • L’ipotesi β1 = 0 è rifiutata al livello di significatività del 5% 45 V̂oti = 698.9 – 2.28×STR, R2 = .05, SER = 18.6 (10.4) (0.52) Questa espressione ci da molte informazioni: • La retta stimata è V̂oti = 698.9 – 2.28×STR • Lo SE( βˆ0 ) è 10.4 • Lo SE( βˆ ) è 0.52 1 • L’ R2 è 0.05; lo standard error della regressione è 18.6 46 Come leggere un’output regress testscr str, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------.5194892 -4.38 0.000 -3.300945 -1.258671 str | -2.279808 _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 ------------------------------------------------------------------------- so: V̂oti = 698.9 – 2.28×STR, , R2 = .05, SER = 18.6 (10.4) (0.52) t (β1 = 0) = –4.38, p-valore = 0.000 (2-code) 95% 2-code intervallo conf. per β1 è (–3.30, –1.26) 47 Sommario di inferenza su β0 e β1: Stima: • Stime OLS di βˆ0 e βˆ1 • βˆ e βˆ hanno approssimativamente distribuzione 0 1 campionaria normale in grandi campioni Test: • H0: β1 = β1,0 v. β1 ≠ β1,0 (β1,0 è il valore di β1 sotto H0) • t = ( βˆ1 – β1,0)/SE( βˆ1 ) • p-valore = area sotto la normale standard fuori tatt (n grande) Inervallo di confidenza: • intervallo di confidenza al 95% per β1 è { βˆ1 ± 1.96×SE( βˆ1 )} • questo è l’insieme di valori di β1 per cui non si rifiuta l’ipotesi nulla al 5%. • Il 95% CI contiene il vero β1 nel 95% di tutti i campioni. 48 Regressione quando X è Binaria A volte il regressore è binario: • X = 1 se le classi sono piccolo, = 0 se non lo sono • X = 1 se donna, = 0 se uomo • X = 1 se trattato, = 0 se non lo è I regressori binari sono a volte chiamati variabili “dummy”. Fino ad ora, abbiamo chiamato β1 “pendenza” ma questo non ha senso se X è binaria Come interpretare il coefficiente se il regressore è binario? 49 Interpretazione Yi = β0 + β1Xi + ui, dove Xi = 0 o 1: quando Xi = 0, Yi = β0 + ui • La media di Yi è β0 • cioè, E(Yi|Xi=0) = β0 quando Xi = 1, Yi = β0 + β1 + ui • la media di Yi è β0 + β1 • cioè, E(Yi|Xi=1) = β0 + β1 perciò β1 = E(Yi|Xi=1) – E(Yi|Xi=0) = differenza della popolazione fra medie di gruppo 50 Es 1seSTR < 20 Di = 0 seSTR ≥ 20 Regressione OLS V̂oti = 650.0 + 7.4×D (1.3) (1.8) Grandezza Classe Piccola (STR < 20) Grande(STR ≥ 20) Voto medio(Y ) 657.4 650.0 Differenza nelle medie: Standard error: Std. dev. (sY) 19.4 17.9 N 238 182 Ysmall − Ylarge = 657.4 – 650.0 = 7.4 ss2 sl2 19.4 2 17.92 SE = = = 1.8 + + ns nl 238 182 51 Sommario Yi = β0 + β1Xi + ui • β0 = media di Y quando X = 0 • β0 + β1 = media Y quando X = 1 • β1 = differenza nelle medie di gruppo, X =1 meno X = 0 • SE( βˆ ) ha la solita interpretazione 1 • Statistica-t, intervallo di confidenza come al solito • È semplicemente un’altra maniera per fare un’analisi di differenze fra medie 52 Eteroschedasticità e omoschedasticità • Cosa sono? • Conseguenze dell’omoschedasticità • Implicazioni per il calcolo degli standard errors Se var(u|X=x) è costante – cioè, la varianza della distribuzione di u condizionata a X non dipende da X – allora u si dice omoschedastica. Altrimenti, u si dice eteroschedastica. 53 Es: etero/omoschedasticità nel caso di regressore binario) • Standard error quando le varianze dei gruppi sono diverse: ss2 sl2 SE = + ns nl • Standard error quando le varianze dei gruppi sono uguali: SE = s p 1 1 + ns nl 2 2 ( n − 1) s + ( n − 1) s s l l (SW, Sez 3.6) dove s 2p = s ns + nl − 2 sp = “stima complessiva di σ2” dove σ l2 = σ s2 • varianze dei gruppi uguali = omoschedasticità • varianze dei gruppi diverse = eteroschedasticità 54 Omoschedasticità • E(u|X=x) = 0 (u soddisfa Assunzione #1) • La varianza di u NON dipende da x 55 Eteroschedasticità • E(u|X=x) = 0 (u soddisfa Assunzione #1) • La varianza di u DIPENDE da x: u è eteroschedastico. 56 Es: guadagno medio vs anni di istruzione Eteroschedastico o omoschedastico? 57 Eteroschedastico o omoschedastico? 58 u eteroschedastico?. Richiamiamo le 3 Assunzioni OLS: 1. E(u|X = x) = 0 2. (Xi,Yi), i =1,…,n, sono i.i.d. 3. grandi “outliers” sono rari Eteroschedasticità e omoschedasticità hanno a che fare con la var(u|X=x). Poiché non abbiamo fatto alcuna assunzione esplicita sull’ omoschedasticità, abbiamo implicitamente assunto la presenza di eteroschedasticità. 59 • Possiamo provare che lo stimatore OLS ha la varianza minore fra gli stimatori lineari in Y… ( teorema Gauss-Markov) • La formula per la varianza di βˆ e degli standard error OLS è: 1 Se var(ui|Xi=x) = σ u2 , allora 2 2 E [( X − µ ) ui ] var[( X − µ ) u ] i x i i x ˆ var( β1 ) = = 2 2 n(σ X ) n(σ X2 )2 σ u2 = nσ X2 Nota: var( βˆ1 ) è inversamente proporzionale a var(X): più variabilità in X significa più informazione su βˆ1 60 • Di conseguenza gli standard error omoschedastici sono SE( βˆ1 ) = 1 n 2 uˆi ∑ n − 2 i =1 1 × n . n 1 2 ( X − X ) ∑ i n i =1 61 • gli standard error omoschedastici sono validi solo se gli errori sono omoschedastici. • Di solito conviene usare gli standard error eteroschedasticistandard error robusti perchè sono validi in tutti e due i casi. • Il principale vantaggio degli standard error omoschedastici è la semplicità della formula. Il maggiore svantaggio è che sono validi solo con errori omoschedastici • Dato che le due formule coincidono nel caso di omoschedasticità conviene sempre usare standard error robusti ! 62