8. Rappresentazioni analitiche (Regressione lineare semplice) - Il modello di regressione lineare semplice Nel capitolo 4 è stato introdotto uno specifico indice per la misura della relazione tra due caratteri quantitativi: il coefficiente di correlazione lineare di Bravais-Pearson ρ= σ xy σ xσ y = σ yx σ yσ x = Codev ( y , x ) Dev ( y ) ⋅ Dev (x ) In quella sede è stato chiarito che il coefficiente stesso deve essere interpretato esclusivamente come misura di interdipendenza lineare che assume valore ± 1 se e solo se i due caratteri sono legati da una relazione lineare del tipo y = a+b x cioè, se e solo se, noto il valore assunto da uno dei due caratteri, il valore assunto dall’altro carattere risulta univocamente determinato dal legame lineare. Ovviamente, nelle situazioni reali, una tale condizione si realizza molto raramente, molto più frequenti sono, invece, le situazioni in cui è ipotizzabile un qualche legame tra i due caratteri e nelle quali la relazione lineare viene assunta come misura di prima approssimazione del legame stesso. Si supponga ora che le manifestazioni di uno specifico fenomeno, ad esempio la domanda di un certo bene di consumo, siano rappresentate dal simbolo algebrico y e che sia possibile osservare n manifestazioni del fenomeno stesso y1 , y 2 ,...., y i ,...., y n . Si ipotizzi, inoltre, che altri fenomeni, ad esempio reddito disponibile, prezzo del bene, prezzo di beni sostitutivi, ecc. ,influiscano sulle determinazioni y i . Se con i simboli algebrici x1 , x 2 ,...., x j ,...., x m si rappresentano tali fenomeni, è ipotizzabile tra la variabile y e le variabili xj una relazione del tipo y = f (x1 , x 2 ,...., x j ,...., x m ) che, per ciascuna unità statistica di osservazione, diventa y i = f (x1i , x 2i ...., x ji ,...., x mi ) per i = 1,2, ,n. Si supponga ora che le m variabili xj possano essere distinte in tre gruppi: le prime k variabili (x1 , x 2 ,...., x k ) rappresentano fenomeni osservabili e sono molto influenti sul fenomeno y , le successive h variabili ( x k +1 , x k + 2 ,...., x k + h ) , sempre B. Chiandotto Metodi statistici per le decisioni d’impresa molto influenti su (xk + h +1 , xk + h + 2 ,...., x m ) Versione 2000 – Cap. 8 y , non sono osservabili, mentre le residue variabili sono poco influenti su y e/o non sono osservabili. Per quanto sopra detto e introducendo l’ipotesi di additività degli effetti, si può riscrivere la relazione precedente nel modo seguente y = f (x1 , x 2 ,...., x k , x k +1 , x k + 2 ,...., x k + h ) + v dove v riassume in un’unica variabile l’effetto combinato dei fattori poco influenti. Essendo, comunque, non osservabili le variabili ( x k +1 , x k + 2 ,...., x k + h ) si è costretti ad introdurre un’ulteriore approssimazione e, sempre nell’ipotesi di additività degli effetti, la relazione iniziale diventa y = f (x1 , x 2 ,...., x k ) + w + v dove la variabile w rappresenta l’effetto di fattori influenti ma non osservabili. Ovviamente, l’approssimazione ora introdotta potrebbe risultare non del tutto accettabile e compromettere, quindi, la capacità rappresentativa del modello. Se si introduce un’ulteriore approssimazione: la linearità (dove la linearità va intesa nel senso sotto precisato) degli effetti dei fattori influenti ed osservabili si ha y = β 0 + β 1 ⋅ x1 + .... + β k ⋅ x k + z + w + v dove z rappresenta l’effetto non lineare su y delle variabili x1 , x 2 ,...., x k . La relazione (modello analitico rappresentativo del legame tra il carattere y , variabile dipendente, ed i caratteri x1 , x 2 ,...., x k , variabili indipendenti o variabili esplicative) può essere riscritta nella forma y = β 0 + β 1 ⋅ x1 + .... + β k ⋅ x k + u dove u = z + w + v rappresenta la cosiddetta componente accidentale del modello usualmente detto di regressione lineare multipla. Da sottolineare in proposito che la linearità è riferita ai coefficienti β 0 , β 1 ,...., β k e non alle variabili x1 , x 2 ,...., x k , cioè, la generica variabile xi può rappresentare, sia la manifestazione osservata x di un fenomeno che si ritiene influente su y , sia qualunque trasformazione nota di tale manifestazione ad esempio x2, x3, 1/x, log x, ecc, . Per k = 1 , e ponendo x1 = x , si ottiene l’espressione del modello di regressione lineare semplice (una sola variabile esplicativa) y = ¢ 0 +¢ 1 ⋅ x + u 2 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 che, per le n osservazioni disponibili, diventa y i = ¢ 0 + ¢ 1 ⋅ xi + u i per i = 1,2,...., n dove, tenendo conto di quanto sottolineato a proposito della linearità, xi può rappresentare, sia la manifestazione diretta (osservazione) del fenomeno rappresentato con il simbolo algebrico x , sia una qualunque trasformazione nota di tale manifestazione. La quantità ¢ 0 + ¢ 1 ⋅ xi viene detta componente sistematica del modello mentre u i viene detta componente accidentale Usualmente si dispone di n coppie di osservazioni ( y i , xi ) sulle due variabili di interesse che a seconda della situazione in esame, possono essere rappresentate graficamente nelle Fig. 1 e Fig. 2 e che evidenziano, rispettivamente, il caso di una sola osservazione y i (i = 1,2,….,n) in corrispondenza di ciascuna modalità xi (Fig. 1), il caso di più osservazioni y ij ( i = 1,2,....., s; j = 1,2,...., ni ) in corrispondenza di ciascuna modalità xi (Fig. 2).. y y . . . .. . . . . . . . . . . . . x x Fig, 1 – Distribuzione ipotetica di coppie di osservazioni (una sola osservazione y in corrispondenza di ciascuna modalità osservata della x ). 3 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 y . . . ζ xi xs . . . ζ ζ .. . . . . x1 x2 ζ .. . . . . . . . . . . . x Fig. 2 - Distribuzione ipotetica di coppie di osservazioni (più osservazioni di y in corrispondenza di ciascuna modalità osservata della x ). In entrambe le situazioni prospettate è ipotizzabile una relazione di tipo lineare tra le due variabili; infatti, si può osservare come le due rette sovrapposte alle nuvole di punti (Figg: 3 e 4) rappresentino in modo abbastanza soddisfacente l’andamento dei punti stessi. y i* = β 0 + β 1 ⋅ xi per i = 1,2,…..,n. y y . . . .. . . . . . . . . . . . . x x Fig, 3 – Distribuzione ipotetica di coppie di osservazioni e retta interpolante (una sola osservazione y in corrispondenza di ciascuna modalità osservata della x ). 4 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 y . . . ζ . . . . . . . . x1 x2 ζ ζ .. . . xi xs . . . ζ .. . . . . . x Fig. 4 - Distribuzione ipotetica di coppie di osservazioni e retta interpolante(più osservazioni di y in corrispondenza di ciascuna modalità osservata della x ). Di rette sovrapponibili ai punti ne esistono un numero infinito, si tratta, allora, di individuare quella ritenuta migliore sulla scorta di un prefissato criterio di ottimalità, Il problema dal punto di vista statistico è, dunque, quello di procedere alla stima ottimale dei due parametri incogniti (coefficienti che definiscono la retta) ¢ 0 e ¢ 1 o, più in generale, utilizzare le n coppie di informazioni campionarie ( y i , xi ) per “fare” inferenza sul modello lineare che si ritiene possa rappresentare in maniera soddisfacente il legame che sussiste tra le due variabili di interesse e che in una sorta di popolazione teorica (super-popolazione) dovrebbe, prescindendo dalla componente accidentale, risultare di tipo deterministico Se la relazione fosse perfetta in corrispondenza di ciascun valore xi si dovrebbe osservare un unico valore y i uguale ad y i* , in realtà, come già sottolineato, una tale eventualità la si riscontra molto raramente nella pratica operativa: la componente sistematica del modello spiega soltanto una parte della variabile dipendente; ad esempio, se si pensa che la domanda di un certo bene dipenda dal reddito disponibile è abbastanza ovvio ipotizzare che non tutti i soggetti in possesso di uno stesso ammontare di reddito domandino la stessa quantità del bene, la relazione tra 5 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 reddito (variabile x) e quantità del bene domandato ( y ) è, pertanto del tipo y i = y i* +u i e non yi = y *i . Nel modello introdotto le quantità note sono dunque quantità non note sono ¢ 0 , ¢ 1 e, quindi, yi ed xi mentre le y i* e u i . Si tratterà allora di utilizzare le informazioni disponibili per procedere ad una stima (puntuale o di intervallo) delle entità incognite o, eventualmente, alla verifica di ipotesi statistiche sulle entità stesse. In realtà, le entità incognite sono i due coefficienti ¢ 0 e ¢ 1 che una volta noti consentono di trarre conclusioni sia su y i* che su u i . - Ipotesi di specificazione (Caso A) Sul modello di regressione lineare semplice vengono usualmente introdotte delle ipotesi che specificano le condizioni di base che si ritiene debbano essere soddisfatte e che per la loro natura caratterizzano in modo particolare il modello stesso che viene detto modello classico di regressione lineare semplice. Le ipotesi di specificazione riguardano la variabile (esplicativa o indipendente) xi e, soprattutto la componente accidentale u i : 1. le xi (i = 1,2,….,n) sono quantità costanti in ripetuti campioni, sono, cioè, o variabili matematiche o determinazioni di variabili casuali, in quest’ultimo caso l’analisi viene effettuata condizionatamente ai valori x1 , x 2 ,...., x n ; 2. le variabili casuali ui hanno valore atteso (media) nullo E ( u i ) = 0 per i = 1,2,….,n; 3. le variabili casuali u i hanno varianza costante (omoschedasticità) Var ( u i ) = E ( u i ) = ³ 2 per i = 1,2,….,n; 4 le variabili casuali u i sono incorrelate (incorrelazione) Cov ( u i ,u j ) = E ( u i ,u j ) = 0 per i ≠ j = 1,2,….,n. Le conseguenze sulle variabili yi delle ipotesi introdotte sono: a. E ( y i ) = E ( y i /xi ) = ¢ 0 + ¢ 1 ⋅ xi per i = 1,2,…. ,n; b. V ar ( y i ) = Var ( y i /xi ) = ³ 2 per i = 1,2,….,n; 6 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 C ov ( y i , y j ) = 0 c. per i ≠ j = 1,2,….,n. Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima puntuale dei due coefficienti incogniti β 0 e β 1 . Se con ¢ˆ 0 e con ¢ˆ 1 si indicano le due stime ottenute, ne risulta di conseguenza che la stima di y i* è data da ŷ i* = ¢ˆ 0 + ¢ˆ 1 ⋅ xi per i = 1,2,….,n mentre la stima di ui e data da û i = y i − ŷ *i che viene detto residuo di regressione o errore di regressione. Si deve, inoltre, sottolineare che la quantità ¢ˆ 0 + ¢ˆ 1 ⋅ xi il migliore previsore ( stima) di y i ,cioè, quello che sotto le ipotesi specificate minimizza l’errore quadratico medio (= alla varianza trattandosi di stimatore non distorto); si potrà, pertanto, scrivere ŷ i = ŷ *i = ¢ˆ 0 + ¢ˆ 1 ⋅ xi . - Stima dei minimi quadrati Si è già avuto modo di segnalare in precedenza al metodo di stima dei minimi quadrati sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli statistici lineari, il modello classico di regressione lineare costituisce la specificazione più semplice di tale classe di modelli. Se si pone Q ( ¢ 0 ,¢ 1 ) = ∑ (y −y ) n i * i 2 i =1 = ∑ ( y −¢ n i i =1 0 − ¢ 1 ⋅ xi ) 2 il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori ¢ 0 e ¢ 1 che minimizzano la somma dei quadrati degli scarti sopra definita. Per individuare tale minimo basterà determinare il punto di stazionarietà (che è sicuramente un punto di minimo avendo a che fare con una funzione quadratica il cui punto di massimo è infinito) della funzione Q ( ¢ 0 ,¢ 1 ) che si ottiene risolvendo il sistema: ∂ Q ( ¢ 0 ,¢ 1 ) =0 ∂¢ 0 ∂ Q ( ¢ 0 ,¢ 1 ) =0 ∂¢ 1 che diventa 7 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 n ∂ Q ( ¢ 0 ,¢ 1 ) ∂ n n 2 ( ) y x 2 y n¢ = − ¢ − ¢ ⋅ = − − − ¢ ⋅ ∑ ∑ i 0 1 i i 0 1 ∑ xi = 0 ∂¢ 0 ∂ ¢ 0 i =1 i =1 i =1 n n ∂ Q ( ¢ 0 ,¢ 1 ) ∂ n n 2 ( ) y x 2 y x x xi2 = 0 = − ¢ − ¢ ⋅ = − − ¢ − ¢ ∑ ∑ ∑ ∑ 1 i i i 0 i 0 1 i ∂¢ 1 ∂ ¢ 1 i =1 i =1 i =1 i =1 cioè n n i =1 i =1 ∑ y i = n ¢ 0 + ¢ 1 ∑ xi n ∑y i xi = ¢ 0 i =1 n ∑x n i i =1 + ¢ 1 ∑ xi2 i =1 Risolvendo il sistema delle due equazioni nelle due incognite β 0 e β 1 si ottiene ¢ˆ 0 = y − ¢ˆ 1 ⋅ x n ¢ˆ 1 = ∑ (x ∑ (x i =1 dove y = − x )y i i i =1 n − x) 2 i = Codev( y , x ) Dev(x ) 1 n 1 n y e x = ∑ i ∑ xi . n i =1 n i =1 Le stime così ottenute sono (Teorema di Gauss-Markov) di minima varianza nell’ambito delle stime lineari e corrette (BLUE dall’inglese Best Linear Unbiased Estimators). E’ possibile a questo punto riproporre le Figg. 3 e 4 dove le rette interpolanti non sono più rette generiche ma quelle (Figg. 5 e 6) che derivano dall’applicazione del metodo dei minimi quadrati (rette dei minimi quadrati). Nella Fig. 6 è stata inserita anche l’ipotesi di normalità dei valori assunti dalla variabile y in corrispondenza di ciascun valore assunto dalla variabile x ; ma su quest’ultimo aspetto si avrà modo di tornare successivamente. 8 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 y . . y . . . . .. . . . . . . . . . yˆ i * = yˆ i = βˆ0 + βˆ1 xi x x Fig, 5 – Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (una sola osservazione y in corrispondenza di ciascuna modalità osservata della x ). y . . . ζ . . . . x1 . . . . . . ζ . . . ζ ζ .. . . xi xk . . . x2 . . . yˆ i * = yˆ i = βˆ0 + βˆ1 xi x Fig. 6 - Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (più osservazioni di y in corrispondenza di ciascuna modalità osservata della x ). 9 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 Le varianze dei due stimatori, come si avrà modo di chiarire nelle pagine successive, sono date dalle relazioni Var ( ¢ˆ 0 ) = ³ ¢ˆ20 1 x2 = + n n (xi − x )2 ∑ i =1 ( ) 1 Var ¢ˆ 1 = ³ ¢ˆ21 = n ∑ (x − x ) ⋅³ ⋅³ 2 2 2 i i =1 Per quanto sopra detto deriva che ŷ i* = ¢ˆ 0 + ¢ˆ 1 ⋅ xi = y − ¢ˆ 1 x + ¢ˆ 1 xi = y + ¢ˆ 1 (xi − x ) quindi: ( ) V ar ŷ *i = ³ 2 ŷ*i ( ) ( ) ( ) ( ) = Var ¢ˆ 0 + ¢ˆ 1 ⋅ xi = Var ¢ˆ 0 + xi2Var ¢ˆ 1 + 2 xi Cov ¢ˆ 0 ,¢ˆ 1 = (xi − x )2 1 = + n n (x j − x )2 ∑ j =1 2 ⋅³ Come si può osservare le varianze degli stimatori ¢ˆ 0 , ¢ˆ 1 e ŷ i* dipendono dalla varianza σ 2 , usualmente incognita, della componente accidentale. Una stima corretta di tale parametro è data da ∑ (y n σˆ 2 = i − ŷ i* i =1 ( n−2 dove,come già sottolineato, û i = y i − ŷ *i ) ) n 2 = ∑ û 2 i i =1 n−2 rappresentano i residui di regressione (Fig. 7), mentre la stima della varianza della componente accidentale viene usualmente detta varianza residua e misura la parte (stimata) della variabilità della yi (variabile dipendente) non spiegata dalla variabile esplicativa xi (variabile indipendente). Da quanto detto risultano le seguenti stime delle varianze degli stimatori V̂ar ( ¢ˆ 0 ) = ³ˆ ¢ˆ20 1 x2 = + n n (xi − x )2 ∑ i =1 10 ⋅³ˆ 2 B. Chiandotto Metodi statistici per le decisioni d’impresa ( ) V̂ar ¢ˆ 1 Versione 2000 – Cap. 8 = ³ˆ ¢2ˆ 1 = 1 n ∑ (x − x ) ⋅³ˆ 2 2 i i =1 ( ) = ³ˆ 2ŷ* V̂ ar ŷi* i 2 ( 1 xi − x ) ˆ 2 = + n ⋅³ n 2 ( ) x x − ∑ j j =1 y . ûk . . . . . . . . . . . . û2 . x1 . . . yˆ i * = yˆ i = βˆ0 + βˆ1 xi ûi û1 x2 xi xn x Fig. 7 - Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati e residui di regressione(una sola osservazione y in corrispondenza di ciascuna modalità osservata della x ). - Ipotesi di specificazione (Caso B: normalità della componente accidentale) Se alle quattro ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore ipotesi di normalità della distribuzione della componente accidentale ( ui ∼ N 0 , ³ 2 ) per i = 1,2,….,n ne deriva,come conseguenza diretta, la normalità della distribuzione delle yi ( a. yi ∼ N ¢ 0 + ¢ 1 ⋅ xi ,³ 2 ) inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti, da cui: ( b. β̂ 0 ∼ N ¢ 0 ,³ ¢ˆ 0 11 ) B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 ( c. β̂ 1 ∼ N ¢ 1 ,³ ¢ˆ 1 ( d. ŷ i* ∼ N y *i ,³ 2 ŷ*i ) ) n e. û i2 ∑ 2 ˆ (n − 2 )⋅³ ∼ i =1 ∼ χ 2 n−2 ³2 σ2 L’ipotesi di normalità già introdotta nella Fig. 6, trova una più esplicita rappresentazione nella Fig. 8. f(u) y x1 x2 yˆ i * = yˆ i = βˆ0 + βˆ1 xi xi x Fig. 8 – Ipotesi di distribuzione normale della componente accidentale nel modello di regressione lineare semplice Le conseguenze espresse ai punti a, b, c, d ed e sono di immediata verifica; infatti: i) le variabili y i = ¢ 0 + ¢ 1 ⋅ xi + u i sono distribuite normalmente in quanto trasformazioni di variabili casuali normali; ii) le variabili ¢ˆ 0 , ¢ˆ 1 ⋅ e⋅ ŷ *i sono distribuite normalmente in quanto espresse da combinazioni lineari di variabili casuali normali indipendenti; infatti 12 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 ∑ (x n n 1 ¢ˆ 0 = y − ¢ˆ 1 ⋅ x = ∑ y j − n j =1 j j =1 − x )⋅ y j n ∑ (x − x ) 2 i i =1 ∑ (x n ¢ˆ 1 = j j =1 − x )⋅ y j n ∑ (x − x ) 2 i i =1 n ŷ*i = ∑ j =1 1 (x j − x )⋅ x ⋅ x = ∑ − n j =1 n (xi − x )2 ∑ i =1 n xj− x = ∑ n 2 j =1 ∑ (xi − x ) i =1 n ⋅ y j ⋅ y j 1 x x + ( i − ) (x − x ) ⋅ y j j n n 2 x x − ( ) ∑ r r =1 Meno immediata è la conseguenza espressa al punto e . In proposito si deve sottolineare che gli (n-2) gradi di libertà derivano dal fatto che rispetto agli n gradi di libertà originari (le n osservazioni campionarie), due gradi di libertà si perdono nella operazione di stima; infatti, vengono imposti due vincoli per ottenere le stime di ¢ 0 ⋅ e ⋅¢ 1 . Pertanto, mentre le yi costituiscono n variabili casuali indipendenti , le n variabili casuali ŷ i* , devono soddisfare i due vincoli introdotti per ottenere le stime ¢ˆ 0 ⋅ e ⋅ ¢ˆ 1 . Inoltre, nell’universo dei campioni, le due variabili casuali stima ¢ˆ 0 ⋅ e ⋅ ¢ˆ 1 n hanno distribuzione indipendente dalla variabile casuale W = sottolineato, una distribuzione di tipo · 2 ∑ û 2 i i =1 ³ 2 che ha, come già con n – 2 gradi di libertà. Dalle relazioni sopra riportate risulta facile derivare le varianze degli stimatori ¢ˆ 0 , ¢ˆ 1 e ŷ i* introdotte in precedenza, basterà, infatti, ricordare che la varianza di una combinazione lineare di variabili casuali indipendenti è pari alla combinazione delle varianze delle singole variabili casuali con coefficienti elevati al quadrato. Nel caso specifico, se si indicano in modo generico con a i i coefficienti della combinazione lineare si ha V ar n n ∑ a ⋅ y = ∑ a i i =1 i i =1 2 i ⋅ Var ( y i 13 n ) = ³ 2 ∑ ai2 i =1 , da cui: B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 2 ( ) Var ¢ˆ 0 n ( ) x x x − ⋅ 1 j 2 2 = ³ ⋅∑ − n = ³ ⋅ 2 j =1 n (xi − x ) ∑ i =1 2 x 2 1 =³ ⋅ + n n ( xi − x ) 2 ∑ i =1 ( ) Var ¢ˆ 1 n xj− x 2 = ³ ⋅ ∑ n 2 j =1 ∑ (xi − x ) i =1 n 1 ∑n j =1 2 (x n +∑ = 2 2 j − x) ⋅ x n [ ∑ ( xi − x ) 2 ] 2 j =1 i =1 2 1 =³2⋅ n (xi − x )2 ∑ i =1 2 x x − ( ) i 1 + (x j − x ) = n n (xr − x )2 ∑ r =1 n Var ( ŷi ) = ³ 2 ⋅ ∑ j =1 n n 1 2 = ³ ⋅ ∑ 2 + ∑ i =1 n i =1 (xi − x ) n ∑ (x r =1 − x) 2 r (x j − x ) 2 2 = ³ 2 ⋅ 1 + (xi − x ) n n (x j − x )2 ∑ r =1 Seguendo la stessa procedura risulta facile anche la derivazione della covarianza tra le due variabili casuali stima ¢ˆ 0 e ¢ˆ 1 . Si ha Cov ( ¢ˆ 0 ,¢ˆ 1 ) = ³ 2 ⋅ ∑ n j =1 L’introduzione 1 − (x j − x )⋅ x n n (xi − x )2 ∑ i =1 dell’ipotesi di ⋅ xj − x n 2 ∑ (xi − x ) i =1 normalità = ³ 2 ⋅ ( consente il x n ∑ (x − x ) 2 ) i i =1 calcolo della verosimiglianza del campione e di procedere, pertanto, all’uso del metodo della massima verosimiglianza per ottenere la stima dei parametri incogniti β 0 , β1 ⋅ e ⋅ σ 2 . La verosimiglianza del campione è data da ( L ¢ 0 , ¢ 1 ,³ = n ∏ i =1 2 ) / y1 , y 2 ,...., y n ; x1 , x 2 ,...., x n = L 1 2°³ 2 ⋅e − 1 2⋅³ 2 ⋅( yi −¢ 0 −¢ 1 ⋅ xi ) 2 14 ( = 2 °³ ) (¢ 2 − n/ 2 ⋅e 0 − ,¢ 1 ,³ n 1 2⋅³ 2 2 )= ( yi −¢ 0 −¢ 1 ⋅ xi ) 2 ∑ i 1 ⋅ = B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 - Stime di massima verosimiglianza Le stime di massima verosimiglianza dei parametri incogniti si ottengono facilmente derivando ed uguagliando a zero le derivate del logaritmo della verosimiglianza. Risulta facile verificare che le stime di massima verosimiglianza ~ ~ ¢ 0 ⋅ e⋅ ¢ 1 coincidono con le stime dei minimi quadrati ¢ˆ 0 ⋅ e⋅ ¢ˆ 1 ,mentre la stima di massima n verosimiglianza della varianza σ 2 è data da σ~ 2 = ∑ û i =1 n 2 i ; ovviamente, u~i = ûi e ~ y i = ŷ i . Relativamente alle stime di massima verosimiglianza ottenute si deve ~ ~ sottolineare che: gli stimatori ¢ 0 ⋅ e⋅ ¢ 1 pur coincidendo numericamente con gli stimatori ¢ˆ 0 ⋅ e⋅¢ˆ 1 da questi si diversificano in quanto (Teorema di Rao) sono di minima varianza nell’ambito degli stimatori corretti (BUE dall’inglese Best Unbiased Estimators); la ( ) stima σ~ 2 della varianza σ 2 non è corretta, cioè, E σ~ 2 ≠ σ 2 . -Stime di intervallo Sulla scorta di quanto sopra scritto sarà facile derivare le stime di intervallo (intervalli di confidenza) per i prametri incogniti e per le quantità y*i . Infatti, facendo riferimento alla situazione più usuale, che è quella della non conoscenza del valore assunto dal parametro di disturbo σ 2 (varianza della componente accidentalea), per α prefissato si ottengono gli intervalli sotto riportati ( P ¢ˆ 0 − t¡ 2 ⋅ ³ˆ ¢ˆ 0 ≤ ¢ 0 ≤ ¢ˆ 0 + t¡ 2 ⋅³ˆ ¢ˆ 0 P ( ¢ˆ 1 − t¡ 2 ⋅³ˆ ¢ˆ 1 ≤ ¢ 1 ≤ ¢ˆ 1 + t¡ 2 ⋅³ˆ ¢ˆ 1 ) = 1-α ) = 1-α (n − 2 ) ⋅ ³ˆ 2 ( n − 2 ) ⋅ ³ˆ 2 2 P ≤ ³ ≤ = 1 −¡ 2 · 12−¡ /2 · ¡ /2 15 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 Si segnala che l’ultimo intervallo è stato derivato distribuendo simmetricamente il valore di α nelle due code della distribuzione e che l’intervallo per ¢ 0 si ottiene attraverso i passaggi sotto riportati (ragionamento analogo vale per l’intervallo relativo a ¢ 1 ). Poiché ( ¢ˆ 0 ∼ N ¢ 0 ,³ ¢ˆ20 ) si avrà Z¢ˆ 0 = ¢ˆ 0 − ¢ 0 ∼ N (0,1) ³ ¢ˆ 0 che non è elemento pivotale essendo incognita la varianza ³ ¢ˆ20 dove è presente la varianza della componente accidentale; infatti ³ ¢ˆ20 2 1 x ⋅³ = + n 2 n (xi − x ) ∑ i =1 2 ma, se si tiene presente che W= (n − 2 )⋅³ˆ 2 ∼ · 2 n- 2 2 ³ e che Z¢ˆ 0 e W sono variabili casuali indipendenti, si ha T¢ˆ 0 = ¢ˆ 0 − ¢ 0 ¢ˆ − ¢ 0 W / = 0 ∼ t n−2 (n − 2) ³ ¢ˆ 0 ³ˆ ¢ˆ 0 che rappresenta la variabile casuale t di Student con (n-2) gradi di libertà (elemento pivotale ) che consente la derivazione dell’intervallo sopra riportato applicando il procedimento di derivazione degli intervalli di confidenza illustrato nel Cap. 6. L’intervallo di stima relativo alle variabili y * assume particolare rilevanza; infatti, un tale intervallo può interessare sia valori y *i corrispondenti a valori osservati di x , cioè (x1 , x 2 ,...., x n ) , sia valori non osservati di x . Ad esempio, si potrebbe aver interesse a determinare un intervallo di stima per y0* che corrisponde ad un valore non osservato x0 ma assumibile dalla variabile x ; in quest’ultimo caso, l’intervallo 16 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 assume la particolare connotazione di intervallo di previsione e la quantità y0 − ¢ˆ 0 − ¢ˆ 1 x0 viene detto errore di previsione. Ipotizzando la non conoscenza della varianza ³ 2 della componente accidentale, l’intervallo per un generico valore y i* può essere determinato facendo riferimento alla variabile casuale t di Student (elemento pivotale) T ŷ* = i ŷ *i − yi* = σˆ ŷ* i ŷ *i − y i* 1 σˆ ⋅ + n = (xi − x )2 ∑ (x − x) n 2 j j =1 ed anche, se interessa l’intervallo di previsione per y0* T y* = 0 ŷ0* − y0* = ³ˆ * ŷ0 ŷ0* − y0* 1 + ³ˆ ⋅ n (x0 − x )2 ∑ (x − x) n 2 j j =1 Gli intervalli, per un prefissato livello di confidenza 1-α, sono rispettivamente ( ) P ŷ *i − t¡ 2 ⋅³ˆ ŷ* ≤ y *i ≤ ŷi* + t¡ 2 ⋅ ³ˆ ŷ* = 1 - ¡ i i ed anche (xi − x )2 (xi − x )2 1 1 * * * ˆ ˆ + n ≤ y i ≤ ŷ i + t¡ /2 ⋅³ ⋅ + n P ŷ i − t¡ /2 ⋅³ ⋅ n n 2 (x j − x ) (x j − x )2 ∑ ∑ j =1 j =1 ( P ŷ0* − t¡ 2 ⋅³ˆ ŷ* ≤ y0* ≤ ŷ0* + t¡ 2 ⋅ ³ˆ ŷ* 0 0 = 1 −¡ ) = 1 -¡ ed anche (x0 − x )2 (x0 − x )2 1 1 * * * ˆ ˆ P ŷ i − t¡ /2 ⋅³ ⋅ + n ≤ y i ≤ ŷ i + t¡ /2 ⋅³ ⋅ + n n n 2 (x j − x ) (x j − x )2 ∑ ∑ j =1 j =1 = 1 −¡ Capita spesso, e ciò avviene soprattutto quando si vogliono effettuare previsioni, di essere interessati alla determinazione di intervalli di stima non per il valore teorico y * (cioè il valore che dovrebbe assumere la variabile dipendente in assenza di effetti 17 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 accidentali e che è uguale, per le ipotesi di specificazione introdotte, al valore medio di y ) ma per il valore effettivo y (valore osservato od osservabile che include, quindi, anche l’effetto della componente accidentale). Per perseguire un tale obiettivo si deve osservare che, come già sottolineato, le stime puntuali di un generico valore ŷ *h e ŷ h , corrispondente ad una determinazione x h (h = i o qualunque altro indice) , coincidono, cioè ŷ *h = ŷ h = ¢ˆ 0 + ¢ˆ 1 ⋅ x h , le loro varianze sono diverse; infatti, se si considera l’errore di previsione û h = y h − ŷ h si ha: E ( û h ( ) )= E (¢ 0 + ¢ 1 x h + u h − ¢ˆ 0 + ¢ˆ 1 x h ) = 0 ( ) Var ( û i ) = E û h2 = E ¢ 0 + ¢ 1 x h + u h − ¢ˆ 0 + ¢ˆ 1 x h = E{ ( ) ( ) ( ) = Var ¢ˆ 0 + Var ¢ˆ 1 + Cov ¢ˆ 0 ,¢ˆ 1 + Var (u h ) Pertanto l’intervallo di confidenza per y h è dato da ( P ŷ h − t¡ 2 ⋅ ³ˆ ŷ ≤ y h ≤ ŷ h + t¡ 2 ⋅ ³ˆ ŷ h h [ (¢ˆ 0 ) ( ) - ¢ 0 + ¢ˆ 1 - ¢ 1 x h + u h (xh − x )2 1 2 = ³ ⋅ 1 + + n n (x j − x )2 ∑ j =1 ) = 1 -¡ ed anche (x h − x )2 (xh − x )2 1 1 ˆ ˆ ≤ y h ≤ ŷ h + t¡ 2 ⋅³ ⋅ 1 + + n P ŷ h − t¡ 2 ⋅³ ⋅ 1 + + n n n 2 (x j − x ) (x j − x )2 ∑ ∑ j =1 j =1 = 1 −¡ L’intervallo di stima per y h risulta più ampio di quello relativo ad y *h ; infatti: alla variabilità dovuta alla stima di ¢ 0 ⋅ e ⋅ ¢ 1 si aggiunge la variabilità indotta dalla componente accidentale u h ; inoltre, l’ampiezza degli intervalli così determinati dipendono fortemente dallo scarto (xh − x ) e risultano tanto più ampi quanto più il valore di ferimento della x si allontana dal suo valore medio x . L’evidenziazione grafica di tale situazione è riportata nella Fig. 9. 18 ] 2 }= B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 y Intervallo di confidenza per yh ŷ h = ¢ˆ 0 + ¢ˆ 1 ⋅ x h y Intervallo di confidenza per x x Fig. 9 – Intervalli di confidenza per i valori medi y *h e per i valori individuali y h . - Test delle ipotesi Per quanto detto nelle pagine precedenti e nel Cap. 7, è ora possibile risolvere facilmente qualunque problema di test delle ipotesi riguardo alle entità incognite presenti nel modello di regressione lineare semplice. Infatti, sotto la condizione di normalità della distribuzione della componente accidentale. Basterà fare riferimento alle variabili casuali (variabili casuali test) T¢ˆ 0 ,T¢ˆ 1 ,T ŷ" ,T ŷi e W sopra definite. i Se, ad esempio, si volesse risolvere il problema di test delle ipotesi H0 :¢ 1 = 0 H1 :¢ 1 ≠ 0 la regione di rifiuto dell’ipotesi nulla (nessun effetto della supposta variabile esplicativa x sulla variabile dipendente y ) risulterebbe definita dai semintervalli - ∞ _____| - tα/2 , tα/2 _____| + ∞ : Se il problema di test fosse H0 :¢ 1 = 0 H1 :¢ 1 < 0 19 y *h B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 cioè, di effetto nullo contro effetto negativo (e questo potrebbe essere un caso di interesse quando, ad esempio, x rappresenta il prezzo di un certo bene ed y la domanda del bene stesso: al crescere del prezzo la domanda del bene dovrebbe diminuire). La regione critica del test (rifiuto dell’ipotesi nulla) è costituita dal semintervallo - ∞ ____| - tα . Le procedure di test sopra richiamate derivano dall’applicazione del test del rapporto di verosimiglianza che, come già sottolineato, fornisce (quando esiste, ed i casi considerati rientrano in questa categoria) il test uniformemente più potente, nel caso di ipotesi alternativa unidirezionale, il test uniformemente più potente nella classe dei test non distorti, nel caso di ipotesi alternativa bidirezionale. - Trasformazioni di modelli non lineari nei coefficienti Si è precisato che la linearità del modello di regressione semplice è riferita ai coefficienti e non alla variabile; infatti, ad esempio, il modello y = ¢ 0 +¢ 1 ⋅ x3 è perfettamente equivalente al modello y = β 0 + β 1 ⋅ x sopra considerato. L’equivalenza è del tutto ovvia, infatti, se si pone z = x 3 , si ottiene il modello di regressione lineare semplice y = ¢ 0 + ¢ 1 ⋅ z . Le considerazioni svolte valgono quindi per tutti i modelli lineari nei parametri incogniti che li caratterizzano. E’, tuttavia, possibile in molti casi di interesse applicare le stesse procedure a modelli non lineari nei parametri, è ciò accade tutte le volte in cui risulta possibile ricondursi alla situazione di linearità operando opportune trasformazioni del modello non lineare. Ovviamente, quando si operano delle trasformazioni sia le ipotesi di specificazioni sia le conclusioni cui si perviene vanno riferite al modello trasformato e non al modello originario. Alcuni esempi significativi sono quelli sotto riportati. i) y = β 0 ⋅ x β1 ⋅ e u , la cui trasformazione logaritmica fornisce (modello doppio logaritmico) log ⋅ y = log ⋅ ¢ 0 + ¢ 1 ⋅ log ⋅ x + u ii) y = e¢ 0 +¢ 1 ⋅ x ⋅ e u y = ¢ 0 ⋅ e¢ 1 ⋅ x ⋅ e u 20 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 e y = ¢ 0 ⋅ x¢ 1 ⋅ e u le cui trasformate logaritmiche danno (modello semilogaritmico) rispettivamente log ⋅ y = ¢ 0 + ¢ 1 ⋅ x + u log ⋅ y = log ⋅ ¢ 0 + ¢ 1 ⋅ x + u y = log ⋅ ¢ 0 + ¢ 1 ⋅ log ⋅ x + u . -Coefficiente di correlazione lineare e analisi della varianza Il coefficiente di correlazione lineare ρ yx = ρ xy = ρ è stato introdotto come indice relativo di concordanza (rapporto tra l’indice assoluto di concordanza covarianza σ yx = σ xy ed il valore massimo che | σ yx | può assumere e ch è dato dal prodotto tra gli scostamenti quadratici medi σ y ⋅ σ x ), cioè ρ= σ yx σ yσ x Codev( y , x ) = Dev( y ) ⋅ Dev(x ) E’ stato detto anche che tale coefficiente può essere visto come media geometrica dei due coefficienti di regressione bx/y = ³ yx ³ 2 y = b y/x = ³ yx ³ 2 x = Codev( y , x ) Dev(x ) e Codev( y , x ) . Dev( y ) E’ ora possibile fornire una piena giustificazione dell’affermazione fatta; infatti, si è visto come in riferimento al modello y i = ¢ 0 + ¢ 1 ⋅ xi + u i la stima dei minimi Codev( y, x ) quadrati (e della massima verosimiglianza) di ¢ 1 sia pari a ¢ˆ 1 = , se si Dev(x ) ipotizza un modello lineare del tipo xi = α 0 + α 1 ⋅ y i + vi e si introducono le usuali ipotesi di specificazione, la stima dei minimi quadrati (e della massima verosimiglianza) di α 1 è pari a αˆ 1 = Codev( y , x ) dal che risulta quanto affermato. Dev( y ) Una terza, forse la più interessante, interpretazione del coefficiente di correlazione lineare di Bravais-Pearson deriva dalle osservazioni che seguono. Dato il modello y i = ¢ 0 + ¢ 1 ⋅ xi + u i per i = 1,2,….,n 21 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 che soddisfa all ipotesi di specificazione introdotte, la devianza totale della variabile y è data da n n ( Dev(T) = Dev(y) = ∑ ( y i − y ) = ∑ y i − ŷ *i + ŷ *i − y 2 i =1 ( ) + ∑ (ŷ ( ) n = ∑ y i − ŷ i* i =1 n Dev(r ) = ∑ y i − ŷ *i dove i =1 i =1 n 2 * i −y i =1 2 ) ) 2 = = Dev(r ) + Dev(R ) 2 viene detta devianza residua e misura la parte della devianza totale della variabile y che non risulta spiegata dalla supposta relazione con la ( n variabile x ; Dev(R ) = ∑ ŷ i* − y i =1 ) 2 viene detta devianza di regressione e misura quanta parte della devianza di y è spiegata dalla relazione lineare con la variabile x . Si deve sottolineare che la scomposizione della devianza quì operata è perfettamente assimilabile a quella effettuata nel Cap. 4; infatti, in quella sede la devianza totale della variabile y è stata scissa in devianza entro i gruppi e devianza tra i gruppi. La devianza entro i gruppi è una misura della diversità attribuibile a fattori di natura accidentale, mentre la devianza tra i gruppi è una misura della diversità tra gruppi, cioè la parte della devianza totale di y spiegata dall’appartenenza a gruppi diversi. Se in corrispondenza di ciascuna modalità xi (i = 1,2, ,s) della variabile x , si disponesse di più osservazioni yij (j = 1,2,….,ni), si potrebbe procedere alla seguente scomposizione della devianza totale della variabile y ( Dev(T) = Dev(y) = ∑∑ (y ij − y ) = ∑∑ y ij − ŷ *i + ŷ *i − y i + y i − y ni s i = 1 j =1 s ni ( = ∑∑ y ij − ŷ i* i =1 j =1 i =1 j =1 ) + ∑∑ (ŷ 2 s ni * i − yi i =1 j = 1 ( = ∑∑ (yij − y i ) + ∑∑ y i − ŷ s ni 2 i =1 j =1 1 dove: y i = ni s ni i =1 j =1 ni s 2 ) + ∑∑ (y 2 s ni i − y) = ) + ∑∑ (ŷ s * i −y ni i =1 j = 1 2 = 2 i =1 j =1 * 2 i ) ) 2 ni ∑y ij e le tre diverse devianze ottenute dalla scomposizione (si ricorda j =1 che i doppi prodotti sono tutti nulli) sono di facile interpretazione: in un caso come primo elemento di riferimento si considerano i valori che si trovano sulla retta di 22 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 regressione (si veda anche Fig. 10), nel secondo caso il primo elemento di riferimento sono i valori (medie di gruppo) che si trovano sulla spezzata di regressione. y yi j . uˆ i= yi − yˆi . . yi j − y yˆi − y ŷi yˆi − yi yi yi − y y βˆ0 + βˆ1 xi x x Fig. 10 – Scomposizione della devianza totale della variabile y Tornando alla scissione della devianza totale della variabile y nelle due componenti: devianza di regressione e devianza totale, si può introdurre l’indice, usualmente detto di determinazione R2 = Dev(R ) Dev(r ) = 1− Dev(T ) Dev(T ) che, ovviamente, assume valori compresi nell’intervallo 0 _____ 1: assume valore 0 quando tutti i valori ŷi = ŷ *i che si trovano sulla retta di regressione sono uguali tra loro e, quindi, uguali a y (media della variabile y ); assume valore 1 quando tutti gli scarti ( yi − ŷi ) sono uguali a zero, cioè, quando tutti i punti osservati si trovano sulla retta di regressione (adattamento totale del modello). Tenendo presente che 23 B. Chiandotto Metodi statistici per le decisioni d’impresa n n Versione 2000 – Cap. 8 ( 2 Dev(R ) = ∑ ( ŷ i − y ) =∑ ¢ˆ 0 + ¢ˆ 1 ⋅ xi − y i =1 i =1 n 2 = ¢ˆ 12 ⋅ ∑ (xi − x ) = i =1 ³ 2 yx ³ 4 x ⋅ n ⋅³ 2 x =n ³ 2 yx ³ 2 x ) =∑ (y − ¢ˆ n 2 1 ⋅ x + ¢ˆ 1 ⋅ xi − y i =1 ) 2 = si avrà n⋅ ³ yx2 / ³ Dev(R ) R = = = Dev(T ) n⋅ ³ y2 2 2 x = ³ 2 yx ³ x2 ⋅ ³ 2 y = ± 2 cioè: l’indice di determinazione è uguale al quadrato del coefficiente di correlazione lineare, il che consente d’interpretare tale quadrato come misura della proporzione della variabilità totale della variabile y che risulta spiegata dalla supposta relazione lineare con la variabile x . Se si vuole sottoporre a test l’ipotesi di un effetto “significativo” della variabile x sulla variabile y , si può procedere come sopra indicato, cioè formulando l’ipotesi H0 :¢ 1 = 0 H1 :¢ 1 ≠ 0 od anche facendo ricorso ad un test di bontà di adattamento del modello. Si è già osservato che W= (n − 2 )⋅³ˆ 2 ³ 2 ∼ · n2− 2 se si considera ora la variabile ∑ (ŷ Dev(R ) V= = n * i −y i =1 ³2 ) 2 ³2 che ha legge di distribuzione · 2 con un grado di libertà ed è indipendente dalla variabile W ; che si ricorda ha legge di distribuzione χ 2 con (n-2) gradi di libertà, la 24 B. Chiandotto Metodi statistici per le decisioni d’impresa Versione 2000 – Cap. 8 variabile (rapporto tra due variabili χ 2 indipendenti divise per i rispettivi gradi di libertà) n W F= = V/ (n − 2 ) ∑ (ŷ − y) 2 i i =1 ³ n − 2 ) ⋅ ³ˆ 2 ( : / (n − 2 ) 2 ³ 2 ha, sotto l’ipotesi H 0 : ¢ 1 = 0 (quando l’ipotesi è vera) legge di distribuzione del tipo F di Fisher-Snedecor con 1 e (n-2) gradi di libertà. Da rilevare che sotto l’ipotesi H 0 : ¢ 1 = 0 contro l’ipotesi H 1 : ¢ 1 ≠ 0 vale l’uguaglianza Tn2− 2 = F1,n− 2 , il che porta a concludere che nel caso di regressione lineare semplice la procedura per sottoporre a test l’ipotesi di adattamento del modello e l’ipotesi (bidirezionale) sul coefficiente angolare della retta di regressione sono del tutto equivalenti. In proposito vale la pena, infine, segnalare che tale procedura equivale anche a quella relativa al test diretto sul coefficiente di correlazione ρ ; infatti, sotto l’ipotesi H 0 : ± = 0 contro l’ipotesi alternativa H 1 : ± ≠ 0 ,la variabile casuale test di riferimento è T±ˆ = ±ˆ ⋅ (n− 2 ) 1 − ±ˆ 2 ¢ˆ Dev(x ) Dev(R ) : 1− / (n − 2 ) = 1 = T¢ˆ 1 = ¢ˆ 1 ⋅ Dev( y ) Dev(T ) ³ˆ ¢ˆ 1 25