PARTE II. ANALISI DI REGRESSIONE LINEARE Osservazione: nel seguito una variabile casuale viene indicata più appropriatamente come numero aleatorio (n.a.). Funzione di regressione Considerati due numeri aleatori (n.a.) Y e X, è detta “funzione di regressione di Y rispetto X” il n.a. E(Y/X) dipendente da X secondo una funzione g(.) [cioè E(Y/X) = g(X)] determinata dalla distribuzione subordinata di Y rispetto X. I valori del n.a. g(X) [ossia i valori del n.a. E(Y/X) ] sono le speranze matematiche condizionate E(Y/X = x). Pertanto l’evento {g(X) = E(Y/X = x)} coincide con l’evento “Il n.a. E(Y/X) assume il valore E(Y/X = x) “ ed esso ha probabilità pari a Prob(X = x) quando il n.a. X è discreto; altrimenti ad esso è associata la densità di probabilità marginale del n.a. X nel punto x, cioè f(x). La conoscenza della funzione di regressione E(Y/X) permette quindi di conoscere per ogni possibile valore x assunto dal n.a. X quale sarà il valore medio (condizionato) di Y. Inoltre al variare di x, saremo in grado di sapere come varia in media (condizionata) Y. Alcune proprietà della funzione di regressione sono le seguenti: 1) E( aY + b Z / X) = a E(Y/X) + b E(Z/X) , se a e b sono numeri certi (ossia delle costanti) e X, Y e Z sono numeri aleatori (proprietà di linearità della funzione di regressione); 2) E[E(Y/X)] = E(Y) (legge del valore atteso iterato); 3) E[Y h(X) / X] = h(X) E(Y/X) ; come caso particolare della 3) vale 3.1) E[E(Y/X) / X] = E[ g(X) / X] = g(X)=E(Y/X), essendo E(Y/X) una funzione g(.) di X. 4) se i numeri aleatori X e Y sono stocasticamente indipendenti, E(Y/X) = E(Y). 5) E[Y – E(Y/X)]2 E[Y - (X)]2 per ogni funzione reale (.) tale che E[(X)]2 . Una definizione assiomatica di funzione di regressione E(Y/X) è la seguente: essa è quel numero aleatorio dipendente da X che verifica la condizione E Y E Y / X . f ( X ) 0 per ogni funzione f (.) per la quale esista la speranza matematica a primo membro. La nozione di funzione di regressione è fondamentale nella teoria e calcolo delle probabilità; è il caso di osservare che in lingua inglese E(Y/X) è detta “conditional expectation”, ma con lo stesso nome si indicano anche i suoi possibili valori E(Y/X=x) e ciò può ingenerare fraintendimenti. In questi appunti indicheremo con il nome di funzione di regressione il numero aleatorio E(Y/X) e con quello di valor medio condizionato le possibili determinazioni E(Y/X=x) di E(Y/X) che sono numeri certi. E’ immediato generalizzare la definizione di funzione di regressione di Y rispetto X al caso in cui ci si condiziona rispetto a più di un n.a. Ad esempio, la funzione di regressione di Y rispetto X e Z è indicata con E(Y/X,Z) ed è una funzione g(X,Z). Quindi E(Y/X,Z) è un n.a. i cui valori sono le speranze matematiche condizionate E(Y/X = x, Z=z). L’evento “Il n.a. E(Y/X,Z) assume il valore E(Y/X = x, Z=z) “ ha probabilità pari alla probabilità congiunta Prob(X = x, Z=z) quando entrambi i n.a. X e Z sono discreti; se X e Z sono entrambi (assolutamente) continui ad esso è associata la densità di probabilità congiunta dei n.a. X e Z nel punto (x,z), cioè f(x,z). Le proprietà di E(Y/X) sopra esposte sono immediatamente generalizzabili. In particolare, se X e Y sono stocasticamente indipendenti risulta E(Y/X,Z) = E(Y/Z). Un’ultima importante proprietà è la seguente generalizzazione della legge del valore atteso iterato 6) E[E(Y/X) / X,Z] = E[E(Y / X,Z) / X] = E(Y/X) ; Un esempio di funzione di regressione. Con riferimento ad un unico lancio di un dado regolare si considerino il numero aleatorio N che individua il numero uscito nel lancio e l’indicatore D dell’evento D = “Esce un numero dispari”, cioè il n.a. che vale 1 se esce uno dei tre risultati 1, 3, 5 e che vale 0 se esce uno dei tre risultati 2, 4, 6. Se si è convinti che il lancio del dado è fatto senza trucchi è plausibile che si assegni probabilità 1/6 ad ognuno dei sei risultati possibili; in questo caso si ha anche P(D) = ½ . La distribuzione di probabilità congiunta dei n.a. D ed N è la seguente N 1 2 D 1/ 6 D 0 3 4 5 6 0 1/ 6 0 1/ 6 0 1/ 6 0 1/ 6 0 1/ 6 in quanto, per esempio, l’evento [(N = 1) D] coincide con (N = 1) (si ricordi che (N = 1) implica D), per cui è P[(N = 1) D] = P(N = 1) = 1/6 ed inoltre l’evento [(N = 1) D ] è impossibile, per cui è P[(N = 1) D ] = 0. La distribuzione condizionata di N all’evento D , cioè al verificarsi di un numero pari, assegna evidentemente una probabilità pari a 1/3 ai valori 2, 4 e 6 e probabilità nulla ai rimanenti; similmente la distribuzione condizionata di N all’evento D, cioè al verificarsi di un numero dispari, assegna la probabilità 1/3 ai valori 1, 3, 5 e la probabilità nulla ai rimanenti. Di conseguenza, per le speranze matematiche condizionate di N a ciascuno dei due eventi D e D si ha: E(N/ D ) = (2 + 4 + 6) 1 =4 3 e E(N/ D ) = (1 + 3 + 5) 1 =3. 3 In questo esempio, la funzione di regressione di N rispetto all’indicatore D , indicata con E( N / D ) , è il numero aleatorio dipendente da D che assume il valore 4 , cioè E(N/ D ) , se D = 0 (evento di probabilità ½) ed il valore 3 , cioè E(N/ D ) , se D = 1 (evento di probabilità ½) . Avendo perciò specificato i valori possibili del n.a. E( N / D ) e le corrispondenti probabilità, esso è compiutamente noto. Si osservi infine che risulta E[ E( N / D ) ] = 4 . ½ + 3 . ½ = 3.5 = E( N ) . Lasciando al lettore i facili calcoli, ci limitiamo ad affermare che la funzione di regressione dell’indicatore D rispetto ad N, E( D / N ) , è il n.a. che assume valore 1 quando N assume valori dispari e 0 quando N è pari ; ovviamente, risulta E [E( D / N ) ] = ½ = P (D) . Un altro esempio di funzione di regressione Supponiamo che due n.a. X e Y abbiano una distribuzione congiunta di tipo normale bivariato con valori medi E(X) ed E(Y), varianze V(X) e V(Y) e covarianza Cov(X,Y) = c ; si prova che le due distribuzioni condizionate sono entrambe normali univariate con parametri espressi dalle: c f ( x / y) E ( X / Y y) E ( X ) . y E (Y ) V (Y ) ; c2 V ( X / Y y) V ( X ) . V (Y ) c . x E ( X ) V (X ) ; V (Y / X x) V (Y ) f ( y / x) E (Y / X x) E (Y ) c2 . V (X ) Poiché i primi momenti di queste densità subordinate sono i possibili valori delle corrispondenti funzioni di regressione, si ha: E( X / Y ) E( X ) c .Y E (Y ) V (Y ) ; E (Y / X ) E (Y ) c . X E ( X ) . V (X ) Modelli di regressione lineare Operativamente, l’analisi di regressione viene usata per studiare l’influenza del n.a. X sul valor medio di Y; se si volesse analizzare l’influenza di X su Y bisognerebbe far ricorso alla distribuzione subordinata di Y rispetto X, la qual cosa risulta decisamente più impegnativa (si consideri che i valori della funzione di regressione sono i momenti primi delle distribuzioni subordinate di Y rispetto ai possibili valori di X: nell’analisi di regressione gli altri infiniti momenti di quelle distribuzioni dunque non intervengono !). Nelle applicazioni concrete, il più delle volte non si ha nessuna idea sulla forma funzionale g(.) della funzione di regressione E(Y/X) = g(X) per cui è necessario introdurre un’ipotesi di lavoro per g(.): ogni ipotesi su tale forma funzionale (per esempio g(X) = ln( X ) , oppure g(X) = exp{-aX}, oppure g(X) = X X 2 ,………..) costituisce un modello di regressione. Il modello di gran lunga più usato per la sua semplicità è quello di regressione lineare (affine) E(Y/X) = 0 1 X . Una forma equivalente dello stesso modello lineare1 è Y 0 1 . X U , ove per definizione U = Y – E(Y/X). Utilizzando le suddette proprietà della funzione di regressione si prova che risulta E(U/X) = 0 e quindi E(U) = 0, Cov (U , X) = 0. Si osservi che mentre Y e X sono variabili osservabili, non lo è la variabile U. Dimostriamo che E(U/X) = 0 per il modello lineare affine indicato sopra con U = Y – E(Y/X). Dalla definizione di U abbiamo che E(U/X) = E[ (Y – E(Y/X))/X]= E[Y/X] – E[E(Y/X))/X]= = E[Y/X] – E[Y/X]=0, essendo E[E(Y/X))/X]=E[h(X)/X] dove h(X)= E(Y/X). Usando la legge del valore atteso iterato si dimostra che E(U)= E[E(U/X)] =E[0]=0. Infine, poiché E[U]=0, risulta cov(U,X)=E(XU). Possiamo applicare nuovamente la legge del valore atteso iterato: E(X U)= E[ E(X U /X) ]. Risulta, E(X U /X)= X E(U/X)= X 0= 0. Pertanto E(X U) = E[0] = 0. 1 Ottenuta partendo dall’ipotesi che la funzione di regressione di Y rispetto X è lineare affine. Si noti infine che usando lo stesso procedimento sopra indicato è facile dimostrare che quando E(U/X) = 0, vale il risultato più generale: cov( m(X) , U)=0 per ogni funzione m(X) avente secondo momento finito. Di solito nei libri di testo il modello di regressione lineare affine viene presentato scrivendo l’equazione: Y 0 1 X U e ponendo come prima assunzione del modello l’ipotesi: 1) E[U/X]=0. E’ facile dimostrare che partendo da tali due asserzioni la funzione di regressione di Y dato X coincide con E(Y/X) = 0 1 X . Ossia quest’ultima formulazione e quella da noi inizialmente presentata risultano tra loro equivalenti. Dimostriamo quanto affermato. Poiché Y 0 1 X U risulta che E(Y/X) = E0 1 X U / X . Usando la proprietà di linearità possiamo riscrivere E0 1 X U / X = Eh( X ) / X EU / X , dove h( X ) 0 1 X . Infine Eh( X ) / X EU / X = h( X ) 0 0 1 X . La stima dei parametri del modello di regressione si effettua con uno dei procedimenti statistici di stima puntuale: il metodo di massima verosimiglianza, il metodo dei minimi quadrati, etc. Nel seguito useremo il secondo dei due, e cioè il metodo dei minimi quadrati, che ora brevemente richiamiamo. Supponendo di poter conoscere i valori di T coppie di variabili osservabili ( X t , Yt ) e avendo introdotto per esse il modello di regressione lineare Yt 0 1 X t Ut , t = 1,……….,T , si stimano i due coefficienti, 0 e 1 , con quei valori numerici che rendono minima la funzione T f ( 0 , 1 ) ( yt 0 1.xt ) 2 ; t 1 si prova che i valori che annullano le due derivate parziali di f ( 0 , 1 ) sono le coordinate del punto di minimo. Proprietà di consistenza di uno stimatore Ricordiamo a questo punto la proprietà di consistenza di uno stimatore ST (costituito da una qualche funzione di T variabili osservabili) di un qualche parametro incognito θ: ST è consistente se p-lim ST = θ al divergere di T, ossia se lo stimatore converge in probabilità al parametro da stimare. Il significato della condizione p-lim ST = θ è il seguente: fissato arbitrariamente un ε > 0, accade che lim Pr ST 0 per T . In termini discorsivi, uno stimatore è consistente se al crescere del numero T delle variabili osservabili diminuisce la probabilità di commettere errori di stima maggiori di ε in modulo. Si osservi che ciò che diminuisce al crescere dell’informazione campionaria (rappresentata dal numero T delle osservazioni) non è l’errore di stima, ma la probabilità che l’errore ST sia maggiore di ε ! La condizione deve valere per ogni ε > 0 piccolo a piacere, anche pari a 0,00000001. E’ possibile dimostrare che se: 1) lim 𝐸[𝑆𝑇 ] = 𝜃; 𝑇→∞ 2) lim 𝑉𝑎𝑟[𝑆𝑇 ] = 0; 𝑇→∞ lo stimatore ST è consistente (condizione sufficiente ma non necessaria). Alcune proprietà concernenti il modello di regressione lineare semplice e gli stimatori OLS dei coefficienti. Enunceremo alcuni risultati che si riveleranno utili nel seguito. Si verifica facilmente che la retta di regressione stimata Y 0 1 X contiene il punto ( x, y ) le cui coordinate sono le medie aritmetiche dei valori osservati. Per quanto concerne i residui U t yt y t yt 0 1 .xt sussistono le relazioni seguenti, facilmente dimostrabili: T 1) U t 0 ; t 1 T 2) U t .xt 0 ; t 1 T 3) (y t 1 t T t 1 T In forza della proprietà 3) risulta T T (Yt Y ) 2 (Yt Y t ) 2 (Y t Y ) 2 ed il rapporto t 1 y t ).( y t y ) U t .( y t y ) 0 . t 1 t 1 (Y t Y ) 2 / (Yt Y ) 2 , indicato con il simbolo R 2 e denominato indice di determinazione, viene usato come indice di affidabilità del modello di regressione stimato nel senso che quanto più prossimo ad 1 risulta essere R 2 , tanto più affidabile è ritenuto il modello stimato . Si noti che la definizione data di R 2 è valida anche per i modelli di regressione multipla.