New_La funzione di regressione e le sue proprietà File

PARTE II. ANALISI DI REGRESSIONE LINEARE
Osservazione: nel seguito una variabile casuale viene indicata più appropriatamente come
numero aleatorio (n.a.).
Funzione di regressione
Considerati due numeri aleatori (n.a.) Y e X, è detta “funzione di regressione di Y rispetto X”
il n.a. E(Y/X) dipendente da X secondo una funzione g(.) [cioè E(Y/X) = g(X)] determinata dalla
distribuzione subordinata di Y rispetto X.
I valori del n.a. g(X) [ossia i valori del n.a. E(Y/X) ] sono le speranze matematiche condizionate
E(Y/X = x). Pertanto l’evento {g(X) = E(Y/X = x)} coincide con l’evento “Il n.a. E(Y/X) assume il
valore E(Y/X = x) “ ed esso ha probabilità pari a Prob(X = x) quando il n.a. X è discreto; altrimenti
ad esso è associata la densità di probabilità marginale del n.a. X nel punto x, cioè f(x).
La conoscenza della funzione di regressione E(Y/X) permette quindi di conoscere per ogni possibile
valore x assunto dal n.a. X quale sarà il valore medio (condizionato) di Y. Inoltre al variare di x,
saremo in grado di sapere come varia in media (condizionata) Y.
Alcune proprietà della funzione di regressione sono le seguenti:
1) E( aY + b Z / X) = a E(Y/X) + b E(Z/X) , se a e b sono numeri certi (ossia delle costanti) e
X, Y e Z sono numeri aleatori (proprietà di linearità della funzione di regressione);
2) E[E(Y/X)] = E(Y) (legge del valore atteso iterato);
3) E[Y h(X) / X] = h(X) E(Y/X) ; come caso particolare della 3) vale
3.1) E[E(Y/X) / X] = E[ g(X) / X] = g(X)=E(Y/X), essendo E(Y/X) una funzione g(.) di X.
4) se i numeri aleatori X e Y sono stocasticamente indipendenti, E(Y/X) = E(Y).
5) E[Y – E(Y/X)]2  E[Y - (X)]2 per ogni funzione reale (.) tale che E[(X)]2   .
Una definizione assiomatica di funzione di regressione E(Y/X) è la seguente: essa è quel numero
aleatorio dipendente da X che verifica la condizione E Y  E Y / X   . f ( X )  0 per ogni


funzione f (.) per la quale esista la speranza matematica a primo membro.
La nozione di funzione di regressione è fondamentale nella teoria e calcolo delle probabilità; è il
caso di osservare che in lingua inglese E(Y/X) è detta “conditional expectation”, ma con lo stesso
nome si indicano anche i suoi possibili valori E(Y/X=x) e ciò può ingenerare fraintendimenti. In
questi appunti indicheremo con il nome di funzione di regressione il numero aleatorio E(Y/X) e con
quello di valor medio condizionato le possibili determinazioni E(Y/X=x) di E(Y/X) che sono
numeri certi.
E’ immediato generalizzare la definizione di funzione di regressione di Y rispetto X al caso in
cui ci si condiziona rispetto a più di un n.a. Ad esempio, la funzione di regressione di Y rispetto X e
Z è indicata con E(Y/X,Z) ed è una funzione g(X,Z). Quindi E(Y/X,Z) è un n.a. i cui valori sono le
speranze matematiche condizionate E(Y/X = x, Z=z). L’evento “Il n.a. E(Y/X,Z) assume il valore
E(Y/X = x, Z=z) “ ha probabilità pari alla probabilità congiunta Prob(X = x, Z=z) quando entrambi
i n.a. X e Z sono discreti; se X e Z sono entrambi (assolutamente) continui ad esso è associata la
densità di probabilità congiunta dei n.a. X e Z nel punto (x,z), cioè f(x,z).
Le proprietà di E(Y/X) sopra esposte sono immediatamente generalizzabili. In particolare, se X e Y
sono stocasticamente indipendenti risulta E(Y/X,Z) = E(Y/Z). Un’ultima importante proprietà è la
seguente generalizzazione della legge del valore atteso iterato
6) E[E(Y/X) / X,Z] = E[E(Y / X,Z) / X] = E(Y/X) ;
Un esempio di funzione di regressione.
Con riferimento ad un unico lancio di un dado regolare si considerino il numero aleatorio N che
individua il numero uscito nel lancio e l’indicatore D dell’evento D = “Esce un numero dispari”,
cioè il n.a. che vale 1 se esce uno dei tre risultati 1, 3, 5 e che vale 0 se esce uno dei tre risultati 2, 4,
6. Se si è convinti che il lancio del dado è fatto senza trucchi è plausibile che si assegni probabilità
1/6 ad ognuno dei sei risultati possibili; in questo caso si ha anche P(D) = ½ .
La distribuzione di probabilità congiunta dei n.a. D ed N è la seguente
N
1
2
D 1/ 6

D
0
3
4
5
6
0
1/ 6
0
1/ 6
0
1/ 6
0
1/ 6
0
1/ 6
in quanto, per esempio, l’evento [(N = 1)  D] coincide con (N = 1) (si ricordi che (N = 1) implica

D), per cui è P[(N = 1)  D] = P(N = 1) = 1/6 ed inoltre l’evento [(N = 1)  D ] è impossibile, per

cui è P[(N = 1)  D ] = 0.

La distribuzione condizionata di N all’evento D , cioè al verificarsi di un numero pari, assegna
evidentemente una probabilità pari a 1/3 ai valori 2, 4 e 6 e probabilità nulla ai rimanenti;
similmente la distribuzione condizionata di N all’evento D, cioè al verificarsi di un numero dispari,
assegna la probabilità 1/3 ai valori 1, 3, 5 e la probabilità nulla ai rimanenti. Di conseguenza, per le

speranze matematiche condizionate di N a ciascuno dei due eventi D e D si ha:

E(N/ D ) = (2 + 4 + 6)
1
=4
3
e
E(N/ D ) = (1 + 3 + 5)
1
=3.
3
In questo esempio, la funzione di regressione di N rispetto all’indicatore D , indicata con

E( N / D ) , è il numero aleatorio dipendente da D che assume il valore 4 , cioè E(N/ D ) , se D =
0 (evento di probabilità ½) ed il valore 3 , cioè E(N/ D ) , se D = 1 (evento di probabilità ½) .
Avendo perciò specificato i valori possibili del n.a. E( N / D ) e le corrispondenti probabilità, esso
è compiutamente noto. Si osservi infine che risulta
E[ E( N / D ) ] = 4 . ½ + 3 . ½ = 3.5 = E( N ) .
Lasciando al lettore i facili calcoli, ci limitiamo ad affermare che la funzione di regressione
dell’indicatore D rispetto ad N, E( D / N ) , è il n.a. che assume valore 1 quando N assume valori
dispari e 0 quando N è pari ; ovviamente, risulta E [E( D / N ) ] = ½ = P (D) .
Un altro esempio di funzione di regressione
Supponiamo che due n.a. X e Y abbiano una distribuzione congiunta di tipo normale bivariato
con valori medi E(X) ed E(Y), varianze V(X) e V(Y) e covarianza Cov(X,Y) = c ; si prova che le
due distribuzioni condizionate sono entrambe normali univariate con parametri espressi dalle:
c
f ( x / y)  E ( X / Y  y)  E ( X ) 
. y  E (Y ) 
V (Y )
;
c2
V ( X / Y  y)  V ( X ) 
.
V (Y )
c
. x  E ( X ) 
V (X )
;
V (Y / X  x)  V (Y ) 
f ( y / x)  E (Y / X  x)  E (Y ) 
c2
.
V (X )
Poiché i primi momenti di queste densità subordinate sono i possibili valori delle corrispondenti
funzioni di regressione, si ha:
E( X / Y )  E( X ) 
c
.Y  E (Y )
V (Y )
;
E (Y / X )  E (Y ) 
c
. X  E ( X ) .
V (X )
Modelli di regressione lineare
Operativamente, l’analisi di regressione viene usata per studiare l’influenza del n.a. X sul valor
medio di Y; se si volesse analizzare l’influenza di X su Y bisognerebbe far ricorso alla
distribuzione subordinata di Y rispetto X, la qual cosa risulta decisamente più impegnativa (si
consideri che i valori della funzione di regressione sono i momenti primi delle distribuzioni
subordinate di Y rispetto ai possibili valori di X: nell’analisi di regressione gli altri infiniti momenti
di quelle distribuzioni dunque non intervengono !).
Nelle applicazioni concrete, il più delle volte non si ha nessuna idea sulla forma funzionale g(.)
della funzione di regressione E(Y/X) = g(X) per cui è necessario introdurre un’ipotesi di lavoro per
g(.): ogni ipotesi su tale forma funzionale (per esempio g(X) =  ln( X ) , oppure g(X) = exp{-aX},
oppure g(X) =   X  X 2 ,………..) costituisce un modello di regressione. Il modello di gran
lunga più usato per la sua semplicità è quello di regressione lineare (affine)
E(Y/X) =  0  1 X .
Una forma equivalente dello stesso modello lineare1 è Y   0  1 . X  U , ove per definizione
U = Y – E(Y/X).
Utilizzando le suddette proprietà della funzione di regressione si prova che risulta E(U/X) = 0 e
quindi E(U) = 0, Cov (U , X) = 0. Si osservi che mentre Y e X sono variabili osservabili, non lo è la
variabile U.
Dimostriamo che E(U/X) = 0 per il modello lineare affine indicato sopra con U = Y – E(Y/X). Dalla
definizione di U abbiamo che E(U/X) = E[ (Y – E(Y/X))/X]= E[Y/X] – E[E(Y/X))/X]=
= E[Y/X] – E[Y/X]=0, essendo E[E(Y/X))/X]=E[h(X)/X] dove h(X)= E(Y/X).
Usando la legge del valore atteso iterato si dimostra che E(U)= E[E(U/X)] =E[0]=0. Infine, poiché
E[U]=0, risulta cov(U,X)=E(XU). Possiamo applicare nuovamente la legge del valore atteso iterato:
E(X U)= E[ E(X U /X) ]. Risulta, E(X U /X)= X E(U/X)= X 0= 0. Pertanto E(X U) = E[0] = 0.
1
Ottenuta partendo dall’ipotesi che la funzione di regressione di Y rispetto X è lineare affine.
Si noti infine che usando lo stesso procedimento sopra indicato è facile dimostrare che quando
E(U/X) = 0, vale il risultato più generale: cov( m(X) , U)=0 per ogni funzione m(X) avente secondo
momento finito.
Di solito nei libri di testo il modello di regressione lineare affine viene presentato scrivendo
l’equazione:
Y  0  1 X  U
e ponendo come prima assunzione del modello l’ipotesi:
1) E[U/X]=0.
E’ facile dimostrare che partendo da tali due asserzioni la funzione di regressione di Y dato X
coincide con
E(Y/X) =  0  1 X .
Ossia quest’ultima formulazione e quella da noi inizialmente presentata risultano tra loro
equivalenti. Dimostriamo quanto affermato. Poiché Y  0  1 X  U risulta che E(Y/X) =
E0  1 X  U  / X  . Usando la proprietà di linearità possiamo riscrivere E0  1 X  U  / X  =
Eh( X ) / X   EU / X  , dove h( X )  0  1 X . Infine Eh( X ) / X   EU / X  = h( X )  0 
0  1 X .
La stima dei parametri del modello di regressione si effettua con uno dei procedimenti statistici
di stima puntuale: il metodo di massima verosimiglianza, il metodo dei minimi quadrati, etc. Nel
seguito useremo il secondo dei due, e cioè il metodo dei minimi quadrati, che ora brevemente
richiamiamo.
Supponendo di poter conoscere i valori di T coppie di variabili osservabili ( X t , Yt ) e avendo
introdotto per esse il modello di regressione lineare Yt  0  1 X t  Ut , t = 1,……….,T , si
stimano i due coefficienti,  0 e 1 , con quei valori numerici che rendono minima la funzione
T
f (  0 , 1 )   ( yt   0  1.xt ) 2 ;
t 1
si prova che i valori che annullano le due derivate parziali di f ( 0 , 1 ) sono le coordinate del punto
di minimo.
Proprietà di consistenza di uno stimatore
Ricordiamo a questo punto la proprietà di consistenza di uno stimatore ST (costituito da una
qualche funzione di T variabili osservabili) di un qualche parametro incognito θ: ST è consistente
se p-lim ST = θ al divergere di T, ossia se lo stimatore converge in probabilità al parametro da
stimare. Il significato della condizione p-lim ST = θ è il seguente: fissato arbitrariamente un ε > 0,
accade che lim Pr  ST       0 per T   . In termini discorsivi, uno stimatore è consistente se
al crescere del numero T delle variabili osservabili diminuisce la probabilità di commettere errori di
stima maggiori di ε in modulo. Si osservi che ciò che diminuisce al crescere dell’informazione
campionaria (rappresentata dal numero T delle osservazioni) non è l’errore di stima, ma la
probabilità che l’errore ST   sia maggiore di ε ! La condizione deve valere per ogni ε > 0
piccolo a piacere, anche pari a 0,00000001. E’ possibile dimostrare che se:
1) lim 𝐸[𝑆𝑇 ] = 𝜃;
𝑇→∞
2) lim 𝑉𝑎𝑟[𝑆𝑇 ] = 0;
𝑇→∞
lo stimatore ST è consistente (condizione sufficiente ma non necessaria).
Alcune proprietà concernenti il modello di regressione lineare semplice e gli stimatori OLS
dei coefficienti.
Enunceremo alcuni risultati che si riveleranno utili nel seguito.





Si verifica facilmente che la retta di regressione stimata Y   0   1 X contiene il punto ( x, y ) le
cui coordinate sono le medie aritmetiche dei valori osservati.




Per quanto concerne i residui U t  yt  y t  yt   0   1 .xt sussistono le relazioni seguenti,
facilmente dimostrabili:
T

1)  U t  0 ;
t 1
T
2)

 U t .xt  0 ;
t 1
T
3)
(y
t 1
t



T


t 1
T
In forza della proprietà 3) risulta


T

T


 (Yt  Y ) 2   (Yt  Y t ) 2   (Y t  Y ) 2 ed il rapporto
t 1


 y t ).( y t  y )   U t .( y t  y ) 0 .
t 1
t 1

 (Y t  Y ) 2 /  (Yt  Y ) 2 , indicato con il simbolo R 2 e denominato indice di determinazione,
viene usato come indice di affidabilità del modello di regressione stimato nel senso che quanto
più prossimo ad 1 risulta essere R 2 , tanto più affidabile è ritenuto il modello stimato . Si noti che
la definizione data di R 2 è valida anche per i modelli di regressione multipla.