Diapositiva 1 - Docenti.unina

CAPITOLO 13
Il modello di regressione
lineare semplice e multiplo
Esempio
STATO VOLUME VENDITE PREZZI
A
410
550
B
380
600
C
350
650
D
400
600
E
440
500
F
380
650
G
450
450
H
420
500
Vogliamo studiare la relazione intercorrente tra la variabile x (volume delle vendite) e la
variabile y (prezzi praticati).
In altre parole, cerchiamo di individuare l’influenza che i prezzi (c.d. variabile indipendente)
esercitano sul volume delle vendite (c.d. variabile dipendente).
Attraverso un’analisi regressiva possiamo, quindi, perseguire i seguenti obiettivi:
1) riassumere il legame tra le variabili osservate (due, nel caso della regressione
lineare semplice e maggiori di due nel caso di regressione multipla) attraverso
un’unica formula compatta; 2) effettuare e/o valutare previsioni; 3) verificare una
legge scientifica descritta in termini di funzioni.
Gli elementi aleatori
In un modello di regressione, le variabili su cui lavoriamo sono elementi aleatori.
Tali elementi possono essere diversi per
1. Natura (es. prezzi = fattore endogeno – volume vendite = fattore esogeno)
2. Ruolo (direzione dell’influenza)
Sui cc.dd. elementi aleatori incide il fattore tempo.
In conclusione, quindi, possiamo dire che la variabile dipendente è
influenzata non soltanto dalla variabile esplicativa, ma anche da tutto un
insieme di altri fattori che sono anch’essi variabili aleatorie (n.b. anche
l’analisi di regressione viene usualmente definita esperimento aleatorio).
Il modello di regressione
lineare multiplo
Per analizzare la molteplicità di fattori che nella realtà influiscono sui
fenomeni di nostro interesse ricorriamo al c.d. modello di regressione
multiplo. Il modello di regressione lineare multipla è semplicemente una
generalizzazione del modello lineare semplice in cui vengono considerate p
variabili esplicative (con p>1).
Esempio: Si consideri quale variabile risposta (Y ) la spesa familiare mensile.
Y dipende da una serie di variabili quali ad esempio il reddito familiare
mensile (X1), il numero di componenti della famiglia (X2), l’età del
capofamiglia (X3), ecc …
Esempio
GIORNI TEMP. CONSUMO
1
-3
150
2
-1
140
3
1
130
4
-5
170
5
-7
210
Vogliamo studiare la relazione che intercorre tra l'ammontare di gasoli che
occorre per riscaldare un immobile e la temperatura esterna. Un
ricercatore rileva per cinque giorni invernali le temperature X e le quantità
Y di gasolio consumate in un ora di riscaldamento.
Il ricercatore aspetta che la temperatura esterna sia quella voluta. Dopo un ora, rileva
il consumo di gasolio. Ripete l'esperimento per le cinque temperature indicate  la
temperatura è controllata dal ricercatore, ma non è in grado di prevedere il
consumo. Avremo una seri di valori fissi (e/o controllati) associati alle variabili
aleatorie.
I valori y1 , y2 , y3 , y4 , y5 non sono valori fissi, ma sono determinazioni di 5
variabili aleatorie indipendenti (perché gli esperimenti sono indipendenti).
x1
x2
x3
x4
x5
Y1
Y2
Y3
Y4
Y5
Abbiamo, quindi, una seri di valori fissi (e/o controllati)
associati alle variabili aleatorie.
Punto cruciale: descrivere appropriatamente le variabili aleatorie  consideriamo i loro
valori attesi  E  yi    per ogni i = 1, 2, 3, … , n2.
Assumiamo, inoltre, che tutte le variabili abbiano il medesimo grado di incertezza.
Dal grafico, emerge che i consumi tendono a variare linearmente al variare della
temperatura. La stessa assunzione può esser fatta per le medie, e cioè E Yi   i
Ciò significa che i  EYi     xi
e, cioè, che i valori medi (cioè, i valori attesi) delle
variabili aleatorie (Yi), giacciano tutti su una stessa retta di parametri
alfa e beta.
Riassunto delle ipotesi
1. Per ogni valore xi di una opportuna variabile esplicativa X esiste una
popolazione descritta da una V.A. Yi con una funzione di probabilità non nota
da cui proviene ciascuna osservazione yi.
2. La distribuzione di valore aleatoria ha un certa media, pari a i  EYi     xi
3. Le distribuzioni hanno tutta la stessa varianza incognita e costante al variare di
xi.
4. Le distribuzioni sono tutte indipendenti tra di loro.
5. Le distribuzioni delle V.A. sono normali (c.d. ipotesi aggiuntiva forte  se
verificata, allora yi è una realizzazione di Yi V.A)
Valendo le prime quattro ipotesi, avremo il modello di regressione lineare
semplice, ed aggiungendo a queste anche la quinta possiamo parlare di modello
normale di regressione lineare semplice. In ogni caso, per entrambi
la
formulazione completa è la seguente:
Yi    xi   i
Da quanto detto nella slide numero 5 di questo capitolo, possiamo ora definire il
modello di regressione lineare multiplo nel seguente modo:
Tutto quello che si dirà sul modello di regressione lineare semplice, potrà essere
esteso al modello multiplo.
Stima dei parametri
I parametri (a e b) della retta di regressione sono adoperati come stimatori della retta che
esprime la relazione lineare tra x ed y. I campioni estratti da x e da y, infatti, per esperimenti
ripetuti più volte (tenendo i valori xi costanti), rappresentano due distribuzioni campionarie
(una per a e l'altra per b)  i parametri a e b della retta di regressione devono essere
interpretati come stimatori piuttosto che come stime.
Temperatura Consumo
y2
prodotti
x2
-3
150
22500
-450
9
-1
140
19600
-140
1
1
130
16900
130
1
-5
170
28900
-850
25
-7
210
44100
-1470
49
-15
800
132000
-2780
85
Errore standard della stima Syx (che indica la misura della variabilità intorno alla
retta di regressione) è pari a 11,402. Per calcolarlo, ci sono due formule:
 y
n
i 1
i
 yi
n2
*

n
oppure

i 1
2
i
n
n
i 1
i 1
 b0   i  b1  xi i
n2
Inferenza sui parametri
Facendo inferenza sui parametri della popolazione si vuole verificare se la retta di
regressione campionaria (retta CAM) possa essere ritenuta una buona espressione
della vera relazione lineare esistente nella popolazione (retta POP). Le ipotesi sono le
seguenti:
H 0 : 1  0
H1 : 1  0
Bisogna verificare l’ipotesi nulla (H0) e non l’ipotesi alternativa: quest’ultima, quindi,
sarà accettata o rifiutata solo come conseguenza di ciò che verrà fatto della prima
ipotesi. Rifiutare H0 significa ammettere che nella popolazione vi è dipendenza
lineare.
La relativa statistica test è
b 
t n 2  1 1 con Sb1 
Sb1
S yx
n
n
x 
i 1
i
x
i 1
i
n
Applicando questa procedura ai nostri dati, otterremo un valore test pari a -5,27 con
un coefficiente di rischio di 0,05. Confrontando il t empirico con il t critico che otteniamo
dalla consultazione delle tavole (in questo caso, pari a 3,18) rifiutiamo l’ipotesi
nulla.
Esercizi
Di seguito, vengono riportati una serie di links che rinviano a fogli di
lavoro Excel, nei quali sono stati sviluppati esercizi sul tema trattato in
questa lezione.
Ogni esercizio reca un foglio di commento ed uno di svolgimento.
Si noti, inoltre, che ogni esercizio è impostato con formule predefinite. Si
consiglia, quindi, dopo un attento studio della materia, di cimentarsi
nella soluzione di altre tracce e, successivamente, di inserire i propri dati
all’interno del foglio di lavoro per verificare la correttezza dei risultati
ottenuti individualmente.
esercizio
esercizio
esercizio
esercizio
esercizio