CAPITOLO 13 Il modello di regressione lineare semplice e multiplo Esempio STATO VOLUME VENDITE PREZZI A 410 550 B 380 600 C 350 650 D 400 600 E 440 500 F 380 650 G 450 450 H 420 500 Vogliamo studiare la relazione intercorrente tra la variabile x (volume delle vendite) e la variabile y (prezzi praticati). In altre parole, cerchiamo di individuare l’influenza che i prezzi (c.d. variabile indipendente) esercitano sul volume delle vendite (c.d. variabile dipendente). Attraverso un’analisi regressiva possiamo, quindi, perseguire i seguenti obiettivi: 1) riassumere il legame tra le variabili osservate (due, nel caso della regressione lineare semplice e maggiori di due nel caso di regressione multipla) attraverso un’unica formula compatta; 2) effettuare e/o valutare previsioni; 3) verificare una legge scientifica descritta in termini di funzioni. Gli elementi aleatori In un modello di regressione, le variabili su cui lavoriamo sono elementi aleatori. Tali elementi possono essere diversi per 1. Natura (es. prezzi = fattore endogeno – volume vendite = fattore esogeno) 2. Ruolo (direzione dell’influenza) Sui cc.dd. elementi aleatori incide il fattore tempo. In conclusione, quindi, possiamo dire che la variabile dipendente è influenzata non soltanto dalla variabile esplicativa, ma anche da tutto un insieme di altri fattori che sono anch’essi variabili aleatorie (n.b. anche l’analisi di regressione viene usualmente definita esperimento aleatorio). Il modello di regressione lineare multiplo Per analizzare la molteplicità di fattori che nella realtà influiscono sui fenomeni di nostro interesse ricorriamo al c.d. modello di regressione multiplo. Il modello di regressione lineare multipla è semplicemente una generalizzazione del modello lineare semplice in cui vengono considerate p variabili esplicative (con p>1). Esempio: Si consideri quale variabile risposta (Y ) la spesa familiare mensile. Y dipende da una serie di variabili quali ad esempio il reddito familiare mensile (X1), il numero di componenti della famiglia (X2), l’età del capofamiglia (X3), ecc … Esempio GIORNI TEMP. CONSUMO 1 -3 150 2 -1 140 3 1 130 4 -5 170 5 -7 210 Vogliamo studiare la relazione che intercorre tra l'ammontare di gasoli che occorre per riscaldare un immobile e la temperatura esterna. Un ricercatore rileva per cinque giorni invernali le temperature X e le quantità Y di gasolio consumate in un ora di riscaldamento. Il ricercatore aspetta che la temperatura esterna sia quella voluta. Dopo un ora, rileva il consumo di gasolio. Ripete l'esperimento per le cinque temperature indicate la temperatura è controllata dal ricercatore, ma non è in grado di prevedere il consumo. Avremo una seri di valori fissi (e/o controllati) associati alle variabili aleatorie. I valori y1 , y2 , y3 , y4 , y5 non sono valori fissi, ma sono determinazioni di 5 variabili aleatorie indipendenti (perché gli esperimenti sono indipendenti). x1 x2 x3 x4 x5 Y1 Y2 Y3 Y4 Y5 Abbiamo, quindi, una seri di valori fissi (e/o controllati) associati alle variabili aleatorie. Punto cruciale: descrivere appropriatamente le variabili aleatorie consideriamo i loro valori attesi E yi per ogni i = 1, 2, 3, … , n2. Assumiamo, inoltre, che tutte le variabili abbiano il medesimo grado di incertezza. Dal grafico, emerge che i consumi tendono a variare linearmente al variare della temperatura. La stessa assunzione può esser fatta per le medie, e cioè E Yi i Ciò significa che i EYi xi e, cioè, che i valori medi (cioè, i valori attesi) delle variabili aleatorie (Yi), giacciano tutti su una stessa retta di parametri alfa e beta. Riassunto delle ipotesi 1. Per ogni valore xi di una opportuna variabile esplicativa X esiste una popolazione descritta da una V.A. Yi con una funzione di probabilità non nota da cui proviene ciascuna osservazione yi. 2. La distribuzione di valore aleatoria ha un certa media, pari a i EYi xi 3. Le distribuzioni hanno tutta la stessa varianza incognita e costante al variare di xi. 4. Le distribuzioni sono tutte indipendenti tra di loro. 5. Le distribuzioni delle V.A. sono normali (c.d. ipotesi aggiuntiva forte se verificata, allora yi è una realizzazione di Yi V.A) Valendo le prime quattro ipotesi, avremo il modello di regressione lineare semplice, ed aggiungendo a queste anche la quinta possiamo parlare di modello normale di regressione lineare semplice. In ogni caso, per entrambi la formulazione completa è la seguente: Yi xi i Da quanto detto nella slide numero 5 di questo capitolo, possiamo ora definire il modello di regressione lineare multiplo nel seguente modo: Tutto quello che si dirà sul modello di regressione lineare semplice, potrà essere esteso al modello multiplo. Stima dei parametri I parametri (a e b) della retta di regressione sono adoperati come stimatori della retta che esprime la relazione lineare tra x ed y. I campioni estratti da x e da y, infatti, per esperimenti ripetuti più volte (tenendo i valori xi costanti), rappresentano due distribuzioni campionarie (una per a e l'altra per b) i parametri a e b della retta di regressione devono essere interpretati come stimatori piuttosto che come stime. Temperatura Consumo y2 prodotti x2 -3 150 22500 -450 9 -1 140 19600 -140 1 1 130 16900 130 1 -5 170 28900 -850 25 -7 210 44100 -1470 49 -15 800 132000 -2780 85 Errore standard della stima Syx (che indica la misura della variabilità intorno alla retta di regressione) è pari a 11,402. Per calcolarlo, ci sono due formule: y n i 1 i yi n2 * n oppure i 1 2 i n n i 1 i 1 b0 i b1 xi i n2 Inferenza sui parametri Facendo inferenza sui parametri della popolazione si vuole verificare se la retta di regressione campionaria (retta CAM) possa essere ritenuta una buona espressione della vera relazione lineare esistente nella popolazione (retta POP). Le ipotesi sono le seguenti: H 0 : 1 0 H1 : 1 0 Bisogna verificare l’ipotesi nulla (H0) e non l’ipotesi alternativa: quest’ultima, quindi, sarà accettata o rifiutata solo come conseguenza di ciò che verrà fatto della prima ipotesi. Rifiutare H0 significa ammettere che nella popolazione vi è dipendenza lineare. La relativa statistica test è b t n 2 1 1 con Sb1 Sb1 S yx n n x i 1 i x i 1 i n Applicando questa procedura ai nostri dati, otterremo un valore test pari a -5,27 con un coefficiente di rischio di 0,05. Confrontando il t empirico con il t critico che otteniamo dalla consultazione delle tavole (in questo caso, pari a 3,18) rifiutiamo l’ipotesi nulla. Esercizi Di seguito, vengono riportati una serie di links che rinviano a fogli di lavoro Excel, nei quali sono stati sviluppati esercizi sul tema trattato in questa lezione. Ogni esercizio reca un foglio di commento ed uno di svolgimento. Si noti, inoltre, che ogni esercizio è impostato con formule predefinite. Si consiglia, quindi, dopo un attento studio della materia, di cimentarsi nella soluzione di altre tracce e, successivamente, di inserire i propri dati all’interno del foglio di lavoro per verificare la correttezza dei risultati ottenuti individualmente. esercizio esercizio esercizio esercizio esercizio