CORSO DI STATISTICA PER LE RICERCHE DI MERCATO Dr. L.Secondi a.a. 2012/13 MODELLO DI REGRESSIONE LINEARE SEMPLICE [discussi in aula il 10.05.2013] ESEMPIO 1 Si ipotizzi di aver rilevato su un campione casuale di 30 studenti iscritti ad un corso di laurea in Economia aziendale, il voto conseguito all’esame di matematica ed il voto conseguito alla maturità. E’ stato stimato un modello di regressione lineare semplice che pone il voto all’esame di matematica (Y) come funzione del voto alla maturità (X). L’output ottenuto è il seguente: OUTPUT RIEPILOGO 0.41761 R al quadrato 0.174398 R al quadrato corretto 0.144912 Errore standard 3.163304 30 Statistica della regressione R multiplo Osservazioni ANALISI VARIANZA gdl Regressione SQ MQ 1.00 59.18 Residuo 28.00 280.18 Totale 29.00 Intercetta Voto alla maturità 59.18 5.91 0.02 339.37 Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95% 14.980 4.066 3.685 0.001 6.652 23.307 0.123 0.050 2.432 0.022 0.019 0.226 a) b) c) d) e) Significatività F 10.01 Coefficienti F Scrivere l’equazione di regressione stimata; Interpretare il coefficiente di regressione b; Valutare la significatività dei coefficienti stimati (α=0.05) Valutare la bontà di adattamento del modello stimato Quali informazioni si ottengono dall’analisi della varianza? ESEMPIO 2 Si ipotizzi di aver rilevato su un campione casuale di 105 acquirenti di un determinato prodotto sui quali è stato rilevato il livello di soddisfazione per il prodotto (scala ancorata agli estremi 1‐10) e l’età. E’ stato stimato un modello di regressione lineare semplice che pone il livello di soddisfazione (Y) come funzione dell’età (X). L’output ottenuto è il seguente: OUTPUT RIEPILOGO 0.246 R al quadrato ? R al quadrato corretto ? 2.306 105 Statistica della regressione R multiplo Errore standard Osservazioni ANALISI VARIANZA gdl SQ Regressione MQ F Significatività F 1 35.359802 35.3598022 Residuo 103 547.49734 5.31550816 Totale 104 582.85714 Intercetta Età Coefficienti Errore standard Stat t 6.652196 Valore di significatività 0.0113 Inferiore 95% Superiore 95% 7.178 0.559 12.831 0.000 6.069 8.288 ‐0.037 0.014 ? 0.011 ‐0.066 ‐0.009 a) Qual è l’effetto dell’età sul livello di soddisfazione verso il prodotto acquistato? b) È possibile affermare che il coefficiente associato all’età è significativamente diverso da zero? c) È corretto affermare che il modello stimato spiega più del 50% della variabilità totale della variabile risposta? d) Qual è il valore previsto del livello di soddisfazione, sulla base del modello stimato, per un individuo di età pari a 30 anni? e) In quale unità di misura è espresso l’errore standard della regressione? Qual è la dispersione delle osservazioni intorno alla retta di regressione? ESEMPIO 3 Si ipotizzi di aver rilevato su un campione casuale di 115 appartamenti in vendita in una determinata città italiana il prezzo richiesto dai proprietari per l’immobile (in migliaia di Euro) ed il numero di stanze. La stima del modello di regressione in Excel ha condotto al seguente output: OUTPUT RIEPILOGO R multiplo 0.613 R al quadrato 0.376 Statistica della regressione R al quadrato corretto Errore standard 0.371 132.383 115 Osservazioni ANALISI VARIANZA Significatività F 0.000 gdl Regressione SQ MQ 1 1195227.152 Residuo 113 1980347.892 Totale 114 1195227.152 68.200 17525.203 3175575.043 Coefficienti F Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95% Intercetta 51.223 33.019 1.551 0.124 ‐14.193 116.639 N.stanze 55.611 6.734 8.258 0.000 42.270 68.952 a) Scrivere l’equazione di regressione stimata b) Quali coefficienti stimati possono essere ritenuti statisticamente significativi?(α=0.05) c) Determinare, sulla base del modello stimato, il prezzo di vendita di un immobile di 5 stanze d) Determinare l’intervallo di confidenza per il coefficiente “N.stanze” (α=0.05) e) Si può affermare che il coefficiente sia pari a 60 (test bilaterale)? f) Cosa si può concludere dal test F (α=0.05)? MODELLO DI REGRESSIONE LINEARE MULTIPLA ESEMPIO 4 Si ipotizzi di aver introdotto nella rilevazione precedente anche l’età dell’immobile e di aver stimato nuovamente il modello di regressione, ottenendo i seguenti risultati: OUTPUT RIEPILOGO R multiplo 0.730 R al quadrato 0.533 Statistica della regressione R al quadrato corretto Errore standard 0.525 115.080 115 Osservazioni ANALISI VARIANZA gdl SQ Regressione MQ 2 1692323.91 Residuo 112 1483251.14 Totale 114 Intercetta ‐149.316 N.stanze Eta immobile a) b) c) d) 846161.953 Significatività F 63.894 0.000 13243.314 3175575.04 Coefficienti F Errore standard Stat t Valore di significatività 43.535 ‐3.430 59.584 5.890 5.267 0.860 Inferiore 95% Superiore 95% 0.001 ‐235.575 ‐63.058 10.117 0.000 47.914 71.253 ? 0.000 3.564 6.970 Scrivere l’equazione di regressione multipla stimata Quali coefficienti stimati possono essere ritenuti statisticamente significativi (α=0.05)? Come può essere interpretato il valore del coefficiente “N.stanze” pari a 59.584? Valutare la bontà di adattamento del modello stimato mediante il calcolo di un indice opportuno e commentare il risultato ottenuto e) Qual è il prezzo previsto di un immobile di 4 stanze e 50 anni?