Statistica per le ricerche di mercato a.a. 2012/13 Dr. Luca Secondi 11.a. Output tipico di un modello di regressione lineare multipla 1 La regressione lineare multipla • Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati alle variabili esplicative introdotte nella relazione funzionale specificata, al fine di quantificare l’influenza (e la connessa significatività) di ciascun predittore. • Partendo dalla disponibilità di un data set - in cui si hanno a disposizione un insieme di variabili – si procederà, nell’esempio che segue, avendo ottenuto le stime dei parametri di un modello di regressione lineare multipla alla verifica statistica delle stime dei coefficienti e di verifica statistica del modello 2 La regressione lineare multipla ESERCIZIO La società che gestisce gli spettacoli teatrali del Teatro XY intende avviare una campagna promozionale per incentivare i cittadini a partecipare alle rappresentazioni teatrali, anche attraverso inviti personalizzati e/o opportunità per ottenere riduzioni sul biglietto di ingresso. Al fine di comprendere quali siano le variabili che incidono significativamente sulla spesa per fini culturali (ed in particolare per il teatro) viene estratto un campione casuale semplice di 50 individui (di età pari o superiore a 26) residenti nella provincia in cui il teatro ha sede, ai quali si richiedono le seguenti informazioni: Importo speso per spettacoli teatrali nell’anno 2010; Età (in anni compiuti); Numero di componenti in famiglia; 3 La regressione lineare multipla Esempio Porzione del data set a disposizione A partire da tali variabili è stato inizialmente specificato un modello di regressione lineare multipla in cui: Variabile dipendente: importo speso (in Euro) per il teatro nell’anno 2010 Variabili indipendenti (variabili esplicative): 9 numero di componenti della famiglia [Ncomp] 9 età (in anni compiuti) [Eta] 4 La regressione lineare multipla L’output di riepilogo della stima del modello di regressione, ottenuto avvalendosi della funzionalità «Analisi Dati» di Excel, è di seguito riportato: OUTPUT RIEPILOGO Statistica della regressione R multiplo 0,478 R al quadrato 0,229 R al quadrato corretto 0,196 Errore standard 65,990 Osservazioni 50 ANALISI VARIANZA Gdl Regressione Residuo Totale Intercetta Età Ncomp 2 47 49 SQ 254520,350 857867,070 1112387,42 Coefficienti Errore standard 46,125 19,941 1,825 0,286 ‐14,506 3,978 MQ 127260,175 18252,491 F Significatività F 6,972 0,002 Stat t Valore di significatività Inferiore 95% Superiore 95% 2,313 0,022 6,799 85,452 6,380 0,000 1,261 2,389 ‐3,646 0,000 ‐22,352 ‐6,661 5 La regressione lineare multipla Si richiede di: a)Scrivere l’equazione di regressione stimata; b)Quali coefficienti possono essere ritenuti statisticamente significativi (α=0,05)? c)Valutare la significatività complessiva dei coefficienti (α=0,05) d)Valutare mediante un indice opportuno la bontà di adattamento del modello stimato e)Fornire una previsione dell’importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5; a) Scrivere l’equazione di regressione stimata; Sulla base dei coefficienti stimati ed indicando con X1 la variabile «Età» e con X2 la variabile «Ncomp» , l’equazione di regressione stimata si può scrivere come: Y = 46,125 + 1,825 X 1 − 14,506 X 2 * 6 La regressione lineare multipla Verifica statistica delle stime dei coefficienti – Test di significatività L’ipotesi nulla più frequentemente sottoposta a verifica è quella in cui si suppone che il valore vero del parametro sia pari a zero, zero che corrisponde ad affermare che la variabile esplicativa Xj non ha nessuna influenza sulla variabile risposta. Si tratta di un test bilaterale in cui l’ipotesi alternativa prevede la diversità da zero dello specifico coefficiente bj •Per la verifica della significatività di ogni singolo coefficiente stimato bj, la statistica test introdotta è costituita dal rapporto tra la stima ed il suo errore standard, es(bj ): t= bj es (b j ) • Sotto l’ipotesi nulla, la statistica test segue una distribuzione t di Student con n-p-1 gradi di libertà. La statistica test calcolata ,t, andrà quindi confrontata con la statistica test teorica (tabulata) tα , ( n−k −1) che 2 rappresenta il percentile (1-α/2) della distribuzione t di Student con n-k-1 gradi di libertà, dove n rappresenta il numero di osservazioni, k il numero di variabili esplicative (non considerando l’intercetta), ed α il livello di significatività fissato. Il valore della «t tabulata» viene ricavato dalle tavole della distribuzione t di Student a disposizione. • La verifica della validità della seguente disuguaglianza conduce a trarre conclusioni sulla significatività di ogni coefficiente stimato: SI bj es (b j ) > tα 2 si respinge H0 : βj =0 Il coefficiente stimato è statisticamente significativo (per α fissato a priori) si accetta H0 : βj =0 , ( n −k −1) NO Il coefficiente stimato NON è statisticamente significativo (al livello α fissato a priori) 7 La regressione lineare multipla Verifica statistica delle stime dei coefficienti – Test di significatività Con riferimento al modello di regressione in esame la verifica della significatività dei coefficienti avviene come segue: Coefficienti Errore standard 46,125 19,941 1,825 0,286 ‐14,506 3,978 Intercetta Età Ncomp Stat t 2,313 6,380 ‐3,646 Ipotizzando, come richiesto nel punto b dell’esercizio, di voler valutare la significatività dei coefficienti ad un livello α=0.05, tutti i coefficienti stimati sono statisticamente significativi. Nel dettaglio si illustra il procedimento di ragionamento da seguire, con riferimento al coefficiente stimato relativo alla variabile età. In base a quanto specificato nella slide precedente, la verifica della significatività statistica di un coefficiente di regressione stimato parte dalla determinazione della statistica test. In questo caso, avendo a disposizione l’output di Excel, la statistica t (Stat t) risulta già calcolata ed è pari a 6,380. Tale valore si ottiene agevolmente come segue: t= bj es (b j ) = 1,825 = 6,380 0, 286 Occorre ricavare dalle tavole della distribuzione t di Student il valore della «t tabulata», considerando α=0.05, n=50 (dimensione del campione) e k=2 (numero di variabili indipendenti, esclusa l’intercetta). Così facendo la «t tabulata» da considerare avrà 47 gradi di libertà (ovvero pari a n‐ k‐1): tα 2 ; ( n − k −1) ⇒ t0,025;47 = 2,0117 COME LEGGERE LA TAVOLA T DI STUDENT (vai alla slide 16) Il confronto tra la t calcolata e la t tabulata porta al verificarsi della validità della disuguaglianza: tcalcolata > ttabulata , giacché 6,380>2,0117 Quindi il valore osservato della t cade nella regione di rifiuto del test di ipotesi e si rifiuta H0 concludendo che il parametro stimato è statisticamente significativo (α=0,05). 8 La regressione lineare multipla Verifica statistica delle stime dei coefficienti – Test di significatività Coefficienti Intercetta Età Ncomp Errore standard Stat t Valore di significatività 46,125 19,941 2,313 0,022 1,825 0,286 6,380 0,000 ‐14,506 3,978 ‐3,646 0,000 Un ulteriore modo per evidenziare il risultato del test è quello di riportare il p-value (valore di significatività) dato dalla probabilità di osservare il valore della statistica test uguale o più estremo del valore ottenuto mediante i dati campionari sotto ipotesi nulla. Con riferimento al p-value, il parametro stimato è considerato significativo (cioè si rifiuta l’ipotesi H0 che il valore del parametro sia pari zero, nel caso del test di significatività) quando il corrispondente p-value è inferiore ad un livello di significatività α adeguato (assegnato) al problema. Ad esempio se α è pari a 0,05, il parametro stimato si riterrà significativamente diverso da zero se il p-value osservato è inferiore a 0,05. Nel caso dell’esercizio che si sta svolgendo (per rispondere quindi al punto b) e considerando α=0,05 tutti i parametri (età, ncomp e intercetta) possono essere ritenuti statisticamente significativi. Con l’uso del p-value si giunge in maniera più immediata alla conclusione di un test di ipotesi, essendo anche più consapevoli del grado di evidenza ottenuto per il rifiuto 9 dell’ipotesi nulla La regressione lineare multipla Inferenza sui parametri considerati congiuntamente 1/4 Sulla base della scomposizione della devianza, già analizzata per il modello di regressione lineare semplice, si può compilare un particolare quadro sintetico, noto come tavola dell’analisi della varianza (ANOVA Î ANalysis Of VAriance) Essa risulta particolarmente utile nelle procedure inferenziali per la significatività del modello considerato nel suo complesso 10 La regressione lineare multipla Inferenza sui parametri considerati congiuntamente 2/4 La statistica F della tavola ANOVA può essere impiegata per effettuare un test di significatività per l’intero modello sottoponendo a verifica l’ipotesi che i parametri del modello (eccetto l’intercetta) siano congiuntamente uguali a zero: H0: H1: β1 = β2 = … = βk = 0 almeno un βj ≠ 0 9Ipotesi nulla Înessuna delle variabili esplicative ha un effetto significativo su Y 9Ipotesi alternativa Îalmeno una delle variabili esplicative influisce su Y Tale sistema di ipotesi fa riferimento ad un confronto tra il modello nel suo complesso e un modello con la sola intercetta, dove quindi le variabili esplicative non apporterebbero nessuna informazione aggiuntiva 11 La regressione lineare multipla Inferenza sui parametri considerati congiuntamente 3/4 Si dimostra che sotto H0 il rapporto delle due quantità ESS e RSS - divise per i rispettivi gradi di libertà - si distribuisce come una variabile F di Fisher con (k) e (n-k-1) gradi di libertà, dove k indica il numero di regressori ed n la numerosità del campione. Per sottoporre a verifica l’ipotesi nulla si confronta, ad un determinato livello di significatività α, il valore F assunto dal rapporto con il corrispondente quantile della distribuzione F di Fisher Se tale valore cade sulla coda della distribuzione, come nella seguente espressione SQR / (k ) F= > Fα , ( k ), ( n−k −1) SQE / (n − k − 1) il test è significativo e si respinge l’ipotesi nulla. 12 La regressione lineare multipla Inferenza sui parametri considerati congiuntamente 4/4 In riferimento all’esempio si analizza ora, per rispondere al punto c), l’inferenza sui due parametri considerati congiuntamente attraverso l’output seguente, fornito dal software Excel: ANALISI VARIANZA gdl Regressione SQ MQ 2 254520,350 127260,175 Residuo 47 857867,070 18252,491 Totale 49 1112387,42 F Significatività F 6,972 0,002 Il risultato del test F produce un valore della statistica F pari a 6,972 al quale corrisponde un p‐value (Significatività F) inferiore al livello di significatività α=0.05 specificato: ciò conduce a respingere l’ipotesi nulla (parametri tutti pari a zero tranne l’intercetta) e concludere che il modello è significativo nel suo complesso ovvero almeno uno dei coefficienti stimati è statisticamente significativo. Alla medesima conclusione circa il test F si può giungere anche attraverso il confronto tra la F calcolata (ricavabile dalla tavola Anova e pari a F=6,972) e la corrispondente F teorica Fα;k;n‐k‐1 – ovvero il (100(1‐α)‐mo percentile della distribuzione F di Fisher con k e n‐k‐1 gradi di libertà ‐ ottenibile dalle tavole della distribuzione F di Fisher. Occorrerà quindi trovare sulle tavole il valore critico della F di Fisher avente k=2 (gradi di libertà del numeratore) e n‐k‐1=47 (gradi di libertà del denominatore) per α=0,05. Dal confronto fra i due valori si giunge al rifiuto dell’ipotesi nulla H0. 13 La regressione lineare multipla Il coefficiente di determinazione R2 nella regressione multipla Un difetto dell’ R2 già introdotto nel modello di regressione lineare semplice è che all’aumentare del numero dei regressori esso non può mai diminuire, anche se le variabili aggiuntive non hanno alcun potere esplicativo. Per risolvere questo problema l’approccio più utilizzato è quello di ricorrere all’R2 corretto ottenuto come: 2 R = 1− N 1 ei2 ∑ ( N − K − 1) i =1 ( N 1 ∑ yi − y ( N − 1) i =1 ) 2 = 1− n −1 1 − R2 n − k −1 ( ) Questa misura di adattamento prevede una penalizzazione per l’inclusione di variabili esplicative aggiuntive nel modello e di conseguenza può non aumentare al crescere del numero dei regressori. Così facendo aggiungendo una variabile all’insieme dei regressori esso può anche diminuire. Per la risoluzione del punto d) dell’esercizio si procede come segue. La valutazione della bontà di adattamento avviene, come già specificato, ricorrendo all’indice R2 corretto, che come si evince dall’output di Excel riportato nella slide 6 è pari a 0,196. Ciò sta ad indicare che circa il 20% della variabilità totale del fenomeno è spiegata dal modello di regressione stimato. Il valore di R2 corretto si ottiene analiticamente come segue: 2 R = 1− N 1 ei2 ∑ ( N − K − 1) i =1 ( N 1 ∑ yi − y ( N − 1) i =1 ) 2 1 857867, 070 18252, 491 (50 − 2 − 1) = 1− = 1− = 1 − 0,804 = 0,196 1 22701, 784 1112387, 42 (50 − 1) In alternativa l’indice R2 corretto può essere ottenuto come: 2 R = 1− 50 − 1 N −1 1 − R2 = 1 − (1 − 0, 229 ) = 1 − 0,804 = 0,196 50 − 2 − 1 N − K −1 ( ) 14 La regressione lineare multipla Al fine di rispondere al punto e) dell’esercizio e fornire una previsione dell’importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5 si procede come segue: Y = 46,125 + 1,825 ⋅ ( 38 ) − 14,506 ⋅ ( 5 ) = 42,945 * Sulla base del modello stimato, l’importo che spenderebbe un individuo con le caratteristiche suddette sarebbe pari a 42,945 Euro. 15 La regressione lineare multipla LETTURA DELLA TAVOLA della distribuzione T DI STUDENT Gradi di libertà Area della coda destra della distribuzione t di Student 0.25 0.1 0.05 0.025 0.01 0.005 … Il valore richiesto dall’esercizio si ottiene come segue: α=0.05 Æ α/2=0.025 n=50, p=2 Æ gdl= (n‐k‐1)=(50‐2‐1)=47 2.0117 16