Statistica per le ricerche di mercato

Statistica per le ricerche di mercato
a.a. 2012/13
Dr. Luca Secondi
11.a. Output tipico di un modello di regressione lineare multipla
1
La regressione lineare multipla • Le analisi basate sul modello di regressione prevedono la
stima dei coefficienti associati alle variabili esplicative
introdotte nella relazione funzionale specificata, al fine di
quantificare l’influenza (e la connessa significatività) di
ciascun predittore.
• Partendo dalla disponibilità di un data set - in cui si hanno a
disposizione un insieme di variabili – si procederà,
nell’esempio che segue, avendo ottenuto le stime dei
parametri di un modello di regressione lineare multipla alla
verifica statistica delle stime dei coefficienti e di verifica
statistica del modello
2
La regressione lineare multipla ESERCIZIO
La società che gestisce gli spettacoli teatrali del Teatro XY intende avviare una campagna promozionale per incentivare i cittadini a partecipare alle rappresentazioni teatrali, anche attraverso inviti personalizzati e/o opportunità per ottenere riduzioni sul biglietto di ingresso. Al fine di comprendere quali siano le variabili che incidono significativamente sulla spesa per fini culturali (ed in particolare per il teatro) viene estratto un campione casuale semplice di 50 individui (di età pari o superiore a 26) residenti nella provincia in cui il teatro ha sede, ai quali si richiedono le seguenti informazioni: Importo speso per spettacoli teatrali nell’anno 2010; Età (in anni compiuti);
Numero di componenti in famiglia; 3
La regressione lineare multipla Esempio
Porzione del data set a disposizione
A partire da tali variabili è stato inizialmente specificato un modello di regressione
lineare multipla in cui:
Variabile dipendente: importo speso (in Euro) per il teatro nell’anno 2010
Variabili indipendenti (variabili esplicative):
9 numero di componenti della famiglia [Ncomp]
9 età (in anni compiuti) [Eta]
4
La regressione lineare multipla L’output di riepilogo della stima del modello di regressione, ottenuto avvalendosi della funzionalità «Analisi Dati» di Excel, è di seguito riportato:
OUTPUT RIEPILOGO
Statistica della regressione
R multiplo
0,478
R al quadrato
0,229
R al quadrato corretto
0,196
Errore standard
65,990
Osservazioni
50
ANALISI VARIANZA
Gdl
Regressione
Residuo
Totale
Intercetta
Età
Ncomp
2
47
49
SQ
254520,350
857867,070
1112387,42
Coefficienti Errore standard
46,125
19,941
1,825
0,286
‐14,506
3,978
MQ
127260,175
18252,491
F
Significatività F
6,972
0,002
Stat t
Valore di significatività Inferiore 95% Superiore 95%
2,313
0,022
6,799
85,452
6,380
0,000
1,261
2,389
‐3,646
0,000
‐22,352
‐6,661
5
La regressione lineare multipla Si richiede di: a)Scrivere l’equazione di regressione stimata;
b)Quali coefficienti possono essere ritenuti statisticamente significativi (α=0,05)?
c)Valutare la significatività complessiva dei coefficienti (α=0,05)
d)Valutare mediante un indice opportuno la bontà di adattamento del modello stimato
e)Fornire una previsione dell’importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5; a) Scrivere l’equazione di regressione stimata;
Sulla base dei coefficienti stimati ed indicando con X1 la variabile «Età» e con X2 la variabile
«Ncomp» , l’equazione di regressione stimata si può scrivere come: Y = 46,125 + 1,825 X 1 − 14,506 X 2
*
6
La regressione lineare multipla Verifica statistica delle stime dei coefficienti – Test di significatività
L’ipotesi nulla più frequentemente sottoposta a verifica è quella in cui si suppone che il valore vero del parametro
sia pari a zero,
zero che corrisponde ad affermare che la variabile esplicativa Xj non ha nessuna influenza sulla
variabile risposta. Si tratta di un test bilaterale in cui l’ipotesi alternativa prevede la diversità da zero dello
specifico coefficiente bj
•Per la verifica della significatività di ogni singolo coefficiente stimato bj, la statistica test introdotta è costituita dal
rapporto tra la stima ed il suo errore standard, es(bj ):
t=
bj
es (b j )
•
Sotto l’ipotesi nulla, la statistica test segue una distribuzione t di Student con n-p-1 gradi di libertà. La
statistica test calcolata ,t, andrà quindi confrontata con la statistica test teorica (tabulata) tα , ( n−k −1) che
2
rappresenta il percentile (1-α/2) della distribuzione t di Student con n-k-1 gradi di libertà, dove n rappresenta il
numero di osservazioni, k il numero di variabili esplicative (non considerando l’intercetta), ed α il livello di
significatività fissato. Il valore della «t tabulata» viene ricavato dalle tavole della distribuzione t di Student a
disposizione.
•
La verifica della validità della seguente disuguaglianza conduce a trarre conclusioni sulla
significatività di ogni coefficiente stimato:
SI
bj
es (b j )
> tα
2
si respinge H0 : βj =0
Il coefficiente stimato è statisticamente
significativo (per α fissato a priori)
si accetta H0 : βj =0
, ( n −k −1)
NO
Il coefficiente stimato NON è
statisticamente significativo (al livello α
fissato a priori)
7
La regressione lineare multipla Verifica statistica delle stime dei coefficienti – Test di significatività
Con riferimento al modello di regressione in esame la verifica della significatività dei coefficienti avviene come segue:
Coefficienti Errore standard
46,125
19,941
1,825
0,286
‐14,506
3,978
Intercetta
Età
Ncomp
Stat t
2,313
6,380
‐3,646
Ipotizzando, come richiesto nel punto b dell’esercizio, di voler valutare la significatività dei coefficienti ad un livello α=0.05, tutti i coefficienti stimati sono statisticamente significativi. Nel dettaglio si illustra il procedimento di ragionamento da seguire, con riferimento al coefficiente stimato relativo alla variabile età. In base a quanto specificato nella slide precedente, la verifica della significatività statistica di un coefficiente di regressione stimato parte dalla determinazione della statistica test. In questo caso, avendo a disposizione l’output di Excel, la statistica t (Stat t) risulta già calcolata ed è pari a 6,380. Tale valore si ottiene agevolmente come segue: t=
bj
es (b j )
=
1,825
= 6,380
0, 286
Occorre ricavare dalle tavole della distribuzione t di Student il valore della «t tabulata», considerando α=0.05, n=50 (dimensione del campione) e k=2 (numero di variabili indipendenti, esclusa l’intercetta). Così facendo la «t tabulata» da considerare avrà 47 gradi di libertà (ovvero pari a n‐
k‐1):
tα
2
; ( n − k −1)
⇒ t0,025;47 = 2,0117
COME LEGGERE LA TAVOLA T DI STUDENT
(vai alla slide 16)
Il confronto tra la t calcolata e la t tabulata porta al verificarsi della validità della disuguaglianza: tcalcolata > ttabulata , giacché
6,380>2,0117
Quindi il valore osservato della t cade nella regione di rifiuto del test di ipotesi e si rifiuta H0 concludendo che il parametro stimato è
statisticamente significativo (α=0,05). 8
La regressione lineare multipla Verifica statistica delle stime dei coefficienti – Test di significatività
Coefficienti
Intercetta
Età
Ncomp
Errore standard
Stat t
Valore di significatività
46,125
19,941
2,313
0,022
1,825
0,286
6,380
0,000
‐14,506
3,978
‐3,646
0,000
Un ulteriore modo per evidenziare il risultato del test è quello di riportare il p-value (valore di
significatività) dato dalla probabilità di osservare il valore della statistica test uguale o più
estremo del valore ottenuto mediante i dati campionari sotto ipotesi nulla.
Con riferimento al p-value, il parametro stimato è considerato significativo (cioè si rifiuta l’ipotesi
H0 che il valore del parametro sia pari zero, nel caso del test di significatività) quando il
corrispondente p-value è inferiore ad un livello di significatività α adeguato (assegnato) al
problema. Ad esempio se α è pari a 0,05, il parametro stimato si riterrà significativamente
diverso da zero se il p-value osservato è inferiore a 0,05.
Nel caso dell’esercizio che si sta svolgendo (per rispondere quindi al punto b) e considerando
α=0,05 tutti i parametri (età, ncomp e intercetta) possono essere ritenuti statisticamente
significativi.
Con l’uso del p-value si giunge in maniera più immediata alla conclusione di un test di
ipotesi, essendo anche più consapevoli del grado di evidenza ottenuto per il rifiuto
9
dell’ipotesi nulla
La regressione lineare multipla Inferenza sui parametri considerati congiuntamente
1/4
Sulla base della scomposizione della devianza, già analizzata
per il modello di regressione lineare semplice, si può
compilare un particolare quadro sintetico, noto come tavola
dell’analisi della varianza (ANOVA Î ANalysis Of VAriance)
Essa risulta particolarmente utile nelle procedure inferenziali
per la significatività del modello considerato nel suo
complesso
10
La regressione lineare multipla Inferenza sui parametri considerati congiuntamente
2/4
La statistica F della tavola ANOVA può essere impiegata per effettuare un test di significatività per l’intero modello sottoponendo a verifica l’ipotesi che i parametri del modello (eccetto l’intercetta) siano congiuntamente uguali a zero:
H0:
H1:
β1 = β2 = … = βk = 0
almeno un βj ≠ 0
9Ipotesi nulla Înessuna delle variabili esplicative ha un effetto significativo su Y
9Ipotesi alternativa Îalmeno una delle variabili esplicative influisce su Y Tale sistema di ipotesi fa riferimento ad un confronto tra il modello nel suo complesso e un modello con la sola intercetta, dove quindi le variabili esplicative non apporterebbero nessuna informazione aggiuntiva
11
La regressione lineare multipla Inferenza sui parametri considerati congiuntamente
3/4
Si dimostra che sotto H0 il rapporto delle due quantità ESS e RSS - divise per i
rispettivi gradi di libertà - si distribuisce come una variabile F di Fisher con (k) e
(n-k-1) gradi di libertà, dove k indica il numero di regressori ed n la numerosità
del campione.
Per sottoporre a verifica l’ipotesi nulla si confronta, ad un determinato livello di
significatività α, il valore F assunto dal rapporto con il corrispondente quantile
della distribuzione F di Fisher
Se tale valore cade sulla coda della distribuzione, come nella seguente
espressione
SQR / (k )
F=
> Fα , ( k ), ( n−k −1)
SQE / (n − k − 1)
il test è significativo e si respinge l’ipotesi nulla.
12
La regressione lineare multipla Inferenza sui parametri considerati congiuntamente
4/4
In riferimento all’esempio si analizza ora, per rispondere al punto c), l’inferenza sui due parametri considerati
congiuntamente attraverso l’output seguente, fornito dal software Excel:
ANALISI VARIANZA
gdl
Regressione
SQ
MQ
2
254520,350
127260,175
Residuo
47
857867,070
18252,491
Totale
49
1112387,42
F
Significatività F
6,972
0,002
Il risultato del test F produce un valore della statistica F pari a 6,972 al quale corrisponde un p‐value (Significatività F) inferiore al livello di significatività α=0.05 specificato: ciò conduce a respingere l’ipotesi nulla (parametri tutti pari a zero tranne l’intercetta) e concludere che il modello è significativo nel suo complesso ovvero almeno uno dei coefficienti stimati è statisticamente significativo.
Alla medesima conclusione circa il test F si può giungere anche attraverso il confronto tra la F calcolata (ricavabile dalla tavola Anova e pari a F=6,972) e la corrispondente F teorica Fα;k;n‐k‐1 – ovvero il (100(1‐α)‐mo percentile della distribuzione F di Fisher con k e n‐k‐1 gradi di libertà ‐ ottenibile dalle tavole della distribuzione F di Fisher. Occorrerà quindi trovare sulle tavole il valore critico della F di Fisher avente k=2 (gradi di libertà del numeratore) e n‐k‐1=47 (gradi di libertà del denominatore) per α=0,05. Dal confronto fra i due valori si giunge al rifiuto dell’ipotesi nulla H0.
13
La regressione lineare multipla Il coefficiente di determinazione R2 nella regressione multipla
Un difetto dell’ R2 già introdotto nel modello di regressione lineare semplice è che all’aumentare del numero dei regressori esso non può mai diminuire, anche se le variabili aggiuntive non hanno alcun potere esplicativo. Per risolvere questo problema l’approccio più utilizzato è quello di ricorrere all’R2 corretto ottenuto come: 2
R = 1−
N
1
ei2
∑
( N − K − 1) i =1
(
N
1
∑ yi − y
( N − 1) i =1
)
2
= 1−
n −1
1 − R2
n − k −1
(
)
Questa misura di adattamento prevede una penalizzazione per l’inclusione di variabili esplicative aggiuntive nel modello e di conseguenza può non aumentare al crescere del numero dei regressori. Così facendo aggiungendo una variabile all’insieme dei regressori esso può anche diminuire. Per la risoluzione del punto d) dell’esercizio si procede come segue. La valutazione della bontà di adattamento avviene, come già specificato, ricorrendo all’indice R2 corretto, che come si evince dall’output di Excel riportato nella slide 6 è pari a 0,196. Ciò sta ad indicare che circa il 20% della variabilità totale del fenomeno è spiegata dal modello di regressione stimato. Il valore di R2 corretto si ottiene analiticamente come segue:
2
R = 1−
N
1
ei2
∑
( N − K − 1) i =1
(
N
1
∑ yi − y
( N − 1) i =1
)
2
1
857867, 070
18252, 491
(50 − 2 − 1)
= 1−
= 1−
= 1 − 0,804 = 0,196
1
22701,
784
1112387, 42
(50 − 1)
In alternativa l’indice R2 corretto può essere ottenuto come: 2
R = 1−
50 − 1
N −1
1 − R2 = 1 −
(1 − 0, 229 ) = 1 − 0,804 = 0,196
50 − 2 − 1
N − K −1
(
)
14
La regressione lineare multipla Al fine di rispondere al punto e) dell’esercizio e fornire una previsione dell’importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5 si procede come segue: Y = 46,125 + 1,825 ⋅ ( 38 ) − 14,506 ⋅ ( 5 ) = 42,945
*
Sulla base del modello stimato, l’importo che spenderebbe un individuo con le caratteristiche suddette sarebbe pari a 42,945 Euro. 15
La regressione lineare multipla LETTURA DELLA TAVOLA della distribuzione T DI STUDENT
Gradi di libertà
Area della coda destra della distribuzione t di Student
0.25
0.1
0.05
0.025
0.01
0.005
…
Il valore richiesto dall’esercizio si ottiene come segue:
α=0.05 Æ α/2=0.025
n=50, p=2 Æ gdl= (n‐k‐1)=(50‐2‐1)=47
2.0117
16