ORARIO LEZIONI ANALISI DELLE STATISTICHE DI VENDITA Marco Riani [email protected] http://www.riani.it LIBRI DI TESTO • Teoria • Riani M., Laurini F. (2008), (seconda edizione) Modelli statistici per l’economia con applicazioni aziendali aziendali, Pitagora Pitagora, Bologna. • Mercoledì 11 – 13 (aula Lauree) • Mercoledì 14 – 16 (aula Lauree) • Giovedì 11 – 13 (Esercitazione) • Seminari? MODALITÀ DI ESAME • Prova pratica al computer (computer portatile) • + interpretazione dei risultati • Prova P orale l Perché si adatta una funzione? LA REGRESSIONE LINEARE (semplice o multipla) Marco Riani - Analisi delle statistiche di vendita • Riassumere l’andamento dei punti con una formula che esprima il legame tra y e le esplicative • verificare una legge scientifica (ad es. es prezzi e vendite) • effettuare previsioni 1 LA REGRESSIONE LINEARE • • • Esiste una relazione (lineare) tra X e Y? In caso affermativo: Come varia una variabile (dipendente) i funzione in f i dell’altra d ll’ lt (esplicativa)? ( li ti )? • Per convenzione: Y = variabile dipendente X = variabile esplicativa Esempi • Relazione tra comportamenti di acquisto e caratteristiche dei consumatori • Relazione tra numero di esami sostenuti nei primi due anni di corso e voto alla maturità • Relazione tra prezzo di vendita e quantità venduta di un bene Motivi che spingono ad adottare modelli di regressione lineare Relazioni di tipo lineare Motivi che spingono ad adottare modelli di regressione lineare • Effettiva linearità Î molte relazioni sono molto vicine alla linearità • Trasformazioni Î la relazione è lineare p aver trasformato opportunamente pp la dopo dipendente e/o l’esplicativa • Semplicità Î facilità di interpretazione dei parametri • yi = a + bxi + ei i = 1, …, n dove: • a + bxi rappresenta una retta: • a = ordinata all’origine → intercetta • b = coeff. angolare → coeff. di regressione • ei è un termine di errore (accidentale) Motivi che spingono ad adottare modelli di regressione lineare • Limitatezza dell’intervallo • Es. y = a bx • log y = log a + (log b) x • y’ = a’ + b’ x Marco Riani - Analisi delle statistiche di vendita 2 Motivi che spingono ad adottare modelli di regressione lineare Diagramma di dispersione 8 • Ragioni di teoria statistica: lo studio delle funzioni lineari nei parametri ha una trattazione più agevole 7 Y = vendite 6 5 4 3 2 1 0 0 10 20 30 40 X = N. dipendenti • Come variano le vendite in funzione del numero di dipendenti? MODELLO DI REGRESSIONE • yi = a + bxi + ei i = 1, …, n dove: • a + bxi rappresenta una retta: • a = ordinata all’origine → intercetta • b = coeff. angolare → coeff. di regressione • ei è un termine di errore (accidentale) RETTA DI REGRESSIONE yˆ i = a + bx i • i = 1, …, n ŷ i = valore teorico (valore stimato) di yi → funzione lineare di i = 1, …, n Residui ei = y i − yˆ i Come si calcolano i parametri a e b? Visualizzazione grafica dei residui • METODO DEI MINIMI QUADRATI n n i =1 i =1 ∑ ei2 = ∑ ( yi − yˆ i ) 2 = min Le incognite sono i parametri della retta yˆ i = a + bx i Marco Riani - Analisi delle statistiche di vendita 3 Sistema di equazioni normali Formule per il calcolo di a e b (p. 33) a= n ∑ ei = 0 ∑ y ∑x −∑x ∑x y n∑ x − (∑ x ) 2 i 2 i i i i i 2 = y − bx i i =1 n b= ∑ xi ei = 0 n∑ xi yi − ∑ xi ∑ yi n∑ x − (∑ xi ) 2 i 2 ∑ y (x − x) ∑ (x − x) i = i 2 i i =1 a e b sono funzioni lineari delle osservazioni yi ESEMPIO (7 supermercati) rxy=0,96 Scatter con retta di regressione N. dipendenti (X) Fatturato in milioni di € (Y) 8 A 10 1,9 6 B 18 3,1 C 20 32 3,2 D 8 1,5 E 30 6,2 1 F 12 2,8 0 G 14 2,3 Y=v vendite 7 5 4 3 2 0 10 20 30 40 X = N. dipendenti • Come variano le vendite in funzione del numero di dipendenti? Calcolo di a e b xi2 yi2 Calcolo di a e b yi2 yi xi yi 10 1,9 100 3,61 19 A 10 1,9 100 3,61 19 B 18 3,1 324 9,61 55,8 B 18 3,1 324 9,61 55,8 C 20 3,2 400 10,24 64 C 20 3,2 400 10,24 64 D 8 1,5 … … … D 8 1,5 … … … E 30 6,2 … … … E 30 6,2 … … … F 12 2,8 … … … F 12 2,8 … … … G 14 2,3 … … … G 14 2,3 … … … Tot. 112 21 2128 77,28 402,6 Tot. 112 21 2128 77,28 402,6 a= a= xi yi xi2 xi A 2 ∑ yi ∑ xi − ∑ xi ∑ xi yi n∑ x i2 − ( ∑ x i ) 2 21 ⋅ 2.128 − 112 ⋅ 402,6 403,2 =− = −0,17 2.352 7 ⋅ 2.128 − 112 2 Marco Riani - Analisi delle statistiche di vendita b= b= xi yi n∑ x i y i − ∑ x i ∑ y i n∑ x i2 − ( ∑ x i ) 2 7 ⋅ 402,6 − 112 ⋅ 21 466,2 = = 0,198 2.352 7 ⋅ 2.128 − 112 2 4 Scomposizione della devianza di Y BONTA’ DI ADATTAMENTO • Retta di regressione: yˆ i = a + bx i DEV (Y ) = DEV (Yˆ ) + DEV ( E ) DEVIANZA TOTALE DEV (Y ) = n ∑ (y i =1 i DEV (Yˆ ) = DEVIANZA RESIDUA DEV ( E ) = n ∑ (y i =1 i • L’adattamento è buono quando DEV(E) è “piccola” piccola − M y ) 2 DEVIANZA DI REGRESSIONE − yˆ i ) 2 = n ∑ ( yˆ i =1 i − M y) 2 n ∑e i =1 2 i Esercizio • Problemi: • DEV(E) cresce all’aumentare del numero di osservazioni (n) • DEV(E) dipende dall’unità di misura e dall’ordine di grandezza di Y Indice di determinazione lineare (R2) • Dimostrare la relazione δ= DEV (Y ) = DEV (Yˆ ) + DEV ( E ) xi yi A 10 1,9 B 18 3,1 C 20 D E F ŷi e 1,81 2 i 1,416 0,155 3,2 3,79 0,624 8 1,5 1,414 … … 30 62 6,2 5 77 5,77 … … 12 2,8 2,206 … … G 14 2,3 2,602 Tot. 112 21 21 … 1,079 … 13,201 0,348 δ= 2 ∑ ( yi − yˆ i ) = 0 •δ =0 se 2 ∑ ( yˆ i − M y ) = 0 Grafico dei residui ( yˆ i − M y ) 2 0,008 14,28 = 13,20 + 1,08 se di R2 (δ) 3,394 0,086 DevTOT=DevREGR+DevRES •δδ =1 1 13,20 1,08 = 1− = 0,924 14,28 14,28 1 R Residui yˆ1 = - 0,17 + 0,198 *10 Calcolo DEV (Yˆ ) DEV ( E ) = 1− DEV (Y ) DEV (Y ) 0.5 0 -0.5 05 0 10 20 30 40 -1 N. dipendenti • Modello soddisfacente: distribuzione casuale dei residui → componente erratica oppure δ = (0,9615)2 = 0,924 Marco Riani - Analisi delle statistiche di vendita 5 ESTRAPOLAZIONE • Si tenta di valutare in maniera attendibile il valore che assumerà la variabile dipendente in corrispondenza di un valore noto della variabile esplicativa. • CONDIZIONI – Validità della retta di regressione (δ prossimo ad 1) – valore noto della variabile esplicativa non lontano dai valori utilizzati nel calcolo della retta (Vendite, nr. di dip.) scomposizione di yi yi yi − y ei yŷi b( xi − x ) y xi − x x Stimare i parametri della retta di regressione, trovare i valori stimati, verificare i vincoli del sistema di equazioni normali e la bontà di adattamento con Excel xi Funzione regr.lin • Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN Interpretazione di b • b= indica l’entità della variazione teorica della variabile dipendente in corrispondenza di un incremento unitario della variabile esplicativa Marco Riani - Analisi delle statistiche di vendita Componente aggiuntivo analisi dei dati 6 Schema logico con cui si affrontano i problemi di inferenza statistica Introduzione agli elementi aleatori Teoria campionaria e legame con l’universo Esempio: universo composto da 1000 az. di distribuzione di prodotti enogastronomici • Si immagina di conoscere l’universo • Si costruiscono gli strumenti statistici adatti a risolvere i problemi in esame • Si testa t t l’affidabilità l’ ffid bilità di ttalili strumenti t ti statistici Grafico ad istogrammi dell’utile di esercizio • X = utile di esercizio • Funzione CASUALE.TRA • Funzione INDICE • v. a. Media campionaria Distribuzione media campionaria (100 campioni di numerosità n=100) freque nze assolu Estrazione campioni 50 45 40 35 30 25 20 15 10 5 0 18.5 -19 19 -19.5 19.5 -20 20 -20.5 20.5 -21 21 -21.5 oltre 21.5 classi Marco Riani - Analisi delle statistiche di vendita 7 v.a. Media campionaria Distribuzione media campionaria standardizzata Confronto con la v.a. N(0,1) Distribuzione media campionaria Introduzione agli elementi aleatori Introduzione agli elementi aleatori N. dipendent i (X) Vendite in milioni di € (Y) A B A 10 19 1,9 B 18 3,1 C 20 3,2 D D 8 1,5 E E 30 6,2 F F 12 2,8 G G 14 2,3 H C Prezzi in Euro (x) Vendite (Y) 1.55 1.60 1.65 1.60 1.50 1.65 1.45 1.50 410 380 350 400 440 380 450 420 Marco Riani - Analisi delle statistiche di vendita • Le vendite sono dovute in parte ai prezzi e in parte a fattori di natura aleatoria e perciò sono esse stesse delle v.c. • Al contrario I dipendenti e/o i prezzi non sono v.c. poiché sono del tutto prevedibili dalla compagnia che li stabilisce 8 Introduzione agli elementi aleatori Assunzioni su Yi • Una successione di valori fissi • x1, x2, … xn • Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza • a cui sono associate n vv.c. c indipendenti • Y1, Y2, … Yn • Il punto cruciale consiste nel descrivere in modo appropriato tali v.c. • E(Yi)? var(Yi)? Distribuzione di Yi? • var(Yi) = σ2 ii=1 1, 2 2, …, n • σ2 è un parametro incognito da stimare • cov(Yi, Yj)=0 i≠j Assunzioni su Yi Assunzioni su Yi (continua) • E(Yi) = µi i=1, 2, …, n • i valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite • Ip: µi = E(Yi) = α+β xi • Questa ipotesi equivale ad affermare che i punti (x1, µ1), ) (x2, µ2), ) …, (xn, µn) stiano tutti su una retta con parametri α, β • Oss: questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta ma che i valori medi delle distribuzioni da cui i punti provengono verificano l’equazione della retta • Ip. le medie delle distribuzioni variano linearmente con la variabili indipendente • µi = E(Yi) = α+β xi Interpretazione di α e β Interpretazione di α e β • I parametri α e β rappresentano l’intercetta ed il coeff. angolare della retta sulla quale giacciono le medie incognite delle distribuzioni Y1, …, Yn Marco Riani - Analisi delle statistiche di vendita 9 Osservazione Stima dei parametri • Dato il modello di regressione • Yi = α +β xi +εi • I parametri da stimare sono • α, β, µ1, µ2, …, µn, σ2 • L’ip: µi = E(Yi) = α+β xi • La conoscenza di α, α β consente di ricostruire tutte le medie incognite µ1, µ2, …, µn • equivale ad affermare che • E(εi)=0 Coeff. di regressione campionari e nella popolazione Stime di α e β • Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn, per valori fissi di x1, …, xn si ottiene una distribuzione campionaria di valori αˆ = Y − βˆx βˆ = ∑ ( xi − x )Yi ∑ (x − x) yi = α + βxi + ε i yi = αˆ + βˆxi + ei 2 i Stime di µi Coeff. di regressione campionari e nella popolazione Stima di σ2 yi = α + β xi + ε i yi = αˆ + βˆxi + ei 8 6 Y = vendite y = α + βx εi 7 yˆ = αˆ + βˆx ei 5 4 E( yi ) = α + βxi 3 2 E( yi ) = αˆ + βˆxi 1 0 0 10 • σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni • Dato che σ2=E(εi2) • Dato D t che h ei è una stima ti di εi sembra b naturale utilizzare come stimatore di σ2 la seguente espressione 20 30 40 X = N . dipendenti Marco Riani - Analisi delle statistiche di vendita s2 = ∑(y i − μˆ i ) 2 n−2 = ∑e 2 i n−2 10 Stima di σ2 • Utilizziamo gli scostamenti dalle medie delle popolazioni s2 = ∑(y i − μˆ i ) 2 n−2 = Stima di σ2 • Excel definisce s come “errore standard nella stima di Y” ∑e 2 i n−2 s= Funzione regr.lin • Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN ∑e 2 i n−2 Ip. aggiuntiva • • • • • Le distribuzioni Yi sono normali y1 è una realizzazione di Y1 ~ N(µ1, σ2) y2 è una realizzazione di Y2 ~ N(µ2, σ2) … yn è una realizzazione di Yn ~ N(µn, σ2) • Y1, Y2, …, Yn sono indipendenti Richiami sulla v.c. normale Richiami sulla costruzione degli int. di confidenza • se Y ~N(µ, σ2) • Z=(Y- µ)/ σ ~ N(0,1) ⎛ ⎞ X − E( X ) Pr ⎜ − 1.96 < < 1.96 ⎟ = 0.95 ⎜ ⎟ var( X ) ⎝ ⎠ • Pr(-1.96 < Z <1.96) =0.95 ⎛ ⎞ X −μ < 1.96 ⎟ = 0.95 Pr⎜ − 1.96 < ⎜ ⎟ var( X ) ⎝ ⎠ • aY+b ~ N(b+ µ, a2σ2) ( ) Pr X − 1.96 var( X ) < μ < X + 1.96 var( X ) = 0.95 Marco Riani - Analisi delle statistiche di vendita 11 Studio della distribuzione di βˆ = ∑ Obiettivo βˆ ( xi − x )Yi ∑ (x − x) 2 i Costruire intervalli di confidenza e test di verifica d’ipotesi sul coeff. angolare yi = α + βxi + ε i βˆ yi = αˆ + βˆxi + ei Studio della distribuzione di βˆ = ∑ βˆ ( xi − x )Yi ∑ (x − x) 2 i E ( βˆ ) = ? var(βˆ ) = ? σ2 ∑ (x − x) 2 i var((βˆ ) = var(βˆ ) = 2 2 ⎛ n ⎞ var⎜ ∑ ( xi − x )Yi ⎟ ⎝ i =1 ⎠ ⎛ n ⎞ ⎜ ∑ var( xi − x )Yi ⎟ i = 1 ⎝ ⎠ ⎡n ⎤ 2 ⎢∑ ( xi − x ) ⎥ ⎣ i =1 ⎦ 1 2 ⎛ n ⎞ ⎜ ∑ var( xi − x )Yi ⎟ ⎠ ⎡ 2 ⎤ ⎝ i =1 ⎢∑ ( xi − x ) ⎥ ⎣ i =1 ⎦ 1 n 2 Stima(var(βˆ )) = s 2 ( βˆ ) = 1 ⎛ n ⎞ ⎜ ( xi − x )2 varYi ⎟ 2 ∑ i = 1 ⎝ ⎠ ⎡n ⎤ 2 ⎢∑ ( xi − x ) ⎥ ⎣ i =1 ⎦ ⎛ n ⎞ ⎜ ∑ ( xi − x ) 2 σ 2 ⎟ i = 1 ⎝ ⎠ ⎡n ⎤ 2 ⎢∑ ( xi − x ) ⎥ ⎣ i =1 ⎦ 1 var(βˆ ) = 1 ⎡n 2⎤ ⎢∑ ( xi − x ) ⎥ ⎣ i =1 ⎦ Al posto di σ2 sostituiamo il suo stimatore Varianza di beta cappello var(βˆ ) = ⎛ n ⎞ ⎜ ∑ ( xi − x )Yi ⎟ i =1 ⎜ ⎟ ˆ var(β ) = var n ⎜ 2 ⎟ ⎜ ∑ ( xi − x ) ⎟ ⎝ i =1 ⎠ var(βˆ ) = E ( βˆ ) = β var(βˆ ) = Varianza di beta cappello var(βˆ ) = σ2 n ∑ (x − x) i =1 2 i Marco Riani - Analisi delle statistiche di vendita s2 ∑ ( xi − x ) 2 • La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore s sβˆ = SE ( βˆ ) = ∑ ( xi − x ) 2 12 Interpretazione dello standard error di beta cappello • Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati Studio della distribuzione di αˆ = Y − βˆx E (αˆ ) = ? var(αˆ ) = ? Esercizio: nell’esempio dei 7 supermercati calcolare lo standard error di beta cappello e alpha cappello sβˆ = SE ( βˆ ) = s (x − x) ∑Sol. 2 α̂ E (αˆ ) = α ⎡1 ⎤ x2 var(αˆ ) = σ 2 ⎢ + 2⎥ ⎢⎣ n ∑ ( xi − x ) ⎥⎦ Costruzione di intervalli di confidenza dei parametri = 0.025 i sαˆ = SE (αˆ ) = s 1 x2 + = 0.44 n ∑ ( xi − x ) 2 Punto di partenza: lo scostamento standardizzato di beta capello ha una distribuzione N(0,1) ⎛ βˆ − E ( βˆ ) Pr⎜ − Z γ < < Zγ ⎜ var(βˆ ) ⎝ ⎞ ⎟ = 1− γ ⎟ ⎠ • Se 1-γ=0.95 Pr(−1.96 < βˆ − E ( βˆ ) var(βˆ ) < 1.96) = 0.95 Marco Riani - Analisi delle statistiche di vendita Pr(−1.96 < ⎛ ⎜ ⎜ Pr⎜ − 1.96 < ⎜ ⎜ ⎝ βˆ − E ( βˆ ) var(βˆ ) < 1.96) = 0.95 ⎞ ⎟ ⎟ βˆ − β < 1.96 ⎟ = 0.95 2 σ ⎟ 2 ⎟ − ( ) x x ∑ i ⎠ Problema: σ2 è ignoto (occorre sostituire il suo stimatore s2) 13 Studio della distribuzione di s2 • Si può dimostrare che Sostituendo al posto di σ2 il suo stimatore ⎛ ⎜ ⎜ Pr ⎜ − 1.96 < ⎜ ⎜ ⎝ ⎞ ⎟ ⎟ < 1.96 ⎟ = 0.95 2 σ ⎟ ⎟ ∑ ( xi − x ) 2 ⎠ βˆ − β Costruzione di un intervallo di confidenza per il coeff. angolare Costruzione di intervalli di confidenza dei parametri • Dove tγ è il quantile (percentile) associato alla distribuzione T di Student con (n-2) gradi di libertà tale che (v. p. 44) Esercizio: nell’esempio dei 7 supermercati costruire un intervallo di confidenza al 95% per β ed d interpretare i t t i risultati ottenuti Costruzione di un intervallo di confidenza al 95% per il coeff. angolare • t0.05(5)=+2.5706 (=INV.T(0.05;5) • (Oss: Pr.(T(5)>2.5706)=0.025) • Pr(0.198-2.5706×0.0253<β<0.198+2.5706×0.0253)=0.95 • Pr(0.133<β< 0.263)=0.95 Marco Riani - Analisi delle statistiche di vendita 14 Interpretazione • L'intervallo di confidenza del coefficiente di regressione, con probabilità uguale a 0.95, va da 0,133 a 0,263. • Questo significa che nell'universo di riferimento, all'aumento all aumento di un dipendente può corrispondere un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%). • Oss: l'intervallo è piuttosto ampio e questo dipende dalla ridotta numerosità campionaria (solo 7 supermercati). Intervallo di confidenza per l’intercetta Costruzione di un intervallo di confidenza al 95% per l’intercetta Costruzione di un intervallo di confidenza al 95% per σ2 Punto di partenza • t0.05(5)=+2.5706 (=INV.T(0.05;5) • (Oss: Pr.(T(5)>2.5706)=0.025) • Pr(1.31<α< 0.96)=0.95 • per trovare χ20.975 utilizzo =INV.CHI(0.025;5)=0.83 • per trovare χ20.025 utilizzo • =INV.CHI(0.975;5)=12.83 Costruzione di test di ipotesi per α β σ2 • Pr(0.08< σ2< 1.30)=0.95 Marco Riani - Analisi delle statistiche di vendita 15 Dato che βˆ − β ~ tn−2 SE ( βˆ ) Funzione regr.lin • Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN Sotto H0: β =0 βˆ ~ tn−2 SE ( βˆ ) Calcolo delle statistiche t con Excel e del relativo pp-value Esercizio: nell’esempio dei 7 supermercati testare H0:β=0, trovare il relativo pp-value ed interpretare il risultato del test • p value Î Funzione distrib.T tβ=7.82 p-value = 0.000548 Interpretazione : rifiuto decisamente l’ipotesi nulla Esercizio: nell’esempio dei 7 supermercati testare H0:α=0, trovare il relativo pp-value ed interpretare il risultato del test tα=0.39 Intervallo di confidenza delle previsioni con il metodo dei minimi quadrati p-value = 0.714 Interpretazione : non posso rifiutare l’ipotesi nulla Marco Riani - Analisi delle statistiche di vendita 16 Strumenti necessari (p. 189) Calcolo della var. dell’errore di previsione Calcolo della var. dell’errore di previsione Bande di confidenza dell’errore di previsione (p. 55) Costruzione di un intervallo di confidenza per y0 Costruzione di un intervallo di confidenza per y0 • Tenendo presente che e0 − E (e0 ) ~ N (0,1) var(e0 ) e0 − E (e0 ) ~ T ( n − 2) vâr(e0 ) y0 − yˆ 0 ~ T ( n − 2) vâr(e0 ) ⎛ ⎞ y − yˆ 0 Pr ⎜ − tγ < 0 < tγ ⎟ = 1 − γ ⎟ ⎜ v â r( e ) 0 ⎝ ⎠ e0 ~ T (n − 2) vâr(e0 ) y0 − yˆ 0 ~ T ( n − 2) vâr(e0 ) Marco Riani - Analisi delle statistiche di vendita vedi p. 56 17 Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di previsione delle vendite al 95% Pr(3 − 2.57 × 0.4966 < y0 < 3 + 2.57 × 0.4966) = 0.95 Pr(1.72 < y0 < 4.28) = 0.95 Forma generale del modello di regressione Regressione multipla In forma matriciale Marco Riani - Analisi delle statistiche di vendita • Il modello è ancora lineare nei coefficienti βj ma la sostanziale differenza rispetto al modello lineare semplice risiede nella presenza d'un maggior numero di variabili indipendenti Xj Obiettivo: adattare un piano Obiettivo: “iperpiano” di regressione 18 Generalizzazione delle assunzioni per la regr. lineare semplice Assunzione sulla varianza dei termini di disturbo • che implica Richiami sulla matr. var. cov. di un vettore aleatorio (p. 188) Assunzione sulla matrice X • X = fissa non stocastica, non dipende in alcun modo da ε • X ha h rango pieno i Ripasso sulle matrici Marco Riani - Analisi delle statistiche di vendita • • • • • • • • • Addizione tra matrici Moltiplicazione Matrice diagonale Matrice identità Matrice trasposta (trasposta del prodotto) Matrice inversa Traccia Matrice idempotente Somma di quadrati (ponderata) in forma matriciale • Forme quadratiche (positive, negative definite) • Forme quadratiche idempotenti • Scomposizione spettrale 19 Valore atteso e var di comb. di v.c. • • • • x vettore casuale A = matrice non stocastica E(A x) = A E(x) var(A x) = A var(x) A’ (v. p. 189) Derivate di vettori e matrici Derivate di vettori e matrici (pp. 182182-183) • x vettore casuale ⎛ x1 ⎞ ⎜ ⎟ ⎜ x2 ⎟ x = ⎜ ... ⎟ ⎜ ⎟ ⎜ ... ⎟ ⎜ ⎟ ⎝ xp ⎠ ⎛ ∂f ⎞ ⎜ ⎟ ⎜ ∂x 1 ⎟ ⎜ ∂f ⎟ ∂f ⎜ ∂x 2 ⎟ =⎜ ⎟ ∂x ⎜ ... ⎟ ⎜ ... ⎟ ⎜ ∂f ⎟ ⎜ ⎟ ⎝ ∂x p ⎠ Derivate di vettori e matrici • Se a’=(a1, …, ap) ⎛ x1 ⎞ ⎜ ⎟ ⎜x2 ⎟ x=⎜ ...⎟ ⎜ ⎟ ⎜ ...⎟ ⎜x ⎟ ⎝ p⎠ ⎛ ∂f ⎞ ⎜ ⎟ ⎜ ∂x 1 ⎟ ⎛⎜ a1 ⎞⎟ ⎜ ∂f ⎟ ⎜ a2 ⎟ ∂a' x a1 x1 + a2 x2 + ... + a p x p ⎜ ∂x 2 ⎟ ⎜ ⎟ = ... = a = =⎜ ... ⎟ ⎜ ⎟ ∂x ∂x ⎜ ⎟ ⎜ ... ⎟ ⎜ ... ⎟ ⎜ ⎟ ⎜ ∂f ⎟ ⎝ a p ⎠ ⎜ ∂x ⎟ ⎝ p⎠ Derivate di vettori e matrici Stima di β • Occorre trova il β che minimizza la seguente espressione Marco Riani - Analisi delle statistiche di vendita 20 Stima di β • Occorre trova il β che minimizza la seguente espressione File di input svsv-regrregrmultipla.xls Stima di β • Se la matrice X’X quadrata di ordine k ammette tt inversa, i allora ll lla soluzione l i è Ripasso: vincoli del sistema di equazioni normali nella regressione semplice n ∑e i =1 i =0 n ∑xe i =1 vincoli del sistema di equazioni normali nella regressione multipla • L’equazione i i =0 Interpretazione dei parametri nella regressione lineare multipla • implica X’e=0 Marco Riani - Analisi delle statistiche di vendita 21 Modello di regressione multiplo Interpretazione dei parametri nella regressione lineare multipla Criterio alternativo per trovare I coefficienti di regr. lineare multipla (p. 70) In generale • Es. trovare il coeff. di regressione parziale del PIL • 1) Regressione Investimenti su tutte le variabili tranne il PIL • 2) Regressione del PIL su tutte le altre variabili esplicative • 3) Regressione tra i residui di 1) e i residui di 2) Modello di regressione nellnelluniverso e nel campione y = Xβ + ε y = Xβ̂ + e • Qual è la relazione tra e ed ε? Marco Riani - Analisi delle statistiche di vendita • Dato y = 1 β0 +X1 β1 + X2 β2+…+ Xi βi +…+Xk-1 βk-1+ε • Per trovare beta cappello_i – Si regredisce y su tutte le variabili tranne Xi e si prendono i residui (di INPUT) – Si regredisce Xi su tutte le altre variabili esplicative e si prendono i residui (di OUTPUT) – Il coefficiente di regressione semplice calcolato sulle due serie dei residui produce beta cappello_i Analisi dei valori previsti yˆ = Xβ̂ yˆ = X ( X ' X ) −1 X ' y yˆ = Hy H = X ( X ' X ) −1 X ' 22 Analisi della matrice H • Simmetrica e idempotente Analisi degli elementi sulla diagonale principale della matrice H • Gli elementi sulla diagonale principale sono compresi tra 0 e 1 Nel modello di regressione semplice (p. 77) • In letteratura le osservazioni a cui corrisponde • Di conseguenza hii è elevato se xi è distante dalla nuvola dei punti Analisi dei residui • vengono detti punti di leverage Analisi dei residui y = Xβ + ε y = Xβ̂ + e e = Mε M = I − X ( X ' X ) −1 X ' = I − H Marco Riani - Analisi delle statistiche di vendita 23 Caratteristiche della matrice M Ulteriore interpretazione dei punti di leverage • Simmetrica • Idempotente • La somma dei quadrati dei residui si può scrivere come n ∑ ei2 =e' e = ε ' Mε i= • I punti in cui hii è grande sono i valori influenti nella regressione, ossia quelli che attirano a sé l’iperpiano di regressione • Forma quadratica idempotente Analisi della bontà di adattamento • R2 nei modelli di regressione lineare multipla Analisi della varianza e coeff. di correlazione lineare multipla (modelli senza intercetta) • Indice di bontà di adattamento Modelli con intercetta Marco Riani - Analisi delle statistiche di vendita Coeff. correlazione lineare multipla 24 Studio della distribuzione di β̂ Teorema di Gauss Markov (efficienza degli stimatori OLS) E ( βˆ ) = β var(βˆ ) = σ 2 ( X ' X ) −1 Stima di σ2 • E(s2)? Caratteristiche delle devianze • Dev residua • Dev totale • Qual è la distribuzione di s2 (somma dei quadrati dei residui diviso i gradi di libertà) Come si distribuiscono le forme quadratiche idempotenti? • Dev regressione Come si distribuiscono le forme quadratiche idempotenti? • Premessa: numero di autovalori diversi da zero di una matrice = rango della matrice (p. 176) • Gli autovalori di una matrice idempotente sono 0 o 1(p. (p 177)) • La somma degli autovalori è uguale alla traccia (p.182) • Î rango e traccia della matrice idempotente coincidono Marco Riani - Analisi delle statistiche di vendita 25 Distribuzione delle forme quadratiche nella regressione • Devianza residua Distribuzione delle forme quadratiche nella regressione • Devianza residua Distribuzione della devianza residua e’e • • • • • e’e=ε’ M ε Scomposizione spettrale di M M= PΛP M PΛP’ e’e = ε’ P ΛP’ ε Ponendo P’ ε=v e’e= v’ Λ v v~N(0, σ2In) Distribuzione della devianza residua e’e • e’e = v’ Λ v Distribuzione della devianza residua e’e Distribuzione della devianza totale • • • • Marco Riani - Analisi delle statistiche di vendita v~N(0, σ2In) Scomposizione spettrale di A A= PΛP’ y’Ay=ε’ P ΛP’ ε Ponendo P’ ε=v y’Ay= v’ Λ v v~N(0, σ2In) 26 Distribuzione della devianza totale • yy’Ay= Ay vv’ Λ v Affermazioni equivalenti (p. 86) vv~N(0 N(0, σ2In) Distribuzione delle forme quadratiche nella regressione • Devianza di regressione Scomposizione della devianza totale e distribuzione delle forme quadratiche (p. 86) Marco Riani - Analisi delle statistiche di vendita Riassunto finale • Le forme quadratiche idempotenti hanno una distribuzione chi quadrato (dato che gli autovalori sono 0 e 1) • Il numero di gradi di libertà è dato dal numero di autovalori uguali ad 1 (traccia ossia rango della matrice idempotente) Inferenza su un generico coeff. di regressione parziale (p. 87) 27 Inferenza su un generico coeff. di regressione parziale H0: βj=0 • Analisi della distribuzione del test tj tj presenta una distribuzione T di Student con n-k gradi di libertà Intervallo di conf. di un generico coeff. di regressione parziale Criteri per confrontare i modelli • In assenza di relazione lineare tra X e y qual è il valore attesto di R2 Criteri per confrontare i modelli Criteri per confrontare i modelli • tende a 0 in assenza di dipendenza lineare e tende a 1 in presenza di dipendenza lineare perfetta. Marco Riani - Analisi delle statistiche di vendita 28 Criteri per confrontare i modelli Ripasso sullle v.c • Dopo semplici passaggi • • • • Test di verifica di ipotesi su combinazioni lineari dei coefficienti Test di verifica di ipotesi su combinazioni lineari dei coefficienti • Esempi • Se vogliano testare simultaneamente q ipotesi la forma generale è • Rβ=r • dove d R ((q × k) di costanti t ti note t • r= vettore noto di q elementi Test di verifica di ipotesi su combinazioni lineari dei coefficienti Test di verifica di ipotesi su combinazioni lineari dei coefficienti Marco Riani - Analisi delle statistiche di vendita Normale (standadizzata) chi^2 (forme quadratiche idempotenti) T di Student F (rapporto tra forme quadratiche idempotenti indipendenti) 29 Test di verifica di ipotesi su combinazioni lineari dei coefficienti Esercizio • Supponiamo che k=5. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi • β2+3β4=1 • β1-5β2=0 • β3=0 • β3+β4+β5=2 Test di verifica di ipotesi su combinazioni lineari dei coefficienti Esercizio • • • • β2+3β4=1 β1-5β5=0 β3=0 β3+β4+β5=2 ⎛0 ⎜ ⎜1 R=⎜ 0 ⎜ ⎜0 ⎝ 1 0 0 0 0 0 1 1 3 0 ⎞ ⎟ 0 − 5⎟ 0 0 ⎟ ⎟ 1 1 ⎟⎠ ⎛ β1 ⎞ ⎜ ⎟ ⎜ β2 ⎟ β = ⎜ β3 ⎟ ⎜ ⎟ ⎜ β4 ⎟ ⎜β ⎟ ⎝ 5⎠ ⎛1⎞ ⎜ ⎟ ⎜0⎟ r =⎜ ⎟ 0 ⎜ ⎟ ⎜ 2⎟ ⎝ ⎠ Test di verifica di ipotesi su combinazioni lineari dei coefficienti Esercizio • Supponiamo che k=6. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi • β3=β4=β5= β6=0 Marco Riani - Analisi delle statistiche di vendita 30 Esercizio Statistica test • β3=β4=β5= β6=0 ⎛0 ⎜ ⎜0 R=⎜ 0 ⎜ ⎜0 ⎝ 0 1 0 0 0⎞ ⎟ 0 0 1 0 0⎟ 0 0 0 1 0⎟ ⎟ 0 0 0 0 1 ⎟⎠ ⎛ β1 ⎞ ⎜ ⎟ ⎜ β2 ⎟ ⎜β ⎟ β =⎜ 3⎟ ⎜ β4 ⎟ ⎜β ⎟ ⎜ 5⎟ ⎜ ⎟ ⎝ β6 ⎠ ⎛ 0⎞ ⎜ ⎟ ⎜ 0⎟ r =⎜ ⎟ 0 ⎜ ⎟ ⎜ 0⎟ ⎝ ⎠ Dimostrazione Devo dimostrare che QQ=Q • Il numeratore si può scrivere ε’Q ε • ε’Q ε = forma quadratica idempotente ε’Q ε ~ σ2 chi^2 Distribuzione del test F Numeratore ε’Q ε/q • chi^2(q) dove q è il numero di righe della matrice R (numero di vincoli) Denominatore ε’M ε/(n-k) M = I − X ( X ' X ) −1 X ' = I − H Marco Riani - Analisi delle statistiche di vendita 31 Esempio con Excel • File regr-test.xls Relazione con il test t per testare βi=0 Casi particolari R=(0 , …, 0, 1, 0. …0) e r=0 Relazione con il test precedente • L’equazione • non è altro che il quadrato del test t Set di variabili esplicative non rilevanti Marco Riani - Analisi delle statistiche di vendita Procedura 32 • e’rer= Devianza totale • e’e = Devianza residua • In questo esempio cos’è e’rer ? cos’è e’e? Output della funzione REGR.LIN Output del componente aggiuntivo analisi dati ANALISI VARIANZA gdl SQ MQ F 2 5841.06918 2920.53 107.86051 R id Residuo 12 324 923484 324.923484 27 0769 27.0769 Totale 14 6165.99266 Regressione Significatività F 2.14126E-08 • Test F Sessione al computer: computer: verificare • Verificare Marco Riani - Analisi delle statistiche di vendita Intervallo di confidenza del valore y0 associato ad uno specifico insieme di valori delle variabili esplicative 33 Es. investimenti PIL e trend Strategia • Passiamo attraverso e0 e poi esplicitiamo y0 Troviamo E(e E(e0) e var(e0) Var(e0) Ob. trovare intervallo di conf. per y0 Ob. trovare intervallo di conf. per y0 Marco Riani - Analisi delle statistiche di vendita 34 Es. investimenti PIL e trend Es. investimenti PIL e trend Intervallo di confidenza per y0 Regressione con variabili categoriche Aggiunta di una variabile dummy Consumo Es. consumo e reddito Reddito Marco Riani - Analisi delle statistiche di vendita 35 Rappresentazione grafica dell’effetto della variabilie dummy = diminuire la stima teorica dell’ammontare dei consumi di un ammontare pari a -55.46 Consumo Risultati del modello di regr. linere multiplo Reddito Confronto (con e senza dummy) Verifica della bontà di adattamento del modello Analisi dei residui Grafico preliminare (esempio investimenti, PIL trend) Marco Riani - Analisi delle statistiche di vendita Diverse tipologie di residui (p.99) 36 Come si trova s(i) Analisi dei residui di cancellazione studentizzati Serie storica della vendita di un bene Destagionalizzazione, detrendizzazione delle serie storiche Primo modo per X (p. 117) Modello trend + stagionalità + componente erratica Marco Riani - Analisi delle statistiche di vendita 37 Secondo modo per X (p. 118) Stima dei parametri Espressioni formali per le due parametrizzazioni (eq. p. 117) Interpretazione delle stime dei parametri • Il coefficiente del trend rimane immutato • Nella seconda parametrizzazione i coeff. stagionali devono essere interpretati come effetto della stagione considerata relativo alla stagione esclusa Confronto valori effettivi e valori stimati Marco Riani - Analisi delle statistiche di vendita Destagionalizzazione 38 Serie originaria e serie destagionalizzata Detrendizzazione Serie originaria e serie detrendizzata Detrendizzazione e destagionalizzazione Serie originaria e serie detr.detr.-dest. Testare la presenza della comp. stagionale (n=20) Marco Riani - Analisi delle statistiche di vendita 39 Testare la presenza della comp. stagionale (implementare entrambe le formule) r, R, q, n-k? Destagionalizzazione Come si può imporre questo vincolo? • Vincolo: la somma dei valori originari deve essere uguale alla somma dei valori destagionalizzati in ogni anno (all’interno del periodo s) • Î la somma degli effetti stagionali nel corso dell’anno deve essere zero • Come si può imporre questo vincolo? • Nella parametrizzazione che non considera si prendono gli scarti dalla media degli effetti stagionali • Intercetta = media degli effetti stagionali In simboli p. 141 Serie storica orginale e stima del trend 450.0 Vend dite 400.0 350.0 300.0 250.0 tri m 1 tri 20 m 01 2 tri 20 m 01 3 tri 20 m 01 4 tri 20 m 01 1 tri 20 m 02 2 tri 20 m 02 3 tri 20 m 02 4 tri 20 m 02 1 tri 20 m 03 tri 2 20 m 0 3 3 tri 20 m 03 4 tri 20 m 03 1 tri 20 m 04 2 tri 20 m 04 3 tri 20 m 04 4 tri 20 m 04 1 tri 20 m 05 2 tri 20 m 05 3 tri 20 m 05 4 20 05 200.0 Trimestri Marco Riani - Analisi delle statistiche di vendita 40 Limiti del modello lineare tipo Serie storica originale eserie destagionalizzata 450.0 • • • • Errori di osservazioni ( X stocastica?) Valori sfasati della variabile dipendente Sistemi di equazioni simultanee Il ricercatore conosce tutte le variabili esplicative rilevanti? • Disturbi eteroschedastici • Perturbazioni correlate Vendite V 400.0 350.0 300.0 250.0 trim trim 1 20 01 trim 2 20 01 3 trim 20 01 trim 4 20 01 1 trim 20 02 2 trim 20 02 3 trim 20 02 4 trim 20 02 trim 1 20 03 2 trim 20 03 3 trim 20 03 4 trim 20 03 1 trim 20 04 trim 2 20 04 3 trim 20 04 trim 4 20 04 1 trim 20 05 2 trim 20 05 3 trim 20 4 2 05 00 5 200.0 Trimestri Ipotesi di omoschedasticità Verifica dell’ipotesi dell’ipotesi di omoschedasticità Es. reddito e spesa Es. reddito e spesa Diagramma di dispersione sui valori originari Residui basati sulla regressione che utilizza tutte le osservazioni 450 200 350 150 300 100 250 50 Residu y (spesa 400 200 150 100 -100 50 -150 0 0.000 -50 0 -50 50.000 100.000 150.000 200.000 250.000 300.000 350.000 X (reddito) -200 0 50 100 150 200 250 300 350 Valori previsti Marco Riani - Analisi delle statistiche di vendita 41 Test di omoschedasticità Si può utilizzare il rapporto che segue? Test di omoschedasticità • Il suddetto criterio per l'omoschedasticità può anche essere applicato quando l'ipotesi alternativa stabilisca che la varianza delle perturbazioni è una funzione crescente di una delle variabili esplicative del modello. La procedura consiste quindi nel riordinare le osservazioni secondo i valori crescenti di quella particolare variabile. Riordinare le osservazioni secondo i valori crescenti di quella particolare variabile. Test per l’ipotesi di autocorrelazione nei residui • Funzione di EXCEL cerca.vert Marco Riani - Analisi delle statistiche di vendita 42 Coefficiente di autocorrelazione Punto di partenza • Se le perturbazioni sono incorrelate con la stessa varianza otteniamo 2σ2 • Se le perturbazioni sono correlate positivamente otteniamo 2σ2 - termine positivo Test di Durbin e Watson Procedure backward e forward Evoluzione del coefficiente di determinazione nei diversi passi della procedura backward Indice di deterrminazione (R2) Selezione delle variabili Test di Durbin e Watson 0.7 0.695 0.69 0.685 0.68 0.675 0.67 10 9 8 7 6 Numero di variabili inserite nel modello Marco Riani - Analisi delle statistiche di vendita 43