Statistica per le ricerche di mercato A.A. 2012/13 Dr. Luca Secondi 10. La regressione lineare semplice • Il termine regressione fu introdotto verso la metà dell‘Ottocento dall’inglese Sir Francis Galton (1822-1911) che, nei suoi studi di eugenetica, voleva verificare se la statura dei figli potesse essere prevista sulla base di quella dei genitori, esprimendo questa corrispondenza in una legge matematica. • Galton osservò che figli alti provenivano da genitori tendenzialmente alti così come figli bassi provenivano da genitore tendenzialmente bassi. Tuttavia, a genitori eccezionalmente alti non corrispondevano figli alti in modo così estremo, e a genitori eccezionalmente bassi non corrispondevano figli altrettanto bassi. • Poiché Galton notò una tendenza delle altezze dei figli a spostarsi nella generazione successiva verso l’altezza media, scrisse che ciò costituiva una “regression towards mediocrity” e la relazione statistica stimata dalle osservazioni fu chiamata regressione. regressione 2 Se la correlazione misura l’intensità e il segno del legame lineare tra due variabili, l’obiettivo delle tecniche di regressione è, invece, quello di individuare il tipo di relazione funzionale che esiste tra una variabile dipendente (o spiegata o endogena) e una o più variabili indipendenti (o esplicative o esogene). 3 Affermare che il fenomeno Y “dipende” dal fenomeno X secondo la relazione matematica Y=f(X) semplifica ovviamente la dinamica reale dove intervengono, con differenti pesi, una miriade di interrelazioni, tra le variabili X e Y ed il resto del mondo dei fenomeni non esplicitati nella formula proposta. E’ possibile allora correggere il modello scrivendo: Y=f(X)+u Dove u costituisce la componente stocastica del modello ed è rappresentata da una variabile casuale che compendia l’insieme di circostanze che impediscono a tale relazione di essere un legame teorico di tipo matematico. 4 Perché si introduce la componente di errore nel modello? Negli studi empirici la relazione tra due variabili non è mai una relazione funzionale esatta del tipo Y=f(X) I comportamenti economici e sociali non sono descritti adeguatamente da relazioni che fanno corrispondere ad un dato valore di X un unico valore di Y Esempi: Nello studio della relazione di dipendenza del consumo familiare (Y) dal reddito familiare (X), è ragionevole ipotizzare che famiglie con lo stesso reddito abbiano comportamenti di consumo differenti; La dimensione di un punto vendita non può essere la sola variabile esplicativa del fatturato del punto vendita stesso; La decisione di un consumatore di acquistare il prodotto di una determinata azienda non è influenzata esclusivamente dal numero di spot giornalieri trasmetti in televisione. Il termine di errore u tiene conto di ogni altro fattore (non osservato o non osservabile) che, oltre alla variabile esplicativa, può influenzare la risposta Y. Esempio: Il consumo delle famiglie può dipendere, oltre che dal reddito disponibile, anche dal numero di componenti, dalla loro età e dal livello di istruzione 5 Perché si introduce la componente di errore nel modello? Se la relazione lineare valesse con esattezza - relazione deterministica o matematica - il metodo di stima sarebbe semplice: basterebbe conoscere le coordinate di due punti campionari per tracciare la retta che li unisce e produrre la relativa equazione. Tuttavia imbattersi in relazioni funzionali esatte - sulla base dell’osservazione di dati empirici - risulta estremamente improbabile. Al contrario è piuttosto frequente osservare delle discrepanze più o meno accentuate tra i valori osservati di Y e quelli che emergono da una relazione funzionale esatta con X. Il termine di errore u serve proprio a rappresentare formalmente tali discrepanze e a distinguere una relazione statistica (o stocastica) stocastica da una deterministica. 6 La regressione semplice: se la variabile indipendente è solo una; multipla: se le variabili indipendenti sono due o più; lineare: se la relazione che esprime la variabile dipendente è di tipo lineare; non lineare: se tale relazione non è lineare. 7 Principali caratteristiche delle analisi di regressione ¾ L’obiettivo principale è quello di investigare su eventuali relazioni empiriche tra variabili allo scopo di analizzare le cause (determinanti) che possono spiegare un determinato fenomeno oggetto di studio. ¾ È caratterizzata dalla semplicità intrinseca dei modelli utilizzati, basati essenzialmente su funzioni lineari. ¾ Sebbene non tutte le relazioni funzionali siano esprimibili attraverso modelli lineari, una prima analisi fondata su forme funzionali semplici costituisce comunque un buon punto di partenza per passare poi ad eventuali modelli più complessi. 8 Principali fasi di un’analisi di regressione lineare i. Si ipotizza una relazione funzionale lineare tra una variabile oggetto di studio (variabile dipendente o risposta) e una o più altre variabili (variabili indipendenti o esplicative); ii. Si stimano i parametri di tale relazione funzionale sulla base dei dati campionari a disposizione; iii. L’analisi è completata con appropriati test statistici sulla significatività dei parametri e la valutazione della bontà dell’adattamento del modello ai dati; iv. Ulteriori analisi di conferma servono ad assicurarsi che la relazione ipotizzata sia effettivamente lineare e che le assunzioni su cui si basa la stima del modello siano state rispettate 9 Semplice Regressione Lineare Multipla Consideriamo dapprima il caso più semplice: esaminiamo il legame tra due sole variabili X e Y. 10 Partiamo da un esempio… [rif. Bracalente et al.2009] Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale proposito viene estratto un campione di 10 supermercati: IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati delle vendite 11 ¾Per mettere in evidenza la relazione lineare esistente tra due caratteri è possibile rappresentare l’insieme delle coppie di punti su un asse cartesiano (in cui sull’asse delle ascisse viene riportata, come di consueto, la variabile X e sull’asse delle ordinate la variabile Y). Il grafico derivante prende il nome di grafico di dispersione (o scatter plot). Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di correlazione lineare esistente tra le due variabili. Se tra X e Y non c’è alcun legame allora X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro Correlazione lineare ρXY = −1 perfetta discordanza n Corr(X, Y ) = ρ XY σ = XY = σXσ Y (xi − x )(yi − y ) ∑ i=1 n n − 1 < ρXY < 0 discordanza (xi − x ) ∑ (yi − y ) ∑ i =1 i=1 2 2 ρXY = 0 0 < ρXY < 1 ρXY = 1 assenza di legame lineare concordanza concordanza perfetta 12 Cov(X,Y)>0 Cov(X,Y)=0 Cov(X,Y)<0 La relazione tra X e Y non è di tipo lineare 13 ...torniamo all’esempio Dal diagramma di dispersione (scatter plot) si può avere conferma della linearità e della direzione della relazione ipotizzata. V o l u m e 350 La relazione è evidenziata anche dal valore del coefficiente di correlazione lineare r=0.893 300 250 200 v 150 e 100 n d 50 i 0 t 0,0 e 50,0 100,0 150,0 200,0 Spazio espositivo ¾Viene formulato un modello lineare dove: Volume delle vendite Î variabile dipendente (variabile risposta) Spazio espositivo Î variabile esplicativa 14 IL MODELLO DI REGRESSIONE LINEARE SEMPLICE Il modello di regressione lineare mette in relazione una variabile X con un’altra variabile, Y. Nella relazione lineare tra Y e X la pendenza della retta è una caratteristica incognita della distribuzione congiunta di X e Y nella popolazione. ll compito della statistica è quello di stimare l’effetto su Y di una variazione unitaria di X, ossia di stimare la pendenza della retta, utilizzando un campione di dati su queste due variabili. 15 Nel modello di regressione lineare semplice si assumono le seguenti ipotesi (ipotesi classiche) sul termine di errore e sulla variabile esplicativa: 1) E(u )=0 i=1…n i 2) V(u )= σ per ogni i=1…n : ipotesi di varianza costante o omoschedasticità 2 i 3) Cov(uiuj)=0 i,j =1…n i≠j :I termini di errore (relativi ad unità statistiche differenti) hanno correlazione nulla, sono cioè incorrelati. Questa ipotesi esclude la presenza di qualsiasi forma di autocorrelazione 4) La variabile X è una variabile deterministica (non stocastica): i dati relativi alla variabile indipendente X sono “noti senza errore”, cioè non soggetti a deviazione di natura accidentale. 16 IL MODELLO DI REGRESSIONE LINEARE SEMPLICE Le ipotesi classiche del modello di regressione hanno delle implicazioni sulla distribuzione della variabile dipendente. L’ipotesi che la variabile esplicativa sia deterministica implica che la variabile dipendente Y sia costituita dalla somma di una componente deterministica e di una variabile casuale. Più precisamente: Su un campione di n unità statistiche sono stati osservati i valori relativi a due distinte variabili: Y variabile dipendente o variabile risposta X variabile indipendente o variabile esplicativa Sulla base dei dati osservati e di alcune assunzioni può essere formulata la seguente relazione lineare: Yi = α + β X i + ui componente deterministica i = 1, 2,…, n variabile casuale dove, per ogni osservazione i nel campione: α e β sono costanti dette parametri del modello di regressione α è l’intercetta della retta di regressione nella popolazione β è il coefficiente angolare (pendenza) della retta di regressione nella popolazione ui è una variabile casuale e rappresenta il termine di errore Yi = α + β X i È la retta di regressione della popolazione. Esprime la relazione esistente in media tra Y e X nella popolazione 17 La stima dei parametri La pendenza e l’intercetta della retta che mette in relazione X e Y possono essere stimati utilizzando un metodo chiamato Minimi Quadrati Ordinari (OLS, acronimo dall’inglese Ordinary Least Squares) Stimare α e β significa stimare l’equazione di una retta che interpola al meglio i dati. In altri termini l’obiettivo è individuare una retta che renda minima la distanza dai punti e risulti quindi il più possibile vicina ai dati. 18 La stima dei parametri Lo stimatore dei minimi quadrati ordinari OLS Lo stimatore dei minimi quadrati ordinari “sceglie” i coefficienti di regressione in modo che la retta di regressione stimata sia il più possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma dei quadrati degli errori che si commettono nel predire Y data X. Siano a e b stimatori di α e β. La retta di regressione basata su questi a + bX i e quindi il valore di Yi predetto usando stimatori è questa retta è Y i = a + bX i . Perciò l’errore che si commette nel predire la i-esima osservazione è ei =Yi −( a+bXi ) =Yi −a−bXi La somma dei quadrati degli errori di predizione per tutte le n osservazioni è n n ∑ e = ∑ (Y − a − bX ) i =1 2 i i =1 i 2 i Gli stimatori OLS minimizzano la somma dei quadrati degli errori e sono indicati con a e b 19 Per minimizzare la somma dei quadrati degli errori si calcolo innanzitutto le derivate parziali n ∂ n 2 (Yi − a − bX i ) = −2∑ (Yi − a − bX i ) ∑ ∂a i =1 i =1 n n ∂ 2 Y a bX − − = −2∑ (Yi − a − bX i ) X i ( ) ∑ i i ∂b i =1 i =1 Gli stimatori OLS sono i valori di a e b per i quali le derivate sono uguali a zero. ⎧ n ⎪⎪ ∑ (Yi − a − bX i ) = 0 i =1 ⎨ n ⎪ (Y − a − bX ) X = 0 i i i ⎪⎩∑ i =1 Equazioni normali Quindi si ha: n ⎧ n ⎪⎪ ∑ Yi = na + ∑ bX i i =1 i =1 ⎨ n n n 2 ⎪ YX = + X a X ∑ ∑ i i i i b ⎪⎩∑ i =1 i =1 i =1 n ⎧ n ⎪⎪ ∑ Yi = na + b∑ X i i =1 i =1 ⎨ n n n ⎪ Y X = a X +b X2 ∑ ∑ i i i i ⎪⎩∑ i =1 i =1 i =1 20 Risolvendo il sistema si ricava: n ∑Y n i i =1 n b= n ∑ X ∑Y X i i =1 i =1 n i ∑X n i =1 n i =1 i =1 ⎛ ⎞ n∑ X i2 − ⎜ ∑ X i ⎟ ⎝ i =1 ⎠ i =1 n n 2 n ∑Y ∑X i i =1 n n ∑Y X ∑ X i i i =1 n ∑X n i =1 n n ∑X ∑X i =1 i =1 n∑ Yi X i − ∑ X i ∑ Yi i =1 n a= i n 2 X ∑ i i =1 i =1 = n n ∑ Xi i =1 i n i i =1 i 2 i i n = n n n ∑Y ∑ X − ∑ X ∑ X Y i =1 i i =1 2 i i =1 i ⎛ n ⎞ 2 n∑ X i − ⎜ ∑ X i ⎟ ⎝ i =1 ⎠ i =1 n i i i =1 2 2 i 21 Attraverso semplici passaggi algebrici e ricordando le definizioni di varianza e covarianza si ottiene la seguente espressione per b1 ∑( X N b= i =1 i )( − X Yi − Y ∑( X N i =1 i −X ) 2 ) ∑( X N = i =1 i )( − X Yi − Y ∑( X N i =1 i −X ) 2 ) n n σ XY = 2 σX Dividendo la prima equazione normale per n si ottiene la seguente espressione per b1 1 n 1 n a = ∑ Yi − b ∑ X i = Y − b X n i =1 n i =1 I valori predetti (previsti) Y i e i residui sono espressi da: Y i = a + bX i eˆ i = y i − yˆ i 22 Rappresentazione grafica del residuo Y (xi,yi ) yi Yˆ = a + b x ê i = y i − ŷ i ŷ i xi X Ogni residuo è lo scostamento verticale tra il valore osservato e il corrispondente valore sulla retta 23 Rappresentazione grafica del metodo dei minimi quadrati Y Yˆ = a + b x X La retta si individua minimizzando la somma dei quadrati di tutti gli scostamenti verticali 24 Le assunzioni dei minimi quadrati • Quali sono, precisamente, le proprietà della distribuzione campionaria dello stimatore OLS? Quando lo stimatore sarà non distorto? Qual è la sua varianza? • Per rispondere a queste domande dobbiamo fare alcune assunzioni sulla relazione tra Y e X e su come sono ottenute (lo schema di campionamento) • Queste assunzioni – sono tre – sono note come assunzioni dei minimi quadrati. 25 LE ASSUNZIONI DEI MINIMI QUADRATI Assunzione 1 La distribuzione condizionata di ei data Xi ha media nulla E ( ui X i ) = 0 Questa assunzione è una formalizzazione matematica riguardante gli “altri fattori” contenuti in ei ed afferma che questi fattori non sono legati a Xi nel senso che, dato un valore di Xi, la media della distribuzione di questi altri fattori è pari a zero. Questa assunzione viene di solito interpretata come quella che stabilisce che le variabili X sono esogene. Essa implica inoltre che: E (Yi X i ) = β 0 + β1 X i E (Yi | X = x 1 ) y Distribuzione dei valori di Y quando X=x1 E(Yi | X = xi ) = β0 + β1xi x1 x2 x3 x 26 LE ASSUNZIONI DEI MINIMI QUADRATI L’assunzione circa la media condizionata implica che Xi e ui siano incorrelati, ovvero corr ( X i , ui ) = 0 Poiché la correlazione è una misura di associazione lineare non vale invece il contrario. Anche se Xi e ui fossero incorrelati la media condizionata di ui data Xi potrebbe essere non nulla. Spesso si discute l’assunzione circa la media condizionata nei termini di una possibile correlazione tra Xi e il termine di errore. Se Xi e ui sono correlati allora l’assunzione circa la media condizionata è violata. In molti casi è ragionevole ritenere che il termine d’errore contenga variabili non osservate collegate a variabili osservate raccolte in X. E’ necessaria quindi una certa cautela nell’interpretare i coefficienti di regressione ottenuti come misure di effetti causali. 27 LE ASSUNZIONI DEI MINIMI QUADRATI Assunzione 2 (Xi, Yi) sono indipendentemente e identicamente distribuite (i.i.d.). Tale assunzione è una formalizzazione matematica di come viene estratto il campione. Se le osservazioni sono estratte con campionamento casuale semplice da un’ampia popolazione, allora (Xi, Yi) i=1,..,n sono i.i.d. In altre parole, ogni insieme di (Xi, Yi) rappresenta un’estrazione casuale dalla distribuzione che caratterizza la popolazione. L’assunzione di i.i.d. è ragionevole per molti schemi di campionamento In alcuni casi lo schema di campionamento è non-i.d.d. Ad esempio, nel caso delle serie temporali quando una stessa unità viene osservata ripetutamente nel tempo. Assunzione 3 Gli outlier (ossia osservazioni con valori di Xi o Yi molto lontani) sono improbabili. Tale assunzioni può essere formulata in termini matematici affermando che X e Y hanno curtosi finita. L’assunzione di curtosi finita è plausibile in molte applicazioni che coinvolgono dati economici. Un modo per scoprire gli outlier è quello di rappresentare graficamente i dati. Se si decide che un outlier è dovuto, ad esempio, ad un errore di inserimento dati allora si può correggere l’errore, oppure, nel caso in cui ciò sia impossibile, si può eliminare l’osservazione dai dati. 28 L’ USO DELLE ASSUNZIONI DEI MINIMI QUADRATI Le assunzioni dei minimi quadrati sono molto importanti e la loro comprensione è molto importante per capire quando gli OLS forniscono stime utili dei coefficienti di regressione. •Il primo ruolo svolto dalle assunzioni è di tipo matematico: se valgono le assunzioni precedenti allora, in grandi campioni, gli stimatori OLS hanno distribuzioni campionarie normali. Grazie alla distribuzione normale, si possono quindi sviluppare metodi per la verifica di ipotesi e la costruzione di intervalli di confidenza usando gli stimatori OLS. •Il secondo ruolo è quello di identificare le circostanze che creano difficoltà per la regressione OLS. La prima assunzione è la più importante da considerare nelle applicazioni pratiche (distorsioni da variabili omesse). E’ anche importante verificare se valga la seconda assunzione che per dati sezionali (crosssection) risulta plausibile. L’assunzione di indipendenza è inappropriata per le serie temporali. La terza assunzione serve a ricordare che gli OLS, come la media campionaria, sono sensibili agli outlier. Se i dati contengono outlier è importante esaminare bene quelle osservazioni per essere sicuri che appartengano al campione e non siano solo il risultato di errori di registrazione. 29 La distribuzione campionaria degli stimatori OLS Richiami sulla distribuzione campionaria di Y Y è uno stimatore della media ignota di Y nella popolazione, μY Poiché Y è calcolata utilizzando un campione estratto casualmente, Y è una variabile casuale che assume valori diversi da un campione a un altro. Poiché Y è casuale, ha una distribuzione di probabilità. La distribuzione di Y è detta distribuzione campionaria di Y , poiché è la distribuzione di probabilità associata ai possibili valori di Y che possono essere calcolati per diversi campioni possibili Y1 ,..., Yn . La probabilità di questi diversi valori è riassunta nella sua distribuzione campionaria. Sebbene la distribuzione campionaria di Y possa essere complicata quando la numerosità campionaria è piccola, si può dire al suo proposito qualcosa che vale per ogni n. In particolare la media della distribuzione campionaria è μY ovvero E (Y ) = μY e quindi Y è uno stimatore corretto (non distorto) di μY . Se n è grande, si può dire di più circa la distribuzione campionaria. In particolare, il teorema del limite centrale afferma che questa distribuzione è approssimativamente 30 normale. La distribuzione campionaria degli stimatori OLS La logica della distribuzione campionaria di Y si estende agli stimatori OLS, a e b, dell’intercetta ignota α e della pendenza β della retta di regressione. Poiché gli stimatori OLS sono calcolati utilizzando un campione casuale, a e b, sono variabili casuali che assumono valori diversi da un campione all’altro; la probabilità di questi valori diversi è riassunta nella loro distribuzione campionaria. Sebbene le distribuzioni campionarie di a e b, possano essere complesse quando la numerosità campionaria è piccola si può comunque dire al suo proposito qualcosa che vale per ogni n. In particolare le distribuzioni campionarie di a e b, hanno medie (valore atteso) pari ad α e β. In altre parole sotto le assunzioni dei minimi quadrati: E ( a) = α; E ( b) = β Se il campione è sufficientemente numeroso (n>100), per il teorema del limite centrale la distribuzione campionaria di a e b è ben approssimata dalla distribuzione normale. 31 La distribuzione campionaria degli stimatori OLS Per derivare la distribuzione in grandi campioni sono necessarie le seguenti assunzioni: Assunzioni dei minimi quadrati (già introdotte): E ( ui X i ) = 0 1. 2. (Xi, Yi) i=1,…,n sono indipendentemente e identicamente distribuite (i.i.d.) 3. Gli outlier sono rari Se valgono queste condizioni: σβ = ( b ∼ N β,σβ2 ) σ2 2 n ∑( i =1 xi − x ) 2 32 La distribuzione campionaria degli stimatori OLS Per derivare la distribuzione in grandi campioni sono necessarie le seguenti assunzioni: Assunzioni dei minimi quadrati (già introdotte): 1. E ( ui X i ) = 0 2. (Xi, Yi) i=1,…,n sono indipendentemente e identicamente distribuite (i.i.d.) 3. Gli outlier sono rari Se valgono queste condizioni: ( a ∼ N α,σα2 ⎛ ⎜1 2 2 σα = σ ⋅ ⎜ + ⎜n ⎜ ⎝ ) ⎞ ⎟ x ⎟ 2 xi − x ⎟⎟ ⎠ 2 n ∑( i =1 ) La varianza di entrambi gli stimatori dipende dalla devianza di X. Quindi, laddove è possibile scegliere i valori della variabile esplicativa, è opportuno farlo in modo tale che la devianza sia più grande possibile. 33 Proprietà dello stimatore OLS Sotto le assunzioni dei minimi quadrati (1-3) e le ipotesi classiche 1-4, gli stimatore OLS godono delle seguenti proprietà: Proprietà 1) a e b sono corretti (non distorti unbiased) cioè E(a)= α e E(b)= β Proprietà 2) nella classe degli stimatori corretti che sono funzioni lineari di Yi gli stimatori dei minimi quadrati a e b sono i più efficienti (Teorema Gauss-Markov) ⎛ ⎜ 2 1 var(a) = σ ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x2 ⎟; n ( x i − x )2 ⎟⎟ ∑ ⎠ i =1 var(b) = σ2 n ∑ (x i =1 i − x )2 ¾STIMATORE BLUE (Best Linear Unbiased Estimator): in virtù di tale proprietà non è possibile che esista un’altra coppia di stimatori per α e β che siano lineari e non distorti e abbiano varianza minore degli stimatori dei minimi quadrati. 34 Stime e stimatori nella regressione Parametro Stima Stimatore Valore atteso α β a = Y − βˆ1 X b = σ xy σ x2 a b α Varianza ⎛ ⎜ 2 1 σ ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x ⎟ n (xi − x)2 ⎟⎟ ∑ ⎠ i=1 2 σ u2 β n ∑ (x − x ) i =1 2 i Il teorema di Gauss- Markov fornisce una giustificazione teorica all’uso degli OLS. Tuttavia, le sue condizioni potrebbero non valere in pratica. Se il termine di errore è eteroschedastico, come spesso accade nelle applicazioni economiche, allora lo stimatore OLS non è più BLUE. 35 Stima della varianza degli errori nel modello di regressione σ2 Per stimare la varianza di a e b occorre conoscere la varianza degli 2 errori σ = V (u i ) . Poiché tale quantità è ignota, in un modello di regressione in aggiunta ad α e β è necessario stimare un ulteriore parametro: la varianza degli errori σ2 Poiché gli errori ui non sono osservabili (dal momento che i parametri α e β non sono noti), occorre fare riferimento ad una stima della varianza degli errori, determinata a partire dai residui eˆ i = y i − yˆ i . Si dimostra che uno stimatore non distorto di σ2 è dato da: n s2 = ∑ i=1 ê i2 n − 2 Questo stimatore presenta una correzione per i gradi di libertà, dato che al denominatore troviamo il numero delle osservazioni meno il numero dei regressori. s = s 2 è l’errore standard di regressione, già introdotto, e misura la dispersione dei punti osservati intorno alla retta di regressione. 36 Considerando lo stimatore s2, la varianza stimata di a e b è quindi espressa da: ⎛ ⎞ ⎜ ⎟ s2 x2 2 1 ⎟; V (a) = s ⎜ + n V (b) = n 2 ⎟ 2 ⎜n ( ) ( ) x x x x − − ∑ ∑ i i ⎜ ⎟ ⎝ ⎠ i =1 i =1 La radice quadrata viene di solito chiamata standard error (o errore standard) di a e b , indicato con se(a) e se(b) e rappresenta una stima dello scarto quadratico medio dello stimatore OLS e dunque uno strumento per misurarne la precisione. 37 MISURE DI BONTA’ DI ADATTAMENTO • • R2 varia tra 0 e 1 e misura la frazione della varianza di Yi che è spiegata da Xi L’errore standard della regressione misura la distanza tipica di Yi dal suo valore predetto SCOMPOSIZIONE DELLA DEVIANZA TOTALE DI Yi ∑( n i =1 Yi − Y ) 2 = n ∑ i =1 ( 2 Yi −Y ) ∑ + n i =1 e i2 SQT=Somma Quadrati Totale SQR=Somma Quadrati Regressione (spiegata) SQE=Somma Quadrati Errore TSS= Total Sum of Squares ESS=Exolained Sum of Squares RSS= Residual Sum of Squares In modo equivalente la varianza di Y può essere scomposta nella somma delle varianze campionarie delle sue componenti ortogonali: la previsione e il residuo ( ) V (Yi ) = V Y i + V ( ei ) Tale decomposizione sussiste solo se il modello possiede una intercetta. Solo in tal caso ∑Y = ∑Y i n i e ∑e X i =1 i i =0 38 Sotto questa condizione la devianza di Y può essere scomposta in: ∑ (Y n i =1 = n ∑ i =1 i −Y (Y ) 2 = n ∑ i =1 2 −Y i (Y −Yi +Yi −Y ) + ∑ (Y n i −Y i =1 ) 2 ) 2 n = ( + 2∑ Y − Y i =1 i ) (Y i −Y ) La scomposizione precedente è dimostrata perché, il doppio prodotto è nullo. Infatti: ∑ (Y − Y n i =1 i ) (Y i ) ( ) ( ) − Y = ∑ ei Y i − Y = b1 ∑ ei X i − X = = b1 ⎡⎣ ∑ ei X i − X ∑ ei ⎤⎦ = b1 [ 0 − 0] = 0 Sostituendo le stime dei parametri in Y i Ricordando la prima e la seconda delle equazioni normali 39 SCOMPOSIZIONE DELLA DEVIANZA (VARIANZA) IN UNO SCHEMA DI REGRESSIONE LINEARE n ∑ ( yi − y i =1 ) 2 = n ∑ i =1 ( yi − y ) 2 + n ∑ i =1 e i2 Y yi ei = yi − y yi − y y TSS = i n ∑ (y i =1 ESS = n ∑ i =1 * i y i−y y (y n ∑ RSS = i =1 xi i i 2 − y ) − y ) 2 e i2 X 40 Il coefficiente di determinazione R2 Sulla base di tale scomposizione della varianza di Yi può essere computata una misura della bontà di adattamento del modello ai dati denominata coefficiente di determinazione lineare 2 n R 2 = ∑ (ŷ i=1 ∑ (y ( ) =1 V Yi V (Yi ) − y ) 2 n i=1 R2 = i i − y ) = SQR SQT ( n − 1) ∑ (Y i − Y ) n = 1 − 2 i =1 n 1 ( n − 1) ∑ (Yi − Y ) i =1 SQE SQT 2 n V ( ei ) R2 = 1 − = 1− V (Yi ) ( 1 ( n − 1) ∑ Y − Y i i =1 n ) 1 ( n − 1) ∑ (Yi − Y ) 2 2 i =1 R2 può assumere valori compresi nell’intervallo [0,1] ma alcune fonti di variazioni sono più difficili da spiegare di altre. Il giudizio sul valore di R2 dipende dai contesti di applicazione 41 L’interpretazione del coefficiente R2 - casi limite R2 = 1 Il modello si adatta perfettamente ai dati La variabilità di Y è completamente spiegata dal modello di regressione Îtutti i punti corrispondenti alle osservazioni campionarie giacciono esattamente sulla retta Îtutti i residui campionari sono pari a zero e pari a zero è la devianza residua Î SQT =SQR 0 18 y = 2 + 3x 2 R =1 16 14 -2 0 1 2 3 4 5 6 -4 12 10 -6 8 -8 6 4 -10 2 -12 0 0 1 2 3 4 5 6 -14 y = 2 -3x 2 R =1 42 L’interpretazione del coefficiente R2 - casi limite Il modello non si adatta per niente ai dati R2 = 0 Æil modello non riesce a spiegare nessuna parte - seppur minima della variabilità di Y ÆLa devianza spiegata è pari a zero; la retta stimata è parallela all’asse delle ascisse ÆTutta la variabilità di Y è nei residui 12.5 5.5 y = 10.8 R2 = 0 12 11.5 5 4.5 11 10.5 4 10 y = 4.6 R2 = 0 3.5 9.5 9 3 0 1 2 3 4 5 6 0 1 2 3 4 5 6 43 …alcuni esempi 25 12 y = 10.6 -0.2x R2 = 0.0026 20 10 8 15 6 10 4 5 y = 8.8 -0.6x R2 = 0.18 2 0 0 0 30 1 2 3 4 5 6 0 20 2 3 4 5 3 4 5 6 9 y = 12.3+2.3x R2 = 0.7472 25 1 y = 1.6+1.2x R2 = 0.973 8 7 6 15 5 4 10 3 5 2 0 1 0 1 2 3 4 5 6 0 0 1 2 6 44 L’errore standard della regressione (SER, Standard Error of the Regression) E’ uno stimatore della deviazione standard dell’errore di regressione εi. Le unità di misura ei ed yi sono identiche, così il SER è una misura della dispersione delle osservazioni intorno alla retta di regressione, espressa nell’unità di misura della variabile dipendente. 2 SER = sε dove n n 1 1 ⎛ ⎞ 2 sε = ⋅ ∑ ⎜ ei − e ⎟ = ⋅ ∑ ei2 = n − 2 i=1 ⎝ ⎠ n − 2 i=1 n Per cui SER = 2 e ∑i i =1 n−2 Attenzione: il denominatore in questo caso è n-2, esso corregge per una piccola distorsione verso il basso dovuta alla stima di due coefficienti Il SER misura la “dimensione” media del residuo OLS (l’“errore” medio della retta di regressione OLS) 45 UN’ APPLICAZIONE EMPIRICA Esempio tratto dal testo Stock J.H. e Watson, M.W. Introduzione all’econometria, Pearson, 2009 Dati: file “Retribuzioni” Variabili: Y= retribuzione media oraria (in US dollari); tre variabili indipendenti X=età, laurea e genere In questo esempio si studia la relazione tra retribuzione media oraria (Y) ed età del lavoratore (X) Sulla base delle variabili contenute nel file “Retribuzioni”: 1. Stimare il modello di regressione lineare che mette in relazione la retribuzione media oraria Y all’età del lavoratore X 2. Stimare la retribuzione di un lavoratore di 30 anni 3. Valutare la bontà di adattamento del modello stimato 46 UN’ APPLICAZIONE EMPIRICA Riepilogo statistiche descrittive di Y e X (Utilizzando in Excel, tra gli strumenti di analisi, “statistiche descrittive” Retribuzione oraria media Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Età 16,771 0,098 14,904 19,231 8,759 76,715 2,656 1,411 58,960 2,098 61,058 133934,402 7986,000 Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio 29,754 0,032 30,000 34,000 2,891 8,359 -1,226 -0,103 9,000 25,000 34,000 237619,000 7986,000 47 UN’ APPLICAZIONE EMPIRICA Diagramma di dispersione Retribuzione media oraria 70 60 50 40 30 20 10 0 0 5 10 15 20 25 30 35 40 Età Il coefficiente di correlazione lineare, ρXY=0,15 suggerisce l’esistenza di un modesto legame positivo (In Excel funzione “correlazione”) 48 UN’ APPLICAZIONE EMPIRICA Utilizzando in Excel, tra gli strumenti di analisi, “regressione” e selezionando come variabile dipendente la retribuzione media oraria e indipendente l’età si ottiene il seguente output: OUTPUT RIEPILOGO Statistica della regressione R multiplo 0,1492 R al quadrato 0,0223 0,0221 R al quadrato corretto Errore standard 8,6612 Osservazioni 7986,0000 ANALISI VARIANZA gdl Regressione Residuo Totale Intercetta Età 1,0 7984,0 7985,0 SQ 13631,814 598935,455 612567,269 Coefficienti Errore standard 3,324 1,002 0,452 0,034 MQ 13631,814 75,017 F 181,716 Significatività F 0,000 Stat t Valore di significatività Inferiore 95% 3,317 0,001 1,360 13,480 0,000 0,386 Superiore 95% 5,289 0,518 a) La retta stimata è quindi espressa da: yˆ i = 3,324 + 0,452 xi Per un incremento unitario dell’età la retribuzione media oraria aumenta di 0,452 dollari 49 UN’ APPLICAZIONE EMPIRICA b) La retribuzione di un lavoratore di 30 anni è espressa da: yˆ i = 3,324 + 0,452 ⋅ 30=16,884 c) La bontà di adattamento del modello è espressa da R2 R2=0,0223 indica un basso grado di adattamento del modello ai dati osservati. Solo il 2,23% della variabilità totale di Y è spiegata dal modello Si ottiene rapportando n R2 = ∑ ( yˆ i =1 i n ∑ (y i =1 i − y − y ) ) 2 2 = 1 3 .6 3 1 ,8 1 4 5 9 8 ,9 3 5 ,4 5 5 =1− = 0, 0223 6 1 2 .5 6 7 ,2 6 9 6 1 2 .5 6 7 ,2 6 9 50 Inferenza nel modello di regressione Sebbene gli stimatori OLS abbiano importanti proprietà sintetizzate dal teorema di Gauss Markov, le stime che si ottengono sono espressione del particolare campione osservato e, come già visto, quasi certamente non coincidono con i parametri. Di conseguenza per verificare se un’ipotesi formulata sul valore del parametro trova sostegno nei risultati campionari è necessario procedere al test delle ipotesi. Con un campione di N osservazioni, l’inferenza statistica esatta è possibile solo formulando esplicitamente ipotesi sulla forma della distribuzione dei termini di errore. Per poter procedere con le procedure inferenziali è necessario modificare le ipotesi del modello classico ed aggiungere l’ulteriore ipotesi di normalità degli errori e rafforzare l’ipotesi di incorrelazione (degli errori) in un’ipotesi di indipedenza: 5) ( ui ∼ NID 0, σ 2 ) i = 1,..., N che rappresenta un modo compatto per indicare che i termini di errore sono estrazioni casuali da una distribuzione normale (n.i.d.) di media nulla e varianza σ2. Sotto questa ipotesi (normalità e indipendenza degli errori) anche la yi (per un dato valore di xi) segue una distribuzione normale: Y i ~ N (α + β x i ; σ 2 ) Talvolta l’ipotesi di distribuzione normale può non essere appropriata. Va comunque osservato che la maggior parte delle ipotesi (che hanno una rilevanza diverse per la validità dei risultati che seguono) può essere sottoposta a verifica empirica. 51 Inferenza nel modello di regressione Sotto le ipotesi 1-4 e 5 lo stimatore OLS, come funzione lineare dei termine di errore, ha distribuzione di probabilità Normale (per la proprietà riproduttiva della v.c. normale): ⎛ ⎞ ⎜ ⎟ 2 σ ⎟ b ~ N ⎜ β; n ⎜ 2 ⎟ − ( x x ) ⎜ ∑ i ⎟ ⎝ i =1 ⎠ ⎛ ⎛ ⎞⎞ ⎜ ⎜1 ⎟⎟ 2 x ⎟⎟ a ~ N ⎜α;σ 2 ⎜ + n ⎜ ⎜n 2 ⎟⎟ − ( ) x x ∑ i ⎜ ⎜ ⎟⎟ i =1 ⎝ ⎠⎠ ⎝ b−β σ2 n 2 − ( ) x x ∑ i ~ N ( 0;1) i =1 a−α ⎛ ⎜ 2 1 σ ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x2 ⎟ n 2 ⎟ ( ) x x − ∑ i ⎟ ⎠ i =1 ~ N ( 0;1) standardizzazione 52 Inferenza nel modello di regressione Poiché nelle formulazioni precedenti la quantità σ2 (varianza dei termini di errore) non è nota, utilizziamo la stima corretta s2 b − β1 s2 n 2 − ( ) x x ∑ i ~ tn − 2 Errore standard di b i =1 a −α ⎛ ⎜1 s2 ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x2 ⎟ n 2 ⎟ ( ) x − x ∑ i ⎟ i =1 ⎠ b−β ~ tn − 2 s (b ) ~ tn − 2 a −α ~ tn − 2 s (a ) Errore standard di a Distribuzione t di Student con n-2 gradi di libertà 53 Inferenza nel modello di regressione Intervalli di confidenza dei coefficienti di regressione Al livello di confidenza 1-α: β P ( b − tα 2;n −2 ⋅ s ( b ) < β < b + tα 2;n −2 ⋅ s ( b ) ) = 1 − α α P ( a − tα 2;n −2 ⋅ s ( a ) < α < a + tα 2;n −2 ⋅ s ( a ) ) = 1 − α Un intervallo di confidenza al 95% per β contiene il vero valore del parametro con probabilità 95%, ovvero contiene il vero valore del parametro nel 95% di tutti i possibili campioni estratti casualmente 54 Stima per intervallo. Esempio Dati consumo-reddito êResidui i = yi − ŷi 13,53 -20,66 -18,34 3,98 15,14 17,46 -7,89 -15,57 5,59 6,75 n ê i2 1878,14 s = = = 234,77 n−2 8 183,04 427,01 336,42 15,85 229,28 305,01 62,26 242,36 31,29 45,62 1878,14 n ∑ i= 1 ê 2 ê ∑ i 2 i=1 Errore standard della regressione s = 234 ,77 = 15,32 Errore standard di b s(b) = 234,77 = 0,078 39440 Errore standard di a 2 i ⎛ 1 7162 ⎞ + s(a) = 234,77 ⎜ ⎟ = 55, 45 ⎝ 10 39440 ⎠ 55 Stima per intervallo. Esempio Dati consumo-reddito Al livello di confidenza β 1 − α = 0 ,95 t 0 , 025 ; 8 = ± 2 ,31 P(0,88 − 2,31 × 0,078 < β1 < 0,88 + 2,31 × 0,078) = 0,95 stima puntuale valore t S(b) P ( 0, 7 1 < β < 1, 0 6 ) = 0, 9 5 α P ( −233,85 − 2,31× 55,45 < α < −233,85 + 2,31× 55,45) = 0,95 P ( -361,73 < α < -105,26 ) = 0,95 56 Inferenza nel modello di regressione Verifica di ipotesi sui coefficienti di regressione Possiamo essere interessati a verificare: 1) H0 : β = β0 H1 : β ≠ β0 2) H0 : β = β0 3) H1 : β > β0 H0 : β = β0 H1 : β < β0 Gli stessi sistemi di ipotesi si possono specificare per il parametro intercetta α b − β0 ~ t n −2 t = s (b ) Statistica test si respinge l’ipotesi nulla se per un certo livello di significatività α si verifica, rispettivamente nelle tre tipologie precedenti, che: 1) t > tn−2;α 2 2) t > tn −2;α 3) −t < −tn−2;α 57 Verifica di ipotesi sui coefficienti di regressione Approccio del p-value La conclusione di un test può dipendere dalla scelta del livello di significatività α. Un’ipotesi nulla rifiutata per α=0,10 potrebbe essere accettata con α=0,01 L’approccio del p-value permette di sganciare l’esito del test dalla scelta di α. Il p-value è definito come la probabilità di osservare un valore della statistica test uguale o più estremo di quello osservato effettivamente sul campione, dato che H0 è vera. Il p-value è chiamato anche “livello di significatività osservato” A differenza di α il p-value non è una quantità fissata a priori Il p-value misura quanto i dati campionari supportano H0: più piccolo è il pvalue, minore è il supporto a favore di H0 (maggiore è l’evidenza contro H0) Si rifiuta H0 se p-value < α Si accetta H0 se p-value > α 58 Verifica di ipotesi sui coefficienti di regressione Test di significatività Un test frequentemente utilizzato è il seguente: H0 : β = 0 H1 : β ≠ 0 Se accetto H0 vuol dire che non c’è nella popolazione una significativa relazione di dipendenza lineare di Y da X. In altre parole X non ha un effetto “significativo” nello spiegare le variazioni di Y. H 0 :α = 0 H1 :α ≠ 0 Se accetto H0 vuol dire che la relazione nella popolazione può essere rappresentata mediante una retta passante per l’origine 59 Test di significatività - Statistica test (t-ratio) Nel test di significatività (quando l’ipotesi nulla da sottoporre a test è H0: β=0), la statistica test si risolve nel rapporto tra il parametro stimato e il rispettivo errore standard. Il valore osservato della statistica test è chiamato t-ratio. b t = s (b H0:β=0 H1:β≠0 ) ~ t n −2 Al livello di significatività α, accetto H0 se il valore della statistica test calcolato sul campione cade nell’area di accettazione dell’ipotesi nulla, cioè se: − tα 2; n − 2 b < < tα s (b ) 2; n − 2 Nel caso di ipotesi alternativa bilaterale, si rifiuta l’ipotesi nulla H0 se il t-ratio è superiore (preso in valore assoluto) al corrispondente livello critico, individuato dalle tavole (t-teorica). In tal caso si conclude che esiste effettivamente una dipendenza significativa della variabile dipendente da quella esplicativa. 60 Nei software statistici (ma anche in Excel), la presentazione dei risultati sul modello di regressione include la stima dei parametri con i rispettivi errori standard e il loro rapporto (che costituisce la statistica test calcolata t per verificare che i parametri siano nulli), assieme al p-value (valore di significatività in excel) dato dalla probabilità di osservare un valore della statistica test uguale o maggiore del valore ottenuto mediante i dati campionari sotto ipotesi nulla. Con riferimento al p-value, il parametro stimato è considerato significativo (cioè si rifiuta l’ipotesi H0 che il valore del parametro sia pari zero) quando il corrispondente p-value è inferiore ad un livello di significatività α adeguato. Ad esempio se α è pari a 0,05, il parametro stimato si riterrà significativamente diverso da zero se il p-value 61 osservato è inferiore a 0,05. Analisi della varianza nella regressione Il test di significatività di X ovvero H 0 : β = 0 può essere derivato anche dalla procedura di analisi della varianza (ANOVA) Ricordando la scomposizione della devianza totale SQT=SQR+SQE, si può dimostrare che, sotto H0, n 2 SQR 1 = SQE (n − 2) ∑ (ŷ i=1 n i − y) 1 2 ê ∑ (n − 2) i=1 ~ F(1;n − 2) i dove F(1,n-2) indica la distribuzione F di Fisher con 1,n-2 gradi di libertà 62 Tavola ANOVA Sorgente Somma gdl Media F di variazione dei dei quadrati quadrati Regressione SQR 1 MQR=SQR/1 F=MQR/MQE Errore SQE n-2 MQE=SQE/(n-2) Totale SQT n-1 Valori campionari della statistica F vicini a 1 fanno propendere per accettare H 0 : β = 0 Valori di F molto grandi fanno rifiutare H0 a favore di H1 : β ≠ 0 63 Test F Ad un livello di significatività α, si accetta H0 se F<Fα;1,n-2 In questo caso si conclude che non c’è relazione statisticamente significativa. Si rifiuta H0 se F>Fα;1,n-2, concludendo che Y dipende linearmente da X Fα; 1,n-2 64 Confronto test t – test F in un modello di regressione lineare semplice Per verificare H 0 : β = 0 contro H1 : β ≠ 0 2 valgono le uguaglianze (tα 2;n−2 ) = Fα;1;n−2 (tosservato) 2 = Fosservato Quindi si può concludere che nel modello di regressione lineare semplice il test t (con l’ipotesi alternativa bidirezionale) e il test F (ANOVA) sono del tutto equivalenti. Nell’esempio dell’ipermercato (t ) = 3,18 = 10,13 = F (t ) = 4,57 = 20,89 = F 2 0 ,025 ;3 osservato 2 2 0 ,025 ;1;3 2 osservato 65 ESERCIZIO In un ipermercato di Viterbo è stata svolta un‘indagine per rilevare il prezzo del pane negli ultimi cinque mesi (in euro al Kg) e le quantità consumate in media in un giorno (in Kg) prezzo quantità 1,65 210 1,67 198 1,68 176 1,69 175 1,7 174 Stimare la retta di regressione che mette relazione la quantità in funzione del prezzo in 66 ESERCIZIO (continua) Stima dei coefficienti di regressione - Output Excel Intercetta Variabile X 1 Coefficienti 1529 -800 La retta stimata è Y=1529-800X Un aumento di 1€ del prezzo al Kg del pane fa diminuire la quantità media di pane consumato giornalmente di 800 kg Statistica della regressione R al quadrato 0,87 Errore standard 6,73 La dipendenza lineare è forte (R2=0,87) s=6,73 67 ESERCIZIO (continua) Rappresentazione punti osservati e retta di regressione - Output Excel 250 y = -800x + 1529 2 R = 0.8744 200 150 1.64 1.68 1.72 68 ESERCIZIO (continua) Test t - Output Excel Intercetta Variabile X 1 Coefficienti Errore standard 1529 293,69 -800 175,02 Per verificare Stat t p-value 5,21 0,01 -4,57 0,02 H0 : β = 0 H1 : β ≠ 0 t = b −800 = = − 4, 5 7 s (b ) 1 7 5, 0 2 Al livello α=0,05 t 0 , 025 ;3 = ± 3,18 -4,57<-3,18 t3 -4,57 -3,18 3,18 Si rifiuta H0 C’è evidenza sufficiente per concludere che la quantità consumata di pane dipende linearmente dal prezzo 69 ESERCIZIO (continua) Esempio Test F ANOVA - Output Excel ANALISI VARIANZA gdl Regressione R Errore E Totale Per verificare SQ 1 947,20 3 136,00 4 1083,20 MQ F 947,20 20,89 45,33 p-value 0,02 H0 : β1 = 0 H1 : β1 ≠ 0 F = MQR 947 ,20 = = 20 ,89 MQE 45,33 Al livello α=0,05 F0,05;1;3 = 10,13 20,89>10,13 Si rifiuta H0 C’è evidenza sufficiente per concludere che la quantità consumata di pane dipende linearmente dal prezzo 70 Utilizzo del modello di regressione per la previsione Fare una previsione può significare due cose : 1) prevedere il valore atteso E(Yi|X=xi) della variabile risposta in corrispondenza di un dato valore di X, diciamo xi [è un parametro, cioè la media di tutte le Y per le unità per le quali X=xi, ad esempio il consumo medio previsto per tutte quelle famiglie con un reddito pari a 40.000€] 2) prevedere il valore singolo della variabile risposta in corrispondenza di un dato valore di x, diciamo xi [è una singola determinazione di Yi, ad esempio il consumo previsto per una particolare famiglia con un reddito di 40.000€] 71 Previsione puntuale e intervallare Nei due casi, la stima puntuale del valore previsto coincide ed è pari a: yˆ i = a + b x i La stima per intervallo, invece, è diversa nei due casi. Il grado di incertezza associato alla previsione di una media è minore del grado di incertezza associato alla previsione di un singolo valore. L’intervallo di confidenza per il valor medio è meno ampio dell’intervallo di confidenza per la previsione di un singolo valore 72 Inferenza per la risposta media Abbiamo visto che lo stimatore di E(Yi|X=xi) è yˆ i = a + b x i La stima del suo errore standard è data da: ( )= s Ŷ i ( )= V Ŷ i ⎡ ⎢1 s2 ⎢ + ⎢n ⎣ Ŷi − E(Yi | X = x i ) ~ t n−2 s Ŷi (x i − n ∑ (x h h =1 x ) 2 − x )2 ⎤ ⎥ ⎥ ⎥ ⎦ ( ) Gli estremi dell’intervallo di confidenza per il valor medio E(Yi|X=xi) a un livello di confidenza ⎡ 1-α sono dati da: 2 ⎢1 ( xi − x) 2 Ŷ i ± t α 2 , n − 2 ⋅ s ⎢ + n 2 ⎢n ( ) x x − ∑ h ⎣ h =1 ⎤ ⎥ ⎥ ⎥ ⎦ 73 Esempio: Riprendiamo l’esempio dell’ ipermercato di Viterbo e costruiamo l’intervallo di confidenza al 95% per la quantità media quando il prezzo è pari a 1,66 (valore non osservato di X) Ŷi = 1529 − 800 × 1,66 = 201 ( ) s s Ŷ i = 6 ,73 x 2 ⎡1 ( 1,66 − 1,68 ) ⎤ ⎢ + ⎥ = 4 ,62 0,00148 ⎣5 ⎦ t 3 ,0 ,025 = ± 3,18 n ∑ (x h − x) 2 h =1 Estremi dell’intervallo di confidenza 201 ± 3,18 × 4,62 = 186,31 215,69 74 Inferenza per la previsione di un singolo valore Ad un livello di confidenza 1-α gli estremi dell’intervallo di confidenza per la previsione di un singolo valore sono dati da: Ŷi ± t α 2;n − 2 ⋅ ⎡ ⎢ 1 2 s ⎢1 + + n ⎢ ⎣ ⎤ 2 (x i − x ) ⎥ ⎥ n 2 (x h − x ) ⎥ ∑ ⎦ h =1 75 Esempio: Riprendiamo l’esempio dell’ipermercato di Viterbo e costruiamo l’intervallo di previsione al 95% per la quantità prevista per quella unità il cui prezzo è pari a 1,66 Ŷi = 1529 − 800 × 1,66 = 201 2 ⎡ 1 (1,66 − 1,68 ) ⎤ s(previsione valore singolo ) = 6,73 ⎢1 + + ⎥ = 8,16 5 0,00148 ⎦ ⎣ t 0 , 025 , 3 = ± 3 ,18 Estremi dell’intervallo di previsione per il singolo valore 201 ± 3,18 × 8,16 = 175,05 226,95 76 Intervalli di confidenza al 95% per il valore medio e per il valore singolo 250 240 230 220 210 200 190 180 170 160 150 1.62 per il valore singolo per il valore medio 1.64 1.66 1.68 x 1.7 1.72 L’int. di confidenza per il valore medio è meno ampio dell’int. per la previsione del valore singolo. Per entrambi l’ampiezza aumenta quanto più xi si discosta dal valore medio x = 1.68 77