Appunti di Statistica Sociale Università Kore di Enna LA REGRESSIONE LINEARE SEMPLICE La regressione lineare fu introdotta per la prima volta da F. Galton (1822-1911), per studiare la relazione tra la statura di un gruppo di padri e quella dei loro figli. Galton osservò che, al crescere della statura dei padri, quella dei figli sembrava decrescere, in media, cioè regredire: da qui il nome usato per indicare la relazione tra le due serie di misure quantitative, appunto regressione. La regressione lineare è costituita da una famiglia di modelli che permettono di individuare la forma probabile della relazione tra: - due variabili quantitative (regressione lineare semplice), dove una ha il ruolo di variabile dipendente (generalmente indicata con Y) e l’altra quello di variabile indipendente (X); - tre o più variabili quantitative (regressione lineare multipla), dove una ha il ruolo di la variabile dipendente (ancora Y) e le altre due o più (in generale k) sono le variabili indipendenti (X1, X2, …, Xk). Riferendoci all’esempio della relazione tra le stature dei padri e quelle dei figli, le prime sono misure della variabile indipendente X, le seconde invece sono misure della variabile dipendente Y. Si tratta quindi di un caso di regressione lineare semplice. In casi come questo, si usa dire che si studia la regressione di Y su X. Prima di affrontare la questione del “modello”, vediamo sotto quale forma si possono presentare i dati sui quali fare analisi della regressione. ORGANIZZAZIONE DEI DATI BIVARIATI Obiettivo della statistica bivariata (o multivariata) è studiare la relazione tra due (o più) variabili. A tale scopo è indispensabile raccogliere informazioni sulle variabili oggetto di studio. In tal caso, le N (o n) unità statistiche di una popolazione (o campione) sono oggetto della rilevazione congiunta delle informazioni relative alle due (o più) variabili, necessarie a studiare la possibile relazione tra esse. È noto che, in ambito di statistica univariata, esistono diverse forme in cui si possono organizzare i dati, ovvero distribuire le unità statistiche rispetto ad un carattere studiato. Ad esempio, il risultato di un processo di rilevazione può essere organizzato in un vettore di dati ordinati in senso non decrescente, il cui numero di elementi è pari al numero di osservazioni. In questo caso, parleremo di distribuzione di dati per unità. Oppure, le osservazioni sulle unità statistiche possono essere organizzate in una distribuzione di frequenza per modalità, secondo la variabile rilevata. In modo analogo, in statistica bivariata, i dati raccolti sulle singole unità statistiche possono essere organizzati o per unità, ordinandoli in senso non decrescente, secondo i valori di una delle due variabili opportunamente scelta (in genere la variabile indipendente, X), oppure in una distribuzione di frequenza congiunta per modalità, secondo la variabile doppia XY. Nel primo caso, ciascun dato individuale è rappresentato da una coppia di osservazioni, una per ogni variabile in studio, rilevate su una medesima unità statistica. Nel secondo caso, si ordinano in modo crescente sia le modalità di una variabile, ad esempio la X, ponendole in riga, che quelle dell’altra, la Y, ponendole in colonna, e per ciascuna coppia di modalità doppia XY si contano le frequenze, che si inseriscono nelle celle individuate dagli incroci riga-colonna di ciascuna modalità doppia rilevata. Docente: Fabio Aiello A.A. 2010/11 1 Appunti di Statistica Sociale Università Kore di Enna DATI INDIVIDUALI PER UNA VARIABILE DOPPIA XY Lo studio della relazione tra due variabili, X e Y, rende necessario classificare le N unità statistiche simultaneamente secondo i due caratteri, ovvero costruire la distribuzione di frequenza congiunta della variabile doppia XY. Quando almeno una delle due variabili studiate, X e Y, è di natura continua, o quando il numero N (o n) delle osservazioni è ridotto, non sussistono le condizioni per organizzare le osservazioni in una distribuzione per modalità. In questo caso, il dato bivariato, per ciascuna delle N unità statistiche, sarà espresso dalla coppia di valori (xi, yi), il primo riferito alla prima variabile, la X appunto, e il secondo riferito alla seconda variabile, la Y. La serie di dati si presenterà quindi come una coppia di vettori appaiati di uguale dimensione (si ricordi che le due variabili sono rilevate sulle medesime unità statistiche). Ritornando ancora una volta all’esempio sopraccitato delle stature dei padri e dei figli, noto che l’unità statistica è ciascuna coppia “padre-figlio”, avremo, ad esempio, coppie di valori espressi in cm, del tipo (178, 173), in cui il primo valore è la statura del padre ed il secondo quella del figlio. In generale, date due variabili quantitative X e Y, osservate simultaneamente su N (o n) unità statistiche (u.s.), la serie di N dati bivariati sarà: u.s. 1 2 X x1 x2 Y y1 y2 … … … j xj yj … … … N xN yN dove la generica osservazione si indica con la coppia (xj, yj), ∀ j = 1, 2, …, N. Le coppie si dicono ordinate quando sussiste l’ordinamento debole, almeno per i valori di X: x1 ≤ x2 ≤ … ≤ xj ≤ … ≤ xN Data la natura delle due variabili, possiamo sintetizzarle, sia considerandole separatamente, attraverso i noti indici di sintesi numerica (μx, σx) e (μy, σy), sia considerandole congiuntamente per studiare l’esistenza, la forma, la direzione e, infine, l’intensità della possibile relazione che le lega. DISTRIBUZIONI DI FREQUENZA CONGIUNTE DI UNA VARIABILE DOPPIA XY Quando sussistono le condizioni per classificare le unità statistiche in modalità, simultaneamente secondo i tue caratteri, allora è possibile costruire la distribuzione di frequenza congiunta della variabile doppia XY. Come già accennato, per fare ciò si ordinano in modo crescente sia le s modalità di X, sia le t modalità di Y e, per ciascuna coppia di modalità doppia XY, si contano le frequenze (che si inseriscono nelle celle individuate dagli incroci riga-colonna di ciascuna modalità doppia osservata). Date N unità statistiche, la rappresentazione della distribuzione congiunta, secondo le modalità dei due caratteri associati XY, si presenta in forma di tabella a doppia entrata: Docente: Fabio Aiello A.A. 2010/11 2 Appunti di Statistica Sociale Università Kore di Enna Tabella 1. Distribuzione di frequenza congiunta della variabile doppia XY. Tot. n10 … … … … … nih ... nit ni0 … … … ... … yt n1t … ... ... … yh n1h … ... ... … y1 n11 xi ni1 … X|Y x1 xs Tot. ns1 n01 ... … nsh n0h … … nst n0t ns0 N dove xi e yh sono le generiche modalità di X e di Y, rispettivamente, e nih è la frequenza congiunta corrispondente alla modalità doppia (xi, yh). La tabella 1 è costruita da s modalità (i = 1, 2, …, s) di X, poste in riga, e t modalità (h = 1, 2, …, t) di Y, poste in colonna. Analizzando la distribuzione congiunta in tabella 1, si osserva che, in corrispondenza di ciascuna modalità xi (riga) di X vi è una specifica distribuzione di frequenza condizionata delle modalità osservate di Y, indicate con yh (h = 1, …, t). Avremo quindi tante distribuzioni condizionate di Y quante sono le s modalità (righe) di X: Tabella 2. Distribuzioni condizionate (Y|xi). (Y|x1) y1 y2 … yt tot. (Y|x2) x1 n11 n12 … n1t n10 x2 n21 n22 … n2t n20 y1 y2 … yt tot. … … … … … … … (Y|xi) y1 y2 … yt tot. xi ni1 ni2 … nit ni0 … … … … … … … (Y|xs) y1 y2 … yt tot. xs ns1 ns2 … nst ns0 La prima distribuzione è la condizionata di Y alla modalità x1 di X, e così via, sino all'ultima, che è la distribuzione condizionata di Y alla modalità xs di X. Avremo così s distribuzioni condizionate della Y, tante quante sono le modalità osservate della X, da cui si ipotizza che la Y dipenda. Se sintetizziamo le singole distribuzioni condizionate di Y, allora, avremo per ciascuna di queste una specifica media aritmetica (o valore atteso) condizionata, anche nota come media parziale: E(Y|xi) = μ y| x1 , μ y| x2 , …, μ y| xi , …, μ y| xs dove: t μ y| x = ∑y h =1 n hi hi ∀ i = 1, 2, …, s ni 0 i e una specifica varianza parziale: t σ i2 = Docente: Fabio Aiello ∑(y h =1 hi − μ y| xi ) 2 nhi ni 0 A.A. 2010/11 ∀ i = 1, 2, …, s. 3 Appunti di Statistica Sociale Università Kore di Enna ANALISI DELLA DIPENDENZA: RELAZIONE ASIMMETRICA Lo studio della dipendenza statistica consiste nell’esame di come variano le distribuzioni condizionate della variabile dipendente (o risposta) Y, al variare della variabile indipendente (o esplicativa) X. Consideriamo, ad esempio, la tabella a doppia entrata. A partire da questa è possibile studiare la “dipendenza in distribuzione” di una variabile quantitativa (Y) da un’altra variabile quantitativa (X). Nel caso di due sole variabili quantitative, ossia della regressione semplice, attraverso lo studio della dipendenza, si può misurare l’effetto della variabile esplicativa X sulle distribuzioni condizionate della variabile dipendente Y. La regressione di Y su X si osserva quando le medie parziali di Y variano (crescono o decrescono) al crescere delle modalità di X (si ricordi che le modalità sono sempre ordinate in senso crescente). Se non si osserva alcuna variazione nelle medie parziali di Y, allora è probabile che Y sia indipendente da X, ovvero le medie parziali di Y sono indifferenti al crescere delle modalità di X, ovvero, restano pressoché costanti: E(Y|xi) = μ y| x1 = μ y| x2 = … = μ y| xi = … = μ y| xs = μy = E(Y), ∀ i = 1, 2, …, s dove μy è la media aritmetica di Y, che è una costante. GLI OBIETTIVI DELLA REGRESSIONE: Lo studio della relazione asimmetrica tra due variabili, attraverso i modelli di regressione lineare persegue essenzialmente tre obiettivi: 1. descrittivo: si definisce il modello di regressione per esprimere analiticamente la realtà osservata, rappresentandola in maniera verosimile; 2. interpretativo: il modello adottato deve fornire una “buona” interpretazione della realtà osservata e deve mettere in evidenza le relazioni fra i diversi fenomeni, riconducibili a precise ipotesi di lavoro; 3. previsionale: il modello deve essere in grado di fornire previsioni sull’andamento futuro del fenomeno; ovvero, deve essere capace di calcolare un valore non ancora osservato della variabile dipendente Y, in corrispondenza di nuovi valori osservati della variabile indipendente X. LE ASSUNZIONI SOTTOSTANTI ALLA REGRESSIONE LINEARE Lo studio della dipendenza di Y da X, attraverso un modello di regressione lineare semplice, presuppone che preliminarmente siano soddisfatte delle condizioni, note come assunti della regressione, la cui sussistenza dovrebbe essere verificata ex ante l’analisi della regressione. Tali assunti possono essere così espressi: i. La variabile indipendente X è deterministica: le modalità osservate xi (∀ i = 1, 2, …, s) di X sono predeterminate, cioè sono (o meglio dovrebbero essere) valori misurati senza errore. È chiaro che, nelle Scienze Sociali, questo assunto non è realistico e raramente soddisfatto. ii. La Normalità delle s distribuzioni condizionate: in corrispondenza di ciascuna delle s modalità xi (∀ i = 1, 2, …, s) di X, esiste una sottopopolazione di valori di Y che si distribuisce normalmente. In altre parole, ciascuna delle s distribuzioni condizionate di Y, alle modalità xi di X, segue una distribuzione di probabilità Normale, con specifici parametri: Y|xi ~ N( μ y| x , σ2), i Docente: Fabio Aiello A.A. 2010/11 ∀ i = 1, 2, …, s. 4 Appunti di Statistica Sociale Università Kore di Enna iii. La linearità della relazione tra le due variabili: le s medie condizionate di Y, μ y| x1 , μ y| x2 , …, μ y| xi , …, μ y| xs , ∀ i = 1, 2, …, s, giacciono tutte su una medesima retta. iv. L’indipendenza delle s distribuzioni condizionate: le s distribuzioni di Y sono normalmente distribuite e tra loro statisticamente indipendenti. Cioè, i valori di Y, osservati in corrispondenza di una data modalità xi di X, non dipendono in alcun modo dai valori di Y osservati in corrispondenza di un’altra modalità xj di X, con i ≠ j. Questo equivale ad affermare che tutte le distribuzioni condizionate Y|xi sono indipendenti e identicamente distribuite (i.i.d). v. L’uguaglianza (omoschedasticità) delle s varianze parziali: le s distribuzioni hanno tutte uguale varianza (vedi punto ii): ∀ i = 1, 2, …, s. Var(Y|xi) = σ 12 = σ 22 = ... = σ s2 = σ2 = Var(Y) questa uguaglianza è detta ipotesi della omoschedasticità. Verificare che gli assunti della regressione siano soddisfatti significa valutare se i dati in esame soddisfano le condizioni sopra esposte. IL DIAGRAMMA DI DISPERSIONE Il primo passo da compiere quando si studia la relazione tra due variabili quantitative è un’analisi grafica della relazione. Tale analisi permette di cogliere, con buona attendibilità, caratteristiche fondamentali della relazione, quali l’esistenza, la forma (o natura), la direzione e l’intensità (o forza). Lo strumento per l’indagine grafica è il diagramma di dispersione o scatterplot (vedi figura 1), che rappresenta su un piano ortogonale X0Y la distribuzione congiunta delle N unità statistiche, secondo i due caratteri quantitativi. Figura 1. Diagramma di dispersione X vs Y. 50 45 40 35 Y 30 25 20 15 10 y = 1.0525x + 0.6071 R2 = 0.6853 5 0 10 12 14 16 18 20 22 24 26 X 28 30 32 34 36 38 40 42 44 Ciascuna unità statistica sarà rappresentata da un punto sul piano e la curva interpolatrice dell'insieme di punti è uno strumento che permette di evidenziare proprietà interessanti della relazione. Il ricorso ad una retta interpolatrice della nuvola di punti equivale a esprimere la Docente: Fabio Aiello A.A. 2010/11 5 Appunti di Statistica Sociale Università Kore di Enna relazione tra X e Y in modo lineare, attraverso la funzione y = f(x), dove y è la generica realizzazione della variabile dipendente Y e x è la generica osservazione della variabile indipendente X. Data l'espressione della f(x), ad ogni valore x di X corrisponde uno e un solo valore y di Y. In altre parole, ad ogni ascissa xj (j = 1, …, N) corrisponde uno e un solo punto su una retta di equazione y = f(x), la cui ordinata è f(xj). Lo scatterplot rappresenta graficamente le N coppie di valori osservati congiuntamente sulle N unità statistiche, sia per la variabile Y che per la X, (xj, yj), per j = 1, …, N. È necessario ricorrere ad un sistema di assi cartesiani ortogonali X0Y, sul quale disporre gli N punti, le cui coordinate cartesiane sono appunto le coppie (xj, yj) ordinate secondo i valori di X. Per convenzione i valori ordinati di X sono posti sull’asse delle ascisse e i corrispondenti valori di Y sull’asse delle ordinate. La nuvola di punti, rappresentata sul piano cartesiano, da origine al diagramma di dispersione o scatterplot. Se tali punti mostrano con una certa chiarezza e regolarità l’esistenza di un andamento monotòno (crescente o decrescente) e si distribuiscono approssimativamente intorno ad una retta, allora la relazione può essere studiata attraverso un modello di regressione lineare. La retta passante per i punti è nota come retta dei minimi quadrati, che, come vedremo più avanti, è l’unica, tra le infinite rette passanti per i punti dello scatterplot, a soddisfare una data condizione. In genere, i punti sul piano, di coordinate (xj, yj), si indicano con yj e sono detti valori osservati di Y, mentre i punti sulla retta si indicano con yˆ j e sono detti valori attesi di Y, ∀ j = 1, …, N. L’uso di uno scatterplot consente di comprendere alcune caratteristiche della relazione tra X e Y, quali: 1. l’esistenza della relazione, quando la nuvola di punti mostra, con una certa regolarità, l’esistenza di un andamento monotòno (crescente o decrescente); 2. la forma lineare (o non lineare) della relazione, quando la nuvola di punti si dispone con buona approssimazione intorno ad una retta (o ad una curva); 3. la direzione della relazione, data (geometricamente) dalla direzione dell’inclinazione della retta ideale, intorno a cui si dispone la nuvola di punti: se questa ha inclinazione positiva, la relazione sarà direttamente proporzionale; se ha inclinazione negativa, la relazione sarà inversamente proporzionale. Pertanto, al crescere di X, nel primo caso, Y crescerà, nel secondo caso Y decrescerà. 4. l’intensità, o forza della relazione, data geometricamente dal grado di inclinazione (coefficiente angolare) della retta ideale, intorno a cui si dispone la nuvola di punti. Maggiore è in valore assoluto l’inclinazione della retta, maggiore è l’effetto della crescita di X sulla variazione (positiva o negativa) di Y. O, in altre parole, più inclinata è la retta, più intensa è la relazione tra X e Y. IL MODELLO DI REGRESSIONE SEMPLICE Attraverso il modello di regressione lineare è possibile esprimere i singoli valori osservati di Y, yj, come funzione lineare dei valori osservati di X, xj, nella forma: yj = β0 + β1xj + εj. ∀ j = 1, 2, …, N [1] ossia, i valori osservati yj della variabile dipendente Y sono funzione lineare dei valori osservati xj della variabile indipendente X, attraverso i due parametri βk (k = 0, 1), più una quantità εj, nota come errore. Quest’ultima si assume essere una variabile distribuita normalmente, εj ~ N(0, σ2), che equivale ad assumere che gli errori che si commettono esprimendo la relazione tra X e Y in termini di valore atteso yˆ j , piuttosto che del corrispondente valore osservato yj, si annullano in media. Si ricordi che, mentre i valori osservati yj sono punti sul piano, i valori attesi yˆ j sono punti sulla retta: quindi, la quantità εj può essere interpretata anche in termini di distanza tra i due punti. Docente: Fabio Aiello A.A. 2010/11 6 Appunti di Statistica Sociale Università Kore di Enna Inoltre, dall’assunto al punto iv, discende che gli errori relativi a diverse distribuzioni condizionate di Y sono tra loro non correlati, ovvero, Cov(εi, εh), con i ≠ h due qualsiasi diverse modalità di X. Questo significa che tutta la variazione sistematica osservata nella variabile risposta Y è funzione di X e può essere spiegata dal modello di regressione lineare adottato. Se l’assunto al punto iii è soddisfatto, attraverso un modello di regressione lineare semplice, la variazione osservata delle s medie condizionate di Y può essere così espressa: ∀ i = 1, 2, …, s; E(Y|xi) = μ y| xi = β0 + β1xi dove è noto che Var(Y|xi) = σ2, ∀ i = 1, 2, …, s, per l’omoschedasticità vista all’assunto v. Sotto l’ipotesi di regressione di Y su X, le s distribuzioni condizionate di Y avranno valori attesi variabili (crescenti o decrescenti) in funzione delle modalità della variabile esplicativa X. Il modello di regressione esprime le s medie condizionate di Y E(Y|xi) = μ y| xi in termini di valore atteso sotto l’ipotesi di regressione, ovvero: E(Y|x) = ŷ = βˆ0 + βˆ1 x , [2] Come si può osservare, nella [2] non compare la quantità ε, poiché l’errore in valore atteso è nullo, E(ε) = 0, ad indicare che il valore atteso ŷ si trova esattamente sulla retta di regressione. LA RETTA DEI MINIMI QUADRATI Come abbiamo visto, se l’analisi dello scatterplot indica l’esistenza di una relazione lineare (almeno approssimativamente) tra le due variabili X e Y, allora è lecito adottare una retta passante per la nuvola di punti, per descrivere la relazione. Questa retta è nota come retta dei minimi quadrati ed esprime ogni valore atteso yˆ j di Y in funzione dei singoli valori osservati xj di X, attraverso una coppia di parametri, noti come coefficienti di regressione del modello: yˆ j = βˆ0 + βˆ1 x j , ∀ j = 1, …, N dove: β0 è l’intercetta della retta di regressione con l’asse delle ordinate Y, ovvero il punto d’intersezione della retta con l’asse Y, in corrispondenza del punto di ascissa x = 0; β1 è il coefficiente angolare della retta di regressione, ovvero la pendenza della retta sul piano rispetto all’asse delle ascisse X. È necessario stimare queste due quantità, per determinare e tracciare sul piano in maniera univoca la retta dei minimi quadrati. IL CRITERIO DEI MINIMI QUADRATI Il metodo dei minimi quadrati consiste nell’individuazione di una retta, passante per la nuvola di punti dello scatterplot, scelta tra una famiglia di rette del piano X0Y. Questa è la retta dei minimi quadrati, che garantisce che sia minima la distanza tra i punti osservati sul piano, yi, e i punti che appartengono alla retta, yˆi . Grazie a ciò, possiamo definire la retta dei minimi quadrati come la migliore retta adattabile ai punti osservati nel diagramma di dispersione. Il criterio dei minimi quadrati recita che “la somma delle differenze al quadrato, fra i valori osservati yi della variabile dipendente Y e i valori attesi yˆi , ottenuti adattando la retta dei minimi quadrati, è sempre minore della somma delle differenze al quadrato tra i valori osservati e i valori attesi ottenuti adattando qualsiasi altra retta”. (Ricordate la II proprietà della media aritmetica?). Docente: Fabio Aiello A.A. 2010/11 7 Appunti di Statistica Sociale Università Kore di Enna In altre parole, questo significa che la retta dei minimi quadrati rende minima la distanza tra ogni punto osservato yi di Y, sullo scatterplot, e il corrispondente punto yˆi , sulla retta dei minimi quadrati. Formalmente il criterio si esprime così: ∑( y N j =1 ( 2 − yˆ j ) = ∑ y j − βˆ0 + βˆ1 x j N j j =1 ) 2 = minimo [3] Il metodo dei minimi quadrati permette di determinare le due quantità, β0 e β1, fornendo così le stime dei coefficienti di regressione. LE EQUAZIONI NORMALI E I COEFFICIENTI DI REGRESSIONE Stimare i due coefficienti di regressione è di fondamentale importanza, sia dal punto di vista geometrico, che da quello statistico. Infatti, come già detto, la retta dei minimi quadrati è individuata univocamente solo quando sono note le due quantità, β0, l’intercetta, e β1, il coefficiente angolare. Dal punto di vista più strettamente statistico, β0 rappresenta il valore atteso di Y, yˆ j = β0, in corrispondenza di un valore osservato xj = 0 di X; β1 esprime l’intensità (col suo valore numerico) e la direzione (col suo segno) della relazione tra X e Y. Infatti, β1 esprime la variazione (incremento se β1 > 0, o decremento se β1 < 0) media osservata nella variabile dipendente Y, per effetto di ogni incremento unitario della variabile indipendente X. I valori da assegnare a β0 e β1 sono noti come stime e si determinano risolvendo il sistema di due equazioni in due incognite che si ottiene sviluppando il quadrato entro le parentesi dell’espressione [3]: N ( S = ∑ y j − βˆ0 + βˆ1 x j j =1 ) 2 e derivando le quantità rispetto ai due coefficienti da stimare. Le due equazioni sono dette equazioni normali: ⎧ dS ⎪ d β = −2∑ ( y j − β 0 − β1 x j ) = 0 ⎪ 0 ⎨ ⎪ dS = −2∑ ( y − β − β x ) x = 0 j 0 1 j j ⎪⎩ d β1 ⎧⎪∑ y j − N β 0 − β1 ∑ x j = 0 ⎨ 2 ⎪⎩∑ x j y j − β 0 ∑ x j − β1 ∑ x j = 0 ⎧⎪∑ y j = N β 0 + β1 ∑ x j ⎨ 2 ⎪⎩∑ x j y j = β 0 ∑ x j + β1 ∑ x j ( ) la cui soluzione rispetto ai due coefficienti fornisce la coppia di stime βˆ0 , βˆ1 : Docente: Fabio Aiello A.A. 2010/11 8 Appunti di Statistica Sociale ∑(x N βˆ1 = j =1 j − μ x )( y j − μ y ) ∑(x N j =1 βˆ0 = ∑y j Università Kore di Enna j − μx ) − βˆ1 ∑ x j N 2 = N ∑ x j y j − ( ∑ x j )( ∑ y j ) N ∑ x 2j − ( ∑ x j ) 2 ; = μ y − βˆ1μ x . IL COEFFICIENTE DI DETERMINAZIONE Dopo avere stimato la retta dei minimi quadrati, è necessario valutarne il grado di accostamento alla nuvola dei punti dello scatterplot. Infatti, è vero che la retta è la migliore tra le possibili scelte, ma si deve sempre valutare la capacità del modello adottato (la retta appunto) di descrivere la relazione osservata tra X e Y. Facciamo un esempio estremo: se la retta stimata descrivesse perfettamente la relazione osservata, questo significherebbe che la distanza tra i punti osservati e quelli attesi (già definita come errore) sarebbe nulla, perché sia i punti osservati, che gli attesi giacerebbero sulla retta e l’accostamento sarebbe perfetto. In un simile caso, si parla indifferentemente di adattamento perfetto del modello. Pertanto, una domanda più che lecita è: quanto è buono l’adattamento del modello ai dati osservati? Una misura della bontà di accostamento della retta di regressione dei minimi quadrati ai punti osservati sul piano cartesiano è il coefficiente di determinazione R2. Per determinare il coefficiente R2 è necessario scomporre la devianza totale di Y in due componenti distinte. Nella figura 2 sono indicate le quantità necessarie alla scomposizione della devianza totale osservata di Y (si ricordi che la devianza Dev(Y) è il numeratore della varianza) nelle sue due componenti: - la devianza della Regressione, Dev(R); - la devianza dell’Errore, Dev(E). Nella figura, sono riportate sia l’equazione della retta di regressione dei minimi quadrati stimata, yˆi = 0.6071 + 1.0525xi, che quella della retta parallela all’asse delle ascisse, passante per il punto di ordinata My = 24.24 (la media di Y), che rappresenta l’ipotesi di assenza di regressione di Y su X, cioè l’indipendenza. Infatti, al variare di X, Y è indifferente, non varia, perché è sempre uguale a My. Docente: Fabio Aiello A.A. 2010/11 9 Appunti di Statistica Sociale Università Kore di Enna Figura 2. Scatterplot per la scomposizione della Devianza di Y 50 Dev(E) 45 Dev(Y) 40 35 Dev(R) Y 30 25 My = 24.24 20 15 10 y = 1.0525x + 0.6071 R2 = 0.6853 5 0 10 12 14 16 18 20 22 24 26 X 28 30 32 34 36 38 40 42 44 Possiamo quindi pensare a queste due rette come i “modelli” che rappresentano le due opposte condizioni, rispettivamente, quella di regressione di Y su X e quella di indipendenza di Y da X, e vedere quale delle due è più aderente (o vicina, in termini geometrici) alla realtà osservata (i punti dello scatterplot). Pertanto, al fine di valutare la bontà di adattamento del modello di regressione è necessario porre a confronto le quantità relative alle diverse condizioni. La devianza totale di Y può essere scomposta in due parti: ( y j − μ y ) = ( y j − yˆ j ) + ( yˆ j − μ y ) che sommando ed elevando al quadrato diventa: ∑ ( y j − μ y ) = ∑ ( y j − yˆ j ) + ∑ ( yˆ j − μ y ) N 2 j =1 N j =1 2 N 2 j =1 dove il doppio prodotto si annulla in virtù delle due equazioni normali. Possiamo anche scrivere: Dev(Y) = Dev(R) + Dev(E) Dove, la Dev(Y) può essere interpretata sia come misura della distanza tra ciascun valore osservato, yi, sul piano e la media dei valori osservati, μ y = My, che come misura della variabilità osservata di Y da spiegare (oppure no) in funzione di X; la Dev(R), è la misura della distanza tra ciascun valore teorico, yˆi , sulla retta di regressione (cioè l’ipotesi di regressione di Y su X) e la media dei valori osservati, μ y = My (cioè l’ipotesi di “assenza di regressione”). La terza devianza, Dev(E), misura la distanza tra ciascun valore osservato, yi, sul piano e il corrispondente valore atteso, yˆi , sulla retta di regressione (già definita errore, εi), in altre parole, misura la variabilità di Y che rimane da spiegare, perché non spiegata dalla regressione. Il coefficiente di determinazione R2 è una misura della porzione di variabilità totale di Y spiegata dalla regressione su X, formalmente: Docente: Fabio Aiello A.A. 2010/11 10 Appunti di Statistica Sociale Università Kore di Enna R2 ∑ ( yˆ = ∑( y j − μy ) j − μy ∑( y = 1− ) ∑( y 2 2 j − yˆ j ) 2 j − μy ) 2 . Esso è tale che: • • • 0 ≤ R2 ≤ 1; Se R2 = 0 Se R2 = 1 allora pessimo adattamento del modello; allora perfetto adattamento del modello. Più vicino all’unità è il valore di R2, migliore sarà l’accostamento della retta dei minimi quadrati ai valori osservati e, quindi, migliore l’ adattamento del modello ai dati. Questo perché la quota di variabilità totale di Y, Dev(Y), spiegata dalla regressione su X, Dev(R), è elevata, per converso, quella che rimane da spiegare, Dev(E), è ridotta. Infine, il coefficiente di determinazione R2 è legato al coefficiente di correlazione lineare di Bravais-Pearson r dalla relazione: R2 = r . Docente: Fabio Aiello A.A. 2010/11 11