Correlazione Regressione La correlazione e la regressione Antonello Maruotti . A. Maruotti . . . . . Outline 1 Correlazione 2 Regressione . . . . . . Correlazione Regressione Associazione tra caratteri quantitativi Date due distribuzioni unitarie secondo caratteri quantitativi X e Y x1 y1 x2 y2 ··· ··· xn yn associate in modeo che nell’unità i-esima il carattere X è presente con la modalità xi ed il carattere Y con la modalità yi , per valutare l’associazione fra i due caratteri X e Y ricorriamo alla coviarianza alla correlazione . A. Maruotti . . . . . Correlazione Regressione La covarianza Definizione La covarianza è una misura del legame lineare tra due caratteri quantitativi X e Y . E’ data dalla media aritmetica del prodotto degli scarti di due caratteri dalle loro rispettive medie. σXY = n n 1∑ 1∑ (xi − µX )(yi − µY ) = xi yi − µX µY n i=1 n i=1 . A. Maruotti . . . . . Correlazione Regressione La covarianza: osservazioni Osservazioni: quando scarti positivi (negativi) del carattere X tendono ad associarsi a scarti positivi (negativi) del carattere Y , allora i loro prodotti saranno positivi e la covarianza risulterà positiva; quando scarti positivi del carattere X tendono ad associarsi a scarti negativi del carattere Y (o viceversa), allora i loro prodotti saranno negativi e la covarianza risulterà negativa. Minimo e massimo: non è un indice relativo −σX σY ≤ σXY ≤ σX σY . A. Maruotti . . . . . Correlazione Regressione La correlazione Definizione Il coefficiente di correlazione lineare è un indice che misura la relazione lineare tra due caratteri quantitativi X e Y . E’ espresso dal rapporto tra la covariaza tra i due caratteri X e Y ed il prodotto dei rispettivi scarti quadratici medi. ∑ rXY n 1 (xi − µX )(yi − µY ) σXY √ ∑ = = √ ∑ n i=1 n n 1 σX σY 2 1 2 (x − µ ) i X i=1 i=1 (yi − µY ) n n . A. Maruotti . . . . . Correlazione Regressione La correlazione: proprietà Il coefficiente di correlazione è compreso tra -1 e 1. −1 ≤ rXY ≤ 1 Se rXY = 0, allora non vi è relazione di tipo lineare tra i due caratteri. Si noti che l’incorrelazione tra due caratteri implica correlazione nulla, ma non è vero il contrario. Se rXY = ±1, allora esiste un legame lineare perfetto positivo (rXY = 1) o negativo rXY = −1 Il coefficiente di correlazione è invariante per trasformazioni lineari, a meno del segno. . A. Maruotti . . . . . Correlazione Regressione La correlazione: fissiamo le idee Date due variabili quantitative, diremo che sono correlate positivamente se variano in modo concorde, ossia all’aumentare [diminuire] dell’una aumenta [diminuisce] anche l’altra; correlate negativamente se variano in modo discorde, ossia all’aumentare [diminuire] dell’una, l’altra diminuisce [aumenta] Osserviamo che due caratteri risultano concordi se gli scarti dalla media tendono ad essere dello stesso segno mentre risultano discordi se tali scarti tendono ad essere di segno opposto. . A. Maruotti . . . . . Correlazione Regressione Obiettivo della regressione Obiettivo dell’analisi di regressione è studiare il legame che intercorre tra due variabili quantitative X e Y . 5 4 1 2 3 Consumo 6 7 8 Correlazione = 0.494 4 6 8 10 12 Reddito . A. Maruotti . . . . . Correlazione Regressione Funzioni lineari Il legame tra due variabili viene espresso mediante una funzione del tipo y = f (x ) Una delle funzioni più semplici è quella lineare y = β0 + β1 x β0 : valore di y per x = 0 β1 : variazione di y per un aumento unitario di x . A. Maruotti . . . . . Correlazione Regressione Modello di regressione lineare semplice Nella realtà difficilmente due variabili sono legate da una relazione esatta. Per ovviare a questo inconveniente adottiamo il modello yi = β0 + β1 xi + ϵi dove β0 = interecetta β1 = coefficiente di regression (pendenza) yi = variabile risposta (dipendente) xi = variabile esplicativa (indipendente) ϵi = residuo o errore (riflette le imperfezioni della relazione lineare ed eventuali variabili esplicative omesse) . A. Maruotti . . . . . Correlazione Regressione Stima dei parametri: metodo dei minimi quadrati Ipotizziamo che il termine residuale sia di minima entità. Determiniamo quindi la retta (ossia β0 e β1 ) in modo da rendere minima la somma n ∑ (yi − βo − β1 xi )2 i=1 . A. Maruotti . . . . . Correlazione Regressione Soluzione del problema dei minimi quadrati Coefficiente di regressione ∑n b1 = i=1 (xi − µx )(yi − ∑n 2 i=1 (xi − µx ) µy ) Intercetta b0 = µy − b1 µx La retta dei minimi quadrati passa per il baricentro (alla media di x corrisponde la media di y ) ŷi = b0 + b1 xi . A. Maruotti . . . . . Correlazione Regressione Adattamento del modello ai dati Varianza totale Varianza spiegata Varianza residua n 1∑ (yi − µy )2 = σy2 n i=1 n 1∑ (ŷi − µy )2 = σŷ2 n i=1 n n 1∑ 1∑ (yi − ŷi )2 = ϵ̂2 = σϵ̂2 n i=1 n i=1 i Scomposizione della varianza totale σy2 = σŷ2 + σϵ̂2 . A. Maruotti . . . . . Correlazione Regressione Coefficiente di determinazione Per avere un indice della bontà di adattamento del modello ai dati calcoliamo il rapporto tra variabilità spiegata dalla regressione e variabilità totale 2 r = 1 n 1 n ∑n σŷ2 − µy )2 = 2 σy2 i=1 (yi − µy ) i=1 (ŷi ∑n La decomposizione della devianza totale garantisce che r 2 varia tra 0 (pessimo adattamento) e 1 (ottimo adattamento, la relazione è perfettamente lineare). . A. Maruotti . . . . .