Regressione e correlazione Corso di statistica sociale prof. Natale Carra - Università degli Studi di Bergamo – a.a. 2005-06 Regressione Questo modello di analisi bivariata esamina le relazioni fra coppie di variabili continue. Un utile strumento per approcciare il modello è quello di visualizzare le modalità in cui due variabili continue covariano. Il diagramma di dispersione Costruito un diagramma cartesiano, poniamo i valori della variabile indipendente sull’asse X e quelli della variabile dipendente su Y Y X Il diagramma di dispersione In corrispondenza delle coordinate X e Y si traccia un punto Y X Il diagramma di dispersione L’insieme di questi rappresenta le modalità di covariazione Y X Esempio per la regressione - tabella Arrivi e presenze negli esercizi ricettivi per residenza dei clienti e provincia - 2002 Province Permanenza italiani Permanenza stranieri Torino 3,21 3,06 Vercelli 5,13 3,06 Biella 3,41 2,96 Verbano-Cusio-Ossola 3,28 3,98 Novara 3,10 2,68 Cuneo 3,42 2,52 …….. …….. Ragusa 3,53 6,65 Siracusa 3,67 2,83 Sassari 5,47 5,23 Nuoro 6,78 6,14 Oristano 3,58 3,16 Cagliari 5,18 5,19 ………… Esempio per la regressione - grafico Arrivi e presenze negli esercizi ricettivi per residenza dei clienti e provincia - 2002 11 10 9 Stranieri 8 7 6 5 4 3 2 1 1 2 3 4 5 6 Italiani 7 8 9 10 11 Regressione (lineare) bivariata Le relazioni fra coppie di variabili continue sono postulate lineari In termini algebrici, l’equazione lineare è: Y = a + bX dove: a corrisponde al punto in cui la retta incrocia l’asse cartesiano verticale (Y) b esprime l’inclinazione della retta Equazione predittiva Il valore assunto dalla variabile dipendente per ciascuna osservazione i, è funzione lineare esatta del corrispondente valore della variabile indipendente. Yˆi = a + bYX X i Modello di regressione lineare I dati empirici non seguono mai relazioni lineari perfette, dunque: Yi = a + bYX X i + ei L’errore ei rappresenta la porzione del valore Y in i non predetta dalla sua relazione lineare con X. L’errore ei è detto anche residuo. Modello di regressione lineare L’errore ei è detto anche residuo perché: Yi − Yˆi = [a + bYX X i + ei ] − [a + bYX X i ] = ei L’analisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello è minimizzare i residui Stima dell’equazione Criterio dei minimi quadrati ∑( N i =1 Yi − Yˆi ) = ∑e 2 N i =1 2 i La somma delle differenze (al quadrato) deve essere minima. Coefficiente di regressione La stima dei minimi quadrati per il coefficiente di regressione bivariata è calcolato così: bYX ( Y − Y )(X − X ) ∑ = ∑ (X − X ) i i 2 i Intercetta La stima dell’intercetta è più semplice e si ricava conoscendo il coefficiente e le medie delle N osservazioni disponibili: a = Y − bYX X L’esempio di applicazione Province Permanenza italiani Permanenza stranieri Torino 3,21 3,06 Vercelli 5,13 3,06 Biella 3,41 2,96 Verbano-Cusio-Ossola 3,28 3,98 Novara 3,10 2,68 Cuneo 3,42 2,52 …….. …….. Ragusa 3,53 6,65 Siracusa 3,67 2,83 Sassari 5,47 5,23 Nuoro 6,78 6,14 Oristano 3,58 3,16 Cagliari 5,18 5,19 X = 4,37 Y = 4,00 ………… L’esempio di applicazione (Y − Y )(X ) (X ) Province Xi − X Yi − Y Torino -0,99 -1,05 1,04 0,99 Vercelli 0,93 -1,05 -0,97 0,86 Biella -0,79 -1,15 0,91 0,63 Verbano-Cusio-Ossola -0,92 -0,13 0,12 0,85 Novara -1,10 -1,43 1,57 1,21 Cuneo -0,78 -1,59 1,24 0,61 Ragusa -0,67 2,54 -1,71 0,45 Siracusa -0,53 -1,28 0,68 0,28 Sassari 1,27 1,13 1,42 1,60 Nuoro 2,58 2,03 5,24 6,64 Oristano -0,63 -0,95 0,60 0,39 Cagliari 0,98 1,08 1,06 0,96 227,41 267,81 i i − X i − X 2 ………… L’esempio di applicazione - risultati bYX ( Y − Y )(X − X ) ∑ = = 0,8491 ∑ (X − X ) i i 2 i a = Y − bYX X = 0,540 Yˆi = 0,540 + 0,8491X i Coefficiente di regressione Il numeratore di bYX diviso per N – 1 determina la covarianza, indicata come sYX : sYX ( Y − Y )(X ∑ = i i −X ) N −1 Il denominatore di bYX diviso per N – 1 determina la varianza, indicata come s2X : s 2 X ( X ∑ = i −X N −1 ) 2 Coefficiente di regressione Poiché N – 1 compare al denominatore di covarianza e varianza, nel rapporto di queste viene eliminato sYX = 2 sX ∑ (Y − Y )(X − X )(N − 1) ∑ (X − X ) (N − 1) i i 2 i Allora lo stimatore può essere così espresso: bYX sYX = 2 sX