L’analisi della correlazione lineare Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Prof. Roberta Siciliano Statistica 1 Obiettivi dell’unità didattica • Definire la condizione di incorrelazione lineare • Definire il metodo statistico per l’analisi della correlazione lineare tra due variabili numeriche Contenuti • La rappresentazione grafica mediante “scatterplot” • L’uso delle variabili standardizzate • La covarianza • Il coefficiente di correlazione lineare di Bravais-Pearson • Formule alternative – Per dati grezzi – Per tabelle a doppia entrata che incrociano due variabili numeriche Prof. Roberta Siciliano Statistica 2 1 In caso di variabili quantitative possiamo rappresentare graficamente la variabile doppia con uno SCATTER PLOT (diagramma a dispersione, nube di punti, grafico X,Y) (xl,yl) Prof. Roberta Siciliano Statistica 3 Scatterplot o diagramma a dispersione • Analisi grafica della relazione tra due variabili numeriche Prof. Roberta Siciliano Statistica 4 2 L’uso di variabili standardizzate • Siano X e Y due variabili numeriche (non necessariamente con la stessa scala di misura) • Standardizzando si hanno Prof. Roberta Siciliano Statistica 5 La matrice dei dati grezzi Prof. Roberta Siciliano Statistica 6 3 Analisi grafica Prof. Roberta Siciliano Statistica 7 Il coefficiente di correlazione lineare • Si definisce come ρ XY 1 N 1 N x l − µX y l − µY = ∑ zxl zyl = ∑ = N l =1 N l =1 σ X σY 1 ∑ ( x l − µX )( y l − µY ) σ XY N = = σ XσY σ XσY covarianza • Si dimostra che Prof. Roberta Siciliano Statistica 8 € 4 Il coefficiente di correlazione come espressione della devianza Cod ( X,Y ) = NσXY Dev ( X ) = NσX2 Dev (Y ) = NσY2 € Prof. Roberta Siciliano Statistica 9 € € Altre formulazioni N ∑( x − µX )( y l − µY ) l l =1 ρ XY = ∑ (x l l − µX ) 2 ∑ (y l l − µY ) 2 = N ∑x y l = l − NµX µY l =1 ∑x l 2 l Prof. Roberta Siciliano − NµX 2 ∑y l 2 l − NµY 2 Statistica = Cod(X,Y ) Dev(X)Dev(Y ) 10 € 5 Proprietà di Il segno di Se dipende da allora X e Y sono incorrelate Prof. Roberta Siciliano Statistica 11 Prof. Roberta Siciliano Statistica 12 6 Prof. Roberta Siciliano Statistica 13 Esempio XY Yi 1 1 2 2 3 4 4 2 5 1 Xi Esiste una relazione funzionale Prof. Roberta Siciliano Statistica 14 7 I calcoli X Y 1 1 -2 4 -1 1 2 2 2 -1 1 0 0 0 3 4 0 0 2 4 0 4 2 1 1 0 0 0 5 1 2 4 -1 1 -2 6 0 10 DEV(Y) COD(X,Y) DEV(X) Prof. Roberta Siciliano Statistica 15 Esempio Le variabili sono incorrelate ma non sono indipendenti. Esiste una relazione funzionale tra le variabili ma non di tipo lineare Prof. Roberta Siciliano Statistica 16 8 Per tabelle a doppia entrata k h 1 ∑ ∑ ( x − µX ) y j − µY nij N i=1 j =1 i ρ XY = ( ) ( = = 2 2 1 1 x − µ n y − µ n+ j ∑( ∑ X) i+ Y N i i N j j 1 ∑ ∑ x y n − µX µY N i j i j ij 1 1 2 2 2 2 ∑ ∑ i x i n i+ −µX j y j n + j −µY N N Prof. Roberta Siciliano Statistica ) 17 € Esempio su dati grezzi Calcolare la covarianza e la correlazione tra i caratteri “Fatturato” e “Numero di Addetti” per le 10 aziende incluse nel campione. σXY = ρ= € Prof. Roberta Siciliano Statistica € 1 ∑ x l y l − µX µY N 1 ∑ x l y l − µX µY N 1 1 x l2 −µX 2 y l2 −µY 2 ∑ ∑ N N 18 9 Esempio su dati grezzi Prof. Roberta Siciliano Statistica 19 Calcolo della covarianza 1 1 x l = 2.124 =212,4 ∑ N 10 1 1 µY = ∑ y l = 5.075 =507,5 N 10 µX = € € µXY = 1 1 x l y l = 1.348.589 =134.858,9 ∑ N 10 σXY = µXY − µX µY = 134.858,9 − (212,4⋅ 507,5) = 27.065,9 € Prof. Roberta Siciliano Statistica 20 € 10 Calcolo della correlazione 1 1 x l 2 = 567.056 =56.705,6 ∑ N 10 1 1 µY 2 = ∑ y l 2 = 4.110.179 = 411.017,9 N 10 1 ∑ x l y l − µX µY N ρ= = ⎛ 1 2 ⎞⎛ 1 2 ⎞ 2 2 ⎜ ∑ x l −µX ⎟⎜ ∑ y l −µY ⎟ µX 2 = € € ⎝ N = ⎠⎝ N ⎠ 27.065,9 (56.705,6 − 212,4 )(411.017,9 − 507,5 ) Prof. Roberta Siciliano 2 Statistica 2 = 0,642 21 € Scatterplot Prof. Roberta Siciliano Statistica 22 11 Correlazione lineare in tabelle a doppia entrata Data la seguente distribuzione doppia: Calcolare la covarianza e la correlazione. Prof. Roberta Siciliano Statistica 23 Correlazione lineare in tabelle a doppia entrata ρ= 1 ∑ ∑ x y n − µX µY N i j i i ij 1 1 x i2 n i+ − µX 2 ∑ ∑ y 2n − µY 2 N i N j j +j Per il calcolo della covarianza si costruisce la tabella degli elementi € La somma degli elementi all’interno di tale tabella è pari a 33.561.140 Prof. Roberta Siciliano Statistica 24 12 Correlazione lineare in tabelle a doppia entrata Per il calcolo delle medie e delle varianze è utile considerare la seguente tabella: Prof. Roberta Siciliano Statistica 25 Calcolo della covarianza 1 1 x n = 18.498 = 369,96 ∑ N i i i+ 50 1 1 µY = ∑ j y j n + j = 52.105 = 1.042,1 N 50 µX = € € Prof. Roberta Siciliano Statistica 26 13 Calcolo della correlazione 1 1 2 2 2 x n − µ = 15.052.788 − 369,96 ∑ i i+ X N i 50 1 1 σY2 = ∑ j y 2j n + j − µY2 = 138.872.265 −1.024,12 N 50 σX2 = 1 ∑ ∑ x y n − µX µY N i j i i ij ρ XY = = 1 1 2 2 2 2 ∑ x n − µX N ∑ j y j n+ j − µY N i i i+ 285.687 = 0,542 2 2 (301.056 − 369,96 ) (2.777.445 −1.024,1 ) € € Prof. Roberta Siciliano Statistica 27 € 14