Esercitazione 7 A. Iodice Relazioni tra variabili Esercitazione 7 Indipendenza Statistica Indici di connessione Il coefficiente di correlazione lineare Alfonso Iodice D’Enza [email protected] Dipendenza in variabili miste Università degli studi di Cassino A. Iodice () Esercitazione 7 Statistica 1 / 41 Outline Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza 1 Relazioni tra variabili 2 Indipendenza 3 Indici di connessione 4 Il coefficiente di correlazione lineare 5 Dipendenza in variabili miste Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 2 / 41 Misura del legame Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce connessione se X e Y sono mutabili Il coefficiente di correlazione lineare correlazione se X e Y sono variabili Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 3 / 41 Interdipendenza e dipendenza Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Se le componenti di una variabile doppia (X, Y ) oggetto di studio rivestono lo stesso ruolo ai fini dell’analisi si studia l’interdipendenza tra X e Y . Se si vuole studiare, invece, l’andamento della variabile Y rispetto ad X, si farà riferimento alla dipendenza di Y da X. Y si definisce variabile dipendente Dipendenza in variabili miste X si definisce variabile indipendente A. Iodice () Esercitazione 7 Statistica 4 / 41 Frequenze condizionate Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 5 / 41 Frequenze condizionate Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 6 / 41 Frequenze relative condizionate Esercitazione 7 A. Iodice Relazioni tra variabili La distribuzione delle frequenze relative condizionate della variabile A (k modalità) rispetto alla j−sima modalità della variabile B (h modalità) si ottiene dividendo ciascun elemento dell’j−ma colonna (frequenza assoluta) per il rispettivo totale di di colonna nij /n.j per i = 1, . . . , k. Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 7 / 41 Frequenze relative condizionate Esercitazione 7 A. Iodice Relazioni tra variabili La distribuzione delle frequenze relative condizionate della variabile B (h modalità) rispetto alla i−sima modalità della variabile A (k modalità) si ottiene dividendo ciascun elemento dell’i−ma riga (frequenza assoluta) per il rispettivo totale di riga nij /ni. per j = 1, . . . , h. Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 8 / 41 Esempio di tabella a doppia entrata Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Si consideri di aver registrato il colore degli occhi e quello dei capelli di un collettivo di 592 persone. I risultati sono raccolti nella seguente tabella Indici di connessione occhi/capelli nero azzurro marrone verde T ot Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () neri 68 20 15 5 108 castani 119 84 54 29 286 Esercitazione 7 rossi 26 17 14 14 71 biondi 7 94 10 16 127 T ot 220 215 93 64 592 Statistica 9 / 41 Distribuzioni relative condizionate Esercitazione 7 A. Iodice Frequenze condizionate della variabile capelli rispetto alle modalità della variabile occhi occhi/capelli Relazioni tra variabili nero azzurro marrone verde Indipendenza Indici di connessione Il coefficiente di correlazione lineare neri 0.309 0.093 0.161 0.078 castani 0.541 0.391 0.581 0.453 rossi 0.118 0.079 0.151 0.219 biondi 0.032 0.437 0.108 0.250 T ot 1 1 1 1 Frequenze condizionate della variabile occhi rispetto alle modalità della variabile capelli Dipendenza in variabili miste occhi/capelli nero azzurro marrone verde T ot A. Iodice () neri 0.630 0.185 0.139 0.046 1 castani 0.416 0.294 0.189 0.101 1 Esercitazione 7 rossi 0.366 0.239 0.197 0.197 1 biondi 0.055 0.740 0.079 0.126 1 Statistica 10 / 41 Indipendenza Esercitazione 7 A. Iodice Indipendenza e distribuzioni condizionate Relazioni tra variabili Indipendenza Indici di connessione Le componenti di una variabile doppia (X, Y ) sono indipendenti se le distribuzioni di frequenze relative condizionate Y |X e X|Y sono costanti. Formalmente dovrà risultare per Y |X Il coefficiente di correlazione lineare Dipendenza in variabili miste ni2 ni3 nih ni1 = = = ... = n.1 n.2 n.3 n.h e per X|Y A. Iodice () n1j n2j n3j nkj = = = ... = n1. n2. n3. nk. Esercitazione 7 Statistica 11 / 41 Indipendenza Esercitazione 7 A. Iodice Relazioni tra variabili Si supponga che nel precedente esempio sia stata osservata la seguente distribuzione doppia. Indipendenza Indici di connessione occhi/capelli nero azzurro marrone verde T ot Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () neri 40 39 17 12 108 castani 106 104 45 31 286 Esercitazione 7 rossi 26 26 11 8 71 biondi 47 46 20 14 127 T ot 220 215 93 64 592 Statistica 12 / 41 Indipendenza Esercitazione 7 In questo caso le frequenze condizionate della variabile capelli rispetto alle modalità della variabile occhi A. Iodice occhi/capelli Relazioni tra variabili nero azzurro marrone verde T ot Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste neri 0.182 0.182 0.182 0.182 0.182 castani 0.483 0.483 0.483 0.483 0.483 rossi 0.120 0.120 0.120 0.120 0.120 biondi 0.215 0.215 0.215 0.215 0.215 T ot 1 1 1 1 1 Mentre le frequenze condizionate della variabile occhi rispetto alle modalità della variabile capelli occhi/capelli nero azzurro marrone verde T ot A. Iodice () neri 0.372 0.363 0.157 0.108 1 castani 0.372 0.363 0.157 0.108 1 Esercitazione 7 rossi 0.372 0.363 0.157 0.108 1 biondi 0.372 0.363 0.157 0.108 1 T ot 0.372 0.363 0.157 0.108 1 Statistica 13 / 41 Indipendenza Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Se le componenti di una variabile doppia (X, Y ) sono indipendenti (le distribuzioni di frequenze relative condizionate Y |X e X|Y sono costanti), allora vale la seguente relazione Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste n̂ij = ni. n.j n.. con i = 1, . . . , k; j = 1, . . . , h Pertanto, data una distribuzione doppia di frequenze, il legame tra le due componenti (mutabile) varierà tra una situazione di indipendenza (assenza di legame) e un qualche grado di connessione A. Iodice () Esercitazione 7 Statistica 14 / 41 Indice quadratico di connessione (X 2 ) Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Gli indici per la misura della connessioni sono basati sulle differenze tra le frequenze osservate sul collettivo nij e le frequenze teoriche n̂ij , che si osserverebbero sul collettivo se le mutabili considerate fossero indipendenti. Indice quadratico di connessione (X 2 ) è dato dalla seguente relazione Il coefficiente di correlazione lineare X2 = k X h X (nij − n̂ij )2 n̂ij i=1 j=1 Dipendenza in variabili miste in caso di indipendenza, essendo nij = n̂ij , risulta X 2 = 0 il massimo valore dell’indice è dato dalla seguente espressione: n × min(k − 1, h − 1) A. Iodice () Esercitazione 7 Statistica 15 / 41 Indice quadratico di connessione (X 2 ) Esercitazione 7 A. Iodice Per calcolare l’indice quadratico di connessione che caratterizza le variabili coloreocchi e colorecapelli, con distribuzione congiunta di frequenze Relazioni tra variabili Indipendenza nij : Indici di connessione Il coefficiente di correlazione lineare occhi/capelli nero azzurro marrone verde neri 68 20 15 5 castani 119 84 54 29 rossi 26 17 14 14 biondi 7 94 10 16 T ot 220 215 93 64 T ot 108 286 71 127 592 si deve calcolare la distribuzione di frequenze che si osserverebbero in caso di indipendenza Dipendenza in variabili miste n̂ij : A. Iodice () occhi/capelli nero azzurro marrone verde neri 40.135 39.223 16.966 11.676 castani 106.284 103.868 44.929 30.919 rossi 26.385 25.785 11.154 7.676 biondi 47.196 46.123 19.951 13.730 T ot 220 215 93 64 T ot 108 286 71 127 592 Esercitazione 7 Statistica 16 / 41 Indice quadratico di connessione (X 2 ) Esercitazione 7 A. Iodice Relazioni tra variabili “ ”2 nij −n̂ij Indipendenza n̂ij Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste : occhi/capelli nero azzurro marrone verde neri 19.346 9.421 0.228 3.817 castani 1.521 3.800 1.831 0.119 rossi 0.006 2.993 0.726 5.211 biondi 34.234 49.697 4.963 0.375 L’indice X 2 è dato dunque dalla somma degli elementi in tabella X 2 = k X h X (nij − n̂ij )2 i=1 j=1 n̂ij = 19.346 + 1.521 + 0.006 + 34.234 + 9.421 + 3.800 + 2.993+ + 49.697 + 0.228 + 1.831 + 0.726 + 4.963 + 3.817 + 0.119 + 5.211 + 0.375 = 138.29 A. Iodice () Esercitazione 7 Statistica 17 / 41 Indice ν di Cramer Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste avendo definito n × min(k − 1, h − 1) come valore massimo che X 2 può assumere, è possibile ottenere una versione normalizzata dell’indice di connessione. Viene definito indice ν di Cramer. s X2 ν= n × min(k − 1, h − 1) con k e h numero di modalità delle componenti della mutabile doppia. L’indice è normalizzato, quindi 0 ≤ ν ≤ 1. A. Iodice () Esercitazione 7 Statistica 18 / 41 Indice ν di Cramer Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Con riferimento ai dati dell’esercizio, si ha che X 2 = 138.29, n = 592, h = 4 e k = 4 s s X2 138.29 = = 0.28 ν= n × min(k − 1, h − 1) 592 × min(3, 3) Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 19 / 41 Misura del legame Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Nel caso di variabili quantitative preferibile utilizzare una misura del legame che coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili. Le componenti della variabile doppia X e Y possono essere caratterizzate da diversa posizione e variabilità, risulta in genere che Indici di connessione Il coefficiente di correlazione lineare µx 6= µy e σx 6= σy Volendo misurare le variazioni congiunte delle modalità di X ed Y , si fa riferimento alla versione standardizzata delle variabili, data da Dipendenza in variabili miste Zx = X − µx Y − µy e Zy = σx σy questo per escludere dalla misura del legame gli effetti della differente media e varianza (essendo µx 6= µy e σx 6= σy ) A. Iodice () Esercitazione 7 Statistica 20 / 41 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 7 A. Iodice Relazioni tra variabili L’indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate delle variabili si definisce coefficiente di correlazione lineare di Pearson ρ ed dato da Indipendenza ρxy = Indici di connessione Il coefficiente di correlazione lineare « n n „ 1 X xi − µx yi − µy 1X (zx,i zy,i ) = × n i=1 n i=1 σx σy Con piccole trasformazioni si ottiene la presente formalizzazione Dipendenza in variabili miste ρxy = 1 n Pn i=1 (xi − µx )(yi − µy ) σx σy = σxy σx σy La quantità al numeratore si definisce covarianza: essa corrisponde alla media del prodotto degli scarti delle modalità di X e Y dalle rispettive medie. La covarianza misura la contenporanea variazione di X e Y con riferimento alle loro medie. A. Iodice () Esercitazione 7 Statistica 21 / 41 Proprietà del coefficiente di correlazione Esercitazione 7 A. Iodice se X e Y sono indipendenti, allora ρxy = 0 (NON vale il contrario) Relazioni tra variabili Indipendenza se ρxy = 1, allora Y = α + βX (ovvero Y una trasformazione lineare di X ) Indici di connessione Il coefficiente di correlazione lineare se ρxy = −1, allora Y = α − βX (ovvero Y una trasformazione lineare di X ) Dipendenza in variabili miste ρxy = ρyx ρxx = 0 A. Iodice () Esercitazione 7 Statistica 22 / 41 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 7 A. Iodice Relazioni tra variabili Esercizio Si considerino i voti riportati da n = 8 studenti negli esami di matematica e statistica. Indipendenza 1 2 3 4 5 6 7 8 Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste matematica(xi ) 24 27 30 26 29 18 21 22 statistica(yi ) 23 28 30 27 30 20 20 25 Si misuri il legame lineare che caratterizza le due variabili A. Iodice () Esercitazione 7 Statistica 23 / 41 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 7 A. Iodice Svolgimento É necessario calcolare le medie aritmetiche µ e gli scarti quadratici medi σ Il voto medio ottenuto dagli studenti all’esame di matematica è P8 i=1 xi n Relazioni tra variabili µm = Indipendenza Il voto medio ottenuto dagli studenti all’esame di statistica è µs = = 197 = 24.625 8 Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste 1 2 3 4 5 6 7 8 xi 24 27 30 26 29 18 21 22 yi 23 28 30 27 30 20 20 25 T ot 197 203 xi − µx -0.62 2.38 5.38 1.38 4.38 -6.62 -3.62 -2.62 yi − µy -2.38 2.62 4.62 1.62 4.62 -5.38 -5.38 -0.38 sP 8 i=1 scarti quadratici medi: σm = σs = A. Iodice () 8 i=1 (yi − µy )2 5.64 6.89 21.39 2.64 21.39 28.89 28.89 0.14 119.875 115.875 (xi − µm )2 Esercitazione 7 (yi − µs )2 n = 203 = 25.375 8 (xi − µx )2 0.39 5.64 28.89 1.89 19.14 43.89 13.14 6.89 n sP P8 i=1 yi n s = s = 119.875 8 115.875 8 = 3.87 = 3.805 Statistica 24 / 41 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 7 A. Iodice Svolgimento Per calcolare il coefficiente di correlazione lineare resta da calcolare la covarianza, ovvero la media aritmetica del prodotto degli scarti dalla media. Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste 1 2 3 4 5 6 7 8 xi 24.00 27.00 30.00 26.00 29.00 18.00 21.00 22.00 yi 23.00 28.00 30.00 27.00 30.00 20.00 20.00 25.00 T ot 197 203 La covarianza è P8 σms = i=1 xi − µx -0.62 2.38 5.38 1.38 4.38 -6.62 -3.62 -2.62 yi − µ y -2.38 2.62 4.62 1.62 4.62 -5.38 -5.38 -0.38 (xi − µx ) × (yi − µy ) 1.48 6.23 24.86 2.23 20.23 35.61 19.48 0.98 111.125 (xi − µm )(yi − µs ) n = 111.125 8 = 13.89 É ora possibile calcolare il coefficiente di correlazione dato da ρms = A. Iodice () σms σ m σs = 13.89 3.87 × 3.805 Esercitazione 7 = 0.943 Statistica 25 / 41 Metodo alternativo per il calcolo di ρ Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Da un punto di vista computazionale risulta conveniente l’utilizzo della seguente formulazione alternativa del coefficiente diPcorrelazione Pn lineare ρ basata sulle n somme delle modalità delle componenti ( P i ), sulle somme dei i=1 i=1 xi , Py n 2 2 quadrati delle modalità delle P componenti ( n i=1 (yi ) ), sulla somma i=1 (xi ) , x y ) dei prodotti tra le modalità ( n i=1 i i ρ= q Dipendenza in variabili miste A. Iodice () P Pn xi yi − n i=1 yi i=1 xi ˆPn ˜2 ˆPn ˜2 Pn Pn 2 2 (n i=1 (xi ) − i=1 xi )(n i=1 (yi ) − i=1 yi ) n Pn i=1 Esercitazione 7 Statistica 26 / 41 Metodo alternativo per il calcolo di ρ Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare 1 2 3 4 5 6 7 8 xi 24 27 30 26 29 18 21 22 P x = 197 yi 23 28 30 27 30 20 20 25 P y = 203 x2i 576 729 900 676 841 324 441 484 P 2 x = 4971 yi2 529 784 900 729 900 400 400 625 P 2 y = 5267 xi yi 552 756 900 702 870 360 420 550 P xy = 5110 Dipendenza in variabili miste Pn P Pn n n i=1 xi i=1 yi i=1 xi yi − ρ= q P ˆPn ˜2 ˆPn ˜2 = Pn n 2 2 (n i=1 (xi ) − i=1 xi )(n i=1 (yi ) − i=1 yi ) 8 × 5110 − (197 × 203) = p = 0.943 (8 × 4971 − (197)2 ) × (8 × 5267 − (203)2 ) A. Iodice () Esercitazione 7 Statistica 27 / 41 Coefficiente di correlazione: esempi di casi limite Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 28 / 41 Coefficiente di correlazione: esempi di casi limite Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 28 / 41 Coefficiente di correlazione: esempi di casi limite Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 28 / 41 Coefficiente di correlazione: esempi di casi limite Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 28 / 41 Connessione in media Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l’indipendenza in distribuzione). Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 29 / 41 Connessione in media Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l’indipendenza in distribuzione). Indici di connessione µy = y = Il coefficiente di correlazione lineare Dipendenza in variabili miste h 1 X yj n.j n j=1 Rappresenta la media di Y e si ottiene considerando la distribuzione marginale di Y. h 1 X y i = y|xi = yj nij ni. j=1 Rappresenta la media di Y condizionata alla i − ma modalità della variabile X. A. Iodice () Esercitazione 7 Statistica 29 / 41 Decomposizione della devianza Esercitazione 7 A. Iodice Ricordando che la devianza il numeratore della varianza... Relazioni tra variabili Devy = Indipendenza k X h X (yj − y)2 nij = i=1 j=1 Indici di connessione = Il coefficiente di correlazione lineare k X h X (yj − y i + y i − y)2 nij = i=1 j=1 = Dipendenza in variabili miste k X h X (yj − y i )2 nij + i=1 j=1 +2 k X h X k X h X (y i − y)2 nij + i=1 j=1 (yj − y i )(y i − y)nij i=1 j=1 A. Iodice () Esercitazione 7 Statistica 30 / 41 Decomposizione della devianza Esercitazione 7 A. Iodice Relazioni tra variabili = Indipendenza k X 2 4 +2 Il coefficiente di correlazione lineare k X i=1 Dipendenza in variabili miste = k X 3 (yj − y i )2 nij 5 + j=1 i=1 Indici di connessione h X k X (y i − y)2 ni. + i=1 (yj − y i ) h X (y i − y)nij = j=1 [Dev(Y | X = xi )] + i=1 k X (y i − y)2 ni. = i=1 = Dev(W ) + Dev(B) A. Iodice () Esercitazione 7 Statistica 30 / 41 Decomposizione della devianza Esercitazione 7 A. Iodice Relazioni tra variabili = Indipendenza k X 2 4 +2 Il coefficiente di correlazione lineare k X i=1 Dipendenza in variabili miste = k X 3 (yj − y i )2 nij 5 + j=1 i=1 Indici di connessione h X k X (y i − y)2 ni. + i=1 (yj − y i ) h X (y i − y)nij = j=1 [Dev(Y | X = xi )] + i=1 k X (y i − y)2 ni. = i=1 = Dev(W ) + Dev(B) A. Iodice () Esercitazione 7 Statistica 30 / 41 Decomposizione della devianza Esercitazione 7 A. Iodice Relazioni tra variabili = Indipendenza k X 2 4 +2 Il coefficiente di correlazione lineare k X i=1 Dipendenza in variabili miste = k X 3 (yj − y i )2 nij 5 + j=1 i=1 Indici di connessione h X k X (y i − y)2 ni. + i=1 (yj − y i ) h X (y i − y)nij = j=1 [Dev(Y | X = xi )] + i=1 k X (y i − y)2 ni. = i=1 = Dev(W ) + Dev(B) A. Iodice () Esercitazione 7 Statistica 30 / 41 Decomposizione della devianza Esercitazione 7 A. Iodice Relazioni tra variabili = Indipendenza k X 2 4 +2 Il coefficiente di correlazione lineare k X i=1 Dipendenza in variabili miste = k X 3 (yj − y i )2 nij 5 + j=1 i=1 Indici di connessione h X k X (y i − y)2 ni. + i=1 (yj − y i ) h X (y i − y)nij = j=1 [Dev(Y | X = xi )] + i=1 k X (y i − y)2 ni. = i=1 = Dev(W ) + Dev(B) A. Iodice () Esercitazione 7 Statistica 30 / 41 Rapporto di correlazione di Pearson (η 2 ) Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Dev(W ) rappresenta la varianza all’interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 31 / 41 Rapporto di correlazione di Pearson (η 2 ) Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dev(W ) rappresenta la varianza all’interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 31 / 41 Rapporto di correlazione di Pearson (η 2 ) Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste Dev(W ) rappresenta la varianza all’interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 Quindi, per quantificare la dipendenza in media di Y da X occorre un indice basato su Dev(B). Dev(B) η2 = Dev(Y ) A. Iodice () Esercitazione 7 Statistica 31 / 41 Calcolo del rapporto di correlazione Esercitazione 7 Il nido del cuculo A. Iodice Relazioni tra variabili Il cuculo è un uccello caratterizzato da una particolare abitudine: depone le uova nei nidi di altri uccelli, e lascia dunque che siano altre specie a covarle. Ovviamente, il tutto funziona se la dimensione delle uova nel nido ospite sono compatibili con quelle del nido ospitante. In alcuni territori, il cuculo depone le uova in nidi di scricciolo, in altri sceglie nidi di pettirosso. Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste Si consideri di aver osservato la lunghezza di n1 = 15 uova di cuculo ritrovate in nidi di scricciolo e n2 = 16 uova di cuculo ritrovate in nidi di pettirosso. Si vuole verificare se la lunghezza delle uova dipende in media dal tipo di nido in cui vengono deposte. A. Iodice () Esercitazione 7 Statistica 32 / 41 Calcolo del rapporto di correlazione Esercitazione 7 Scricciolo Pettirosso Sia S la lunghezza delle uova di cuculo nei nidi di scricciolo Sia P la lunghezza delle uova di cuculo nei nidi di pettirosso A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 33 / 41 Calcolo del rapporto di correlazione Esercitazione 7 A. Iodice Confronto tra le distribuzioni Un primo confronto grafico via box plot tra le due distribuzioni mostra che le uova deposte in nidi di pettirosso hanno una lunghezza maggiore di quelle deposte in nidi di scricciolo. Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 34 / 41 Calcolo del rapporto di correlazione Esercitazione 7 A. Iodice Confronto tra le distribuzioni Un ulteriore confronto grafico tra le due distribuzioni consiste in un diagramma per punti: sono riportate graficamente le medie condizionate, mentre la media generale ı̈¿ 1 rappresentata dalla linea orizzontale. 2 Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 35 / 41 Calcolo del rapporto di correlazione Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Si indica con µX = 21.875 la lunghezza media delle n = n1 + n2 uova complessivamente considerate. Le medie condizionate al nido in cui le uova sono state deposte sono rispettivamente µX|S = 21.13 e µX|P = 22.57. La devianza delle medie condizionate rispetto alla media generale è dunque devb = (21.13−21.875)2 ×15+(22.57−21.875)2 ×16 = 16.165 mentre la devianza complessiva è data da Dipendenza in variabili miste devtot = (19.85 − 21.875)2 + (20.05 − 21.875)2 + + . . . + (23.25 − 21.875)2 + (23.85 − 21.875)2 = 30.94 η2 = A. Iodice () 16.165 devb = = 0.522 devtot 30.94 Esercitazione 7 Statistica 36 / 41 Calcolo del rapporto di correlazione: valori in classi Esercitazione 7 A. Iodice Relazioni tra variabili Si consideri l’esempio della variabile doppia reddito/grado di anzianità Indipendenza Indici di connessione Il coefficiente di correlazione lineare Dipendenza in variabili miste A. Iodice () Esercitazione 7 Statistica 37 / 41 Calcolo del rapporto di correlazione Esercitazione 7 A. Iodice Relazioni tra variabili Indipendenza Indici di connessione Il coefficiente di correlazione lineare Ai fini del calcolo del rapporto di correlazione necessario calcolare la devianza totale della variabile Dev(Y ) e la devianza tra le classi Dev(B) (ovvero la devianza tra le medie condizionate Y | X = xi , i = 1, 2, . . . , k e la media globale). Dunque 1 (12.5 × 32) + (17.5 × 26)+ 103 + (22.5 × 39) + (27.5 × 6) = 14.9 Dipendenza in variabili miste µ(Y ) = A. Iodice () Esercitazione 7 Statistica 38 / 41 Calcolo del rapporto di correlazione Esercitazione 7 A. Iodice 1 (12.5 × 0) + (17.5 × 7)+ 46 + (22.5 × 34) + (27.5 × 5) = 22.28 µ(Y | xi = N ord) = Relazioni tra variabili Indipendenza Indici di connessione 1 (12.5 × 1) + (17.5 × 18)+ 25 + (22.5 × 5) + (27.5 × 1) = 18.7 Il coefficiente di correlazione lineare µ(Y | xi = Centro) = Dipendenza in variabili miste 1 (12.5 × 31) + (17.5 × 1)+ 32 + (22.5 × 0) + (27.5 × 0) = 12.66 µ(Y | xi = Sud) = A. Iodice () Esercitazione 7 Statistica 39 / 41 Calcolo del rapporto di correlazione Esercitazione 7 A. Iodice Relazioni tra variabili dev(Y ) = (12.5 − 14.9)2 × 32 + (17.5 − 14.9)2 × 26+ Indipendenza + (22.5 − 14.9)2 × 39 + (27.5 − 14.9)2 × 6 = 3565.3 Indici di connessione Il coefficiente di correlazione lineare dev(B) = (22.28 − 14.9)2 × 46 + (18.7 − 14.9)2 × 25+ + (12.66 − 14.9)2 × 32 = 3026.9 Dipendenza in variabili miste η2 = A. Iodice () 3026.9 dev(B) = = 0.849 dev(Y ) 3565.3 Esercitazione 7 Statistica 40 / 41