Esercitazione IX: Le distribuzioni doppie Esercizio 1 La seguente tabella mostra la distribuzione doppia rispetto al Numero di stanze (Y) e al Numero di componenti (X) di un collettivo di 104 famiglie. Numero di stanze Numero Totale componenti 1 2 3 4 1 10 6 4 2 22 2 8 10 12 0 30 3 0 9 12 4 25 4 0 5 15 7 27 Totale 18 30 43 13 104 a) Calcolare la generica frequenza assoluta cumulata e la generica frequenza relativa cumulata della famiglie che hanno 2 componenti e 3 stanze. b) Calcolare la distribuzione condizionata del numero di stanze rispetto al numero dei componenti di una famiglia. Calcolare il numero medio di stanze e la varianza rispetto al numero di componenti di una famiglia. c) a)Frequenza assoluta cumulata della famiglie che hanno 2 componenti e 3 stanze. i j N ij = ∑∑ n ij h =1 l =1 i=2 j=3 N 23 = n11 + n12 + n13 + n 21 + n 22 + n 23 N 23 = 10 + 6 + 4 + 8 + 10 + 12 = 50 Frequenza relativa cumulata della famiglie che hanno 2 componenti e 3 stanze N Fij = ij n 50 Fij = = 0,48 104 b)Distribuzione condizionata del numero di stanze rispetto al numero dei componenti di una famiglia. Numero Numero di stanze componenti 1 2 1 0,45 0,27 2 0,27 0,33 3 0,00 0,36 4 0,00 0,19 3 0,18 0,40 0,48 0,56 4 0,09 0,00 0,16 0,26 1 Totale 1,00 1,00 1,00 1,00 n 22 30 25 27 c) Media condizionata del numero di stanze (Y) rispetto al numero di componenti di una famiglia (X). Numero componenti 1 10 8 0 0 18 1 2 3 4 Totale Numero di stanze 2 3 6 4 10 12 9 12 5 15 30 43 K µ( Y X = x i ) = ∑y n j=1 j ij n i0 (1 ⋅ 10) + (2 ⋅ 6) + (3 ⋅ 4) + (4 ⋅ 2) = 1,91 22 (1 ⋅ 8) + (2 ⋅ 10) + (3 ⋅12) + (4 ⋅ 0) µ(Y X = 2) = = 2,13 30 (1⋅ 0) + (2 ⋅ 9) + (3 ⋅12) + (4 ⋅ 4) = 2,80 µ(Y X = 3) = 25 (1 ⋅ 0) + (2 ⋅ 5) + (3 ⋅ 15) + (4 ⋅ 7) = 3,07 µ(Y X = 4) = 27 µ(Y X = 1) = 2 4 2 0 4 7 13 Totale 22 30 25 27 104 Varianza condizionata del numero di stanze (Y) rispetto al numero di componenti di una famiglia (X). Numero di stanze Numero Totale componenti 1 2 3 4 1 10 6 4 2 22 2 8 10 12 0 30 3 0 9 12 4 25 4 0 5 15 7 27 Totale 18 30 43 13 104 K σ 2 (Y X = x i ) = ∑ (y j=1 j − µ(Y X = x i )) 2 n ij n i0 (1 − 1,91) 210 + (2 − 1,91) 2 6 + (3 − 1,91) 2 4 + (4 − 1,91) 2 2 22 8,281 + 0,049 + 4,752 + 8,736 2 σ (Y X = 1) = = 0,99 22 σ 2 (Y X = 1) = (1 − 2,13) 2 8 + (2 − 2,13) 210 + (3 − 2,13) 212 + (4 − 2,13) 2 0 30 10,215 + 0,169 + 9,083 + 0 2 σ ( Y X = 2) = = 0,65 30 σ 2 ( Y X = 2) = (1 − 2,80) 2 0 + (2 − 2,80) 2 9 + (3 − 2,80) 212 + (4 − 2,80) 2 4 25 0 + 5 , 76 + 0 , 48 + 5 , 76 σ 2 (Y X = 3) = = 0,48 25 σ 2 (Y X = 3) = (1 − 3,07) 2 0 + (2 − 3,07) 2 5 + (3 − 3,07) 215 + (4 − 3,07) 2 7 27 0 + 5,725 + 0,074 + 6,054 2 σ ( Y X = 4) = = 0,44 27 σ 2 ( Y X = 4) = 3 Esercizio 2 A partire dalle seguenti distribuzioni di frequenze semplici costruire la tabella a doppia entrata di frequenze nel caso di indipendenza statistica tra i due caratteri. Giudizio Scadente Mediocre Film (Y) Frequenza 75 90 Giudizio Colonna Scadente Mediocre Sonora (X) Frequenza 68 82 n *ij = Buono Ottimo Totale 68 42 275 Buono Ottimo Totale 70 55 275 n i0n 0 j n Giudizio Giudizio Film Totale Colonna Scadente Mediocre Buono Ottimo Sonora Scadente 18,55 22,25 16,81 10,39 68 Mediocre 22,36 26,84 20,28 12,52 82 Buono 19,09 22,91 17,31 10,69 70 Ottimo 15,00 18,00 13,60 8,40 55 Totale 75 90 68 42 275 n10 n 01 68 × 75 = = 18,55 n 275 n n 70 × 90 n *32 = 30 02 = = 22,91 n 275 ∗ n11 = 4 Esercizio 3 Nella seguente tabella è data la distribuzione congiunta secondo il Sesso, il Peso (in kg) e la statura (in cm) di un collettivo di 412 individui. Statura 40-50 160-165 165-170 170-175 175-185 Totale Peso maschi Peso femmine 50-75 75-90 40-50 50-75 75-90 7 27 10 25 15 2 5 40 24 28 44 5 2 22 35 6 15 5 1 6 42 1 35 10 15 95 111 60 109 22 Totale 86 146 85 95 412 1) Confrontare la statura media dei maschi rispetto a quella delle femmine per ciascuna classe di peso (distribuzione condizionata della statura rispetto alle classi di peso dei maschi e delle femmine). 2) Confrontare il peso medio dei maschi rispetto a quello delle femmine per ciascuna classe di statura (distribuzione condizionata del peso rispetto alle classi di statura dei maschi e delle femmine) 1) Confrontare la statura media dei maschi rispetto a quella delle femmine per ciascuna classe di peso (distribuzione condizionata della statura rispetto alle classi di peso dei maschi e delle femmine). Statura 160-165 165-170 170-175 175-185 Totale n 40-50 0,47 0,33 0,13 0,07 1,00 15 Peso maschi 50-75 0,28 0,42 0,23 0,07 1,00 95 75-90 0,09 0,22 0,31 0,38 1,00 111 40-50 0,42 0,47 0,10 0,02 1,00 60 Peso femmine 50-75 75-90 0,14 0,09 0,40 0,23 0,14 0,23 0,32 0,45 1,00 1,00 109 22 2) Confrontare il peso medio dei maschi rispetto a quella delle femmine per ciascuna classe di statura (distribuzione condizionata del peso rispetto alle classi di statura dei maschi e delle femmine). Statura 160-165 165-170 170-175 175-185 40-50 0,08 0,03 0,02 0,01 Peso maschi 50-75 75-90 0,31 0,12 0,27 0,16 0,26 0,41 0,06 0,44 Peso femmine 40-50 50-75 75-90 0,29 0,17 0,03 0,19 0,31 0,04 0,07 0,18 0,06 0,01 0,37 0,11 5 Totale 1,00 1,00 1,00 1,00 n 86 146 85 95 Esercizio 4 Calcolare il voto medio in statistica e la varianza rispetto al livello di conoscenza della matematica. Classi di voto di statistica Livello di conoscenza della matematica 18-22 23-27 28-30 Totale Insufficiente 16 18 6 40 Sufficiente 15 14 9 38 Buono 2 9 15 26 Ottimo 3 6 18 27 Totale 36 47 48 131 Distribuzione condizionata del voto in statistica (Y) rispetto al livello di conoscenza della matematica (X). K µ( Y X = x i ) = ∑y n j=1 j ij n i0 (20 ⋅ 16) + (25 ⋅ 18) + (29 ⋅ 6) = 23,60 40 (20 ⋅15) + (25 ⋅14) + (29 ⋅ 9) = 23,97 µ(Y X = suff ) = 38 (20 ⋅ 2) + (25 ⋅ 9) + (29 ⋅15) = 26,92 µ(Y X = buono) = 26 (20 ⋅ 3) + (25 ⋅ 6) + (29 ⋅18) = 27,11 µ(Y X = ottimo) = 27 µ(Y X = insuff ) = 6 All’aumentare del livello di conoscenza della matematica aumenta il voto nell’esame di statistica. K σ (Y X = x i ) = 2 ∑ (y j=1 j − µ(Y X = x i ))2 n ij ni0 (20 − 23,60) 216 + (25 − 23,60) 218 + (29 − 23,60) 2 6 40 207,36 + 35,28 + 174,96 2 σ (Y X = insuf ) = = 10,44 40 σ 2 (Y X = insuf ) = (20 − 23,97) 215 + (25 − 23,97) 214 + (29 − 23,97) 2 9 38 236,41 + 14,85 + 227,71 2 σ (Y X = suff ) = = 12,60 38 σ 2 (Y X = suff ) = (20 − 26,92) 2 2 + (25 − 26,92) 2 9 + (29 − 26,92) 215 26 + + 95 , 77 33 , 18 64 , 90 σ 2 (Y X = buono) = = 7,46 26 σ 2 (Y X = buono) = (20 − 27,11) 2 3 + (25 − 27,11) 2 6 + (29 − 27,11) 218 27 151,66 + 26,71 + 64,30 2 σ (Y X = ottimo) = = 8,99 27 σ 2 (Y X = ottimo) = Esercizio 5 La seguente tabella mostra la distribuzione doppia di frequenze di un collettivo di 133 operai disoccupati del settore edile, rispetto all’età e alla durata del periodo di disoccupazione (in giorni): Durata 1-7 8-14 15-30 >30 Totale <35 40 25 5 7 77 Età ≥ 35 23 8 12 13 56 1) Determinare la distribuzione di frequenze semplici della variabile “Durata del periodo di disoccupazione”. 2) Determinare le distribuzioni percentuali condizionate della variabile “Durata del periodo di disoccupazione”, per ogni classe di età. 3) Commentare la relazione tra età e durata del periodo di disoccupazione. 7 1) Determinare la distribuzione di frequenze semplici della variabile “Durata del periodo di disoccupazione”. Durata 1-7 8-14 15-30 >30 Totale Frequenza assoluta 63 33 17 20 133 2) Determinare le distribuzioni percentuali condizionate della variabile “Durata del periodo di disoccupazione”, per ogni classe di età. Età Durata 1-7 8-14 15-30 >30 Totale n <35 51,95 32,47 6,49 9,09 100,00 77 ≥ 35 41,07 14,29 21,43 23,21 100,00 56 3) Commentare la relazione tra età e durata del periodo di disoccupazione. Passando dalla prima classe di età alla seconda, la percentuale di individui il cui periodo di disoccupazione dura più di 14 giorni quasi si triplica. Infatti, mentre nella prima classe di età è del 15,58% (6,49+9,09) nella seconda è del 44,64% (21,43+23,21). Ciò mette in luce come passando da disoccupati giovani (<35 anni) a disoccupati adulti ( ≥ 35 anni) la durata della disoccupazione tenda a crescere. 8 Indici di connessione Esercizio 6 Misurare il grado di connessione tra le variabili mediante l’indice χ 2 di Pearson, l’indice di contingenza quadratica media Φ 2 , gli indici relativi di connessione unilaterale, l’indice medio di contingenza di Cramer, l’indice di Tschuprov e il coefficiente di contingenza quadratica media di Pearson. Attitudine Discipline Discipline Discipline Sesso artistiche umanitarie scientifiche Totale Maschi 29 110 18 157 Femmine 69 44 24 137 Totale 98 154 42 294 Indice χ 2 di Pearson I J χ = ∑∑ 2 i =1 j=1 (n ij − n ∗ij ) 2 n ∗ij Costruire la tabella teorica di connessione nulla ( n ∗ij ) Attitudine Discipline artistiche Sesso Maschi Femmine Totale n i0n 0 j n *ij = n Discipline umanitarie 52,33 45,67 98 Calcolare quindi (n ij − n ∗ij ) 2 n *ij Discipline scientifiche 82,24 71,76 154 Totale 22,43 19,57 42 157 137 294 si ottiene la tabella di connessione nulla Attitudine Discipline artistiche Sesso Maschi Femmine I J χ 2 = ∑∑ i =1 j=1 Discipline umanitarie 10,40 11,92 Discipline scientifiche 9,37 10,74 0,87 1,00 (n ij − n ∗ij ) 2 n ∗ij χ 2 = 10,40 + 9,37 + 0,87 + 11,92 + 10,74 + 1,00 = 44,30 Essendo χ 2 > 0 il risultato indica che tra i due caratteri esiste una connessione e cioè che l’attitudine a determinate materie è in qualche modo legata al sesso. 9 Indice di contingenza quadratica media χ2 Φ2 = n 44,30 Φ2 = = 0,15 294 Indici relativi di connessione unilaterali Φ2 2 ϕx / y = s −1 0,15 ϕ2x / y = = 0,15 2 −1 Φ2 t −1 0,15 = = 0,075 3 −1 ϕ 2y / x = ϕ2y / x Indici relativi bilaterali di connessione Indice medio di connessione di Cramér Φ2 ϕ2 = min(s − 1, t − 1) 0,15 ϕ2 = = 0,15 1 Indice di Tschuprov Φ2 T= (s − 1)( t − 1) 0,15 T= = 0,11 (2 − 1)(3 − 1) Coefficiente di contingenza quadratica di Pearson C= Φ2 χ2 = 1+ Φ2 n + χ2 C= 0,15 44,30 = = 0,36 1 + 0,15 294 + 44,30 10 Esercizio 7 Misurare il grado di connessione tra le variabili mediante l’indice χ 2 di Pearson, l’indice di contingenza quadratica media Φ 2 , gli indici relativi di connessione unilaterale, l’indice ϕ 2 di Cramer, l’indice di Tschuprov e il coefficiente di contingenza quadratica media di Pearson. Titolo di studio dell'intervistata Titolo di studio Licenza Licenza Totale Diploma Laurea del coniuge elementare media Lic. elementare 172 44 10 1 227 Licenza media 70 105 65 3 243 Diploma 18 72 195 35 320 Laurea 1 7 110 92 210 Totale 261 228 380 131 1000 Indice χ 2 di Pearson I J χ = ∑∑ 2 i =1 j=1 (n ij − n ∗ij ) 2 n ∗ij Costruire la tabella teorica di connessione nulla ( n ∗ij ) n *ij = n i0n 0 j n Titolo di studio dell'intervistata Titolo di studio Licenza Licenza Totale Diploma Laurea del coniuge elementare media Lic. elementare 59,25 51,76 86,26 29,74 227 Licenza media 63,42 55,40 92,34 31,83 243 Diploma 83,52 72,96 121,60 41,92 320 Laurea 54,81 47,88 79,80 27,51 210 Totale 261 228 380 131 1000 Calcolare quindi (n ij − n ∗ij ) 2 n *ij si ottiene la tabella di connessione nulla Titolo di studio dell'intervistata Titolo di studio Licenza Licenza Diploma Laurea del coniuge elementare media Lic. elementare 214,56 1,16 67,42 27,77 Licenza media 0,68 44,41 8,09 26,11 Diploma 51,40 0,01 44,31 1,14 Laurea 52,83 34,90 11,43 151,18 I J χ = ∑∑ 2 i =1 j=1 (n ij − n ∗ij ) 2 n ∗ij χ 2 = 214,56 + 1,16 + 67,42 + 27,77 + 0,68 + 44,41 + 8,09 + + 26,11 + 51,40 + 0,01 + 44,31 + 1,14 + 52,83 + 34,90 + 11,43 + 151,18 = 734,40 11 Essendo χ 2 > 0 il risultato indica che tra i due caratteri esiste una connessione e cioè che il titolo di studio dell’intervistata è in qualche modo legata al titolo di studio del marito. Indice di contingenza quadratica media χ2 Φ2 = n 734,40 Φ2 = = 0,73 1000 Indici relativi di connessione unilaterali Φ2 s −1 0,73 = = 0,24 4 −1 ϕ2x / y = ϕ 2x / y Φ2 ϕ = t −1 0,73 ϕ 2y / x = = 0,2 4 −1 2 y/ x Indici relativi bilaterali di connessione Indice medio di connessione di Cramér Φ2 ϕ2 = min(s − 1, t − 1) 0,73 ϕ2 = = 0,24 3 Indice di Tschuprov Φ2 T= (s − 1)( t − 1) T= 0,73 = 0,24 (4 − 1)(4 − 1) Essendo s=t ϕ 2x / y = ϕ 2y / x = ϕ 2 = T Coefficiente di contigenza quadratica del Pearson C= Φ2 = 1+ Φ2 χ2 n + χ2 C= 0,73 734,40 = = 0,65 1 + 0,73 1000 + 734,40 12 Gli indici ϕ2x / y , ϕ2y / x , ϕ 2 , T mettono in evidenza una modesta connessione fra i due caratteri. Esercizio 8 Misurare il grado di connessione tra le variabili mediante l’indice χ 2 di Pearson, l’indice di contingenza quadratica media Φ 2 e l’indice ϕ 2 di Cramer. Calcolare inoltre l’indice lambda di Goodman e Kruskal del tempo occorso per trovare lavoro data la residenza. Tempo (in mesi) Residenza 6 12 18 24 Totale Nord-Ovest 3 2 0 0 5 Nord-Est 1 2 1 0 4 Centro 45 26 11 23 105 Sud 9 5 2 5 21 Totale 58 35 14 28 135 Indice χ 2 di Pearson I J χ = ∑∑ 2 (n ij − n ∗ij ) 2 n ∗ij i =1 j=1 Costruire la tabella teorica di connessione nulla ( n ∗ij ) n ∗ij = n i0 ⋅ n 0 j n Tempo (in mesi) Residenza 6 12 18 24 Totale Nord-Ovest 2,15 1,30 0,52 1,04 5 Nord-Est 1,72 1,04 0,41 0,83 4 Centro 45,11 27,22 10,89 21,78 105 Sud 9,02 5,44 2,18 4,36 21 Totale 58 35 14 28 135 Calcolare quindi (n ij − n ∗ij ) 2 n *ij si ottiene la tabella di connessione nulla Tempo (in mesi) Residenza 6 12 18 24 Nord-Ovest 0,336 0,377 0,520 1,040 Nord-Est 0,301 0,886 0,849 0,830 Centro 0,000 0,055 0,001 0,068 Sud 0,000 0,036 0,015 0,094 I J χ 2 = ∑∑ i =1 j=1 (n ij − n ∗ij ) 2 n ∗ij χ 2 = 0,336 + 0,377 + 0,520 + 1,040 + 0,301 + 0,886 + 0,849 + 0,830 + 13 + 0,000 + 0,055 + 0,001 + 0,068 + 0,000 + 0,036 + 0,015 + 0,094 = 5,408 Essendo χ 2 > 0 il risultato indica che tra i due caratteri esiste una connessione e cioè che il tempo impiegato per trovare lavoro è in qualche modo legato alla zona di residenza. Indice di contingenza quadratica media χ2 2 Φ = n 5,408 Φ2 = = 0,040 135 Indice medio di connessione di Cramér Φ2 2 ϕ = min(s − 1, t − 1) 0,040 ϕ2 = = 0,013 min(4 − 1)(4 − 1) Indice lambda di Goodman e Kruskal Si basa sul miglioramento della previsione di Y data la modalità del carattere X. Assumiamo la moda del carattere Y in corrispondenza della modalità con frequenza n 0 j più grande n ij è il max di n1 j n 2 j n 3 j … n it n 0 j è il max di s λx/y = ∑n i =1 ij 02 n 03 … n0t − n0j n − n0j Residenza X Nord-Ovest Nord-Est Centro Sud Totale λx/y = n 01 n Tempo (in mesi) Y 6 12 18 24 Totale 3 2 0 0 5 1 2 1 0 4 45 26 11 23 105 9 5 2 5 21 58 35 14 28 135 (3 + 2 + 45 + 9) − 58 = 0,013 135 − 58 Se si tiene conto della residenza conoscendo il tempo impiegato per trovare lavoro il numero di errori di previsione diminuirebbero del 1,3%, quindi c’è una bassa associazione. 14 Esercizio 9 Calcolare l’indice lambda di Goodman e Kruskal professionale del numero di figli data la condizione Numero Posizione nella professione di figli Dipend. in azienda Dipend. in x Totale autonomo famigliare altra azienda 0 38 6 78 122 1 4 2 16 22 2 1 1 3 5 Totale 43 9 97 149 Indice lambda di Goodman e Kruskal n ij è il max di n1 j n 2 j n 3 j … n it n 0 j è il max di n 01 n 02 n03… n0t s λx/y = λx/ y ∑n i =1 ij − n0j n − n0j ((78 + 16 + 3) − 97 = =0 149 − 97 Il numero dei figli non dipende dalla posizione nella professione. Esercizio 10 Calcolare il rapporto di correlazione del Pearson del voto di laurea dato il sesso. Voto 81-85 86-90 91-95 96-100 101-105 106-110 e lode 17 26 13 22 11 1 5 11 10 5 18 31 24 32 16 Sesso M F Totale Rapporto di correlazione del Pearson t ηy / x ∑ (µ 1 = σy i =1 yi − µ y )2 n i 0 n k µy = µy = ∑y n j=1 j 0j n (83 ⋅ 18) + (88 ⋅ 31) + (93 ⋅ 24) + (98 ⋅ 32) + (103 ⋅ 16) + (108 ⋅ 45) 16098 = = 96,98 166 166 15 Totale 19 26 45 108 58 166 k ∑ (y j=1 σy = − µ y )2 n 0 j j n y (y − µ y )2 83 88 93 98 103 108 Totale ( y − µ y )2 n 0 j n0 j 195,44 80,64 15,84 1,04 36,24 121,44 18 31 24 32 16 45 3517,92 2499,84 380,16 33,28 579,84 5464,80 12475,84 12475,84 = 8,67 166 σy = Rapporto di correlazione del Pearson t ηy / x ∑ (µ 1 = σy i =1 yi − µ y )2 n i 0 n Oppure t ∑ (µ ηy / x = i =1 yi − µ y )2 n i0 nσ 2y Dobbiamo calcolare le medie parziali della distribuzione del voto di laurea rispetto al sesso. k µ yi = ∑y n j =1 j ij ni0 µ y1 = (83 ⋅ 17) + (88 ⋅ 26) + (93 ⋅13) + (98 ⋅ 22) + (103 ⋅ 11) + (108 ⋅19) 10249 = = 94,90 108 108 µ y2 = (83 ⋅1) + (88 ⋅ 5) + (93 ⋅11) + (98 ⋅ 10) + (103 ⋅ 5) + (108 ⋅ 26) 5849 = = 100,84 58 58 Sesso M F (µ y − µ y i ) 2 n i0 4,33 14,9 (µ y − µ y i ) 2 n i0 108 58 467,64 864,2 (µ y − µ y i ) 2 n i0 1331,84 16 t ∑ (µ yi − µ y )2 n i0 ηy / x = 1 σy ηy / x = 1 1331,84 1 2,833 = 8,0231 = = 0,33 8,67 166 8,67 8,67 i =1 n Vi è una poco elevata dipendenza tra il sesso e il voto di laurea. Esercizio 11 La tabella seguente riporta i voti (per classi) conseguiti all’esame di statistica da un gruppo di studenti distinti per livello di conoscenza della matematica. Determinare la dipendenza in media del voto in statistica rispetto al livello di conoscenza della matematica. Livello di Classi di voto di statistica conoscenza della matematica 18-22 23-27 28-30 Totale Insufficiente 16 18 6 40 Sufficiente 15 14 9 38 Buono 2 9 15 26 Ottimo 3 6 18 27 Totale 36 47 48 131 k µy = ∑y n j j=1 0j n (20 ⋅ 36) + (25 ⋅ 47) + (29 ⋅ 48) µy = = 25,09 131 k σy = ∑ (y j=1 − µ y )2 n 0 j n (y − µ y )2 n 0 j y 20 25 29 Totale σy = j 25,91 0,01 15,29 (y − µ y )2 n 0 j 36 47 48 932,76 0,47 733,92 1667,15 1667,15 = 3,57 131 17 Rapporto di correlazione del Pearson t ηy / x ∑ (µ 1 = σy i =1 yi − µ y )2 n i 0 n Oppure t ∑ (µ ηy / x = i =1 yi − µ y )2 n i0 nσ 2y Dobbiamo calcolare le medie parziali della distribuzione del voto di laurea rispetto al sesso. Livello di Classi di voto di statistica conoscenza della matematica 18-22 23-27 28-30 Totale Insufficiente 16 18 6 40 Sufficiente 15 14 9 38 Buono 2 9 15 26 Ottimo 3 6 18 27 Totale 36 47 48 131 k µ yi = ∑y n j =1 j ij ni0 (20 ⋅16) + (25 ⋅18) + (29 ⋅ 6) µ y1 = == 23,60 40 (20 ⋅15) + (25 ⋅14) + (29 ⋅ 9) µ y2 = = 23,97 38 (20 ⋅ 2) + (25 ⋅ 9) + (29 ⋅ 15) = 26,92 26 (20 ⋅ 3) + (25 ⋅ 6) + (29 ⋅18) µ y4 = = 27,11 27 µ y3 = Conoscenza matematica Insufficiente Sufficiente Buono Ottimo (µ y − µ y i ) 2 n i0 (µ y − µ y i ) 2 n i0 2,22 1,25 3,35 4,08 40 38 26 27 88,80 47,50 87,10 110,16 (µ y − µ y i ) 2 n i0 333,56 18 t ∑ (µ yi − µ y )2 n i 0 ηy / x = 1 σy ηy / x = 1 333,56 1,596 = 3,57 2,5463 = = 0,44 3,57 131 3,57 i =1 n Vi è una dipendenza tra il voto di statistica e il livello di conoscenza della matematica. Indici di concordanza Esercizio 12 4 individui hanno le seguenti età e le seguenti altezze calcolare il coefficiente di correlazione generalizzato e il coefficiente di correlazione lineare. Età X A B C D 25 27 30 40 Altezza Y 165 168 170 172 Coefficiente di correlazione generalizzato per distribuzioni doppie unitarie ∑ d ij ⋅ δij Ω= iji ≠ j ∑d ⋅ ∑δ 2 ij iji ≠ j 2 ij iji≠ j Determinare per ogni coppia la diversità tra età e altezza Diversità Diversità Età Coppie Età Età Coppie Statura Statura Statura d δ AB 25 27 2 AB 165 168 3 AC 25 30 5 AC 165 170 5 AD 25 40 15 AD 165 172 7 BA 27 25 -2 BA 168 165 -3 BC 27 30 3 BC 168 170 2 BD 27 40 13 BD 168 172 4 CA 30 25 -5 CA 170 165 -5 CB 30 27 -3 CB 170 168 -2 CD 30 40 10 CD 170 172 2 DA 40 25 -15 DA 172 165 -7 DB 40 27 -13 DB 172 168 -4 DC 40 30 -10 DC 172 170 -2 19 Coppie AB AC AD BA BC BD CA CB CD DA DB DC Totale δ d ⋅ δ d2 3 6 4 5 25 25 7 105 225 -3 6 4 2 6 9 4 52 169 -5 25 25 -2 6 9 2 20 100 -7 105 225 -4 52 169 -2 20 100 428 1064 d 2 5 15 -2 3 13 -5 -3 10 -15 -13 -10 δ 2 9 25 49 9 4 16 25 4 4 49 16 4 214 Coefficiente di correlazione generalizzato per distribuzioni doppie unitarie ∑ d ij ⋅ δij Ω= iji ≠ j ∑d ⋅ ∑δ 2 ij iji ≠ j Ω= 2 ij iji≠ j 428 428 = = 0,8969 1064 ⋅ 214 477,18 Tra età e statura esiste un’elevata concordanza. Coefficiente di correlazione lineare r del Bravais per distribuzioni doppie unitarie r= ∑x i ⋅ yi − n ⋅ µ x ⋅ µ y i (∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y ) i i Oppure r= ∑ε i xi ⋅ ε yi ∑ε ∑ε i 2 xi i 2 yi 20 x y 25 27 30 40 122 165 168 170 172 675 x 2 y2 xy 625 27225 729 28224 900 28900 1600 29584 3854 113933 4125 4536 5100 6880 20641 n µx = ∑x i =1 i n 122 µx = = 30,5 4 n µy = ∑y j=1 j n 675 µy = = 168,75 4 r= ∑x r= ⋅ yi − n ⋅ µ x ⋅ µ y (∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y ) i r= i i i 20641 − 4 ⋅ 30,5 ⋅168,75 (3858 − 4 ⋅ 30,52 )(113933 − 4 ⋅ 168,752 ) 53,5 53,5 = = 0,88 137 ⋅ 26,75 60,537 Possiamo affermare che esiste un’elevata concordanza tra l’età e l’altezza dei 4 individui del nostro collettivo. Calcoliamo il coefficiente di correlazione lineare utilizzando l’altra formula ∑i ε x i ⋅ ε yi r= ∑ ε 2x i ∑ ε 2yi i ε xi = x i − µ x i ε yi = y i − µ y 21 x ε xi y 25 27 30 40 122 r= ∑ε i xi -5,5 -3,5 -0,5 9,5 ε x i ⋅ ε yi ε 2x i -3,75 -0,75 1,25 3,25 20,625 2,625 -0,625 30,875 53,5 ε 2yi 30,25 14,0625 12,25 0,5625 0,25 1,5625 90,25 10,5625 133 26,75 ⋅ ε yi ∑ε ∑ε i r= 165 168 170 172 675 ε yi 2 xi i 2 yi 53,5 53,5 = = 0,90 133 ⋅ 26,75 59,65 La differenza nel risultato è dovuta alle approssimazioni Esercizio 13 Calcolare l’indice di cograduazione di Spearman della distribuzione in 8 regioni italiane dei Tassi di attività lavorativa e del PIL pro-capite. Regione Piemonte Lombardia Liguria Toscana Emilia Romagna Lazio Puglia Sicilia T.a.l. PIL 63 61 55 60 6 6,3 6,2 5,3 64 53 51 50 5,9 4,6 3,3 3,2 Indice di cograduazione di Spearman senza unità alla pari 6∑ d i2 i ρ =1− n (n 2 − 1) Dove d i2 = (p i − πi ) 2 ρ =1− 6∑ ( p i − π i ) 2 i n (n 2 − 1) Tale indice è positivo se c’è concordanza e negativo se c’è discordanza e varia tra 0 e 1 in caso di concordanza e tra -1 e 0 in caso di discordanza 22 Regione Piemonte Lombardia Liguria Toscana Emilia Romagna Lazio Puglia Sicilia ρ =1− T.a.l. PIL 63 61 55 60 6 6,3 6,2 5,3 64 53 51 50 5,9 4,6 3,3 3,2 pi 2 3 5 4 πi 3 1 2 5 1 6 7 8 | p i − πi | ( p i − πi ) 2 4 6 7 8 1 2 3 1 1 4 9 1 3 0 0 0 9 0 0 0 24 6∑ ( p i − π i ) 2 i n (n 2 − 1) 6 ⋅ 24 144 ρ =1− =1− = 0,71 2 8(8 − 1) 504 Fra il T.a.l e il Pil esiste una buona concordanza. Esercizio 14 Calcolare l’indice di cograduazione di Spearman della fra le graduatorie di 60 candidati ad un concorso per titolo ed esami. Graduatoria per titoli I I II III IV Totale II 1 6 2 1 10 Graduatoria per esami III IV 2 3 4 5 3 7 2 2 11 17 V 3 5 5 1 14 0 0 2 6 8 Totale 9 20 19 12 60 Per le unità alla pari si attribuisce ad ognuna il posto medio aritmetico dei posti da esse occupati nel complesso. Modalità pi n1 +1 2 n1 + Freq n1 n2 n +1 n2 +1 n1 + n 2 + 3 ….. 2 2 n3 ….. 23 n 1 + n 2 + .. + n k −1 + nk nk +1 2 Totale n Indice di cograduazione di Spearman con unità alla pari t s t 1 3 s 3 3 3 ( n n ) ( n n ) − 6 d ij2 ⋅ n ij − + − ∑ ∑ ∑∑ i0 0j 2 i =1 j=1 i =1 j=1 ρ= s t ( n 3 − ∑ n 3i 0 )(n 3 − ∑ n 30 j ) i =1 j=1 Dove d ij2 = (p i − πi ) 2 ρ= t s t 1 3 s 3 3 3 ( n n ) ( n n ) − 6 (p i − π j ) 2 ⋅ n ij − + − ∑ ∑ ∑∑ i0 0j 2 i =1 j=1 i =1 j=1 s t i =1 j=1 (n 3 − ∑ n 3i 0 )(n 3 − ∑ n 30 j ) Tale indice è positivo se c’è concordanza e negativo se c’è discordanza e varia tra 0 e 1 in caso di concordanza e tra -1 e 0 in caso di discordanza s t Calcolo la ∑∑ (p i − π j ) 2 ⋅ n ij i =1 j=1 πi pi 5 19,5 39 54,5 Totale ρ= 5,5 16 0,25 242 1176 49 2244,5 1587 2401 2964,5 5821,75 4842,5 30 1875 551,25 567 1200,5 4193,75 45,5 56,5 Totale 4920,75 0 7038 3380 0 5156,25 211,25 612,5 5222,25 81 24 6671 8593 636,5 24087,5 t s t 1 3 s 3 3 3 2 (n − ∑ n i 0 ) + (n − ∑ n 0 j ) − 6∑∑ (p i − π j ) ⋅ n ij 2 i =1 j=1 i =1 j=1 s t i =1 j=1 (n 3 − ∑ n 3i 0 )(n 3 − ∑ n 30 j ) s n 3 − ∑ n 3i 0 = 603 − 93 − 203 − 193 − 123 = 198684 i =1 t n 3 − ∑ n 30 j = 603 − 103 − 113 − 173 − 143 − 83 = 205500 j=1 1 (198684 + 205500) − 6 ⋅ 24087,5 = 0,28 ρ= 2 198684 ⋅ 205500 Fra le due graduatorie vi è concordanza, ma abbastanza bassa. 24 Esercizio 15 Calcolare l’indice di cograduazione di Spearman dei pesi e delle altezze di 10 lanciatori di giavellotto. Peso Altezza 184 168 180 184 185 188 180 177 178 188 93 80 86 94 84 83 80 70 75 70 Indice di cograduazione di Spearman 6∑ d i2 i ρ =1− n (n 2 − 1) Tale indice è positivo se c’è concordanza e negativo se c’è discordanza e varia tra 0 e 1 in caso di concordanza e tra -1 e 0 in caso di discordanza. Dove d i2 = (p i − πi ) 2 6∑ ( p i − π i ) 2 ρ =1− i 2 n (n − 1) Per le unità alla pari si attribuisce ad ognuna il posto medio aritmetico dei posti da esse occupati nel complesso. pi Peso 93 80 86 94 84 83 80 70 75 70 ρ =1− 2 6,5 3 1 4 5 6,5 9,5 8 9,5 Altezza 184 168 180 184 185 188 180 177 178 188 πi 4,5 10 6,5 4,5 3 1,5 6,5 9 8 1,5 | p i − πi | ( p i − πi ) 2 6∑ ( p i − π i ) 2 i n (n 2 − 1) 25 3,5 3,5 3,5 3,5 1 3,5 0 0,5 0 8 12,25 12,25 12,25 12,25 1 12,25 0 0,25 0 64 126,5 6 ⋅126,5 759 =1− = 0,23 2 10(10 − 1) 990 Fra il peso e l’altezza esiste una bassa concordanza. ρ =1− Esercizio 16 Nella tabella successiva sono riportati i Tassi di attività lavorativa della popolazione (T.a.l) e i prodotti interni lordi per abitante (PIL/ab.) in milioni di lire di otto regioni italiane nel 1979: Regione Piemonte Lombardia Liguria Toscana Emilia Romagna Lazio Puglia Sicilia T.a.l. 63 61 55 60 64 53 55 50 PIL 6 6,3 6,2 5,3 5,9 4,6 3,3 3,2 Calcolare il coefficiente di correlazione lineare r di Bravais-Pearson r= ∑x i ⋅ yi − n ⋅ µ x ⋅ µ y i (∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y ) i i y x 63 61 55 60 64 53 55 50 461 6 6,3 6,2 5,3 5,9 4,6 3,3 3,2 40,8 2 y2 xy 3969 3721 3025 3600 4096 2809 3025 2500 26745 36 39,69 38,44 28,09 34,81 21,16 10,89 10,24 219,32 378 384,3 341 318 377,6 243,8 181,5 160 2384,2 x n µx = ∑x i =1 i n = 461 = 57,63 8 = 40,8 = 5,1 8 n µy = ∑y i =1 n i 26 r= ∑x ⋅ yi − n ⋅ µ x ⋅ µ y i i (∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y ) i i 2384,2 − 8 ⋅ 57,63 ⋅ 5,1 r= (26745 − 8 ⋅ 57,632 )(219,32 − 8 ⋅ 5,12 ) 32,896 32,896 r= = = 0,74 175,2648 ⋅ 11,24 44,384 Al crescere del T.a.l. cresce il Pil (correlazione lineare positiva) e tra i due caratteri esiste un’alta relazione in termini lineari. Oppure r= ∑ εx i ⋅ εy i i ∑ εx ⋅ ∑ εy 2 i i i x 6 6,3 6,2 5,3 5,9 4,6 3,3 3,2 ∑ εx i 5,37 3,37 -2,63 2,37 6,37 -4,63 -2,63 -7,63 0,9 1,2 1,1 0,2 0,8 -0,5 -1,8 -1,9 4,833 4,044 -2,893 0,474 5,096 2,315 4,734 14,497 33,1 28,8369 11,3569 6,9169 5,6169 40,5769 21,4369 6,9169 58,2169 179,8752 ⋅ εy i i ∑ εx ⋅ ∑ εy 2 i i r= εx i εy i εx i εy i εx i2 εy i2 y 63 61 55 60 64 53 55 50 r= 2 i 2 i i 33,1 33,1 = = 0,74 179,8752 ⋅ 11,24 44,96 27 0,81 1,44 1,21 0,04 0,64 0,25 3,24 3,61 11,24 Esercizio 17 Calcolare il coefficiente di correlazione fra X e Y della seguente distribuzione X Y 1,4 1,6 3,2 4,5 6,8 6,2 7,5 8,9 5,4 4,8 6 7,8 7,1 5,4 4,5 2,6 ∑x r= i ⋅ yi − n ⋅ µ x ⋅ µ y i (∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y ) i x i y 1,4 1,6 3,2 4,5 6,8 6,2 7,5 8,9 40,1 5,4 4,8 6 7,8 7,1 5,4 4,5 2,6 43,6 x 2 1,96 2,56 10,24 20,25 46,24 38,44 56,25 79,21 255,15 y2 xy 29,16 23,04 36 60,84 50,41 29,16 20,25 6,76 255,62 7,56 7,68 19,2 35,1 48,28 33,48 33,75 23,14 208,19 n µx = ∑x i =1 i n = 40,1 = 5,01 8 = 43,6 = 5,45 8 n µy = r= ∑y i =1 n ∑x i ⋅ yi − n ⋅ µ x ⋅ µ y i (∑ x i2 − n ⋅ µ 2x )(∑ y i2 − n ⋅ µ 2y ) i r= i i 208,19 − 8 ⋅ 5,01⋅ 5,45 (255,15 − 8 ⋅ 5,012 )(255,62 − 8 ⋅ 5,452 ) − 10,246 − 10,246 r= = = −0,328 31,278 54,3492 ⋅ 18 All crescere di X la Y decresce (correlazione lineare negativa) e tra i due caratteri esiste una bassa relazione in termini lineari. 28 Esercizio 18 Nella seguente tabella è data la distribuzione secondo il voto di laurea e il tempo impiegato per trovare lavoro di 125 individui. Calcolare il coefficiente di correlazione lineare di Bravais-Pearson. Tempo (in mesi) 6 12 6 5 14 5 8 2 11 8 2 3 11 10 52 33 Voto 81-85 86-90 91-95 96-100 101-105 106-110 Totale r= ∑∑ x i i 18 3 3 1 3 2 2 14 24 3 4 5 2 4 8 26 Totale 17 26 16 24 11 31 125 ⋅ y j ⋅ n ij − n ⋅ µ x ⋅ µ y j (∑ x i2 n i 0 − n ⋅ µ 2x )(∑ y i2 n 0 j − n ⋅ µ 2y ) i i (83 ⋅ 17) + (88 ⋅ 26) + (93 ⋅ 16) + (98 ⋅ 24) + (103 ⋅ 11) + (108 ⋅ 31) = 96,16 125 (6 ⋅ 52) + (12 ⋅ 33) + (18 ⋅ 14) + (24 ⋅ 26) µy = = 12,67 125 µx = Calcolo la ∑∑ x i y j nij i j Tempo (in mesi) 6 12 2988 4980 7392 5280 4464 2232 6468 9408 1236 3708 7128 12960 29676 38568 Voto 83 88 93 98 103 108 Totale Calcolo ∑x n e∑y 2 i i0 i x 83 88 93 98 103 108 2 j 18 4482 4752 1674 5292 3708 3888 23796 n0j j ni 0 17 26 16 24 11 31 x 2 6889 7744 8649 9604 10609 11664 x 2 ni 0 117113 201344 138384 230496 116699 361584 1165620 29 24 5976 8448 11160 4704 9888 20736 60912 Totale 18426 25872 19530 25872 18540 44712 152952 n0 j y 6 12 18 24 r= y 52 33 14 26 36 144 324 576 ∑∑ x i i r= y 2 n0 j 1872 4752 4536 14976 26136 ⋅ y j ⋅ n ij − n ⋅ µ x ⋅ µ y j (∑ x i2 n i 0 − n ⋅ µ 2x )(∑ y i2 n 0 j − n ⋅ µ 2y ) i r= 2 i 152952 − 125 ⋅ 96,16 ⋅12,67 (1165620 − 125 ⋅ 96,16 2 ) (26136 − 125 ⋅12,67 2 ) 658,6 658,6 = = 0,09 9776,8 ⋅ 6069,89 7703,51 Esiste una bassa correlazione positiva tra il tempo impiegato per trovare lavoro e il voto di laurea e tale relazione raggiunge il 9% del suo massimo. Oppure r= ∑∑ εx i i ⋅ εy j ⋅ nij j ∑ εx n ⋅ ∑ εy n 2 i i 2 j i0 0j j εx i = x i − µ x εy j = y j − µ y µ x = 96,16 µ y = 12,67 xi εxi εxi2 ni 0 εxi2 ni 0 83 88 93 98 103 108 -13,16 -8,16 -3,16 1,84 6,84 11,84 173,1856 66,5856 9,9856 3,3856 46,7856 140,1856 17 26 16 24 11 31 2944,1552 1731,2256 159,7696 81,2544 514,6416 4345,7536 9776,8 30 εy j εy 2j n0 j εy 2j n0 j yj 6 12 18 24 -6,67 -0,67 5,33 11,33 Calcolo ∑∑ εx εy n i i 2313,4228 14,8137 397,7246 3337,5914 6063,5525 ij εy j -6,67 526,6632 761,9808 168,6176 -135,001 -91,2456 -868,701 362,3144 ∑∑ εx i i -0,67 44,086 27,336 4,2344 -9,8624 -13,7484 -79,328 -27,2824 5,33 -210,428 -130,478 -16,8428 29,4216 72,9144 126,2144 -129,199 ⋅ εy j ⋅ nij j ∑ εx n ⋅ ∑ εy n 2 i i r= j 52 33 14 26 j εx i -13,16 -8,16 -3,16 1,84 6,84 11,84 Totale r= 44,4889 0,4489 28,4089 128,3689 2 j i0 0j j 634,56 634,56 = = 0,08 9776,8 ⋅ 6063,5525 7699,49 31 11,33 -447,3084 -369,8112 -179,014 41,6944 309,9888 1073,178 428,7272 Totale -86,9876 289,0272 -23,0048 -73,7472 277,9092 251,3632 634,56