bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 ESERCIZIO 1 – MEDIE ANALITICHE Data la distribuzione del peso corporeo di un gruppo di malati adulti, appresso riportata, si calcoli la media aritmetica Classe di peso n. malati --| 50 32 50 --| 55 77 55 --| 60 118 60 --| 65 363 65 --| 75 627 75 --| 85 581 85 -202 Per il calcolo della media, visto che quella data è una distribuzione in classi, occorre individuare il valore centrale della classe; per poterlo fare è necessario procedere attraverso i seguenti punti: • è necessario stabilire per la prima classe un ragionevole estremo inferiore, scegliamolo in 45 visto che trattasi di adulti; • è necessario stabilire per l'ultima un ragionevole estremo superiore, scegliamolo in 100 vista la tendenza al soprappeso delle popolazioni occidentali; • le classi sono chiuse a destra quindi includono l'estremo superiore ma non quello inferiore; pertanto le classi andrebbero lette come 46-50, 51-55, 56-60, 61-65, 66-75, 71-85, 86-100. Disponendo delle classi come indicato basterà effettuare la semisomma degli estremi per disporre del valore centrale; pertanto la distribuzione può essere così riscritta: valore centrale della classe 48 53 58 63 70,5 80,5 93 frequenza 32 77 118 363 627 581 202 La media da calcolare è rappresentata da (per distribuzioni di frequenza): 1 k M= ⋅ ∑ x i ⋅ ni media aritmetica (il simbolo più correttamente dovrebbe essere M1) N i =1 Per lo sviluppo della formula si deve calcolare il prodotto delle modalità per le frequenze; pertanto viste le dimensioni dei calcoli converrà adottare una origine arbitraria (ad es. 43 = 0) e fissare un intervallo tra l’origine ed i successivi valori (ad es. 5) così che i valori centrali diventeranno 1 (=43+1*5), 2 (=43+2*5), 3 (=43+3*5), 4 (=43+4*5), 5,5 (=43+5,5*5), 7,5 (=43+7,5*5), 10 (=43+10*5); pertanto la distribuzione diventa: Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 valore centrale della classe frequenza 1 2 3 4 5,5 7,5 10 32 77 118 363 627 581 202 Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie di colonne in cui svolgiamo i calcoli delle diverse formule: xi 1 2 3 4 5,5 7,5 10 totale ni 32 77 118 363 627 581 202 2.000 xi*ni 32 154 354 1.452 3.449 4.358 2.020 11.818 Con tali valori possiamo ottenere: 1 M= ⋅ 11818 = 5 ,909 2000 La media ottenuta è tuttavia riferita all’origine iniziale ed all’incremento fissati arbitrariamente per comodità di calcolo; per avere il vero valore della media bisogna tener conto che la variabile effettiva è una trasformata (espressione y=ax+b) di quella arbitraria secondo la seguente relazione y=5x+43; conoscendo la trasformazione ed applicando la proprietà della media aritmetica avremo: media = 5*5,909+43 = 72,55. ESERCIZIO 2 – MEDIE ANALITICHE Data la distribuzione appresso riportata, si calcolino le medie aritmetica, geometrica, quadratica e si verifichi la proprietà delle medie di potenza modalità frequenza 1 2,5 3 5,5 7 8 10 3 3 5 2 1 1 2 Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 Le medie da calcolare sono rappresentate da (per distribuzioni di frequenza): 1 k M= ⋅ ∑ x i ⋅ ni media aritmetica (il simbolo più correttamente dovrebbe essere M1) N i =1 k Mg = N ∏ n xi i media geometrica (il simbolo più correttamente dovrebbe essere M0) i =1 k M2 = 1 ⋅ N ∑ x i2 ⋅ ni media quadratica i =1 Per lo sviluppo delle diverse formule si deve calcolare: • il prodotto delle modalità per le frequenze; • le potenze delle modalità con esponente le frequenze e le produttorie successive dei risultati; • i quadrati delle modalità ed il loro prodotto per le frequenze. Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie di colonne in cui svolgiamo i calcoli delle diverse formule: xi ni xi*ni x i ni xi2 xi2*ni x jn j ∏ 1 3 3 1,00 1 1,00 3,00 2,5 3 8 15,63 16 6,25 18,75 3 5 15 243,00 3.797 9,00 45,00 5,5 2 11 30,25 114.855 30,25 60,50 7 1 7 7,00 803.988 49,00 49,00 8 1 8 8,00 6.431.906 64,00 64,00 10 2 20 100,00 643.190.625 100,00 200,00 totale 17 72 ==== ======= ==== 440,25 Con tali valori possiamo ottenere: M= 1 ⋅ 72 = 4 ,206 17 ; M g = 17 643.190.625 = 3,297 ; M2 = 1 ⋅ 440 ,25 = 5 ,089 17 Per verificare la proprietà delle medie di potenza, data da M s −1 ≤ M s ≤ M s +1 , è sufficiente ricordare quanto indicato nei simboli delle medie (la media aritmetica è M1 e quella geometrica M0) per verificare che: 3,297( M g = M 0 ) ≤ 4 ,206( M = M1 ) ≤ 5,089( M 2 ) ESERCIZIO 3 – MEDIE LASCHE È stata rilevata la distribuzione del numero di studenti secondo la votazione attribuita in un esame universitario, ottenendo i seguenti risultati: Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 votazione giudizio insufficiente mediocre discreto buono ottimo voto 0-17 18-22 23-25 26-29 30 n. studenti 103 51 27 12 7 Calcolare la moda, la mediana, il terzo quartile ed il 91° percentile, il calcolo deve essere riferito sia al giudizio che al voto. Dopo aver rilevato le frequenze cumulate pari a: 103 154 181 193 200 (ottenute dalla frequenza - n. studenti - scrivendo la prima, sommando la seconda alla prima, sommando la terza al risultato ottenuto, sommando la quarta al risultato ottenuto e sommando la quinta al risultato ottenuto) è possibile stabilire: • la moda è il giudizio insufficiente (o il voto 0-17) essendo la modalità con la massima frequenza; • la mediana è il giudizio insufficiente (o il voto 0-17), che presenta una frequenza cumulata tra 1 e 103, essendo la modalità che biseca la distribuzione ordinata: visto che N è pari la modalità che occupa i posti 100 (N/2) e 101 (N/2+1) oppure il posto 100,5 (100+1/2); • il terzo quartile è il giudizio discreto (o il voto 23-25), che presenta una frequenza cumulata tra 155 e 181, essendo la modalità che lascia a sinistra i ¾ delle frequenze (quindi 175=200*3/4); • il 91° percentile è il giudizio buono (o il voto 26-29), che presenta una frequenza cumulata tra 182 e 193, essendo la modalità che lascia a sinistra il 91% delle frequenze (quindi 182=200*91/100). Per la mediana è possibile, limitatamente al voto, individuare il voto esatto con la formula x1 + x2 − x1 ⋅ (Fe − N e −1 ) in cui, con riferimento alla classe che individua la media lasca, x1 ne ed x2 sono gli estremi inferiore e superiore, ne è la frequenza, Fe il valore esatto calcolato in precedenza ed Ne-1 è la frequenza cumulata della classe precedente. Pertanto risulterà: • mediana = 0+ 17 − 0 ⋅ (100 ,5 − 0 ) = 16 ,59 103 ESERCIZIO 4 – VARIABILITÀ Si calcoli per la distribuzione appresso riportata: il campo di variazione, la differenza interquartilica, lo scarto quadratico medio, la varianza, il coefficiente di variazione e l’escursione relativa; si verifichi inoltre la proprietà dello scarto semplice dalla media aritmetica (somma degli scarti uguale zero) Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 età n. dipendenti 40 41 42 43 44 45 46 47 48 49 totale 37 51 78 34 22 59 81 66 47 25 500 I valori da calcolare sono rappresentati (per distribuzioni di frequenza) da: R = xN - x 1 campo di variazione Δ = q3 - q 1 differenza interquartilica 1 k ⋅ ∑ ( x i − M )2 ⋅ n i scarto quadratico medio N i =1 σ= ( σ 2 = M 22 − M 2 σ Cv = M δ = R ) varianza coefficiente di variazione escursione relativa σ Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie di colonne in cui svolgiamo i calcoli delle diverse formule: xi ni Ni xi*ni xi - M (xi - M)*ni (xi - M)2 (xi - M)2*ni xi2 xi2*ni 40 41 42 43 44 45 46 47 48 49 37 51 78 34 22 59 81 66 47 25 totale 500 37 88 166 200 222 281 362 428 475 500 1480 2091 3276 1462 968 2655 3726 3102 2256 1225 -4,48 -3,48 -2,48 -1,48 -0,48 0,52 1,52 2,52 3,52 4,52 === 22241 === -165,83 -177,58 -193,60 -50,39 -10,60 30,56 122,96 166,19 165,35 112,95 0 20,09 12,12 6,16 2,20 0,23 0,27 2,30 6,34 12,38 20,41 743,27 618,34 480,51 74,68 5,11 15,83 186,65 418,46 581,69 510,31 === 3634,84 1600 1681 1764 1849 1936 2025 2116 2209 2304 2401 59200 85731 137592 62866 42592 119475 171396 145794 108288 60025 === 992959 Con le frequenze cumulate possiamo individuare il 1° quartile che risulta 42 (frequenze da 89 a 166) cioè la modalità che lascia a sinistra ¼ dei casi (125=500/4) ed il 3° quartile che risulta 47 (frequenze da 363 a 428) cioè la modalità che lascia a sinistra ¾ dei casi (375=500*3/4). Il Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 calcolo degli scarti ha richiesto l’individuazione della media aritmetica che è 44,482 (=22.241/500). Con tali valori possiamo ottenere: campo di variazione R = 49 – 40 = 9 differenza interquartilica Δ = 47 – 42 = 5 1 scarto quadratico medio σ = 500 ⋅ 3634 ,84 = 2 ,696 σ2 = 992959/500 – 44,4822 varianza coefficiente di variazione Cv = 2,696/44,482 = 0,061 δ = 9/2,696 = 3,338 escursione relativa Si rammenta che gli ultimi due indici, essendo coefficienti relativi, consentono un eventuale confronto con altre distribuzioni. Per quanto attiene, infine, alla verifica della proprietà dello scarto dalla media, questa risulta già in tabella (sesta colonna) essendo la sua sommatoria uguale a zero. ESERCIZIO 5 – MUTABILITÀ Data la distribuzione del n. degli abitanti di un comune per sesso e condizione professionale, appresso riportata, si calcoli l’indice di Gini, distintamente per maschi e femmine, sia assoluto che relativo; si individui quale dei due sessi presenta maggiore mutabilità. condizione professionale sesso Maschi femmine studenti 102 123 disoccupati 50 41 casalinghe 24 314 dipendenti 154 49 commercianti 24 35 artigiani 64 33 Liberi professionisti 42 15 pensionati 140 30 L’indice assoluto di Gini è espresso dalla formula: k ⎛n S = 1 − ∑ ⎜⎜ i i =1 ⎝ N ⎞ ⎟⎟ ⎠ 2 k = 1 − ∑ f i2 i =1 mentre quello relativo risulta S S ⋅k = max S k − 1 Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 Per il calcolo dell’indice di Gini occorrono quindi le frequenze relative ed il loro quadrato; pertanto conviene impostare la seguente tabella: maschi xi studenti disoccupati casalinghe dipendenti commercianti artigiani liberi professionisti pensionati totale femmine 2 ni fi fi 102 50 24 154 24 64 42 140 600 0,170 0,083 0,040 0,257 0,040 0,107 0,070 0,233 1,000 0,029 0,007 0,002 0,066 0,002 0,011 0,005 0,054 0,176 ni fi f i2 123 41 314 49 35 33 15 30 640 0,192 0,064 0,491 0,077 0,055 0,052 0,023 0,047 1,000 0,037 0,004 0,241 0,006 0,003 0,003 0,001 0,002 0,296 Con tali valori possiamo ottenere: indice assoluto di Gini (S): = 1 – 0,176 = 0,824 per i maschi ; = 1 – 0,296 = 0,704 per le femmine ; = 0,704 * 7/6 = 0,821 per le femmine indice relativo di Gini (S/maxS): = 0,824 * 7/6 = 0,962 per i maschi Gli indici relativi, che consentono il confronto tra distribuzioni diverse, evidenziano una maggiore mutabilità dei maschi rispetto a quella delle femmine; in effetti dall’analisi della stessa distribuzione si evidenzia una maggiore distribuzione delle frequenze dei maschi nelle diverse modalità rispetto ad un notevole accentramento di quelle delle femmine intorno a poche modalità (studenti e casalinghe). ESERCIZIO 6 – DEVIANZA Una popolazione è suddivisa nelle seguenti sottopopolazioni; calcolare la devianza di ciascun gruppo e dell'intera popolazione; verificare la proprietà sulla scomposizione della devianza. W1 xi ni 2 5 6 7 9 12 16 3 9 10 Popolazioni di riferimento W2 xi ni xi 3 4 5 7 8 8 5 21 4 2 W3 ni 2 7 12 13 ( 19 13 9 19 ) ( ) La devianza può essere ottenuta con la formula: Dev (T ) = N ⋅ M 22 − M 2 = N ⋅ x 22 − x 2 Per poter effettuare i calcoli predisponiamo la tabella per ciascun gruppo (singole popolazioni W) e per l’intera popolazione: Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 Popolazione W1 xi ni 2 5 6 7 9 12 16 3 9 10 50 totale media = 275/50 = xi2 xi*ni 24 80 18 63 90 275 Popolazione W2 xi ni 3 4 6 7 8 media = 214/40 = xi2 xi*ni 8 5 21 4 2 40 24 20 126 28 16 214 xi2*ni 9 16 36 49 64 === 72 80 756 196 128 1232 5,35 Popolazione W3 xi ni 2 6 12 13 87,10 xi2 xi*ni 19 13 9 19 60 38 78 108 247 471 xi2*ni 4 36 144 169 === 76 468 1296 3211 5051 7,85 Dev(W1) = 60*(5051/60 - 7,852) = 2 5 6 7 9 3 4 6 7 48 400 108 441 810 1807 294,50 Dev(W2) = 40*(1232/40 - 5,352) = Popolazione totale xi 4 25 36 49 81 === 5,50 Dev(W1) = 50*(1807/50 – 5,52) = media = 471/60 = xi2*ni ni 1353,65 xi*ni 12 16 3 9 10 8 5 21 4 xi2 24 80 18 63 90 24 20 126 28 Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire xi2*ni 4 25 36 49 81 9 16 36 49 48 400 108 441 810 72 80 756 196 bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 8 2 6 12 13 totale media = 960/150 = 2 19 13 9 19 150 16 38 78 108 247 960 64 4 36 144 169 === 128 76 468 1296 3211 8090 6,40 Dev(T) = 150*(8090/150 -6,42) = 1946,00 La proprietà sulla scomposizione della devianza afferma che la devianza totale (intera popolazione) è data dalla somma delle devianze dei singoli gruppi – Dev(W) – più la devianza delle medie – Dev(B); pertanto se i gruppi fossero m (nel nostro caso 3) la proprietà sarebbe espressa dalla relazione: Dev (T ) = m ∑ Dev(W i ) +Dev (B ) i =1 Disponiamo già della somma delle devianze dei singoli gruppi che risulta pari a: 294,5 + 87,10 + 1353,65 = 1735,25; occorre ancora calcolare la devianza delle medie. Per poter effettuare quest’ultimo calcolo scriviamo la distribuzione delle medie (medie dei singoli gruppi con la loro frequenza) ed effettuiamo i soliti calcoli. Popolazioni medie xi ni 5,50 5,35 7,85 totale media = 960/150 = 50 40 60 150 xi*ni 275 214 471 960 xi2 xi2*ni 30,2500 28,6225 61,6225 === 1512,50 1144,90 3697,35 6354,75 6,40 Dev(B) = 150*(6354,8/150 - 6,42) = 210,75 I conteggi effettuati sulla distribuzione delle medie consentono di: • affermare innanzitutto che la media della popolazione divisa in gruppi (media di tutta la pop. = 6,4) è pari alla media delle medie; • verificare la proprietà della scomposizione della devianza; infatti se aggiungiamo alla somma delle devianze dei gruppi (1735,25) la devianza delle medie (210,75) otteniamo 1946 che è la devianza dell’intera popolazione. ESERCIZIO 7 – RELAZIONI (REGRESSIONE e CORRELAZIONE) Sia data la seguente seriazione doppia Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 xi 1 3 5 6 8 23 yi 3 2 0 1 1 7 Calcolare: la regressione di Y su X e quella di X su Y; il coefficiente di correlazione tra X ed Y; verificare infine la relazione esistente tra il coefficiente di Bravais-Pearson e i due coefficienti di regressione. La regressione di Y su X stima la dipendenza della variabile dipendente Y dalla variabile indipendente X; per il calcolo della regressione dobbiamo calcolare i due parametri della retta σ xy by = 2 B0 = y − b y ⋅ x y=by/xx+B0 dati da: e σx x x mentre la regressione di X su Y stima la dipendenza della variabile dipendente X dalla variabile σ xy indipendente Y ed è espressa dalla retta x=bx/yy+B0 i cui coefficienti risultano: b x = 2 e y σy B0 = x − b x ⋅ y y Il coefficiente di correlazione di Bravais-Pearson, infine, stima l’interdipendenza tra le due variabili X ed Y (nessuna delle quali è antecedente all’altra) ed è espresso dalla formula r= σ xy σ x ⋅σ y Risulta quindi necessario calcolare la covarianza ed i due scarti quadratici medi; utilizzando le formule semplificate per il calcolo di entrambi valori (si rammenta che i simboli sopra segnati indicano le medie quadratiche ed aritmetiche): 1 2 2 σ = ⋅ ∑ x i ⋅ yi − x ⋅ y σ = y − y σ x = x 22 − x 2 xy ; ; y 2 N Impostiamo pertanto la seguente tabella di calcolo: tot. xi 1 3 5 6 8 23 yi 3 2 0 1 1 7 xi2 1 9 25 36 64 135 yi2 9 4 0 1 1 15 da cui è possibile ottenere: media aritmetica della variabile x 23 - x = 5 = 4 ,6 ; Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire xiyi 3 6 0 6 8 23 bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 135 2 media quadratica al quadrato della variabile x - x 2 = 5 = 27 ; 7 - y = 5 = 1 ,4 ; 15 2 media quadratica al quadrato della variabile y - y 2 = 5 = 3 Con le medie sopra calcolate, possiamo ottenere: media aritmetica della variabile y - σ covarianza = xy 23 − 4 ,6 ⋅ 1 ,4 = − 1 ,84 5 2 scarto della var. x - σ x = 27 − 4 ,6 = 2 ,417 2 scarto della var. y - σ y = 3 − 1,4 = 1,020 Disponendo di tutti gli elementi necessari possiamo calcolare i parametri delle rette di regressione: regressione di Y su X: by = x −1,84 2 ,417 2 = −0 ,315 ; B0 = 1,4-(-0,315)*4,6 = 2,849 quindi y=-0,315x+2,849 regressione di X su Y: bx = y −1,84 1,020 2 = −1,769 ; B0 = 4,6-(-1,769)*1,4 = 7,077 quindi x=-1,769y+7,077 Inoltre è possibile calcolare anche il coefficiente di correlazione di Bravais-Pearson: −1,84 r= = −0 ,747 2 ,417 * 1,020 Dai risultati dell’esercizio è possibile dedurre: • la regressione della Y sulla X è negativa e la retta è decrescente (vuol dire che la variabile dipendente Y ha un andamento inverso a quello della variabile indipendente X); • stessa analisi per la regressione della X sulla Y; • non è possibile quantificare l’incidenza della dipendenza della Y sulla X o di quella della X sulla Y essendo i coefficiente di regressione indici che possono assumere qualsiasi valore; • la correlazione tra le due variabili è negativa, risultato che era deducibile dall’andamento inverso delle due variabili; • la correlazione è più che significativa risultando il coefficiente r pari al 74,7% (si rammenta che il coefficiente r varia tra -1 e +1). Infine, la relazione tra coefficiente di correlazione e quelli di regressione è rappresentata da: “il coefficiente di correlazione è la media geometrica (presa con il segno della covarianza) dei due coefficienti di regressione”; pertanto la relazione stessa è data da: r = b y ⋅ b x = − 0 ,315 ⋅ −1,769 = −0 ,747 (il segno meno deriva da quello della covarianza) x y Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 ESERCIZIO 8 – RELAZIONI (DIPENDENZA IN MEDIA) La distribuzione dei contribuenti secondo i caratteri X: condizione professionale e Y: classe di età - valori in migliaia (le classi includono l'estremo superiore e non quello inferiore) è quella appresso riportata; si stimi la dipendenza in media del carattere Y dal carattere X; si commenti il risultato ottenuto. X: Condizione professionale Dipendenti Artig. e Comm. Liberi profess. Totale 14-25 7 3 10 Y: Classi di età 25-40 40-45 45-60 24 44 26 5 12 13 1 14 11 30 70 50 60-75 19 7 14 40 totale 120 40 40 200 Essendo la distribuzione del carattere Y in classi è necessario individuare i valori centrali; si deve osservare che le classi presentano estremi inferiori non inclusi quindi si dovrebbero leggere come 15-25, 26-40, 41-45, 46-60 e 61-75. Poste in quest’ultimo modo le diverse classi del carattere Y, è possibile ottenere il valore centrale con il solito criterio della semisomma degli estremi di ciascuna classe; pertanto la tabella riscritta avendo sostituito alle modalità del carattere Y i i valori centrali delle classi, risulta: X: Condizione professionale Dipendenti Artig. e Comm. Liberi profess. totale 20 7 3 10 Y: età (valori centrali) 33 43 53 24 44 26 5 12 13 1 14 11 30 70 50 67 19 7 14 40 totale 120 40 40 200 Per il calcolo dell'indipendenza in media è necessario calcolare il rapporto di correlazione di Pearson, cioè: ηy = x Dev( y ) σ y = Dev( y ) σ y Occorre quindi calcolare lo scarto quadratico medio della variabile Y (denominatore della formula) e quello delle medie delle varie distribuzioni parziali della stessa variabile per ciascuna modalità del carattere X (numeratore della formula). Moltiplichiamo le modalità del carattere Y (valori centrali delle classi) per le frequenze di ciascuna distribuzione del carattere Y vincolata a ciascuna modalità del carattere X (cioè le varie righe) e facciamo lo stesso per la riga dei totali (distribuzione marginale che rappresenta frequenze del carattere Y indipendentemente dal carattere X) per ottenere la media di Y; su questi ultimi due valori (modalità di Y e frequenze totali) facciamo anche i quadrati per la corrispondente media quadratica. Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 X: Condizione professionale Dipendenti Artig. e Comm. Liberi profess. yj*nj yj2 yj2*nj 20 140 60 0 200 400 4.000 Y: età (valori centrali) 33 43 53 792 1.892 1.378 165 516 689 33 602 583 990 3.010 2.650 1.089 1.849 2.809 32.670 129.430 140.450 67 1.273 469 938 2.680 4.489 179.560 totale 5.475 1.899 2.156 9.530 === 486.110 La media generale del carattere Y è 47,65 (=9530/200), il quadrato della media quadratica è 2430,55 (=486110/200), mentre la devianza e lo scarto risultano: ( ) ( ) Dev (Y ) = N ⋅ M 22 − M 2 = 200 ⋅ 2430 ,55 − 47 ,65 2 = 32006 σy = Dev (Y ) 32006 = = 12 ,650 N 200 Con riferimento alle distribuzioni parziali, avendo calcolato su ciascuna riga la somma dei prodotti delle modalità per le rispettive frequenze, possiamo ottenere la media di ciascuna distribuzione dividendo il totale di riga per il corrispondente totale della tabella di partenza (totale delle frequenze di ciascuna distribuzione parziale del carattere Y vincolata a ciascuna modalità del carattere X): la media Dipendenti è pari a 45,625 (=5475/120), quella degli Artigiani e Commercianti pari a 47,475 (=1899/40) e quella del Liberi professionisti è 53,9 (=2156/40). Riscriviamo la distribuzione delle medie (singole medie con le loro frequenze) sui cui dobbiamo calcolare la devianza e lo scarto quadratico medio: X: Condizione professionale yj n• j y j ⋅ n• j y 2j y 2j ⋅ n• j Dipendenti 45,625 120 5475 2081,64 249796,88 Artig. e Comm. 47,475 40 1899 2253,88 90155,03 Liberi profess. 53,900 40 2156 2905,21 116208,40 totale ===== 200 9530 ===== 456160,30 La media risulta pari a 47,65 (=9530/200) come quella generale (si rammenta che la media di una popolazione divisa in gruppi è la media delle medie) ed il quadrato della media quadratica è pari a 2280,802 (=456160,30/200); pertanto la devianza e lo scarto quadratico risultano: ( ) Dev (Y ) = 200 ⋅ 2280 ,802 − 47 ,65 2 = 2055 ,8 σy = 2055 ,8 = 3 ,206 200 Disponendo dei due scarti quadratici medi è possibile ottenere l'eta di Pearson che è pari a (vedi formula sopra indicata) 0,253 (=3,206/12,65). Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 Commento Il risultato ottenuto consente di affermare che la dipendenza in media risulta scarsamente significativa essendo lo scarto quadratico medio delle medie appena il 25,3% di quello totale; si rammenta che l'eta varia tra 0 ( indipendenza) e 1 (perfetta concordanza) ESERCIZIO 9 – RELAZIONI (INTERDIPENDENZA CON MUTABILI) La distribuzione di un collettivo secondo i caratteri X: stato civile e Y: zona di residenza,.è risultata quella appresso riportata; si stimi la dipendenza tra i due caratteri; si commenti il risultato ottenuto. X: Zona di residenza Nord Centro Sud Isole totale celibi 23 16 32 19 90 (valori x1.000) Y: stato civile coniugati separati divorziati 104 79 42 120 63 32 125 42 26 131 36 20 480 220 120 totale vedovi 22 19 15 34 90 270 250 240 240 1.000 Per il calcolo dell'indipendenza in una tabella di contingenza è necessario calcolare il Chi quadro, cioè: r s χ = ∑∑ 2 C ij2 2 i =1 j =1 nij in cui C ij = nij − n*ij e n*ij = ni • ⋅ n• j N Occorre quindi calcolare nij* (frequenza di indipendenza) e Cij (contingenza) per ogni cella della tabella a doppia entrata; si deve cioè ottenere la tabella d'indipendenza (scrivendo in ciascuna casella il totale della sua riga per il totale della sua colonna diviso per il totale generale) Tabella di indipendenza Y X totale 24,3 22,5 21,6 21,6 90 129,6 120,0 115,2 115,2 480 59,4 55,0 52,8 52,8 220 32,4 30,0 28,8 28,8 120 24,3 22,5 21,6 21,6 90 totale 270 250 240 240 1.000 (ad es. la prima casella – prima riga e prima colonna – risulta dall’operazione 90*270/1000; la casella della terza riga e della quarta colonna risulta dall’operazione 120*240/1000, ecc.). Successivamente si può calcolare la tabella del Chi quadro facendo (per ogni casella) la differenza tra la tabella effettiva e quella di indipendenza (ottenere cioè le cosiddette contingenze), elevare al quadrato la differenza e dividere il risultato per la tabella di indipendenza. Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 Tabella del Chi quadro Y 0,070 1,878 5,007 0,313 7,268 X totale 5,057 0,000 0,834 2,167 8,057 6,467 1,164 2,209 5,345 15,186 totale 2,844 0,133 0,272 2,689 5,939 0,218 0,544 2,017 7,119 9,897 14,656 3,719 10,339 17,633 46,347 Il totale della tabella rappresenta il Chi quadro (l'indice di indipendenza cercato); tale indice, come noto, ha la dimensione di una frequenza assoluta. Commento L'indice ottenuto, essendo una misura assoluta legata alla frequenza assoluta, non consente di indicare se la dipendenza può ritenersi elevata o meno; per tale motivo è necessario dapprima depurare l'indice della dimensione dovuta al totale delle frequenze e successivamente rapportare il risultato al suo massimo; cioè si debbono calcolare i due indici: χ 2 46 ,347 Phi quadro φ 2 = = = 0 ,0463 N Cramer C= 1000 φ 2 min (r , s ) − 1 = 0 ,0463 = 0 ,0154 min( 4 ,5 ) − 1 L'ultimo indice varia tra 0 (indipendenza) e 1 (massima concordanza) e consente di affermare che tra i due caratteri esiste quasi indipendenza risultando la dipendenza appena 1,54%. ESERCIZIO 9 – RELAZIONI (INTERDIPENDENZA e DIPENDENZA IN MEDIA) La distribuzione del numero degli assicurati di una Compagnia di assicurazioni secondo il carattere X: zona territoriale e Y: età (valori in migliaia) è rappresentata da: X: zona territoriale Nord-ovest Nord-est Centro Sud Isole totale 20 20 8 9 7 6 50 Y: età (valori centrali delle classi) 30 40 50 60 55 44 48 19 46 54 46 22 41 30 45 37 7 21 30 64 1 11 11 18 150 160 180 160 70 14 4 18 31 33 100 totale 200 180 180 160 80 800 Si analizzi la dipendenza tra i due caratteri sia in termini di interdipendenza che di dipendenza in media e si commentino i risultati ottenuti. Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 1° interdipendenza Per l'interdipendenza tra i due caratteri (associazione in cui almeno uno dei caratteri è una mutabile) si deve calcolare il Chi quadro, quindi: r s χ = ∑∑ 2 C ij2 2 i =1 j =1 nij * è la contingenza e nij = * in cui C ij = nij − nij ni • ⋅ n• j N la frequenza di indipendenza Tabella di indipendenza (nij*=ni.n.j/N) Y: età (valori centrali delle classi) X: zona totale territoriale 20 30 40 50 60 70 Nord-ovest 12,5 37,5 40 45 40 25 200 Nord-est 11,25 33,75 36 40,5 36 22,5 180 Centro 11,25 33,75 36 40,5 36 22,5 180 Sud 10 30 32 36 32 20 160 Isole 5 15 16 18 16 10 80 Totale 50 150 160 180 160 100 800 2 Tabella del Chi quadro: Cij /nij * Y: età (valori centrali delle classi) X: zona territoriale 20 30 40 50 60 70 Nord-ovest 4,500 8,167 0,400 0,200 11,025 4,840 29,132 Nord-est 0,939 4,446 9,000 0,747 5,444 15,211 35,788 Centro 0,450 1,557 1,000 0,500 0,028 0,900 4,435 Sud 0,900 17,633 3,781 1,000 32,000 6,050 61,365 Isole 0,200 13,067 1,563 2,722 0,250 52,900 70,701 Totale 6,989 44,870 15,744 5,169 48,747 79,901 69,355 Pertanto χ = 69,355 da cui si può ottenere φ totale φ2 = χ /N = 0,087 e C = min(r , s ) − 1 = 0,022. L'ultimo indice varia tra 0 ed 1 e indica quindi una interdipendenza tra i due caratteri quasi nulla (appena 2,2%). 2 2 2 2° dipendenza in media Calcoliamo adesso la dipendenza in media di Y (il carattere quantitativo) sul carattere X; tale dipendenza è stimata dall'Eta di Pearson, quindi: ηy = x σy σy Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 Per il calcolo individuiamo le distribuzioni parziali e quella marginale del carattere Y ed effettuiamo il prodotto delle modalità per le frequenze (per comodità di calcolo dividiamo per 10 le modalità del carattere Y). modalità del carattere Y distribuzione carattere Y 2 3 4 5 6 7 1° parziale 40 165 176 240 114 98 833 2° parziale 16 138 216 230 132 28 760 3° parziale 18 123 120 225 222 126 834 4° parziale 14 21 84 150 384 217 870 5° parziale 12 3 44 55 108 231 453 marginale 100 450 640 900 960 700 3750 totali Calcoliamo anche la media quadratica del carattere Y Y2 4,0 Y2*n.j 9,0 16,0 25,0 36,0 49,0 === 200,0 1350,0 2560,0 4500,0 5760,0 4900,0 19270,0 E’ possibile quindi calcolare le singole medie delle distribuzioni parziali, quella dell’intera distribuzione Y (marginale) e la media quadratica al quadrato di quest’ultima: ∑ y j ⋅ n1 j = 200 = 4 ,165 ; ∑ y j ⋅ n3 j = 180 = 4 ,633 ; ∑ y j ⋅ n5 j = ; 1 ⋅ N 1 y3 = ⋅ N 1 y5 = ⋅ N 1 y 22 = ⋅ N y1 = 833 834 ∑ y 2j ⋅ n• j 453 = 5 ,663 80 19270 = = 24 ,088 800 ∑ y j ⋅ n2 j = 180 = 4 ,222 1 ⋅ N 1 y4 = ⋅ N 1 y= ⋅ N y2 = 760 ∑ y j ⋅ n4 j = 160 = 5 ,438 ∑ y j ⋅ n• j = 870 3750 = 4 ,688 800 pertanto si potrà calcolare lo scarto quadratico medio dell’intero carattere Y con l’usuale formula σ y = y 22 − y 2 = 24 ,088 − 4 ,688 2 = 1,454 (i valori veri se fossero necessari per qualsiasi altra elaborazione dovrebbero evidentemente essere moltiplicati per 10, ovviamente il quadrato della media quadratica dovrebbe essere moltiplicato per 100). Otteniamo infine lo scarto delle medie riscrivendo la distribuzione delle medie con le rispettive frequenze Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire bruno delle donne – Esercitazioni di Statistica - modulo base - a.a.2007-08 carattere X medie (yi) freq. (ni) xi*ni yi2 yi2*ni Nord-ovest 4,165 200 833,0 17,35 3469,45 Nord-est 4,222 180 760,0 17,83 3208,89 Centro 4,633 180 834,0 21,47 3864,20 Sud 5,438 160 870,0 29,57 4730,63 Isole 5,663 80 453,0 32,06 2565,11 totale === 800 3750 === 17838,27 Possiamo pertanto calcolare la media delle medie = 4,688 (3750/800) ovviamente uguale alla media dell’intera distribuzione Y (la media di una popolazione divisia in gruppi è uguale alla media delle medie dei gruppi), il quadrato della media quadratica delle medie = 22,298 (17838,27/800) e quindi lo scarto quadratico medio delle medie σ y = 22 ,298 − 4 ,688 2 = 0,570 (anche in questo caso i valori veri delle medie se fossero necessari per qualsiasi altra elaborazione dovrebbero evidentemente essere moltiplicati per 10 e per 100). Disponendo dei due scarti quadratici possiamo calcolare l’Eta di Pearson, stabilendo che ηy = x 0 ,570 = 1,454 0,392 L'ultimo indice varia tra 0 ed 1 e indica quindi una dipendenza delle medie di Y sul carattere X non eccessivamente elevata (il 39,2%), sicuramente più significativa dell'interdipendenza. Università degli Studi di Roma ‘La Sapienza’-Facoltà di Sociologia - Cattedra di Statistica - Prof.ssa Mary Fraire