Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Analisi delle relazioni tra due caratteri { { { Dipendenza in distribuzione si basa sul confronto delle distribuzioni condizionate Dipendenza in media si basa sul confronto di medie condizionate Dipendenza funzionale si basa su una relazione funzionale che lega le due variabili Indipendenza in distribuzione Il carattere X è indipendente in distribuzione da Y se, qualunque sia la modalità con cui si manifesta il carattere Y, la distribuzione relativa condizionata di X rimane sempre la stessa le frequenze relative delle distribuzioni condizionate della X rispetto alla Y devono essere tutte fra loro uguali e uguali alla distribuzione marginale relativa della X 1 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Indipendenza in distribuzione Se per ogni i e h valgono le uguaglianze n nih = i0 n0h n Y è indipendente in distribuzione da X Se per ogni i e h valgono le uguaglianze n nih = 0h ni 0 n X è indipendente in distribuzione da Y Indipendenza in distribuzione La prima uguaglianza implica la seconda e viceversa l’indipendenza in distribuzione è simmetrica Da esse si ricava che ∗ = nih ni 0 ⋅ n0h n 2 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Tabella delle frequenze teoriche . xv . x1 . . xh . y1 n*11 . . n*1h . : : : : yi n* . n* : : : : yu n*u1 . . n*uh . . n*uv nu0 n01 . . n0h . . n0v n (n ) i1 . ih . n*1v n10 : : . . ∗ = nih : n* ni0 iv : : : per ni 0 ⋅ n0h n i = 1,..., u h = 1,..., v Chi quadrato χ = 2 u v ∑∑ i =1 h =1 χ2 = 0 χ2 > 0 ih * − nih * nih 2 X e Y indipendenti in distribuzione X e Y NON indipendenti in distribuzione 3 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Distribuzione delle famiglie per titolo di studio del capofamiglia e numero di componenti Numero componenti Titolo di studio Licenza elementare Licenza media inferiore Diploma professionale (3 anni) Diploma scuola media superiore Specializzazione post-laurea Totale 1 2 3 4 5 6 Totale 5 5 8 2 1 11 1 2 3 5 3 1 9 1 1 1 1 15 7 1 6 1 30 Frequenze teoriche ∗ = nih ni 0 ⋅ n0h n ∗ = n11 n10 ⋅ n01 15 ⋅ 5 = = 2.5 30 n ∗ = n12 n10 ⋅ n02 15 ⋅ 11 = = 5.5 30 n .... ∗ = n56 n50 ⋅ n06 1 ⋅ 1 = = 0.03 30 n 4 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Distribuzione teorica delle famiglie per titolo di studio del capofamiglia e numero di componenti Numero componenti 1 2 3 4 5 6 Totale 2.5 1.2 0.2 1 0.2 5.5 2.6 0.4 2.2 0.4 1.5 0.7 0.1 0.5 0.2 0.03 0.2 0.03 0.5 0.6 0.1 4.5 2.1 0.3 1.8 0.3 0.2 0.03 15 7 1 6 1 5 11 3 9 1 1 30 Titolo di studio Licenza elementare Licenza media inferiore Diploma professionale (3 anni) Diploma scuola media superiore Specializzazione post-laurea Totale χ2 = (5 − 2.5)2 2.5 + (8 − 5.5)2 χ 2 = 30.49 > 0 5.5 + ... + (0 − 0.03)2 0.03 0.5 0.03 = 30.49 I due caratteri sono statisticamente connessi Se le famiglie fossero 300, la distribuzione diventerebbe … Numero componenti Titolo di studio Licenza elementare Licenza media inferiore Diploma professionale (3 anni) Diploma scuola media superiore Specializzazione post-laurea Totale 1 2 3 4 5 6 Totale 50 50 80 20 10 110 10 20 30 50 30 10 90 10 10 10 10 150 70 10 60 10 300 5 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Frequenze teoriche ∗ = nih ni 0 ⋅ n0h n ∗ = n11 n10 ⋅ n01 150 ⋅ 50 = = 25 300 n ∗ = n12 n10 ⋅ n02 150 ⋅ 110 = = 55 300 n .... ∗ = n56 n50 ⋅ n06 10 ⋅ 10 = = 0.3 300 n Distribuzione teorica delle famiglie per titolo di studio del capofamiglia e numero di componenti Numero componenti 1 2 3 4 5 6 Totale 25 11.7 1.7 10 1.7 55 25.7 3.7 22 3.7 15 7 1 5 2.3 0.3 2 5 6 1 45 21 3 18 3 0.3 2 0.3 150 70 10 60 10 50 110 30 90 10 10 300 Titolo di studio Licenza elementare Licenza media inferiore Diploma professionale (3 anni) Diploma scuola media superiore Specializzazione post-laurea Totale χ2 = (50 − 25)2 25 + χ 2 = 304.94 > 0 (80 − 55)2 55 + ... + (0 − 0.3)2 0.3 2.3 0.3 = 304,94 a parità di associazione tale misura aumenta al crescere di n 6 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Indice di contingenza quadratica media 2 Φ = χ2 n Φ2 = 0 indipendenza in distribuzione Φ2 = 1 massima associazione se u=v Φ2 > 1 massima associazione se u v ≠ Indice di contingenza quadratica media Il valore di tale indice non dipende da n Infatti, nei due esempi tale indice risulta essere pari a a) Φ 2 = 2 b) Φ = 30,94 = 1,016 30 309,4 = 1,016 300 7 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Indice di Tschuprov 2 T = Φ2 (u − 1)(v − 1) = χ2 n (u − 1)(v − 1) E’ un indice normalizzato 2 T = 0 connessione nulla 2 T = 1 connessione massima Nell’esempio tale indice è pari a 0,4667. Ciò significa che la connessione tra il numero di componenti la famiglia e il titolo di studio è il 47,67% della massima connessione raggiungibile Indipendenza in media Concetto più debole di indipendenza, che richiede che almeno uno dei due caratteri sia quantitativo. Non è simmetrico Un carattere quantitativo Y è indipendente in media da X se le medie condizionate di Y rispetto a X sono tutte uguali, cioè M a (Y | X = x i ) = y 8 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Dipendenza in media Si dirà che Y è dipendente in media da X se le medie condizionate di Y rispetto a X non sono tutte uguali. M a (Y | X = x i ) = y i Un indice relativo di dipendenza in media è il 2 v ηY2|X = ∑ [y i i =1 u ∑ (y i − y ] ni − y ) ni 2 2 v = ∑ [y i − y ] ni i =1 Dev(y ) i =1 Scomposizione della devianza { { { La devianza è una quantità additiva. Infatti, se l’insieme delle n unità statistiche viene suddiviso in v gruppi, la devianza si scompone in due addendi: la somma delle v devianze calcolate all’interno di ogni gruppo, la devianza delle v medie aritmetiche di gruppo (indicate con y i) attorno a y 9 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio delle relazioni tra due caratteri" Scomposizione della devianza La devianza (totale) è quindi pari a: u ∑ (y i i =1 − y ) ni = 2 v nl ∑ ∑ (y il − yi ) + 2 i =1 l =1 v ∑ (y i − y ) ni 2 i =1 Devtot(Y) = Deventro(Y) + Devtra(Y) Dipendenza in media { { { ηY2|X assume valore 0 quando tutte le medie condizionate sono uguali tra loro assume valore 1 quando ad ogni modalità di X corrisponde un solo valore di Y Se X e Y sono indipendenti in distribuzione allora le distribuzioni condizionate sono uguali tra loro e alla distribuzione marginale di Y. Le medie condizionate sono quindi uguali tra loro indipendenza in media 10