Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta y è normale 2 Nella popolazione, la deviazione standard della variabile risposta è identica in ciascun gruppo. Indichiamo questo valore comune con σ 3 I campioni sono campioni casuali e indipendenti Rappresentazione grafica delle assunzioni 1 e 2: Group 3 Relative Frequency Group 1 Group 2 y Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 2 / 23 Esempio — Ideologia politica e partito politico Gruppo Democratico Independente Repubblicano 1 9 7 0 2 20 11 2 Ideologia Politica 3 4 5 17 36 4 17 48 12 7 23 23 6 5 11 17 7 0 5 2 n 91 111 74 Media 3.23 3.90 4.70 SD 1.28 1.43 1.10 1 = estremamente liberale, 2 = liberale, 3 = leggermente liberale, 4 = moderato, 5 = leggermente conservatore, 6 = conservatore, 7 = estremamente conservatore La tabella mostra i dati in una tabella di contingenza e quindi potremo utilizzare una statistica come il chi-quadro Ma in tal caso non verrebbe considerata la natura ordinale della variabile ideologia politica Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 3 / 23 Quando H0 è vera, la statistica test F ha una distribuzione campionaria F di Fisher La distribuzione F , come il chi-quadro assume solo valori non negativi ed è asimmetrica positiva 0 0 (a) Sample 1 Sample 2 Sample 3 (b) La forma della distribuzione dipende da due parametri che sono i gradi di libertà df1 = k − 1, il numero dei gruppi del modello − 1 df2 = n − k = n − numero dei gruppi La media della distribuzione F è pari a df2 /(df2 − 2) Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 4 / 23 Esempio — Ideologia politica e partito politico I risultati dell’applicazione del test vengono riassunti dai software in una tabella chiamata Tabella ANOVA Source Between-Groups (Party ID) Within-Groups (Error) Total Sum of Squares 88.43 459.52 547.95 df 2 273 275 Mean Square 44.21 1.68 F 26.3 Sig .000 Le due “mean squares” sono le stime fra-i-gruppi e nei-gruppi della varianza della popolazione σ 2 La statistica test F è il rapporto delle due “mean squares” Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 5 / 23 Esempio — Ideologia politica e partito politico Source Between-Groups (Party ID) Within-Groups (Error) Total Sum of Squares 88.43 459.52 547.95 Mean Square 44.21 1.68 df 2 273 275 F 26.3 Sig .000 Per il test F abbiamo df1 = g − 1 = n. gruppi − 1 e df2 = N − g = Dimensione campionaria totale − n. gruppi. df1 = g − 1 = 3 − 1 = 2 and df2 = N − g = 276 − 3 = 273 Nella riga “fra-i-gruppi”, la SS divisa per df1 ci dà la “Mean Square” 88.43/2 = 44.21 Nella riga “nei-gruppi” la SS divisa per df2 ci dà l’altra media quadratica 459.52/273 = 1.68 La statistica test F per H0 : µ1 = µ2 = µ3 è il rapporto tra le stime delle varianze stimate, cioè il rapporto tra le due medie quadratiche F = 44.21/1.68 = 26.3 La somma delle due SS è chiamata somma dei quadrati totale TSS X TSS = (y − ȳ )2 = SS fra-i-gruppi + SS nei-gruppi TSS = 547.95 = 88.43 + 459.52 Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 6 / 23 Esempio — Ideologia politica e partito politico L’intervallo per µ3 − µ1 (differenza fra Repubblicani e Democratici) (ȳ2 − ȳ1 ) ± ts r 1 1 + n1 n2 = = Groups (Independent, Democrat) (Republican, Democrat) (Republican, Independent) Nicola Tedesco (Statistica Sociale) Difference of Means µi − µj µ2 − µ1 µ3 − µ1 µ3 − µ2 r 1 1 + 91 74 1.47 ± 0.49 o (0.98, 1.96). (4.70 − 3.23) ± 2.41(1.30) Estimated Difference ȳi − ȳj 0.67 1.47 0.80 Bonferroni 95% CI (0.23, 1.11)∗ (0.98, 1.96)∗ (0.33, 1.27)∗ Confronto fra gruppi: il metodo ANOVA 7 / 23 Esempio — Ideologia politica e partito politico Per la variabile partito politico consideriamo 3 categorie. Il modello di regressione per la procedura ANOVA è E (y ) = α + β1 z1 + β2 z2 Dependent Variable: IDEOLOGY Parameter Estimate Std Error (Constant) 4.534 0.0759 PARTY 1 -0.717 0.1033 2 -0.541 0.1054 3 0.000 0. t 59.73 -6.94 -5.13 0. Sig 0.0001 0.0001 0.0001 0. L’equazione di previsione è ŷ = 4.53 − 0.72z1 − 0.54z2 I coefficienti dell’equazione di previsione sono in relazione con le medie campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 è stimato con 4.53 = ȳ3 , la media campionaria per i Repubblicani Allo stesso modo il coefficiente di z1 è −0.72 = ȳ1 − ȳ3 e il coefficiente di z2 è −0.54 = ȳ2 − ȳ3 Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 8 / 23 Esempio — Ideologia politica e partito politico Source Regression Residual Total Sum of Squares 88.43 459.52 547.95 df 2 273 275 Mean Square 44.21 1.68 F -value 26.3 Sig .000 La tabella mostra i risultati dell’adattamento di un modello di regressione con variabili dummy ai dati sull’ideologia politica. La tabella è simile a quella costruita per adattare l’ANOVA La “between-groups sum of squares” è la “regression sum of squares” La “within-groups sum of squares” è la “residual sum of squares” (SSE) Il rapporto fra la “regression mean square” e il “mean square error” è la statistica F (F = 26.3), con df1 = 2 e df2 = 273, per H0 : β1 = β2 = 0 Questa ipotesi è equivalente a H0 : µ1 = µ2 = µ3 per le tre categorie della variabile “Party ID” Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 9 / 23 Esempio — Ideologia politica, partito politico e sesso Ideologia politica 3 4 5 6 35 98 20 24 25 41 15 15 Partito Democratico Sex F M 1 5 6 2 30 20 Independente F M 4 4 17 16 27 20 83 59 16 21 Repubblicano F M 2 0 10 9 17 13 63 36 32 33 Dependent Variable: IDEOLOGY Sum of Source Squares df Model 86.693 3 Error 1569.525 939 Total 1656.218 942 Source PARTY GENDER Nicola Tedesco (Statistica Sociale) Type III SS 84.2516 1.3110 df 2 1 7 3 3 n 215 125 Media 3.85 3.77 Dev. Std. 1.26 1.43 17 23 5 1 169 144 3.95 4.04 1.24 1.30 33 28 5 9 162 128 4.43 4.66 1.26 1.31 Mean Square 28.898 1.671 F 17.29 Sig 0.0001 Mean Square 42.1258 1.3110 F 25.20 0.78 Sig 0.0001 0.3760 Confronto fra gruppi: il metodo ANOVA 10 / 23 La differenza fra femmine e maschi nell’ideologia politica media è −1 per ciascun partito Allo stesso modo la differenza fra ciascuna coppia di partiti politici è la stessa per ciascun sesso: ad es. la differenza fra Repubblicani e Democratici è pari a 2.0 sia per le femmine che per i maschi Mean Political Ideology 6 Males 5 Females 4 3 2 Democrat Independent Republican Party Identification Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 11 / 23 Questa tabella e la figura rappresentano delle medie di popolazione che mostrano interazione fra le variabili Sesso Femmine Maschi Democratici 3.0 5.0 Mean Political Ideology Indipendenti 4.0 4.0 Repubblicani 5.0 3.0 6 Females 5 4 3 Males 2 Democrat Independent Republican Party Identification Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 12 / 23 Per le sei combinazioni fra le categorie delle variabili sesso e partito politico osserviamo le medie di popolazione in termini di parametri della regressione Sesso Femmina Maschio Identificazione Partitica Democratico Indipendente Repubblicano Democratico Indipendente Repubblicano Variabili Dummy p1 p2 s 1 0 1 0 1 1 0 0 1 1 0 0 0 1 0 0 0 0 Media di Popolazione di y α + β1 p 1 + β2 p 2 + β3 s α + β1 + β3 α + β2 + β3 α + β3 α + β1 α + β2 α Per ciascun partito al differenza fra le medie dei maschi e delle femmine è pari a β3 L’ipotesi nulla di nessuna differenza fra le medie di maschi e femmine, tenendo sotto controllo il partito di appartenenza è: H0 : β3 = 0 Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 13 / 23 Dependent Variable: IDEOLOGY Parameter B Std. Error Intercept 4.5768 0.0897 PARTY 1 -0.7112 0.1035 2 -0.5423 0.1054 3 0 . GENDER 1 -0.0758 0.0856 2 0 . t 51.02 -6.87 -5.15 . -0.89 . Sig 0.0001 0.0001 0.0001 . 0.3760 . Sostituendo i valori delle variabili dummy nell’equazione di previsione si hanno le medie stimate per il modello di assenza di interazione Ad esempio, per le femmine repubblicane, p1 = p2 = 0 e s = 1, cosı̀ che ŷ = 4.58 − 0.71(0) + 0.54(0) − 0.08(1) = 4.50 Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 14 / 23 Dependent Variable: IDEOLOGY Sum of Source Squares df Model 90.332 5 Error 1565.886 937 Total 1656.218 942 Source PARTY GENDER PARTY*GENDER Type III SS 87.795 1.488 3.640 df 2 1 2 Mean Square 18.066 1.671 F 10.81 Sig 0.0001 Mean Square 43.898 1.488 1.820 F 26.27 0.89 1.09 Sig 0.0001 0.3456 0.3370 La somma dei quadrati per l’effetto interazione è riportata nella riga intestata con PARTY*GENDER e corrisponde alla quota di variabilità spiegata dai due termini di interazione Essa è pari alla differenza fra la SSE calcolata con e senza questo termine La “mean square” dell’interazione è una stima di σ 2 basata su SS Interazione 3.64 = = 1.82 df 2 Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 15 / 23 Ad esempio, per il modello che assume l’assenza di interazioni, β̂1 = −0.71 è la stima della differenza fra l’ideologia politica media dei democratici e dei repubblicani Dependent Variable: IDEOLOGY Parameter B Std. Error t Sig Intercept 4.5768 0.0897 51.02 0.0001 PARTY 1 -0.7112 0.1035 -6.87 0.0001 2 -0.5423 0.1054 -5.15 0.0001 3 0 . . . GENDER 1 -0.0758 0.0856 -0.89 0.3760 2 0 . . . Lo se di questa stima è 0.104; l’IC al 95% è −0.71± 1.96(0.104), o (−0.9, −0.5) Per ciascun valore della variabile sesso, i democratici, sono, in media, meno conservatori L’approccio alla Bonferroni dell’ANOVA a una-via può essere esteso a all’ANOVA a più-vie Un confronto per tutte e tre le coppie di partiti politici con un livello di errore di 0.05 impiega una probabilità di errore pari a 0.05/3 = 0.0167 nel determinare il t-score per ciascun intervallo Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 16 / 23 Esempio — Condizionamenti sui bambini In una recente GSS è stato chiesto a più di 1000 intervistati di rispondere alla seguente domanda “I bambini sono sottoposti a molti condizionamenti nella loro vita quotidiana. Che tipo di influenza, positiva o negativa, ritieni abbiano Film – TV – Rock?” Soggetto 1 2 3 4 5 6 7 8 9 10 11 12 Media Condizionamento Film TV Rock −1 0 −1 1 0 0 0 1 −2 2 0 1 0 −1 −1 −2 −2 −2 −1 −1 0 0 1 −1 −1 −1 −1 1 0 1 1 1 −1 −1 −1 −2 −0.08 −0.25 −0.75 Possibili risposte: molto negativa, negativa, neutra, positiva, molto positiva Codifiche: −2, −1, 0, 1, 2 (Primi 12 soggetti) Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 17 / 23 Esempio — Condizionamenti sui bambini Il test confronta le medie di popolazione per i tre tipi di condizionamento è, quindi, il test per l’effetto principale per la variabile di colonna dell’ANOVA a due-vie: H0 : Medie di popolazione uguali per i tre tipi di condizionamento Source Model Error Total Source INFLUENCE SUBJECT Sum of Squares 27.861 12.444 40.306 df 13 22 35 Type III SS 2.889 24.972 df 2 11 Mean Square 2.143 0.566 Mean Square 1.444 2.270 F 3.79 Sig 0.003 F 2.55 4.01 Sig 0.101 0.003 La statistica F è la media quadratica per i condizionamenti divisa per la media quadratica dell’errore F = 1.44/0.57 = 2.55, df1 = 2 e df2 = 22. Le prove contro H0 non sono forti Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 18 / 23 Test of Within-Subjects Effects Type III Sum Mean Source of Squares df Square Sphericity assumed Influence 2.889 2 1.444 Error 12.444 22 .566 F Sig. 2.55 .101 La tabella mostra i risultati ottenuti con un software che permette l’adattamento di modelli per osservazioni ripetute L’ANOVA per misure ripetute assume la sfericità. Il significato di questa assunzione è . . . . . . Per ogni coppia di gruppi consideriamo la differenza fra due osservazioni, una per ciascun gruppo Questa differenza è una variabile e la condizione di sfericità consiste nell’assumere che la deviazione standard della distribuzione di queste differenze è identica per ciascuna coppia di gruppi Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 19 / 23 ANOVA a due-vie con misure ripetute Esempio — Confronti di tre trattamenti contro l’anoressia Spesso i dataset con misure ripetute hanno più di un effetto fisso. Le misure ripetute si osservano rispetto alle categorie di un fattore ma sono indipendenti rispetto alle categorie dell’altro La tabella mostra i pesi (in libbre) osservati per 72 ragazze malate di anoressia Cognitive Behavioral Weight Weight Before After 80.5 82.2 .. .. . . .. .. . . 94.9 98.4 76.3 93.4 79.7 83.6 84.5 84.6 80.8 96.2 87.4 86.7 Nicola Tedesco (Statistica Sociale) Family Therapy Weight Weight Before After 83.8 95.2 .. .. . . .. .. . . 76.9 76.8 94.2 101.6 Confronto fra gruppi: il metodo ANOVA Control Weight Weight Before After 80.7 80.2 .. .. . . .. .. . . 87.3 75.1 75.1 86.7 89.0 78.8 20 / 23 ANOVA a due-vie con misure ripetute Esempio — Confronti di tre trattamenti contro l’anoressia Treatment Cognitive Behavioral (CB) Family Therapy (FT) Control (C) Treatment: Cognitive Behavioral Time: Before After Time Before After 82.7 85.7 83.2 90.5 81.6 81.1 Family Therapy Before After Control Before After 0 0 0 Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 21 / 23 ANOVA a due-vie con misure ripetute Come nella normale ANOVA a due-vie, possiamo saggiare ciascun effetto principale cosı̀ come l’interazione fra gli stessi Tuttavia i test per il fattore within-subjects (sia il suo effetto principale sia le sue interazioni con gli altri effetti fissi) impiegano un diverso termine di errore rispetto a quello impiegato per l’effetto principale between-subjects L’ordinario termine di errore della somma dei quadrati viene partizionato in due parti Una utilizza la variabilità fra i punteggi medi dei soggetti (between-subjects factor) L’altra è basata su come i punteggi medi variano nei soggetti (within-subject factor) Total Between subjects Treatment Nicola Tedesco (Statistica Sociale) Within subjects Error Time Treatment 3 Time Confronto fra gruppi: il metodo ANOVA Error 22 / 23 ANOVA a due-vie con misure ripetute Esempio — Confronti di tre trattamenti contro l’anoressia Tests of Within-Subject Effects Type III Sum Source of Squares TIME 366.04 TIME*TREATMENT 307.32 Error(TIME) 1955.37 df 1 2 69 Mean Square 366.04 153.66 28.34 F 12.92 5.42 Sig 0.001 0.006 Tests of Between-Subjects Effects. Type III Sum Source of Squares TREATMENT 644.23 Error 3584.03 df 2 69 Mean Square 322.12 51.94 F 6.20 Sig 0.003 Ciascuna SS riassume la variabilità riferita al corrispondente termine: si tratta della riduzione della SSE quando quel particolare termine viene aggiunto al modello Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 23 / 23