Analisi della varianza (ANOVA) Tecnica di analisi che consente di verificare ipotesi relative alle medie di due o più popolazioni. Questo modello di analisi dei dati risulta adeguato quando le variabili dipendenti sono cardinali (scala di intervalli o rapporti equivalenti) e quando la variabile indipendente è almeno categoriale Una sola variabile dipendente cardinale + Una sola variabile indipendente categoriale => analisi della varianza uni variata a una via Una sola variabile dipendente cardinale + K variabili indipendenti categoriali => analisi della varianza univariata a più vie M variabili dipendenti cardinali + 1 o K variabili indipendenti categoriali => analisi della varianza multivariata (MANOVA) La tecnica di analisi dei dati pensata per analizzare dati sperimentali è l’analisi della varianza o ANOVA. La varianza fa parte della famiglia di operatori statistici che misurano la dispersione dei valori assunti da una variabile cardinale sulla base degli scarti con un valore centrale. ANOVA NEI DISEGNI TRA I SOGGETTI AD UN SOLO FATTORE A ogni trattamento (o condizione sperimentale) corrisponde un diverso gruppo di soggetti. Il punteggio 𝑦𝑖𝑗 di un soggetto j nel gruppo i: 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 o o o o 𝑦𝑖𝑗 = punteggio del generico soggetto j appartenente al generico gruppo i 𝜇 = media generale dei punteggi sul campione totale 𝛼𝑖 = effetto dovuto al trattamento (livello i della variabile indipendente), costante all’interno del trattamento 𝜀𝑖𝑗 = componente residua, di errore casuale specifica per ciascun soggetto Lavorando sui dati campionari e non sulla popolazione abbiamo: 𝑦𝑖𝑗 = 𝑦̅.. + 𝑎𝑖 + 𝑒𝑖𝑗 => 𝑦𝑖𝑗 = 𝑦̅.. + (𝑦̅𝑖. − 𝑦̅.. ) + (𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 ) 𝜇̂ = 𝑦̅.. = media generale del campione 𝛼̂𝑖 = 𝑎𝑖 = (𝑦̅𝑖. − 𝑦̅.. ) = differenza tra le media dei gruppi e la media generale del campione, esprime il contributo del trattamento i alla determinazione del punteggio individuale => effetto della condizione sperimentale 𝜀𝑖𝑗 = 𝑒𝑖𝑗 = (𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 ) = differenza tra il punteggio del soggetto e la media del gruppo in cui è inserito, riflette la variabilità individuale che prescinde dai trattamenti (variabilità d’errore) Scomposizione della devianza totale Devianza: somma dei quadrati degli scarti di ogni punteggio dalla media Lo scarto tra il punteggio individuale e la media generale è prodotto da: 𝑦𝑖𝑗 − 𝑦̅.. = (𝑦̅𝑖. − 𝑦̅.. ) + (𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 ) Se ragioniamo su tutti gli individui e vogliamo avere una stima delle variazioni possiamo applicare la medesima scomposizione alle devianze (numeratore della varianza: scostamento al quadrato di ciascun valore dal valore medio sommati tra loro): ∑ ∑ ( 𝑦𝑖𝑗 − 𝑦̅.. )2 = ∑ ∑ ( 𝑦̅𝑖. − 𝑦̅.. )2 + ∑ ∑ ( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )2 𝑖 𝑗 𝑖 𝑗 𝑖 𝑗 ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅.. )2 => Devianza totale 𝑆𝑆𝑇 ∑𝑖 ∑𝑗( 𝑦̅𝑖. − 𝑦̅.. )2 => Devianza between groups 𝑆𝑆𝐵 2 ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 ) => Devianza within groups 𝑆𝑆𝑊 𝑆𝑆𝑇 = devianza totale = scarti tra i singoli punteggi e la media generale elevati al quadrato 𝑆𝑆𝐵 = devianza tra gruppi (between) = scarto tra i punteggi medi di gruppo e la media generale => variabilità tra i diversi gruppi. EFFETTO DELLA CONDIZIONE SPERIEMENTALE 𝑆𝑆𝑊 = devianza entro i gruppi (within) = scarto tra i punteggi di ogni soggetto e la medi del gruppo corrispondente => variabilità dei soggetti all’interno di ogni gruppo. VARAIIBLITA’ DI ERRORE SSt SSb => effetto della condizione sperimentale SSw => variabilità di errore Per ognuna delle tre componenti della variabilità è possibile definire un opportuno numero di gradi di libertà: Devianza 𝑆𝑆𝑇 = ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅.. )2; 𝑛 − 1 𝑔𝑑𝑙 𝑆𝑆𝐵 = ∑𝑖 ∑𝑗( 𝑦̅𝑖. − 𝑦̅.. )2; 𝑘 − 1 𝑔𝑑𝑙 𝑆𝑆𝑊 = ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )2 ; 𝑛 − 𝑘 𝑔𝑑𝑙 Dividendo le devianze per i relativi gradi di libertà otteniamo le varianze: varianza totale = devianza totale/N-1 (1=vincolo della media generale) varianza between = devianza between/I-1 (numero di gruppi –1, nuovamente 1 è il vincolo della media generale) varianza within = devianza within/N-I (vincoli delle medie di gruppo) Varianza (quadrati medi) 𝑀𝑆𝑇 = 𝑆𝑆𝑇 /(𝑛 − 1) => ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅.. )2 / (𝑛 − 1) 𝑀𝑆𝐵 = 𝑆𝑆𝐵 / (𝑘 − 1) => ∑𝑖 ∑𝑗( 𝑦̅𝑖. − 𝑦̅.. )2 / (𝑘 − 1) 𝑀𝑆𝑊 = 𝑆𝑆𝑊 /(𝑛 − 𝑘) => ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )2 /(𝑛 − 𝑘) NB: 𝑆𝑆𝑇 = 𝑆𝑆𝐵 + 𝑆𝑆𝑊 => 𝑛 − 1 = (𝑘 − 1) + (𝑛 − 𝑘 ) Dove n = numero totale dei soggetti; k = numero dei gruppi Per le varianze però non vale la scomposizione che vale per le devianze e i gradi di libertà = 𝑀𝑆𝑇 ≠ 𝑀𝑆𝐵 + 𝑀𝑆𝑊 IL RAPPORTO F => il rapporto tra le varianze 𝑀𝑆𝐵 /𝑀𝑆𝑊 segue la distribuzione F 𝐹= 𝑣𝑎𝑟 𝐵 𝑀𝑆𝐵 = 𝑣𝑎𝑟 𝑊 𝑀𝑆𝑊 L’ipotesi nulla del test è che le medie dei gruppi siano uguali tra loro e quindi uguali alla media generale della popolazione => ciò significa che il trattamento (l’assegnazione dei soggetti alle diverse condizioni sperimentali) non sortisce alcun esito. Se il valore empirico del test è invece significativamente diverso da quello critico l’ipotesi nulla può essere rifiutata => almeno una media di gruppo è significativamente diversa dalle altre e dalla media generale e ciò significa che i gruppi appartengono almeno a due diverse popolazioni (il trattamento ha sortito esito). => Il test F esamina le seguenti ipotesi: o o 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 Le popolazioni di provenienza dei campioni hanno medie uguali sulla variabile dipendente 𝐻1 : 𝑎𝑙𝑚𝑒𝑛𝑜 𝑢𝑛𝑎 𝑑𝑒𝑙𝑙𝑒 𝜇 𝑑𝑖𝑣𝑒𝑟𝑠𝑒 Almeno due campioni provengono da popolazioni con medie tra loro diverse Per come è costruito il test F numeratore e denominatore possono essere considerati due stime parallele ma indipendenti dalla varianza totale della popolazione Il numeratore (𝑀𝑆𝐵 ) esprima la variabilità dei punteggi imputabile alla manipolazione della variabile indipendente, calcolata assumendo che non vi siano differenze di punteggi all’interno di ciascun gruppo Il denominatore (𝑀𝑆𝑊 ) esprime la variabilità dei punteggi che prescinde dalla manipolazione della variabile e che dipende esclusivamente dai soggetti (errore casuale) Rifiuto 𝐻0 (il trattamento ha prodotto effetti) se 𝑀𝑆𝐵 > 𝑀𝑆𝑊 ; 𝐹 > 1 Accetto 𝐻0 (il trattamento non ha prodotto effetti) se 𝑀𝑆𝐵 ≤ 𝑀𝑆𝑊 ; 𝐹 ≤ 1 Il test che viene utilizzato per confrontare tra loro le medie di due popolazioni (m1 e m2) e stabilire se le differenze che rilevo sono significative oppure no è il T-Test (T di Student). L’ipotesi nulla (H0) del T-Test è che le differenze tra le due medie NON siano statisticamente significative, e che quindi m1=m2 L’ipotesi alternativa (H1) del T-Test è che le differenze tra le due medie siano statisticamente significative, e che quindi m1≠m2 Si stabilisce una soglia di a (solitamente pari a 0,05 oppure 0,01) e in base a questa vengono individuate nella distribuzione dei valori della statistica T due regioni, nominate regione di rifiuto (le code) e regione di accettazione. Se i valori della statistica cadono nella zona di rifiuto, si tratta di valori che sarebbe molto improbabile ottenere (rispettivamente nel 5% e nell’1% dei casi) se l’ipotesi nulla (H0) fosse vera. Quindi posso rifiutare H0 e accettare di conseguenza l’ipotesi alternativa H1. Quando le popolazioni sono più di due, il T-Test non è più adeguato perché consente di confrontare tra loro solo una coppia di medie alla volta. Quindi, con 3 gruppi, dovremmo condurre 3 T-Test (AvsB; BvsC; CvsA). Se stabilisco per ciascuno dei tre test una soglia di a pari a 0,05 (accetto di commettere un errore del I tipo nel 5% dei casi in ciascun test). Ma se assumiamo che i tre test siano indipendenti, la probabilità di commettere almeno un errore del I tipo sarà: 1-0,95G, dove G indica il numero dei gruppi e 0,95 è la soglia di a. Se conduco tre T-test separati, assegnando a ciascuno una soglia di a pari a 0,05, accetto in realtà di commettere un errore del primo tipo non più nel 5% dei casi ma nel 14,3%, un livello decisamente alto. Per questo, in luogo del T-Test, quando le medie da confrontare sono >2 utilizzo il Test F. L’ipotesi nulla (H0) del Test F è che le differenze tra le medie NON siano statisticamente significative, e che quindi m1=m2=m3 L’ipotesi alternativa (H1) del Test F è che almeno una delle differenze tra le medie sia statisticamente significativa. Se il numero dei quali si confrontano le medie è uguale a 2 (k=2) è indifferente usare la t di Student o il rapporto F (𝑡 = √𝐹; 𝐹 = 𝑡 2 ) Se k>2 usiamo il rapporto F perché i molteplici t test non sono indipendenti provocando un aumento del livello reale di α; si ha una diminuzione della potenza del test; la varianze d’errore tende a essere più levata in t Assunti per poter applicare l’analisi della varianza: o o La variabile dipendente deve essere cardinale; quella indipendente categoriale Gli errori (𝜀𝑖𝑗 ) devono seguire la distribuzione normale ed avere μ=0; devono inoltre avere valore atteso pari a 0 𝐸(𝜀𝑖𝑗 ) = 0 o o o La varianza degli errori (𝜎𝜀 ) deve essere uguale in ogni gruppo 𝑣𝑎𝑟(𝜀𝑖𝑗 ) = 𝑐𝑜𝑠𝑡 => condizione di omoschedasticità(= varianze di due popolazioni sono uguali) [la F è robusta rispetto a questa assunzione, è valida anche in presenza di eteroschedasticità (varianze di due popolazioni sono diverse)] Gli errori (𝜀𝑖𝑗 ) devono essere indipendenti, non correlati tra loro e con la parte sistematica del modello: 𝑐𝑜𝑣 (𝑒𝑖1 ; 𝑒𝑖2 ) = 0 𝑐𝑜𝑣(𝑒𝑖𝑗 ; 𝑎𝑖𝑗 ) = 0. L’indipendenza viene valutata con i coefficiente di correlazione interclasse (IIC) Gli effetti hanno una natura additiva: la variabile sperimentale aggiunge qualcosa alla condizione di base e lo fa in maniera identica per tutti i soggetti Confronto tra le medie dei gruppi Quando la variabile indipendente presenta più di due livelli o modalità, la significatività della statistica F ci indica soltanto se almeno una delle differenze tra le medie è significativa Si possono allora effettuare simultaneamente tutti i possibili confronti di coppia, il cui numero complessivo (q) è pari a 𝑘(𝑘−1) 2 Per la proprietà della somma delle probabilità, la probabilità che almeno una dei q confronti tra coppie di medie sia significativo è 𝑞 ∗ 𝛼. Per ovviare a questo problema occorre adottare una correzione di α (ad esempio 𝛼/𝑞) Confronti post hoc: ogni media viene confrontata con tutte le altre Controllo pianificato: si effettuano solo i confronti che appaiono più rilevanti ai fini dell’ipotesi di ricerca Effect size: accanto alla significatività statistica dell’effetto causale occorre valutare anche la forza di tale effetto. Si utilizza un operatore di determinazione (eta quadro 𝜂 2 ) che quantifica la porzione di variabilità della variabile dipendente spiegata dalla variabile indipendente. 𝜂 2 = 𝑆𝑆𝐵 /𝑆𝑆𝑇 La statistica F è fortemente dipendente dall’ampiezza del campione (grandi campioni => risultano significative anche piccole differenze tra gruppi. Campioni piccoli => differenze rilevanti tra medie possono non raggiungere la significatività statistica) ANOVA BETWEEN GROUPS: DISEGNI FATTORIALI Disegni anova fattoriali => presenza di due o più variabili indipendenti (fattori) Vantaggi: I disegni fattoriali consentono lo studio dell’interazione (effetto congiunto delle due VI sulla VD) I disegni fattoriali aumentano la potenza del test (probabilità di rifiutare l’ipotesi nulla quando è falsa), consentono di ridurre la varianza d’errore I disegni fattoriali consentono una maggiore economia nel numero dei soggetti da esaminare mantenendo la stessa potenza del test Svantaggi: Maggiori difficoltà di realizzazione pratica dell’esperimento Validità interna più fragile Nei disegni fattoriali abbiamo due tipi di effetti: l’effetto principale (effetto medio di una variabile indipendente sulla variabile dipendente, indipendentemente dai valori delle altre variabili indipendenti => differenza tra medie) + interazione (se l’effetto di una VI sulla VD non è lo stesso per tutti i levelli delle altre VI => differenze tra le medie nelle diverse combinazioni delle condizioni sperimentali) a) 𝐻0 : 𝜇.1 = 𝜇.2 = ⋯ = 𝜇.𝑗 𝐻1 : [(𝜇.1 ≠ 𝜇.2 )𝑜 (𝜇.2 ≠ 𝜇.𝑗 )] b) 𝐻0 : 𝜇1. = 𝜇2. = ⋯ = 𝜇𝑖. 𝐻1 : [(𝜇1. ≠ 𝜇2. )𝑜 (𝜇2. ≠ 𝜇𝑖. )] a*b) 𝐻0 : (𝜇𝐴 − 𝜇𝐵 ) 𝑇1 = 𝜇𝐴 − 𝜇𝐵 ) 𝑇2 = 𝜇𝐴 − 𝜇𝐵 ) 𝑇3 𝐻1 : 𝑎𝑙𝑚𝑒𝑛𝑜 𝑢𝑛𝑎 𝑡𝑟𝑎 𝑙𝑒 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑒 𝑒 𝑑𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 quando guardiamo graficamente la combinazione dei valori di due variabili, se questa combinazione da origine a due linee che si sovrappongono o che sono parallele allora l’interazione tenderà a non essere presenta (non è significativa). Se le due linee non sono parallele allora potrebbe esserci un’interazione tra le variabili. Disegni fattoriali tra i soggetti => tutti i soggetti vengono assegnati ad ognuna delle singole celle, quindi ogni soggetto è esposto solamente ad una particolare combinazione delle condizioni sperimentali Punteggio 𝑦𝑖𝑗𝑘 di un soggetto k contenuti nella cella ij 𝑦𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + ϕ𝑖𝑗 + 𝜀𝑖𝑗𝑘 => 𝑦𝑖𝑗𝑘 = 𝑦̅ + 𝑎𝑖 + 𝑏𝑗 + f𝑖𝑗 + 𝑒𝑖𝑗𝑘 o o o o o o 𝑦𝑖𝑗𝑘 : punteggio del generico soggetto k ocntenuto nella cella ij 𝜇: media generale 𝛼𝑖 = 𝜇𝑖.. − 𝜇… : esprime l’effetto principale del primo fattore 𝛽𝑗 = 𝜇.𝑗. − 𝜇…: esprime l’effetto principale del secondo fattore ϕ𝑖𝑗 = 𝜇𝑖𝑗. − 𝜇… − (𝛼𝑖 + 𝛽𝑗 ): esprime l’effetto di interazione, quella parte della media di una cella ij che non dipende dall’errore e che però non è spigata né dalla media generale né dagli effetti principali 𝜀𝑖𝑗𝑘 : rappresenta il termine marginale (errore) 𝜇̂ = 𝑦̅... 𝛼̂𝑖 = 𝑎𝑖 = (𝑦̅𝑖.. − 𝑦̅… ) 𝛽̂𝑗 = 𝑏𝑗 = (𝑦̅.𝑗. − 𝑦̅… ) ϕ𝑖𝑗 = f𝑖𝑗 = 𝜇𝑖𝑗. − 𝜇… − (𝛼𝑖 + 𝛽𝑗 ) = 𝑦̅𝑖𝑗. − 𝑦̅… − [(𝑦̅𝑖.. − 𝑦̅… ) + (𝑦̅.𝑗. − 𝑦̅… )] = 𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅… 𝜀𝑖𝑗 = 𝑒𝑖𝑗 = (𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. ) 𝑦𝑖𝑗𝑘 = 𝑦̅... + (𝑦̅𝑖.. − 𝑦̅… ) + (𝑦̅.𝑗. − 𝑦̅… ) + (𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅… ) + (𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. ) La deviazione del punteggio 𝑦𝑖𝑗𝑘 può essere così espressa: 𝑦𝑖𝑗𝑘 − 𝑦̅... = (𝑦̅𝑖.. − 𝑦̅… ) + (𝑦̅.𝑗. − 𝑦̅… ) + (𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅… ) + (𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. ) Devianza totale => 𝑆𝑆𝑇 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦𝑖𝑗𝑘 − 𝑦̅... )2 ; 𝑛 − 1 𝑔𝑑𝑙 Devianza between => 𝑆𝑆𝐵 = Devianza effetto principale di 𝐹1 = 𝑆𝑆𝐹1 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦̅𝑖.. − 𝑦̅… )2 ; 𝑘1 − 1 𝑔𝑑𝑙 Devianza effetto principale di 𝐹2 = 𝑆𝑆𝐹2 = ∑𝑖 ∑𝑗 ∑𝑘(𝑦̅.𝑗. − 𝑦̅… )2 ; 𝑘2 − 1 𝑔𝑑𝑙 Devianza dell’interazione tra 𝐹1 e 𝐹2 = 𝑆𝑆𝐹1∗𝐹2 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅… )2 ; (𝑘1 − 1)(𝑘2 − 1) 𝑔𝑑𝑙 Devianza residua => 𝑆𝑆𝑊 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. )2 ; 𝑛 − 𝑘1 𝑘2 gdl Dividendo le devianze per i rispettivi gradi di libertà otteniamo le varianze. Il rapporto tra ciascuna delle tra varianze between e la varianze within produrrà altrettante statistiche F, che consentiranno di esaminare le ipotesi sulla significatività statistica dei due effetti principale e dell’effetto di interazione 𝐹𝐹1 = 𝑀𝑆𝐹1 / 𝑀𝑆𝑤 𝐹𝐹2 = 𝑀𝑆𝐹2 / 𝑀𝑆𝑤 𝐹𝐹1∗𝐹" = 𝑀𝑆𝐹1∗𝐹2 / 𝑀𝑆𝑤 𝑘1 = 𝑙𝑖𝑣𝑒𝑙𝑙𝑖 𝑑𝑖 𝐹1 𝑘2 = 𝑙𝑖𝑣𝑒𝑙𝑙𝑖 𝑑𝑖 𝐹2 SSt (n-1) SSw (n-k1k2) SSb SSf1 (k1-1) SSf2 (k2-1) SSf1*f2 (k11)(k2-1) Gli effetti semplici consistono nell’esame dei valori della VD associati ai valori di una VI, quando i valori dell’altra VI sono mantenuti costanti. => si effettuano tanti disegni mono fattoriali quanti sono i livelli della VI che viene mantenuta costante Gli effetti semplici consentono di evidenziare l’effetto di modulazione che una variabile indipendente ha sulla relazione tra un’altra variabile indipendente e la variabile dipendente Per avere una prima idea dell’ampiezza degli effetti principali e di interazione tra i fattori, è opportuno leggere la tabella delle medie di cella, ed il relativo grafico. In generale, linee che si sovrappongono oppure sono parallele tra loro indicano l’assenza di interazione tra i fattori (ovvero, l’interazione non è significativa ed ha un effect size molto debole). Se invece le linee non sono parallele tra loro, allora potrebbe esserci un’interazione tra i fattori. Il fattore A è significativo, mentre B e l’interazione non sono significativi. Il fattore B è significativo, mentre A e l’interazione non sono significativi. L’interazione è significativa. Si tratta di una interazione antagonista. I due effetti principali di A e B non sono significativi. Gli effetti principali di A e B sono significativi, mentre non esiste interazione tra gli effetti dei due fattori. L’effetto principale di A e l’interazione sono significativi. B non è significativo. L’effetto principale di B e l’interazione sono significativi. A non è significativo. Gli effetti principali di A e di B sono significativi. Anche l’interazione e significativa. Non sono significativi ne gli effetti principali né l’interazione. ANALISI DELLA VARIANZA UNIVARIATA: DISEGNI ENTRO I SOGGETTI AD UN SOLO FATTORE Disegni within subjects: si utilizzano gli stessi soggetti nelle diverse condizioni sperimentali (nei livelli della variabile indipendente). Non si parla di gruppo di controllo e sperimentale, ma di trattamenti diversi a cui i soggetti sono sottoposti. Le misure sono rilevate più volte sugli stessi soggetti e gli effetti del trattamento dipendono dalle differenze osservate tra le prove di ciascun soggetto => le medie marginali di riga (𝑦̅𝑖. ) rappresentano il punteggio medio di ogni soggetto rispetto alle k prove. Queste medie consentono di isolare dalla variazione totale dei punteggi la parte che dipende dalle differenze individuali => le medie marginali di colonna (𝑦̅.𝑗 ) rappresentano il punteggio medio per ognuna delle k prova, attraverso tutti gli n soggetti Scomposizione delle devianza totale: o o 𝑆𝑆𝐵 = 𝑆𝑆𝐾 => nei disegni entro i soggetti, alla devianza tra i gruppi corrisponde la devianza tra le prove, dovuta agli effetti del trattamento. La devianza entro le prove viene scomposta in due parti differenti: 𝑆𝑆𝑆 => le differenze individuali tra i soggetti infatti non costituiscono variabilità d’errore perché rimangono costanti da una prova all’altra, queste differenze vanno calcolate e vanno a costituire la devianza tra i soggetti. 𝑆𝑆𝑟𝑒𝑠 => La devianza d’errore è invece prevalentemente dovuta alle fluttuazioni casuali nelle risposte dei soggetti da una condizione sperimentale all’altra (risulta ridotta rispetto alla varianza d’errore nei disegni tra i soggetti). Devianza totale: Devianza tra le prove: 𝑆𝑆𝐾 = ∑𝑖 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 = 𝑛 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 ; Devianza within: 𝑆𝑆𝑊 = ∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 )2 ; 𝑘(𝑛 − 1) 𝑆𝑆𝑇 = ∑𝑖 ∑𝑗(𝑦𝑖𝑗 − 𝑦̅.. )2 ; 𝑛𝑘 − 1 𝑔𝑑𝑙 2 𝑘 − 1 𝑔𝑑𝑙 𝑛 − 𝑘 𝑔𝑑𝑙 2 Devianza tra i soggetti: 𝑆𝑆𝑠 = ∑𝑖 ∑𝑗(𝑦̅𝑖. − 𝑦̅.. ) = 𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. ) ; Devianza residua: o o Varianza totale: Varianza tra le prove: 2 𝑛 − 1 𝑔𝑑𝑙 2 ]; 𝑆𝑆𝑊 − 𝑆𝑆𝑆 = [∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 ) ] − [𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. ) (𝑛 − 1)(𝑘 − 1)𝑔𝑑𝑙 o o 𝑀𝑆𝑇 = ∑𝑖 ∑𝑗(𝑦𝑖𝑗 − 𝑦̅.. )2 / 𝑛𝑘 − 1 𝑀𝑆𝐾 = ∑𝑖 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 / 𝑘 − 1 = 𝑛 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 / 𝑘 − 1 Varianza within: 𝑆𝑆𝑊 = ∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 )2 / 𝑘(𝑛 − 1)/ 𝑛 − 𝑘 Varianza tra i soggetti: 𝑆𝑆𝑠 = ∑𝑖 ∑𝑗(𝑦̅𝑖. − 𝑦̅.. )2 /𝑛 − 1 = 𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. )2 /𝑛 − 1 o Varianza residua: 𝑆𝑆𝑊 − 𝑆𝑆𝑆 = [∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 )2 ] − [𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. )2 ]/(𝑛 − 1)(𝑘 − 1) Il vantaggio principale dei disegni entro i soggetti è quello di ridurre la varianza d’errore e di richiedere meno soggetti Gli svantaggi riguardano la necessità di controllare gli effetti di ordine e di sequenza nella presentazione delle prove e la possibilità dell’effetto trascinamento SSt (nk-1) 𝐹= SSk (k-1) SSw(n-k) SSs (n-1) 𝑀𝑆𝑘 𝑀𝑆𝑘 = 𝑀𝑆𝑟𝑒𝑠 𝑀𝑆𝑤 − 𝑀𝑆𝑆 SSres (n-1)(k-1) Assunzioni: o o o o Gli errori 𝜀𝑖𝑗 devono essere indipendenti tra loro Gli errori 𝜀𝑖𝑗 devono essere distribuiti normalmente con una media uguale a 0 La varianza tra le differenze tra tutte le coppie delle misure ripetute deve essere uguale => assunzione di sfericità o circolarità Test di manchley: date 𝑦1 , 𝑦2 , 𝑦3 => 𝜎𝑦21 −𝑦2 = 𝜎𝑦21 −𝑦3 = 𝜎𝑦22 −𝑦3 Se l’assunzione non viene rispettata la F viene corretta con una costante (la epsilon ε di Greenhouse e Geisser) che è uguale a 1 nel caso di assunzione verificata Gli effetti delle prove devono avere una natura additiva