anova - AppuntiUniTo

annuncio pubblicitario
Analisi della varianza (ANOVA)
Tecnica di analisi che consente di verificare ipotesi relative alle medie di due o più popolazioni. Questo
modello di analisi dei dati risulta adeguato quando le variabili dipendenti sono cardinali (scala di intervalli o
rapporti equivalenti) e quando la variabile indipendente è almeno categoriale



Una sola variabile dipendente cardinale + Una sola variabile indipendente categoriale
=> analisi della varianza uni variata a una via
Una sola variabile dipendente cardinale + K variabili indipendenti categoriali
=> analisi della varianza univariata a più vie
M variabili dipendenti cardinali + 1 o K variabili indipendenti categoriali
=> analisi della varianza multivariata (MANOVA)
La tecnica di analisi dei dati pensata per analizzare dati sperimentali è l’analisi della varianza o ANOVA. La
varianza fa parte della famiglia di operatori statistici che misurano la dispersione dei valori assunti da una
variabile cardinale sulla base degli scarti con un valore centrale.
ANOVA NEI DISEGNI TRA I SOGGETTI AD UN SOLO FATTORE
A ogni trattamento (o condizione sperimentale) corrisponde un diverso gruppo di soggetti.
Il punteggio 𝑦𝑖𝑗 di un soggetto j nel gruppo i:
𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗
o
o
o
o
𝑦𝑖𝑗 = punteggio del generico soggetto j appartenente al generico gruppo i
𝜇 = media generale dei punteggi sul campione totale
𝛼𝑖 = effetto dovuto al trattamento (livello i della variabile indipendente), costante all’interno del
trattamento
𝜀𝑖𝑗 = componente residua, di errore casuale specifica per ciascun soggetto
Lavorando sui dati campionari e non sulla popolazione abbiamo:
𝑦𝑖𝑗 = 𝑦̅.. + 𝑎𝑖 + 𝑒𝑖𝑗 => 𝑦𝑖𝑗 = 𝑦̅.. + (𝑦̅𝑖. − 𝑦̅.. ) + (𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )
 𝜇̂ = 𝑦̅.. = media generale del campione
 𝛼̂𝑖 = 𝑎𝑖 = (𝑦̅𝑖. − 𝑦̅.. ) = differenza tra le media dei gruppi e la media generale del campione,
esprime il contributo del trattamento i alla determinazione del punteggio individuale => effetto
della condizione sperimentale
 𝜀𝑖𝑗 = 𝑒𝑖𝑗 = (𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 ) = differenza tra il punteggio del soggetto e la media del gruppo in cui è
inserito, riflette la variabilità individuale che prescinde dai trattamenti (variabilità d’errore)
Scomposizione della devianza totale
Devianza: somma dei quadrati degli scarti di ogni punteggio dalla media
Lo scarto tra il punteggio individuale e la media generale è prodotto da:
𝑦𝑖𝑗 − 𝑦̅.. = (𝑦̅𝑖. − 𝑦̅.. ) + (𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )
Se ragioniamo su tutti gli individui e vogliamo avere una stima delle variazioni possiamo applicare la
medesima scomposizione alle devianze (numeratore della varianza: scostamento al quadrato di ciascun
valore dal valore medio sommati tra loro):
∑ ∑ ( 𝑦𝑖𝑗 − 𝑦̅.. )2 = ∑ ∑ ( 𝑦̅𝑖. − 𝑦̅.. )2 + ∑ ∑ ( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )2
𝑖
𝑗
𝑖
𝑗
𝑖
𝑗
∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅.. )2 => Devianza totale 𝑆𝑆𝑇
∑𝑖 ∑𝑗( 𝑦̅𝑖. − 𝑦̅.. )2
=> Devianza between groups 𝑆𝑆𝐵
2
∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )
=> Devianza within groups 𝑆𝑆𝑊
 𝑆𝑆𝑇 = devianza totale = scarti tra i singoli punteggi e la media generale elevati al quadrato
 𝑆𝑆𝐵 = devianza tra gruppi (between) = scarto tra i punteggi medi di gruppo e la media generale =>
variabilità tra i diversi gruppi. EFFETTO DELLA CONDIZIONE SPERIEMENTALE
 𝑆𝑆𝑊 = devianza entro i gruppi (within) = scarto tra i punteggi di ogni soggetto e la medi del gruppo
corrispondente => variabilità dei soggetti all’interno di ogni gruppo. VARAIIBLITA’ DI ERRORE
SSt
SSb
=> effetto della condizione sperimentale
SSw
=> variabilità di errore
Per ognuna delle tre componenti della variabilità è possibile definire un opportuno numero di gradi di
libertà:
Devianza
𝑆𝑆𝑇 = ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅.. )2; 𝑛 − 1 𝑔𝑑𝑙
𝑆𝑆𝐵 = ∑𝑖 ∑𝑗( 𝑦̅𝑖. − 𝑦̅.. )2; 𝑘 − 1 𝑔𝑑𝑙
𝑆𝑆𝑊 = ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )2 ; 𝑛 − 𝑘 𝑔𝑑𝑙
Dividendo le devianze per i relativi gradi di libertà otteniamo le varianze:



varianza totale = devianza totale/N-1 (1=vincolo della media generale)
varianza between = devianza between/I-1 (numero di gruppi –1, nuovamente 1 è il vincolo della
media generale)
varianza within = devianza within/N-I (vincoli delle medie di gruppo)
Varianza (quadrati medi)
𝑀𝑆𝑇 = 𝑆𝑆𝑇 /(𝑛 − 1) => ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅.. )2 / (𝑛 − 1)
𝑀𝑆𝐵 = 𝑆𝑆𝐵 / (𝑘 − 1) => ∑𝑖 ∑𝑗( 𝑦̅𝑖. − 𝑦̅.. )2 / (𝑘 − 1)
𝑀𝑆𝑊 = 𝑆𝑆𝑊 /(𝑛 − 𝑘) => ∑𝑖 ∑𝑗( 𝑦𝑖𝑗 − 𝑦̅𝑖𝑗 )2 /(𝑛 − 𝑘)
NB: 𝑆𝑆𝑇 = 𝑆𝑆𝐵 + 𝑆𝑆𝑊 => 𝑛 − 1 = (𝑘 − 1) + (𝑛 − 𝑘 )
Dove n = numero totale dei soggetti; k = numero dei gruppi
Per le varianze però non vale la scomposizione che vale per le devianze e i gradi di libertà =
𝑀𝑆𝑇 ≠ 𝑀𝑆𝐵 + 𝑀𝑆𝑊
IL RAPPORTO F => il rapporto tra le varianze 𝑀𝑆𝐵 /𝑀𝑆𝑊 segue la distribuzione F
𝐹=
𝑣𝑎𝑟 𝐵
𝑀𝑆𝐵
=
𝑣𝑎𝑟 𝑊
𝑀𝑆𝑊
L’ipotesi nulla del test è che le medie dei gruppi siano uguali tra loro e quindi uguali alla media generale
della popolazione => ciò significa che il trattamento (l’assegnazione dei soggetti alle diverse condizioni
sperimentali) non sortisce alcun esito. Se il valore empirico del test è invece significativamente diverso da
quello critico l’ipotesi nulla può essere rifiutata => almeno una media di gruppo è significativamente diversa
dalle altre e dalla media generale e ciò significa che i gruppi appartengono almeno a due diverse
popolazioni (il trattamento ha sortito esito).
=> Il test F esamina le seguenti ipotesi:
o
o
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
Le popolazioni di provenienza dei campioni hanno medie uguali sulla variabile dipendente
𝐻1 : 𝑎𝑙𝑚𝑒𝑛𝑜 𝑢𝑛𝑎 𝑑𝑒𝑙𝑙𝑒 𝜇 𝑑𝑖𝑣𝑒𝑟𝑠𝑒
Almeno due campioni provengono da popolazioni con medie tra loro diverse
Per come è costruito il test F numeratore e denominatore possono essere considerati due stime parallele
ma indipendenti dalla varianza totale della popolazione
Il numeratore (𝑀𝑆𝐵 ) esprima la variabilità dei punteggi imputabile alla manipolazione della variabile
indipendente, calcolata assumendo che non vi siano differenze di punteggi all’interno di ciascun gruppo
Il denominatore (𝑀𝑆𝑊 ) esprime la variabilità dei punteggi che prescinde dalla manipolazione della variabile
e che dipende esclusivamente dai soggetti (errore casuale)
Rifiuto 𝐻0 (il trattamento ha prodotto effetti) se 𝑀𝑆𝐵 > 𝑀𝑆𝑊 ; 𝐹 > 1
Accetto 𝐻0 (il trattamento non ha prodotto effetti) se 𝑀𝑆𝐵 ≤ 𝑀𝑆𝑊 ; 𝐹 ≤ 1
Il test che viene utilizzato per confrontare tra loro le medie di due popolazioni (m1 e m2) e stabilire se le
differenze che rilevo sono significative oppure no è il T-Test (T di Student).


L’ipotesi nulla (H0) del T-Test è che le differenze tra le due medie NON siano statisticamente
significative, e che quindi m1=m2
L’ipotesi alternativa (H1) del T-Test è che le differenze tra le due medie siano statisticamente
significative, e che quindi m1≠m2
Si stabilisce una soglia di a (solitamente pari a 0,05 oppure 0,01) e in base a questa vengono individuate
nella distribuzione dei valori della statistica T due regioni, nominate regione di rifiuto (le code) e regione di
accettazione. Se i valori della statistica cadono nella zona di rifiuto, si tratta di valori che sarebbe molto
improbabile ottenere (rispettivamente nel 5% e nell’1% dei casi) se l’ipotesi nulla (H0) fosse vera. Quindi
posso rifiutare H0 e accettare di conseguenza l’ipotesi alternativa H1.
Quando le popolazioni sono più di due, il T-Test non è più adeguato perché consente di confrontare tra loro
solo una coppia di medie alla volta. Quindi, con 3 gruppi, dovremmo condurre 3 T-Test (AvsB; BvsC; CvsA).
Se stabilisco per ciascuno dei tre test una soglia di a pari a 0,05 (accetto di commettere un errore del I tipo
nel 5% dei casi in ciascun test). Ma se assumiamo che i tre test siano indipendenti, la probabilità di
commettere almeno un errore del I tipo sarà: 1-0,95G, dove G indica il numero dei gruppi e 0,95 è la soglia
di a. Se conduco tre T-test separati, assegnando a ciascuno una soglia di a pari a 0,05, accetto in realtà di
commettere un errore del primo tipo non più nel 5% dei casi ma nel 14,3%, un livello decisamente alto.
Per questo, in luogo del T-Test, quando le medie da confrontare sono >2 utilizzo il Test F.


L’ipotesi nulla (H0) del Test F è che le differenze tra le medie NON siano statisticamente
significative, e che quindi m1=m2=m3
L’ipotesi alternativa (H1) del Test F è che almeno una delle differenze tra le medie sia
statisticamente significativa.
Se il numero dei quali si confrontano le medie è uguale a 2 (k=2) è indifferente usare la t di Student o il
rapporto F (𝑡 = √𝐹; 𝐹 = 𝑡 2 )
Se k>2 usiamo il rapporto F perché i molteplici t test non sono indipendenti provocando un aumento del
livello reale di α; si ha una diminuzione della potenza del test; la varianze d’errore tende a essere più levata
in t
Assunti per poter applicare l’analisi della varianza:
o
o
La variabile dipendente deve essere cardinale; quella indipendente categoriale
Gli errori (𝜀𝑖𝑗 ) devono seguire la distribuzione normale ed avere μ=0; devono inoltre avere valore
atteso pari a 0 𝐸(𝜀𝑖𝑗 ) = 0
o
o
o
La varianza degli errori (𝜎𝜀 ) deve essere uguale in ogni gruppo 𝑣𝑎𝑟(𝜀𝑖𝑗 ) = 𝑐𝑜𝑠𝑡 => condizione di
omoschedasticità(= varianze di due popolazioni sono uguali) [la F è robusta rispetto a questa
assunzione, è valida anche in presenza di eteroschedasticità (varianze di due popolazioni sono
diverse)]
Gli errori (𝜀𝑖𝑗 ) devono essere indipendenti, non correlati tra loro e con la parte sistematica del
modello: 𝑐𝑜𝑣 (𝑒𝑖1 ; 𝑒𝑖2 ) = 0 𝑐𝑜𝑣(𝑒𝑖𝑗 ; 𝑎𝑖𝑗 ) = 0. L’indipendenza viene valutata con i coefficiente di
correlazione interclasse (IIC)
Gli effetti hanno una natura additiva: la variabile sperimentale aggiunge qualcosa alla condizione di
base e lo fa in maniera identica per tutti i soggetti
Confronto tra le medie dei gruppi
Quando la variabile indipendente presenta più di due livelli o modalità, la significatività della statistica F ci
indica soltanto se almeno una delle differenze tra le medie è significativa
Si possono allora effettuare simultaneamente tutti i possibili confronti di coppia, il cui numero complessivo
(q) è pari a
𝑘(𝑘−1)
2
Per la proprietà della somma delle probabilità, la probabilità che almeno una dei q confronti tra coppie di
medie sia significativo è 𝑞 ∗ 𝛼. Per ovviare a questo problema occorre adottare una correzione di α (ad
esempio 𝛼/𝑞)


Confronti post hoc: ogni media viene confrontata con tutte le altre
Controllo pianificato: si effettuano solo i confronti che appaiono più rilevanti ai fini dell’ipotesi di
ricerca
Effect size: accanto alla significatività statistica dell’effetto causale occorre valutare anche la forza di tale
effetto. Si utilizza un operatore di determinazione (eta quadro 𝜂 2 ) che quantifica la porzione di variabilità
della variabile dipendente spiegata dalla variabile indipendente. 𝜂 2 = 𝑆𝑆𝐵 /𝑆𝑆𝑇
La statistica F è fortemente dipendente dall’ampiezza del campione (grandi campioni => risultano
significative anche piccole differenze tra gruppi. Campioni piccoli => differenze rilevanti tra medie possono
non raggiungere la significatività statistica)
ANOVA BETWEEN GROUPS: DISEGNI FATTORIALI
Disegni anova fattoriali => presenza di due o più variabili indipendenti (fattori)
Vantaggi:



I disegni fattoriali consentono lo studio dell’interazione (effetto congiunto delle due VI sulla VD)
I disegni fattoriali aumentano la potenza del test (probabilità di rifiutare l’ipotesi nulla quando è
falsa), consentono di ridurre la varianza d’errore
I disegni fattoriali consentono una maggiore economia nel numero dei soggetti da esaminare
mantenendo la stessa potenza del test
Svantaggi:


Maggiori difficoltà di realizzazione pratica dell’esperimento
Validità interna più fragile
Nei disegni fattoriali abbiamo due tipi di effetti: l’effetto principale (effetto medio di una variabile
indipendente sulla variabile dipendente, indipendentemente dai valori delle altre variabili indipendenti =>
differenza tra medie) + interazione (se l’effetto di una VI sulla VD non è lo stesso per tutti i levelli delle altre
VI => differenze tra le medie nelle diverse combinazioni delle condizioni sperimentali)
a) 𝐻0 : 𝜇.1 = 𝜇.2 = ⋯ = 𝜇.𝑗
𝐻1 : [(𝜇.1 ≠ 𝜇.2 )𝑜 (𝜇.2 ≠ 𝜇.𝑗 )]
b) 𝐻0 : 𝜇1. = 𝜇2. = ⋯ = 𝜇𝑖.
𝐻1 : [(𝜇1. ≠ 𝜇2. )𝑜 (𝜇2. ≠ 𝜇𝑖. )]
a*b) 𝐻0 : (𝜇𝐴 − 𝜇𝐵 ) 𝑇1 = 𝜇𝐴 − 𝜇𝐵 ) 𝑇2 = 𝜇𝐴 − 𝜇𝐵 ) 𝑇3 𝐻1 : 𝑎𝑙𝑚𝑒𝑛𝑜 𝑢𝑛𝑎 𝑡𝑟𝑎 𝑙𝑒 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑒 𝑒 𝑑𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎
quando guardiamo graficamente la combinazione dei valori di due variabili, se questa combinazione da
origine a due linee che si sovrappongono o che sono parallele allora l’interazione tenderà a non essere
presenta (non è significativa). Se le due linee non sono parallele allora potrebbe esserci un’interazione tra
le variabili.
Disegni fattoriali tra i soggetti => tutti i soggetti vengono assegnati ad ognuna delle singole celle, quindi
ogni soggetto è esposto solamente ad una particolare combinazione delle condizioni sperimentali
Punteggio 𝑦𝑖𝑗𝑘 di un soggetto k contenuti nella cella ij
𝑦𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + ϕ𝑖𝑗 + 𝜀𝑖𝑗𝑘 => 𝑦𝑖𝑗𝑘 = 𝑦̅ + 𝑎𝑖 + 𝑏𝑗 + f𝑖𝑗 + 𝑒𝑖𝑗𝑘
o
o
o
o
o
o
𝑦𝑖𝑗𝑘 : punteggio del generico soggetto k ocntenuto nella cella ij
𝜇: media generale
𝛼𝑖 = 𝜇𝑖.. − 𝜇… : esprime l’effetto principale del primo fattore
𝛽𝑗 = 𝜇.𝑗. − 𝜇…: esprime l’effetto principale del secondo fattore
ϕ𝑖𝑗 = 𝜇𝑖𝑗. − 𝜇… − (𝛼𝑖 + 𝛽𝑗 ): esprime l’effetto di interazione, quella parte della media di una cella ij
che non dipende dall’errore e che però non è spigata né dalla media generale né dagli effetti
principali
𝜀𝑖𝑗𝑘 : rappresenta il termine marginale (errore)
 𝜇̂ = 𝑦̅...
 𝛼̂𝑖 = 𝑎𝑖 = (𝑦̅𝑖.. − 𝑦̅… )
 𝛽̂𝑗 = 𝑏𝑗 = (𝑦̅.𝑗. − 𝑦̅… )
 ϕ𝑖𝑗 = f𝑖𝑗 = 𝜇𝑖𝑗. − 𝜇… − (𝛼𝑖 + 𝛽𝑗 ) = 𝑦̅𝑖𝑗. − 𝑦̅… − [(𝑦̅𝑖.. − 𝑦̅… ) + (𝑦̅.𝑗. − 𝑦̅… )] =
𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅…
 𝜀𝑖𝑗 = 𝑒𝑖𝑗 = (𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. )
𝑦𝑖𝑗𝑘 = 𝑦̅... + (𝑦̅𝑖.. − 𝑦̅… ) + (𝑦̅.𝑗. − 𝑦̅… ) + (𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅… ) + (𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. )
La deviazione del punteggio 𝑦𝑖𝑗𝑘 può essere così espressa:
𝑦𝑖𝑗𝑘 − 𝑦̅... = (𝑦̅𝑖.. − 𝑦̅… ) + (𝑦̅.𝑗. − 𝑦̅… ) + (𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅… ) + (𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. )
Devianza totale => 𝑆𝑆𝑇 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦𝑖𝑗𝑘 − 𝑦̅... )2 ; 𝑛 − 1 𝑔𝑑𝑙
Devianza between => 𝑆𝑆𝐵 =
Devianza effetto principale di 𝐹1 = 𝑆𝑆𝐹1 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦̅𝑖.. − 𝑦̅… )2 ; 𝑘1 − 1 𝑔𝑑𝑙
Devianza effetto principale di 𝐹2 = 𝑆𝑆𝐹2 = ∑𝑖 ∑𝑗 ∑𝑘(𝑦̅.𝑗. − 𝑦̅… )2 ; 𝑘2 − 1 𝑔𝑑𝑙
Devianza dell’interazione tra 𝐹1 e 𝐹2 = 𝑆𝑆𝐹1∗𝐹2 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦̅𝑖𝑗. − 𝑦̅𝑖.. − 𝑦̅.𝑗. + 𝑦̅… )2 ; (𝑘1 − 1)(𝑘2 −
1) 𝑔𝑑𝑙
Devianza residua => 𝑆𝑆𝑊 = ∑𝑖 ∑𝑗 ∑𝑘( 𝑦𝑖𝑗𝑘 − 𝑦̅𝑖𝑗. )2 ; 𝑛 − 𝑘1 𝑘2 gdl
Dividendo le devianze per i rispettivi gradi di libertà otteniamo le varianze. Il rapporto tra ciascuna delle tra
varianze between e la varianze within produrrà altrettante statistiche F, che consentiranno di esaminare le
ipotesi sulla significatività statistica dei due effetti principale e dell’effetto di interazione
 𝐹𝐹1 = 𝑀𝑆𝐹1 / 𝑀𝑆𝑤
 𝐹𝐹2 = 𝑀𝑆𝐹2 / 𝑀𝑆𝑤
 𝐹𝐹1∗𝐹" = 𝑀𝑆𝐹1∗𝐹2 / 𝑀𝑆𝑤
𝑘1 = 𝑙𝑖𝑣𝑒𝑙𝑙𝑖 𝑑𝑖 𝐹1
𝑘2 = 𝑙𝑖𝑣𝑒𝑙𝑙𝑖 𝑑𝑖 𝐹2
SSt (n-1)
SSw (n-k1k2)
SSb
SSf1 (k1-1)
SSf2 (k2-1)
SSf1*f2 (k11)(k2-1)
Gli effetti semplici consistono nell’esame dei valori della VD associati ai valori di una VI, quando i valori
dell’altra VI sono mantenuti costanti.
=> si effettuano tanti disegni mono fattoriali quanti sono i livelli della VI che viene mantenuta costante
Gli effetti semplici consentono di evidenziare l’effetto di modulazione che una variabile indipendente ha
sulla relazione tra un’altra variabile indipendente e la variabile dipendente
Per avere una prima idea dell’ampiezza degli effetti principali e di interazione tra i fattori, è opportuno
leggere la tabella delle medie di cella, ed il relativo grafico.
In generale, linee che si sovrappongono oppure sono parallele tra loro indicano l’assenza di interazione tra
i fattori (ovvero, l’interazione non è significativa ed ha un effect size molto debole). Se invece le linee non
sono parallele tra loro, allora potrebbe esserci un’interazione tra i fattori.
Il fattore A è significativo, mentre B e l’interazione non sono significativi.
Il fattore B è significativo, mentre A e l’interazione non sono significativi.
L’interazione è significativa. Si tratta di una interazione antagonista. I
due effetti principali di A e B non sono significativi.
Gli effetti principali di A e B sono significativi, mentre non esiste
interazione tra gli effetti dei due fattori.
L’effetto principale di A e l’interazione sono significativi. B non è
significativo.
L’effetto principale di B e l’interazione sono significativi. A non è
significativo.
Gli effetti principali di A e di B sono significativi. Anche l’interazione e
significativa.
Non sono significativi ne gli effetti principali né l’interazione.
ANALISI DELLA VARIANZA UNIVARIATA: DISEGNI ENTRO I SOGGETTI AD UN SOLO FATTORE
Disegni within subjects: si utilizzano gli stessi soggetti nelle diverse condizioni sperimentali (nei livelli della
variabile indipendente). Non si parla di gruppo di controllo e sperimentale, ma di trattamenti diversi a cui i
soggetti sono sottoposti.
Le misure sono rilevate più volte sugli stessi soggetti e gli effetti del trattamento dipendono dalle
differenze osservate tra le prove di ciascun soggetto
=> le medie marginali di riga (𝑦̅𝑖. ) rappresentano il punteggio medio di ogni soggetto rispetto alle k prove.
Queste medie consentono di isolare dalla variazione totale dei punteggi la parte che dipende dalle
differenze individuali
=> le medie marginali di colonna (𝑦̅.𝑗 ) rappresentano il punteggio medio per ognuna delle k prova,
attraverso tutti gli n soggetti
Scomposizione delle devianza totale:
o
o
𝑆𝑆𝐵 = 𝑆𝑆𝐾 => nei disegni entro i soggetti, alla devianza tra i gruppi corrisponde la devianza tra le
prove, dovuta agli effetti del trattamento. La devianza entro le prove viene scomposta in due parti
differenti:
𝑆𝑆𝑆 => le differenze individuali tra i soggetti infatti non costituiscono variabilità d’errore perché
rimangono costanti da una prova all’altra, queste differenze vanno calcolate e vanno a costituire la
devianza tra i soggetti.
𝑆𝑆𝑟𝑒𝑠 => La devianza d’errore è invece prevalentemente dovuta alle fluttuazioni casuali nelle
risposte dei soggetti da una condizione sperimentale all’altra (risulta ridotta rispetto alla varianza
d’errore nei disegni tra i soggetti).

Devianza totale:

Devianza tra le prove: 𝑆𝑆𝐾 = ∑𝑖 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 = 𝑛 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 ;
Devianza within:
𝑆𝑆𝑊 = ∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 )2 ; 𝑘(𝑛 − 1)


𝑆𝑆𝑇 = ∑𝑖 ∑𝑗(𝑦𝑖𝑗 − 𝑦̅.. )2 ;
𝑛𝑘 − 1 𝑔𝑑𝑙
2
𝑘 − 1 𝑔𝑑𝑙
𝑛 − 𝑘 𝑔𝑑𝑙
2
Devianza tra i soggetti: 𝑆𝑆𝑠 = ∑𝑖 ∑𝑗(𝑦̅𝑖. − 𝑦̅.. ) = 𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. ) ;

Devianza residua:
o
o
Varianza totale:
Varianza tra le prove:
2
𝑛 − 1 𝑔𝑑𝑙
2 ];
𝑆𝑆𝑊 − 𝑆𝑆𝑆 = [∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 ) ] − [𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. )
(𝑛 − 1)(𝑘 − 1)𝑔𝑑𝑙
o
o
𝑀𝑆𝑇 = ∑𝑖 ∑𝑗(𝑦𝑖𝑗 − 𝑦̅.. )2 / 𝑛𝑘 − 1
𝑀𝑆𝐾 = ∑𝑖 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 / 𝑘 − 1 = 𝑛 ∑𝑗(𝑦̅.𝑗 − 𝑦̅.. )2 / 𝑘 − 1
Varianza within:
𝑆𝑆𝑊 = ∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 )2 / 𝑘(𝑛 − 1)/ 𝑛 − 𝑘
Varianza tra i soggetti: 𝑆𝑆𝑠 = ∑𝑖 ∑𝑗(𝑦̅𝑖. − 𝑦̅.. )2 /𝑛 − 1 = 𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. )2 /𝑛 − 1
o
Varianza residua:
𝑆𝑆𝑊 − 𝑆𝑆𝑆 = [∑𝑖 ∑𝑗(𝑦̅𝑖𝑗 − 𝑦̅.𝑗 )2 ] − [𝑘 ∑𝑖(𝑦̅𝑖. − 𝑦̅.. )2 ]/(𝑛 − 1)(𝑘 − 1)
Il vantaggio principale dei disegni entro i soggetti è quello di ridurre la varianza d’errore e di richiedere
meno soggetti
Gli svantaggi riguardano la necessità di controllare gli effetti di ordine e di sequenza nella presentazione
delle prove e la possibilità dell’effetto trascinamento
SSt (nk-1)
𝐹=
SSk (k-1)
SSw(n-k)
SSs (n-1)
𝑀𝑆𝑘
𝑀𝑆𝑘
=
𝑀𝑆𝑟𝑒𝑠
𝑀𝑆𝑤 − 𝑀𝑆𝑆
SSres
(n-1)(k-1)
Assunzioni:
o
o
o
o
Gli errori 𝜀𝑖𝑗 devono essere indipendenti tra loro
Gli errori 𝜀𝑖𝑗 devono essere distribuiti normalmente con una media uguale a 0
La varianza tra le differenze tra tutte le coppie delle misure ripetute deve essere uguale =>
assunzione di sfericità o circolarità
Test di manchley: date 𝑦1 , 𝑦2 , 𝑦3 => 𝜎𝑦21 −𝑦2 = 𝜎𝑦21 −𝑦3 = 𝜎𝑦22 −𝑦3
Se l’assunzione non viene rispettata la F viene corretta con una costante (la epsilon ε di
Greenhouse e Geisser) che è uguale a 1 nel caso di assunzione verificata
Gli effetti delle prove devono avere una natura additiva
Scarica