Analisi della varianza
La situazione in teoria
Campione di n*m elementi:
 x 1 1 , , x n 1 


 x 1 2 , , x n 2 




 x 1 m , , x n m 


n: numero di repliche
m: numero di trattamenti
i: indice delle repliche
j: indice dei trattamenti
Le formule
m
n
Media del trattamento:
Xj 
x
i 1
i j
Media totale: X 
n
X
j
j 1
m
m
Devianza dovuta ai trattamenti (TRA):
dev TRA   n * ( X j  X )2
j 1
m
Devianza totale:
s 2TRA 
n
dev   ( x i j  X )2
dev
s 
m *n 1
2
j 1 i 1
Devianza interna ai trattamenti (IN): dev IN  dev  dev TRA 
i: indice delle repliche
j: indice dei trattamenti
dev TRA
m 1
m
m
n
j 1
j 1 i 1
2
dev

(
x

X
)
j
 j  i j
s 2 IN 
dev IN
m *n  m
In generale
L’analisi della varianza è una metodologia per verificare se due o più popolazioni sono
caratterizzate dalla stessa media (o più medie sono estratte dalla stessa popolazione)
In particolare
Nell’analisi della varianza a una via si considera una sola causa di variazione (detta
Gruppo, Fattore, Trattamento, Livello, etc…) nell’esito di ciascun esperimento
Ipotesi Nulla:
Le popolazioni da cui sono stati estratti i campioni hanno tutte la stessa media
μ1= μ2 = … = μm
Statistica del test:
s 2TRA
Rapporto F  2
s IN
Se i campioni possono venir considerati estratti dalla stessa
popolazione (o da popolazioni con media uguale, il Rapporto F
dev’essere circa uguale a 1 e si comporta come una
distribuzione di Fisher con m-1 e n-m gdl
Se il valore calcolato Rapporto F è più grande del valore tabulato Fα(m-1, m-k),
allora si può rifiutare l’ipotesi nulla all’ α % di significatività
N.B. Quando questo si verifica, significa soltanto che almeno uno dei
campioni si comporta in maniera diversa dagli altri.
L’analisi della varianza si può usare quanto sono soddisfatte
le seguenti 3 condizioni:
• Osservazioni indipendenti
• Distribuzione Normale delle popolazioni
• Varianza omogenea per ciascuno dei campioni
1. Osservazioni indipendenti
1. Le osservazioni sperimentali si dicono indipendenti quando
l’esito di ciascuna misura non è influenzato dalla precedente, di
conseguenza tale condizione viene garantita dalla natura dello
schema sperimentale.
2. Distribuzione Normale delle popolazioni
Modello Teorico
… in pratica
Xi j     j  i
i: indice delle repliche
j: indice dei trattamenti
j
xi j  X  ( X j  X )  i
j
Stima del residuo(errore)  i j  x i j  X  ( X j  X )  x i j  X j
Il requisito di normalità impone che la distribuzione dei dati all’interno di ciascun Gruppo,
Fattore, Trattamento, Livello, etc… sia Normale e questo corrisponde a richiedere che la
distribuzione dei residui sia Normale, dal momento che questi ultimi, per definizione sono
calcolati tenendo conto delle medie di ciascun fattore.
Nel caso dell’ANOVA ci sono quindi due opzioni per verificare la normalità:
1) se i gruppi sono pochi (<4) e le repliche sono tante (>20), allora è possibile valutare il
requisito sui dati «tal quali» di ciascun fattore e condurre così il test tante volte quanti sono i
fattori;
2) se i gruppi sono numerosi ed il numero di repliche limitato (questo è il caso generalmente
più frequente nel nostro campo), spesso è più conveniente applicare il test di normalità una
volta sola su tutti i residui assieme.
Test di normalità di Shapiro-Wilk sui residui
3. Varianza omogenea tra i trattamenti
La varianza è una stima della credibilità di una media: dati molto variabili, quindi con
una varianza ampia, a parità del numero di osservazioni hanno medie meno credibili,
proprio perché più variabili (come i loro dati). L’analisi della varianza confronta le
medie, è quindi necessario che la loro credibilità sia simile, soprattutto quando i
campioni hanno dimensioni molto differenti.
Test di omogeneità delle varianze di Levene