Analisi della varianza La situazione in teoria Campione di n*m elementi: x 1 1 , , x n 1 x 1 2 , , x n 2 x 1 m , , x n m n: numero di repliche m: numero di trattamenti i: indice delle repliche j: indice dei trattamenti Le formule m n Media del trattamento: Xj x i 1 i j Media totale: X n X j j 1 m m Devianza dovuta ai trattamenti (TRA): dev TRA n * ( X j X )2 j 1 m Devianza totale: s 2TRA n dev ( x i j X )2 dev s m *n 1 2 j 1 i 1 Devianza interna ai trattamenti (IN): dev IN dev dev TRA i: indice delle repliche j: indice dei trattamenti dev TRA m 1 m m n j 1 j 1 i 1 2 dev ( x X ) j j i j s 2 IN dev IN m *n m In generale L’analisi della varianza è una metodologia per verificare se due o più popolazioni sono caratterizzate dalla stessa media (o più medie sono estratte dalla stessa popolazione) In particolare Nell’analisi della varianza a una via si considera una sola causa di variazione (detta Gruppo, Fattore, Trattamento, Livello, etc…) nell’esito di ciascun esperimento Ipotesi Nulla: Le popolazioni da cui sono stati estratti i campioni hanno tutte la stessa media μ1= μ2 = … = μm Statistica del test: s 2TRA Rapporto F 2 s IN Se i campioni possono venir considerati estratti dalla stessa popolazione (o da popolazioni con media uguale, il Rapporto F dev’essere circa uguale a 1 e si comporta come una distribuzione di Fisher con m-1 e n-m gdl Se il valore calcolato Rapporto F è più grande del valore tabulato Fα(m-1, m-k), allora si può rifiutare l’ipotesi nulla all’ α % di significatività N.B. Quando questo si verifica, significa soltanto che almeno uno dei campioni si comporta in maniera diversa dagli altri. L’analisi della varianza si può usare quanto sono soddisfatte le seguenti 3 condizioni: • Osservazioni indipendenti • Distribuzione Normale delle popolazioni • Varianza omogenea per ciascuno dei campioni 1. Osservazioni indipendenti 1. Le osservazioni sperimentali si dicono indipendenti quando l’esito di ciascuna misura non è influenzato dalla precedente, di conseguenza tale condizione viene garantita dalla natura dello schema sperimentale. 2. Distribuzione Normale delle popolazioni Modello Teorico … in pratica Xi j j i i: indice delle repliche j: indice dei trattamenti j xi j X ( X j X ) i j Stima del residuo(errore) i j x i j X ( X j X ) x i j X j Il requisito di normalità impone che la distribuzione dei dati all’interno di ciascun Gruppo, Fattore, Trattamento, Livello, etc… sia Normale e questo corrisponde a richiedere che la distribuzione dei residui sia Normale, dal momento che questi ultimi, per definizione sono calcolati tenendo conto delle medie di ciascun fattore. Nel caso dell’ANOVA ci sono quindi due opzioni per verificare la normalità: 1) se i gruppi sono pochi (<4) e le repliche sono tante (>20), allora è possibile valutare il requisito sui dati «tal quali» di ciascun fattore e condurre così il test tante volte quanti sono i fattori; 2) se i gruppi sono numerosi ed il numero di repliche limitato (questo è il caso generalmente più frequente nel nostro campo), spesso è più conveniente applicare il test di normalità una volta sola su tutti i residui assieme. Test di normalità di Shapiro-Wilk sui residui 3. Varianza omogenea tra i trattamenti La varianza è una stima della credibilità di una media: dati molto variabili, quindi con una varianza ampia, a parità del numero di osservazioni hanno medie meno credibili, proprio perché più variabili (come i loro dati). L’analisi della varianza confronta le medie, è quindi necessario che la loro credibilità sia simile, soprattutto quando i campioni hanno dimensioni molto differenti. Test di omogeneità delle varianze di Levene