Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare prove sperimentali replicate, anche per studiare l’effetto di una fattore quantitativo su una variabile dipendente, anch’essa quantitativa. In questa situazione, l’impiego di metodiche di confronto multiplo, se non del tutto errato, è comunque da considerare ’improprio’. Infatti, l’inclusione di alcuni particolari livelli della variabile indipendente è frutto solo delle esigenze organizzative, senza alcune interesse particolare per lo sperimentatore, che è invece interessato a capire come cresce/decresce/varia la Y (variabile dipendente nel suo complesso) in funzione della X (variabile indipendente) lla risposta della variabile dipendente nel suo complesso. In sostanza lo sperimentatore è interessato a definire una funzione di risposta e non a confronbtare tra loro la risposta a due particolari livelli di X. Immaginiamo una prova sperimentale organizzata per valutare l’effetto della concimazione azotata sulla produzione del frumento, i cui risultati sono riportati in tabella . L’analisi inizia, come al solito, con l’ANOVA, che porta al seguente risultato: > model <- lm(Yield ~ factor(Block) + factor(Dose), data=dati) > anova(model) Analysis of Variance Table Response: Yield Df Sum Sq Mean Sq F value Pr(>F) factor(Block) 3 28.24 9.41 1.7947 0.2181 factor(Dose) 3 1740.39 580.13 110.5889 2.023e-07 *** Residuals 9 47.21 5.25 --1 2 > Osserviamo che l’effetto del trattamento è significativo e il SEM è pari a 1.15. Prima di proseguire, verifichiamo che non ci sono problemi relativi alle assunzioni parametriche di base e che, quindi, la trasformazione dei dati non è necessaria. N. N. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Tabella 1: prova Dose Produzione di azoto frumento 180.00 53.62 180.00 55.78 180.00 51.55 180.00 52.64 120.00 42.30 120.00 42.88 120.00 44.53 120.00 37.84 60.00 34.46 60.00 34.09 60.00 31.84 60.00 34.51 0.00 25.46 0.00 26.47 0.00 28.35 0.00 20.22 Da questo momento in avanti, l’analisi non prosegue con un test di confronto multiplo (infatti quale senso avrebbe confrontare tra loro le risposte a N0, N60, N120 e cosı̀ via?), ma con una analisi di regressione lineare, dalla quale otteniamo le stime: > model2 <- lm(Yield ~ Dose, data=dati) > summary(model2) Call: lm(formula = Yield ~ Dose, data = dati) Residuals: Min 1Q Median 3Q Max 3 -5.3427 -0.8948 0.3903 1.1913 3.7633 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 24.586750 1.041575 23.61 1.12e-12 *** Dose 0.154967 0.009279 16.70 1.22e-10 *** --Residual standard error: 2.49 on 14 degrees of freedom Multiple R-squared: 0.9522, Adjusted R-squared: 0.9488 F-statistic: 278.9 on 1 and 14 DF, p-value: 1.219e-10 In entrambi i casi, le stime sono buone, con bassi errori standard e significativamente diverse da zero (test di t). Figura 1: Risultati dell’analisi di regressione lineare 4 L’analisi di regressione appena eseguita (Fig. 1) mostra che una parte dell’effetto del trattamento (ma solo una parte) è attribuibile alla dipendenza lineare della Y (produzione) sulla X (dose). In effetti, se osserviamo l’ANOVA della regressione vediamo che: > model.regr anova(model.regr) Analysis of Variance Table Response: yield Df Sum Sq Mean Sq F value Pr(>F) dose 1 1729.50 1729.50 278.73 1.225e-10 *** Residuals 14 86.87 6.20 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 > Se dal residuo della regressione togliamo l’effetto del blocco (che la regressione non considera esplicitamente) otteniamo 58.63 (86.87 - 28.24), con 11 gradi di libertà), che rappresenta l’errore della regressione. Possiamo notare che l’errore della regressione è più alto di quello dell’analisi della varianza, dato che il residuo dell’ANOVA contiene solo la misura dello scostamento di ogni dato rispetto alla media del suo gruppo, che si può considerare ’errore puro’, mentre il residuo della regressione, oltre all’errore puro, contiene anche una componente aggiuntiva detta appunto ’mancanza di adattamento’ e legata al fatto che la regressione lineare è solo un’approssimazione della reale relazione biologica tra la concimazione e il suo effetto sulla produzione del frumento. Se infatti la regressione fosse perfetta, le medie osservate giacerebbero sulla retta di regressione e la devianza spiegata dalla regressione sarebbe identica a quella spiegata dall’ANOVA. La quota di devianza attribuibile alla mancanza d’adattamento può essere quindi ottenuta per differenza tra il residuo della regressione e il residuo dell’ANOVA (58.63 - 47.21 = 11.42). Questa devianza ha un numero di gradi di libertà pari ancora alla differenza tra quelli del residuo della regressione e quelli del residuo dell’ANOVA (11 - 9 = 2). Una volta calcolata la varianza legata alla mancanza d’adattamento (11.42/2 = 5.71), questa può essere confrontata con l’errore puro (appunto dato dalla varianza del residuo dell’ANOVA) tramite test F (5.71/5.25 = 1.09); dato che il test non è significativo, non vi è mancanza d’ adattamento e la regressione fornisce una descrizione adeguata dei dati sperimentali. In caso contrario (test F significativo) il modello non è adeguato e non rappresenta quindi i dati sperimentali. Inoltre la devianza residua della regressione è una stima distorta della devianza d’ errore, perché contiene sia la 5 componente random (errore sperimentale) che quella sistematica (deviazione dalla regressione). In conclusione, organizzare prove replicate anche in caso di analisi di regressione è positivo, in quanto ci consente un’ulteriore test per verificare la bontà dell’adattamento, cioè il test F per la mancanza d’adattamento. Da un punto di vista pratico, è sufficiente eseguire separatamente l’ANOVA per calcolare l’errore sperimentale puro e poi l’analisi di regressione, ottenendo per differenza la quota di devianza attribuibile alla mancanza d’adattamento, e la relativa varianza, da confrontare poi con la varianza dell’errore puro nell’ANOVA