Il modello lineare e l’analisi della varianza con Rocco Micciolo Università di Trento http://hostingwin.unitn.it/micciolo/ • ANOVA a 1 via – La scomposizione della devianza • ANOVA a 1 via e modello lineare – Le variabili “dummy” • L’analisi della covarianza (ANCOVA) • ANOVA in un disegno fattoriale bilanciato • ANOVA in un disegno fattoriale sbilanciato – Le “somme dei quadrati” di tipo I, II (e III ???) • ANOVA in un disegno “within” (a blocchi, con misure ripetute) – Effetti “fissi” ed effetti “random” – La “sfericità” • ANOVA in un disegno misto – Effetti “crossed” ed effetti “nested” – Fattori “between” e fattori “within” – La scomposizione della devianza e i denominatori dei test F Un esperimento è uno studio in cui le variabili in grado di determinare una data risposta sono manipolate dal ricercatore ed i dati sono generati applicando differenti livelli di tali variabili alle unità sperimentali secondo appropriati disegni sperimentali. E. Marubini L’idea che sta alla base di un esperimento è che esistano unità che possono essere soggette a differenti trattamenti. Un trattamento è un insieme di operazioni ripetibili che può essere applicato alle unità sperimentali. L’esperimento consiste quindi di una definizione di un insieme di unità e di trattamenti e della assegnazione di un dato trattamento a ciascuna delle unità che sarà usata nell’esperimento. E. Marubini Condizioni che un esperimento deve soddisfare 1. Le replicazioni dell’esperimento sono eseguite in condizioni simili così che esso fornisca una misura interna di variabilità. 2. Le replicazioni sono mutuamente indipendenti. 3. La variabilità incontrollata nelle replicazioni è soggetta alla attribuzione casuale (randomizzazione). E. Marubini Il disegno dell’esperimento consiste fondamentalmente nel realizzare la raccolta dei dati in modo tale che il “rumore di fondo” sia ridotto al minimo e che l’informazione pertinente sia ottenuta con precisione sufficiente per saggiare, in modo appropriato, l’ipotesi di interesse sperimentale. Per perseguire un determinato obiettivo si possono realizzare più disegni sperimentali che si differenziano per ammontare di informazione raccolta e per costi di attivazione. E. Marubini In una situazione paradigmatica il ricercatore deve far leva sulla sua profonda conoscenza dell’argomento per determinare 1. la variabile dipendente (risposta) da misurare e la procedura di misura più appropriata; 2. le variabili indipendenti (trattamenti) ed il loro intervallo di variazione di cui si vuole misurare l’effetto; 3. le variabili di disturbo controllabili. E. Marubini ASSUNTO DI BASE (ESSENZIALE) La risposta evocata quando un trattamento è applicato ad una data unità sperimentale può scriversi come somma di due quantità (modello additivo): 1. quantità che dipende soltanto dalla unità sperimentale; 2. quantità che dipende dal trattamento applicato. Punti essenziali di questo assunto sono: a. gli effetti dei trattamenti sono costanti (quindi la differenza tra due trattamenti può essere stimata dalla differenza tra le medie); b. la risposta di una unità sperimentale non è influenzata dal trattamento applicato ad altre unità sperimentali. E. Marubini ANOVA ANalysis Of VAriance L’analisi della varianza è essenzialmente una procedura aritmetica che consente la partizione di una devianza totale in componenti associate a note sorgenti di variabilità. Pertanto la tabella della ANOVA è sempre valida come descrizione dei dati e come sommario delle loro proprietà. E. Marubini Quando l’ANOVA viene usata come metodo inferenziale, per trarre determinate conclusioni riguardo agli “universi” da cui i dati provengono, è necessario che siano soddisfatti determinati assunti relativi sia la metodo di campionamento adottato, sia ai modelli matematici espressi in funzione dei parametri ignoti dei quali si vogliono eseguire valide stime. Per poter adeguatamente formulare questi modelli è innanzitutto necessario definire le classi di problemi che l’ANOVA è in grado di affrontare e di risolvere. E. Marubini PRIMA CLASSE Include tutti i problemi usuali che implicano stima ed inferenza relative all’esistenza di differenze tra medie campionarie di trattamenti, di varietà, ecc. È questa la classe di problemi che si incontra, ad esempio, in biologia. L’attenzione dl biologo è spesso rivolta, infatti, agli effetti sistematici dei trattamenti. E. Marubini SECONDA CLASSE Include tutti i problemi usuali che comportano stima ed inferenza relative all’esistenza di componenti di varianza ascrivibili a deviazioni casuali delle caratteristiche di una unità sperimentale appartenente ad un determinato gruppo dal valor medio di dette caratteristiche nel corrispondente ”universo”. È a questa classe che appartengono i problemi che vengono affrontati nel controllo della qualità. Al responsabile del controllo, ad esempio, non interessa porre in evidenza se tra il tecnico A ed il tecnico B esista una differenza, ma stimare una varianza “tra tecnici” che gli consenta di controllare l’affidabilità delle risposte. E. Marubini TERZA CLASSE Include tutti i problemi in cui per alcune sorgenti di variazione si è interessati solo all’insieme posto sotto studio (e ci si riporta alla prima classe), mentre per altre si desidera poter fare una inferenza che interessi il vasto insieme da cui si è eseguito il campionamento (e ci si riporta alla seconda classe). Questa classe appare pertanto accessoria, mentre le prime due sono fondamentali. E. Marubini Nei problemi della prima classe i parametri in gioco sono medie e l’interesse è concentrato su particolari confronti o relazioni di tali medie in funzione della varianza “entro”, mentre nei problemi della seconda classe i parametri in gioco sono varianze e assumono primaria importanza le loro grandezze assolute o relative. E. Marubini I modelli dell’ANOVA atti a risolvere i problemi delle tre classi sono, rispettivamente: 1. Modello fisso (fixed model) 2. Modello casuale (random model) 3. Modello misto (mixed model) La procedura di calcolo della tavola dell’ANOVA, il test statistico usato (F ) ed i livelli di significatività sono eguali per tutti i tre modelli. Le diversità risiedono nella scelta del termine di errore nella esecuzione del test F e nella stima dei parametri. E. Marubini