Il modello lineare e l`analisi della varianza con

Il modello lineare e
l’analisi della varianza con
Rocco Micciolo
Università di Trento
http://hostingwin.unitn.it/micciolo/
• ANOVA a 1 via
– La scomposizione della devianza
• ANOVA a 1 via e modello lineare
– Le variabili “dummy”
• L’analisi della covarianza (ANCOVA)
• ANOVA in un disegno fattoriale bilanciato
• ANOVA in un disegno fattoriale sbilanciato
– Le “somme dei quadrati” di tipo I, II (e III ???)
• ANOVA in un disegno “within” (a blocchi, con misure ripetute)
– Effetti “fissi” ed effetti “random”
– La “sfericità”
• ANOVA in un disegno misto
– Effetti “crossed” ed effetti “nested”
– Fattori “between” e fattori “within”
– La scomposizione della devianza e i denominatori dei test F
Un esperimento è uno studio in cui le variabili in
grado di determinare una data risposta sono
manipolate dal ricercatore ed i dati sono generati
applicando differenti livelli di tali variabili alle
unità sperimentali secondo appropriati disegni
sperimentali.
E. Marubini
L’idea che sta alla base di un esperimento è
che esistano unità che possono essere
soggette a differenti trattamenti.
Un trattamento è un insieme di operazioni
ripetibili che può essere applicato alle unità
sperimentali.
L’esperimento consiste quindi di una definizione
di un insieme di unità e di trattamenti e della
assegnazione di un dato trattamento a ciascuna
delle unità che sarà usata nell’esperimento.
E. Marubini
Condizioni che un esperimento deve soddisfare
1. Le replicazioni dell’esperimento sono
eseguite in condizioni simili così che esso
fornisca una misura interna di variabilità.
2. Le replicazioni sono mutuamente
indipendenti.
3. La variabilità incontrollata nelle replicazioni
è soggetta alla attribuzione casuale
(randomizzazione).
E. Marubini
Il disegno dell’esperimento consiste fondamentalmente
nel realizzare la raccolta dei dati in modo tale che il
“rumore di fondo” sia ridotto al minimo e che
l’informazione pertinente sia ottenuta con precisione
sufficiente per saggiare, in modo appropriato, l’ipotesi
di interesse sperimentale.
Per perseguire un determinato obiettivo si possono
realizzare più disegni sperimentali che si differenziano
per ammontare di informazione raccolta e per costi di
attivazione.
E. Marubini
In una situazione paradigmatica il ricercatore
deve far leva sulla sua profonda conoscenza
dell’argomento per determinare
1. la variabile dipendente (risposta) da
misurare e la procedura di misura più
appropriata;
2. le variabili indipendenti (trattamenti) ed
il loro intervallo di variazione di cui si vuole
misurare l’effetto;
3. le variabili di disturbo controllabili.
E. Marubini
ASSUNTO DI BASE (ESSENZIALE)
La risposta evocata quando un trattamento è applicato ad
una data unità sperimentale può scriversi come somma di
due quantità (modello additivo):
1. quantità che dipende soltanto dalla unità sperimentale;
2. quantità che dipende dal trattamento applicato.
Punti essenziali di questo assunto sono:
a. gli effetti dei trattamenti sono costanti (quindi la
differenza tra due trattamenti può essere stimata dalla
differenza tra le medie);
b. la risposta di una unità sperimentale non è influenzata
dal trattamento applicato ad altre unità sperimentali.
E. Marubini
ANOVA
ANalysis Of VAriance
L’analisi della varianza è essenzialmente una
procedura aritmetica che consente la partizione
di una devianza totale in componenti associate
a note sorgenti di variabilità. Pertanto la tabella
della ANOVA è sempre valida come descrizione
dei dati e come sommario delle loro proprietà.
E. Marubini
Quando l’ANOVA viene usata come metodo
inferenziale, per trarre determinate conclusioni
riguardo agli “universi” da cui i dati
provengono, è necessario che siano soddisfatti
determinati assunti relativi sia la metodo di
campionamento adottato, sia ai modelli
matematici espressi in funzione dei parametri
ignoti dei quali si vogliono eseguire valide
stime. Per poter adeguatamente formulare
questi modelli è innanzitutto necessario definire
le classi di problemi che l’ANOVA è in grado di
affrontare e di risolvere.
E. Marubini
PRIMA CLASSE
Include tutti i problemi usuali che implicano stima ed
inferenza relative all’esistenza di differenze tra medie
campionarie di trattamenti, di varietà, ecc.
È questa la classe di problemi che si incontra, ad esempio,
in biologia. L’attenzione dl biologo è spesso rivolta, infatti,
agli effetti sistematici dei trattamenti.
E. Marubini
SECONDA CLASSE
Include tutti i problemi usuali che comportano stima ed
inferenza relative all’esistenza di componenti di varianza
ascrivibili a deviazioni casuali delle caratteristiche di una
unità sperimentale appartenente ad un determinato gruppo
dal valor medio di dette caratteristiche nel corrispondente
”universo”.
È a questa classe che appartengono i problemi che
vengono affrontati nel controllo della qualità. Al
responsabile del controllo, ad esempio, non interessa porre
in evidenza se tra il tecnico A ed il tecnico B esista una
differenza, ma stimare una varianza “tra tecnici” che gli
consenta di controllare l’affidabilità delle risposte.
E. Marubini
TERZA CLASSE
Include tutti i problemi in cui per alcune sorgenti di
variazione si è interessati solo all’insieme posto sotto studio
(e ci si riporta alla prima classe), mentre per altre si
desidera poter fare una inferenza che interessi il vasto
insieme da cui si è eseguito il campionamento (e ci si
riporta alla seconda classe). Questa classe appare pertanto
accessoria, mentre le prime due sono fondamentali.
E. Marubini
Nei problemi della prima classe i parametri in
gioco sono medie e l’interesse è concentrato
su particolari confronti o relazioni di tali medie
in funzione della varianza “entro”, mentre nei
problemi della seconda classe i parametri in
gioco sono varianze e assumono primaria
importanza le loro grandezze assolute o
relative.
E. Marubini
I modelli dell’ANOVA atti a risolvere i problemi
delle tre classi sono, rispettivamente:
1. Modello fisso (fixed model)
2. Modello casuale (random model)
3. Modello misto (mixed model)
La procedura di calcolo della tavola dell’ANOVA, il
test statistico usato (F ) ed i livelli di significatività
sono eguali per tutti i tre modelli. Le diversità
risiedono nella scelta del termine di errore nella
esecuzione del test F e nella stima dei parametri.
E. Marubini