ANALISI DELLE VARIANZA ED APPLICAZIONI L’analisi della varianza è un insieme di modelli di analisi introdotti dal grande statistico inglese Ronald Fisher in cui la variazione totale presente in un insieme di dati viene scomposta ed analizzata in diverse componenti. ognuna di queste quote di variazione specifica viene valutata in reciprocamente in rapporto allo specifico contributo alla variabilità totale. |------------------------------------------------------------| variazione totale |--------------------------|-------------------|--------------| variazione totale scomposta Tra gruppi Entro gruppi Residua Applicazioni L’ANOVA trova maggiore applicazione in presenza di dati sperimentali ovvero per valutare in maniera esperimento comparativa condotto gli secondo effetti un di un progetto chiamato piano sperimentale, experimental design. L’ANOVA risolve l’ipotesi di ricerca per cui: la modifica introdotta dallo sperimentatore delle condizioni di una variabile (variabile trattamento) ? determina o meno ? la modifica dei valori di una altra variabile oggetto dello studio (variabile risposta) . ovvero “ valori diversi della variabile trattamento hanno un effetto significativo non casuale sulla variazione della variabile risposta ?” Il controllo delle condizioni del piano sperimentale e la corretta applicazione del test portano ai risultati valutativi dell’esperimento. variabile risposta: oggetto dello studio, entità misurata nei singoli casi che ci si aspetta vari in funzione della variabile trattamento; variabile trattamento: soggetto dello studio, entità usata in dosi o qualità o fattori diversi che agisce o meno sulla variabile risposta; unità sperimentale: singola entità- individuoanimale – oggetto misurato, in cui viene effettuato il trattamento e valutata la risposta- Esempi • Variabile risposta: colesterolemia • Variabile trattamento: trattamento con tipo A,B, C…di statine • Unità sperimentale: individui singoli trattati • Variabile risposta: aumento ponderale giornaliero in animali zootecnici allevati • Variabile trattamento: tipi diversi A, B, C, D… di dieta specifica • Unità sperimentale: singoli animali allevati • Variabile risposta: numero batteri di Streptococcus per unità di omogeneizzato polmonare • Variabile trattamento: tipo di antibiotico A (es. amoxicillina) , B, C, D… + controllo • Unità sperimentale: individui singoli trattati Anche condizioni non gestite o direttamente determinate dallo sperimentatore sono oggetto di studio della analisi della varianza, avendo riconosciuto le componenti dell’analisi e verificato le assunzioni di applicabilità (vedi più avanti), Esempi • Variabile risposta: misura della funzionalità polmonare (volumi residui) • Variabile trattamento: essere fumatore, ex fumatore, mai fumatore • Unità sperimentale: individui singoli trattati • Variabile risposta: qualità del sonno secondo il PSQI (Pittsburgh Sleep Quality Index) • Variabile trattamento: essere depressi, non depressi, reduci di esperienza traumatica • Unità sperimentale: individui singoli trattati • Variabile risposta: peso alla nascita del neonato • Variabile trattamento: condizione socioeconomica A, B, C… della madre • Unità sperimentale: singoli neonati pesati l’analisi della varianza trova applicazione anche nella valutazione di studi osservazionali ed ecologici, anche applicati alle Scienze Naturali, dove lo sperimentatore non ha introdotto personalmente variazioni nella variabile trattamento ma ha riconosciuto e valutato condizioni naturali “sperimentali” diverse che si sono verificate nel tempo ed in natura, esempi: • Variabile risposta: concentrazione di alga tropicale infestante Caulerpa per m2 • Variabile trattamento: diversa esposizione alle correnti marine • Unità sperimentale: unità di area di siti costieri diversamente esposti alle correnti ecologia • Variabile risposta: lunghezza del becco di una specie di fringuello • Variabile trattamento: ecotipi della specie presenti in aree diverse (es. isole –vallate..) • Unità sperimentale: singoli individui di fringuello misurati Zoologia-Genetica • Variabile risposta: età al menarca delle giovani femmine alla pubertà • Variabile trattamento: coorti storiche di nascita (1900-1910; 1940-1950; 1990-2000; …) • Unità sperimentale: singole giovani femmine alla pubertà per coorte storica di nascita antropologia-demografia Più specificatamente l’analisi della varianza è usata per la stima dei parametri e la verifica delle ipotesi sulle medie della popolazione anche se si chiama analisi della varianza vengono valutate le medie degli effetti dei trattamenti, attraverso la scomposizione in varianza L’ANOVA è inoltre considerata un modello di studio lineare Y= a+ bX in quanto può essere schematizzata da: x= µ + τ+ e ovvero i valori della variabile risposta x sono definiti dai valori di una media generale µ (fissa) più i valori di un trattamento τ (variabili) considerando anche una componente residua-errore e dovuta al caso. MODELLI ANOVA del CORSO 1) analisi della varianza ad una via (anova one way) che permette la valutazione di una variabile trattamento sulla variabile risposta. 2) analisi della varianza con piano a blocchi randomizzato permette di controllare-valutare una seconda componente che può avere influenza e fare variare la variabile risposta. 3) analisi della varianza a più vie repliche esperimento con delle misure (chiamata anche fattoriale) che permette di valutare contemporaneamente più variabili di trattamento sulla variabile risposta e la loro rispettiva specifica interazione . ANALISI DELLA VARIANZA AD UNA VIA Il modello tipico di applicazione dell’analisi della varianza ad una via è quello di un piano sperimentale determinato degli effetti di una sola variabile trattamento sulla variabile risposta quando si vuole valutare l’ipotesi che tre o più campioni - trattamenti – gruppi o livelli della variabile trattamento danno luogo allo stesso risultato o a risultati diversi. Il test e analogo al test ipotesi di confronto tra 2 medie (media campione 1-media campione 2), ma in questo caso i campioni- livelli della variabile trattamento da confrontare sono più di 2 (media campione 1-2-3-4….). Non è opportuno procedere con un test ipotesi di confronto medie a 2 a due per più di 2 trattamenti in quanto la probabilità di rifiutare l’ipotesi nulla quando è vera (alfa - errore di prima specie) aumenta con l’aumentare del numero dei gruppi. -----------------------------------------------------------Es. effetto della dieta A, B, C, D ( 1 variabile trattamento espressa in 4 campioni – livelli trattamenti) sulla variazione di peso in unità ponderali, Kg.(variabile risposta oggetto di studio) -------------------------------------------------------------Variazione ponderale di 8 individui per 4 diete id 1 2 3 4 5 6 7 8 dieta A 3 6 4 -2 2 3 4 5 dieta B -6 -2 0 2 -1 -2 1 0 dieta C 0 1 -1 2 1 0 2 0 dieta D 6 12 9 7 5 8 9 7 Alle unità sperimentali (soggetti in valutazione) vengono assegnati i trattamenti diversi assolutamente a caso, ovvero seguendo piano completamente randomizzato. Riferendoci all’esempio intendiamo che le diete non vengano assegnate seguendo un criterio di scelta ( es. ai maschi A, alle femmine B, ai giovani C, agli anziani D ecc) ma ogni dieta possa potenzialmente essere somministrata ad ogni possibile categoria. Il modello * della ANOVA Rappresentiamo i dati per l’analisi della varianza ad una via in una tavola con k colonne e n righe corrispondenti a n valori della variabile risposta X suddivisi nei k trattamenti 3 X13 X23 X33 … Xn3 …… …… …… …… ….. n 1 X11 X21 X31 … Xn1 Trattamento 2 X12 X22 X32 … Xn2 Totale Media T.1 X .1 T.2 X .2 T.3 X .3 T.. X .. k X1k X2k X3k … Xnk N T.k X .k T.. X .1 ove xij è il simbolo della i-esima osservazione del j-esimo trattamento, i = 1,2,3…n j= 1,2,3…k; N = il numero totale di osservazioni Usiamo questa tabella di dati per esprimere un modello * Il modello è una rappresentazione simbolica di un valore tipico di un insieme di dati e vengono usati simboli e riferimenti per specificare le componenti e le relazioni. • sia µj il simbolo della media di ogni trattamento –colonna • sia µ il simbolo della media generale di tutti i dati • sia τ (tau) il simbolo dell’effetto trattamento tale per cui τj = µj – µ (il valore dell’effetto trattamento è = alla media del trattamento – la media generale) • sia e il simbolo della differenza tra il singolo valore xij e la media µj del trattamento (ovvero quanto il valore della singola unità sperimentale si discosta dalla media del trattamento) questo valore è definito errore, residuo, è ciò che rimane (in più o in meno) alla variabile risposta dopo il trattamento per effetto del caso allora: xij = µj + eij ma anche come eij = xij - µj il valore della singola unità sperimentale xij è = alla media del suo trattamento µj + il residuo eij e quindi più in dettaglio xij = µ + τj + eij il valore della singola unità sperimentale xij è dato dalla somma: della media generale µ + l’effetto trattamento τj + il residuo individuale eij. Questa è l’equazione che evidenzia il modello del nostro studio per cui : una qualunque osservazione del nostro insieme di dati è scomponibile in una quota dovuta alla media generale, all’effetto trattamento, all’errore residuo. La definizione di queste grandezze rende possibile la misurazione reciproca degli scostamenti (varianze) su cui si basa il calcolo della statistica RV rapporto di varianze. Es. Variazione ponderale di 8 individui per 4 diete id 1 2 3 4 5 6 7 8 Tot Media dieta A dieta B dieta C dieta D 3 6 4 -2 2 3 4 5 25 3.125 -6 -2 0 2 -1 -2 1 0 -8 -1.000 0 1 -1 2 1 0 2 0 5 0.625 6 12 9 7 5 8 9 7 63 7.875 N=32 85 2.656 Il valore ad esempio dell’individuo 3 della dieta A ( X 3A) è dato da: xij = µ + τj + eij X 3A= media generale + effetto trattamentoA+ componente residua µ τj = µ j – µ eij = xij - µj X 3A = 2.656 + ( 3.125 – 2.656) + (4-3.125) X 3A = 2.656 + 0.469 +0.875 = 4 La scomposizione degli effetti in media generale, effetto trattamento, componente residua rende possibile la il calcolo della statistica RV rapporto di varianze. Il processo inferenziale che riguarda esclusivamente il numero k di trattamenti del nostro studio prende il nome di modello ad effetti fissi. Assunzioni Le assunzioni del modello ad effetti fissi, che devono essere rispettate o almeno considerate nella applicazioni della ANOVA sono le seguenti: • I dati provengono da k campioni casuali indipendenti, non vi sono sovrapposizioni; • Le popolazioni di dati da cui i campioni sono estratti è distribuita normalmente; • Le popolazioni dei trattamenti hanno medesima varianza, varianza omogenea. ( ricorda ” INE” : indipendent, normal, equal variance) Inoltre come conseguenze del modello: • Gli effetti dei trattamenti danno somma algebrica = 0 attorno alla media generale • Gli errori e hanno media = 0, varianza = a quella dei dati X xij e distribuzione normale Ipotesi Le ipotesi nulla H0 e quella alternativa HA sono così formalizzate: H0: µ1= µ2= µ3=….. µk i k trattamenti danno la stessa risposta HA: non tutte le µk sono uguali, almeno un trattamento da una risposta media diversa Test Il test statistico è rappresentato da un rapporto di varianze R.V. calcolate dai dati campionari: varianza tra gruppi - MSA _______________________________ diviso varianza entro i gruppi -MSW la statistica test rapporto di varianze MSA/MSW segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da: • livello di significatività alfa (α solitamente = 0.05, 1- α = 0.95) • gradi di libertà gdl del numeratore (media quadratica tra i gruppi –MSA) • gradi di libertà gdl del denominatore (media quadratica entro i gruppi -MSW). Ad esempio: per alfa 0.05, 3 gdl al numeratore e 21 gdl al denominatore F critico = 3.07; --- per alfa 0.05, 2 gdl al numeratore e 15 gdl al denominatore F critico = 3.68 (vedi tavola distribuzione) Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) mentre valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA). Calcolo del test I passaggi per determinare il RV della statistica test si basano sul calcolo della somma degli scostamenti al quadrato delle osservazioni dalla loro media, o somma dei quadrati SS, SST = somma totale dei quadrati, SSW = somma dei quadrati entro i gruppi SSA= somma dei quadrati tra i gruppi Da cui si ricavano le varianze MS… ( somma quadratica media) MSW ( varianza entro i gruppi ) = SSW/(N-k) MSA ( varianza tra i gruppi ) = SSA/( k-1) Che permettono di esprimere il rapporto di varianze R.V. MSA/MSV che rappresenta la Statistica Test. Calcolo di SST = somma totale dei quadrati ∑ k J =1 ∑ ( xij- x .. )2 nj i =1 Ovvero la sommatoria al quadrato degli scarti di tutti i singoli valori dalla media generale, che per semplificazione si può calcolare come segue ∑ ∑ xij2 – (T2../N) nj k J =1 i =1 Ovvero la sommatoria di tutti i singoli valori xij (osservazione della riga i e colonna j) al quadrato meno la somma totale generale delle osservazioni al quadrato osservazioni diviso il numero totale delle Es. Variazione ponderale di 8 individui per 4 diete id dieta A dieta B dieta C dieta D 1 2 3 4 5 6 7 8 Tot Media 3 6 4 -2 2 3 4 5 25 3.125 -6 -2 0 2 -1 -2 1 0 -8 -1.000 k 0 1 -1 2 1 0 2 0 5 0.625 nj 2 6 12 9 7 5 8 9 7 63 7.875 N=32 85 2.656 2 SST = ∑J =1 ∑i=1 xij – (T ../N) 2 calcolo xij id dieta A dieta dieta dieta B C D 1 9 36 0 36 2 36 4 1 144 3 16 0 1 81 4 5 6 4 4 9 4 1 4 4 1 0 49 25 64 7 8 16 25 1 0 4 0 81 49 T2../N = (85)2/32 T2../N =225.781 2 Somma xij = 709 SST= 709 – 225.781= 483.218 Calcolo di SSA= somma dei quadrati tra i gruppi ∑ k J =1 ( x .j - x ..)2 Ovvero la sommatoria al quadrato degli scarti di tutti i valori delle medie dei gruppi-trattamenticolonne dalla media generale, che per semplificazione si può calcolare come segue ∑ k J =1 (T.j2/nj) – (T2../N) Ovvero la sommatoria dei totali di trattamento (colonna) diviso per i rispettivi numeri di osservazioni (nj) meno la somma totale generale delle osservazioni al quadrato diviso il numero totale delle osservazioni SSA divisa per i rispettivi gradi di libertà gdl (k-1) determina la media quadratica MSA; k = anumero di gruppi-trattamenti-colonne. MSA( varianza tra i gruppi ) = SSA/( k-1) Es. Variazione ponderale di 8 individui per 4 diete id 1 2 3 4 5 6 7 8 Tot Media dieta A dieta B dieta C dieta D 3 6 4 -2 2 3 4 5 25 3.125 SSA= -6 -2 0 2 -1 -2 1 0 -8 -1.000 ∑ k J =1 0 1 -1 2 1 0 2 0 5 0.625 6 12 9 7 5 8 9 7 63 7.875 N=32 85 2.656 (T.j2/nj) – (T2../N) SSA= (252/8 +-82/8 +52/8 +632/8) -852/32 SSA= 78.125 + 8 + 3.125 + 496.125 – 225.781= SSA= 359.594 da cui MSA = SSA / gdl (k-1) k= numero trattamenti-diete-gruppi-colonne= 4, k-1= 3 MSA = 359.594/3 = 119.865 Calcolo di SSW = somma dei quadrati entro i gruppi- ∑ k J =1 nj ∑ i =1 ( xij- x .j )2 Ovvero la sommatoria al quadrato degli scarti di tutti i singoli valori dalla media del proprio gruppo-trattamento-dieta- colonna. Per semplificazione si ottiene per differenza da SST e SSA. SSW= SST- SSA SSW divisa per i rispettivi gradi di libertà gdl (N –k) determina la media quadratica MSW N= numero totale osservazioni k= numero gruppi-trattamenti-colonne MSW ( varianza entro i gruppi ) = SSW/(N-k) -------------------------------------------------------------- Es. Variazione ponderale di 8 individui per 4 diete id 1 2 3 4 5 6 7 8 Tot Media dieta A dieta B dieta C dieta D 3 6 4 -2 2 3 4 5 25 3.125 -6 -2 0 2 -1 -2 1 0 -8 -1.000 0 1 -1 2 1 0 2 0 5 0.625 6 12 9 7 5 8 9 7 63 7.875 N=32 85 2.656 SST= 483.218 SSA= 359.594 SSW= SST- SSA = 483.218 -359.594 = 123.624 Da cui MSW ( varianza entro i gruppi ) = SSW/(N-k) N= 32, k= 4 MSW = 123.624 / ( 32-4) = 4.415 Avendo calcolato le varianza tra gruppi MSA e la varianza entro gruppi MSW si procede al calcolo del Rapporto di varianze R.V. Statistica Test MSA / MSW che nell’esempio delle 4 diete A B C D x 8 individui è rappresentato da MSA = 119.865 MSW = 4.415 Rapporto Varianze R.V. = 119.865 / 4.415 = 27.148 Il valore calcolato viene confrontato con il valore di F critico per: alfa= 0.05, n= gdl del numeratore= gdl (k-1)= 4-1=3 m = gdl del denominatore = (N-k)= 32-4=28 F critico = 2.946 F calcolato > F critico quindi il test è significativo ovvero accetto HA per cui non tutte le diete sono uguali, almeno una dieta da una risposta media diversa. Tavola riassuntiva per l’analisi della varianza Fonte di variazione Tra i gruppitrattamenti Entro i gruppitrattamenti Somma dei Gradi di Media quadratica quadrati libertà gdl SSA k-1 MSA=SSA/(k-1) SSW N-k MSW=SSW/(n-k) SST N-1 Rapporto di varianze R.V. R.V. = MSA/MSW Totale In Excel vedi esempi della struttura dei dati nei files, ed usare il comando: Analisi dati Analisi della varianza ad un fattore Nell’esempio specifico delle 4 diete per 8 individui: ANALISI VARIANZA Origine della variazione SQ gdl Tra gruppi 359.593 3 In gruppi 123.625 28 Totale 483.218 MQ 119.864 4.415 F Valore di significatività 27.148 1.95E-08 31 Somma quadrati Gradi di libertà Varianze – scarto quadratico medio Statistica test F critico F crit 2.946 ANALISI VARIANZA CON PIANO DEGLI ESPERIMENTI A BLOCCHI COMPLETAMENTE RANDOMIZZATO (ANALISI A DUE VIE SENZA RIPETIZIONI) Con il piano degli esperimenti a blocchi completamente randomizzato è possibile utilizzare un piano sperimentale che permette di controllare a priori una fonte di variabilità che può agire sulla variabile risposta e confondere i risultati della variabile trattamento. Il piano degli esperimenti a blocchi completamente randomizzato è un piano in cui le unità sperimentali alle quali i trattamenti sono applicati sono suddivise in gruppi omogenei chiamati blocchi. I trattamenti vengono poi assegnati a caso alle unità sperimentali all’interno di ogni blocco, ogni trattamento è presente in ogni blocco ed ogni blocco contiene tutti i trattamenti, il numero delle unità sperimentali in un blocco è predisposto in modo da essere uguale al numero dei trattamenti in studio (o ad un suo multiplo). Concretamente questo si semplifica in una tabella con k trattamenti-colonne (una colonna per trattamento) e n blocchi (una riga per ogni blocco nel modello senza repliche). Tratt. 1 Blocco 1 Osservazione Tratt. 2 Tratt. 3 Tratt.k ……. ……. ……. B 1 T1 Blocco 2 ……. ……. ……. ……. Blocco 3 ……. ……. ……. ……. Blocco n ……. ……. ……. Osservazione BnTk L’obiettivo del piano degli esperimenti a blocchi completamente randomizzato è quello di isolare e controllare la quota di variazione attribuibile alla componente blocchi garantendo che nelle medie dei trattamenti non è presente alcun effetto dovuto ai blocchi. I blocchi devono essere omogenei e se sono ben formati la variazione residua del modello (errore quadratico medio) viene ridotto, e quindi il R.V. aumenta ed è più facile rifiutare l’ipotesi nulla H0. Qualche esempio di blocchi: • Negli esperimenti su animali le sottospecie e le razze possono rispondere in maniera diversa allo stesso trattamento immettendo una quota di variabilità aggiuntiva alla variazione totale; è possibile formare dei blocchi di appartenenza alla stessa razza e su questi valutare i trattamenti. • La componente familiare potrebbe influire sulla var risposta per lo stesso trattamento e quindi i blocchi potrebbero essere formati dai cuccioli della stessa figliata, in tal caso un animale per cucciolata riceverebbe un trattamento diverso; • In analisi osservazionali le aree geografiche diverse (con diverse componenti ambientali o di fattori di rischio capaci influenzare la var trattamento) possono essere considerate come blocchi diversi in cui effettuare e valutate gli stessi trattamenti; • L’età diversa delle unità sperimentali può essere un fattore capace di influenzare i risultati di una variabile trattamento per soggetti umani come per animali, la classe d’età può rappresentare un blocco di unità sperimentali in cui effettuare e valutate gli stessi trattamenti; • Anche laboratori differenti possono rappresentare blocchi diversi in cui effettuare gli stessi esperimenti, in modo tale che ogni in laboratorio (blocco) si effettuino tutte le sperimentazioni-analisi (trattamenti) e si possa isolare la componente dovuta al laboratorio (blocco ) e quella del trattamento; Una verifica di ipotesi rivolta agli effetti dei blocchi non viene generalmente fatta sotto l’assunzione del modello ad effetti fissi perché l’interesse primario è quello di valutare l’effetto del trattamento I blocchi sono introdotti solo per eliminare una fonte di variabilità estranea e di confondimento. I blocchi inoltre sono programmati ed ottenuti in modo non casuale. Rispetto alla analisi della varianza ad una via la rappresentazione dei dati in tabella tiene conto anche numero dei blocchi (righe), del totale e delle medie dei blocchi Analisi della varianza a blocchi randomizzati Trattamenti Blocchi 1 1 X11 X21 2 X12 3 X13 X22 X23 …… …… Totale k X1k Media blocchi T1. X 1. X2k T2. X 2. 2 …… X31 X32 X33 X3k T3. X 3. 3 …… …… …… …… Xn1 Xn2 Xn3 n …… …… …… …… …… Xnk Tn. X n. T.k T.. _ …. Totale T.1 T.2 T.3 … Media trattamenti X .1 X .2 X .3 …. X .k X .. Si configura come una analisi della varianza a due vie senza repliche perché una osservazione viene classificata secondo due criteri, il blocco ed il trattamento. Il modello è rappresentato da xij = µ +βi+ τj + eij xij è il simbolo della i-esima osservazione del j-esimo trattamento, ove i = 1,2,3…n e j= 1,2,3…k; numero totale di osservazioni N = il µ il simbolo della media generale τ j (tau) il simbolo dell’effetto trattamento (colonna) βi il simbolo dell’effetto blocco (riga) eij la componente residua che rimane eliminata quella dovuto ai blocchi ed ai trattamenti Assunzioni Per le assunzioni valgono quelle dell’analisi della varianza ad un fattore (vedi prima) a cui si aggiunge la condizione per cui gli effetti dei trattamenti e dei blocchi devono essere solo additivi ovvero senza interazioni, ovvero una particolare combinazione blocco-trattamento (es. trattamento 1 -blocco 1 o trattamento 3-blocco 2) non produce una distorsione con un effetto maggiore o minore della somma dei singoli effetti di trattamento e blocco. Ipotesi H0: τ1= τ2= τ3=…. τk=0 sono uguali e nulli gli effetti del trattamento HA: non tutti le τ j sono uguali, almeno un trattamento da una risposta media diversa Calcolo del test Il calcolo della statistica viene effettuato in questa sede solo mediante l’ausilio del calcolatore e pacchetti statistici excel, R o Stata, non vengono effettuati calcoli manuali. I passaggi per determinare il RV della statistica test si basano, come per l’analisi della varianza ad una via sul calcolo della somma degli scostamenti al quadrato delle osservazioni dalla loro media, o somma dei quadrati SS. Viene qui introdotta una nuova fonte di variabilità controllata, quella dei blocchi, tale per cui SST= SSBl + SSTr + SSE SST= SSBl + SSTr + SSE Ovvero la somma totale degli scarti dalla media può essere scomposta in tre componenti, una dovuta ai blocchi (SSBl) una dovuta ai trattamenti (SSTr) ed una dovuta alla variazione residuaerrore (SSE). Queste entità vengono espresse come varianze o media quadratica degli scarti. MSTr varianza dovuta a i trattamenti MSBl varianza dovuta ai blocchi MSE varianza residua errore rispetto ai rispetto ai gradi di libertà loro specifici. Il test è dato dal rapporto di varianze R.V. tra la varianza trattamenti e la varianza residua ovvero MSTr / MSE. E’ inoltre possibile considerare l’effetto dei blocchi sul modello totale come MSBl / MSE ------------------------------------------------------------------------------------------------------- questo modello di analisi della varianza quindi sottrae la quota di variazione dovuta ai blocchi e permette di valutare l’azione dei trattamenti con maggiore specificità e sensibilità ------------------------------------------------------------------------------------------------------- Tavola riassuntiva per l’ANOVA a blocchi Fonte di variazione Somma dei Gradi di quadrati libertà gdl Media quadratica Rapporto di varianze R.V. R.V. = MSTr/MSE Trattamenti -colonne- SSTr k-1 MSTr = SSTr/(k-1) Blocchi -righe- SSBl n-1 MSBl= SSBl/(n-k) Residuo -errore- SSE (n-1)*(k-1) MSE= SSE/(n-1)*( k-1) Totale SST kn-1 la statistica test R.V. segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da: • livello di significatività alfa (α solitamente = 0.05, 1- α = 0.95) • gradi di libertà gdl del numeratore (media quadratica trattamenti- MSTr = k-1) • gradi di libertà gdl del denominatore (media quadratica residua - MSE = (n-1)*(n-k)) Ad esempio per alfa 0.05, 3 gdl al numeratore e 21 gdl al denominatore F critico = 3.07; per alfa 0.05, 2 gdl al numeratore e 15 gdl al denominatore F critico = 3.68 (vedi tavola distribuzione) Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) Valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA). In excel vedi esempi della struttura dei dati nei files, ed usare il comando: Analisi dati Analisi della varianza a due fattori senza replica, includere o meno le etichette di riga e colona e specificare nella dialog box Esempio esercizio anova2-4.xls var risposta= tempo in minuti di coagulazione del sangue var trattamento= quattro farmaci diversi (colonne) blocchi= singoli individui che hanno fornito il campione di sangue (righe) unità sperimentale= singole misurazioni per ogni individuo e trattamento (celle) Soggetto A B C D E F G H I J Farmaco W X Y Z 1.5 1.4 1.8 1.3 2 1.1 1.5 1.5 1.2 1.5 1.8 1.4 1.6 1.2 2.1 1 1.6 1.5 1 1.6 1.7 1.3 1.5 1.2 2.2 1 1.5 1.5 1.3 1.6 1.9 1.5 1.9 1.4 2.3 1.2 1.7 1.7 1.5 1.9 Analisi della Varianza ad una via senza blocchi Origine della variazione SQ gdl MQ Tra gruppi 0.363 3 0.121 In gruppi 3.568 36 0.099 Totale F Valore di significatività F crit 1.220 0.316 2.866 3.931 39 F calcolato < di F critico non rifiuto Ho, risultato non significativo. Analisi della Varianza ad una via con blocchi randomizzati Origine della variazione Blocchi- righe Trattamenti -Colonne Residuo-Errore Totale SQ 3.341 0.363 0.227 gdl 9 3 27 MQ F 0.371 44.154 0.121 14.392 0.008 Valore di significatività F crit 7.55E-14 2.250 8.57E-06 2.960 3.931 39 F calcolato > di F critico rifiuto Ho, risultato significativo. Controllando la quota di variabilità dovuta a soggetti diversi il test risulta significativo, ovvero i farmaci determinano tempi medi diversi di coagulazione del sangue. L’ESPERIMENTO FATTORIALE: ANALISI DELLA VARIANZA A DUE VIE CON REPLICHE Nella pratica della sperimentazione capita frequentemente di essere interessati allo studio dell’effetto simultaneo di due o più variabili (variabili trattamento - fattori) su una variabile oggetto del nostro studio (variabile risposta). Un esperimento che coinvolge appunto gli effetti di due o più variabili-fattori simultaneamente prende il nome di esperimento fattoriale che permette non solo lo studio dei livelli dei fattori-variabili presi in maniera individuale, ma anche l’interazione dei fattori presi simultaneamente e nelle diverse combinazioni. Nella pratica sperimentale, come nelle analisi osservazionali, la presenza di interazioni tra fattori può condizionare i dati in una molteplicità di modi a seconda della natura della interazione. Ad esempio nello studio sugli effetti di un farmaco (var risposta) il dosaggio del farmaco (primo fattore - var trattamento) e l’età dei pazienti (secondo fattore - var trattamento) possono non solo agire individualmente ma anche nelle diverse combinazioni simultaneamente ( es. dosaggio basso-età giovane, dosaggio medio età-anziana, dosaggio elevato età giovane ecc….) . L’esperimento fattoriale permette quindi di valutare l’interazione tra i fattori, di risparmiare tempo ed energia, e di avere un maggior spazio applicativo nei confronti delle situazioni reali. I dati possono essere rappresentati in forma tabellare con i livelli del fattore A in colonne e quelli del fattore B in righe con n osservazioni (repliche ) per ogni combinazione di livelli. Esempio esercizio anova2-2RR.xls punteggi sulla maturità emotiva di 27 giovani maschi classificati secondo l’età ed uso di marijuana con repliche : Fattore A ( uso di marijuana) FATTORE B (Età) Mai Occasionalmente Giornalmente 25 18 17 15-19 28 23 24 22 19 19 28 16 18 20-24 32 24 22 30 20 20 25 14 10 25-29 35 16 8 30 15 12 Per ognuno dei livelli dei fattori A e B (variabili trattamento) si viene a determinare una combinazione AB con n unità sperimentalirepliche Nell’esempio sopra riportato tre livelli del fattore A, tre livelli del fattore B, 9 combinazioni diverse AB ognuna con n= 3 unità sperimentali –repliche) che rappresentano un trattamento AB diverso. In questo tipo di sperimento con valutazione delle interazioni sono necessarie almeno due ogni cella osservazioni-repliche per combinazione mentre completamente dei fattori, randomizzato a in quello blocchi sufficiente una osservazione per ogni cella. è In questo tipo di sperimento con valutazione delle interazioni sono necessarie almeno due osservazioni-repliche per ogni cella combinazione dei fattori, mentre in quello completamente randomizzato a blocchi è sufficiente una osservazione per ogni cella. Il modello è rappresentato da xijk = µ +αi+ βj + αβij + eijk Dove xijk è la generica osservazione, µ il simbolo della media generale, αi l’effetto del fattore A, β βj l’effetto del fattore B, αβij rappresenta l’effetto della interazione tra A e B, ei jk rappresenta l’errore sperimentale residuo Assunzioni: le osservazioni in ognuna delle ab celle costituisce un campione casuale indipendente, tutte le ab popolazioni sono distribuite normalmente ed hanno la medesima varianza. ( INE) Le ipotesi: Il modello consente di valutare le seguenti ipotesi: H0 α : α1 = α 2= … α i = 0 gli effetti del trattamento A colonna sono uguali e nulli; HA α: non tutti gli α i = 0 ------------------------------------------------H0 β : β1= β 2…. βj = 0 gli effetti del trattamento B riga sono uguali e nulli; HA β: non tutti gli βj = 0 --------------------------------------------------H0 α β : α1 β1= α1 β 2… = α β ij = 0 gli effetti della interazione AB sono uguali e nulli; HA α β: non tutti gli α β ij = 0 Test Il test per ognuna delle ipotesi è il R.V. ove al numeratore viene posto lo scarto quadratico medio del trattamento A, di quello B, o della interazione AB, ed al denominatore lo scarto quadratico medio dell’errore residuo. La statistica test R.V. segue una distribuzione F quando H0 è vera e le assunzioni sono rispettate. Calcolo della statistica test Analogamente a quanto fatto per precedenti piani sperimentali dell’analisi della varianza si può dimostrare che la somma totale dei quadrati degli scarti della media si può scomporre nelle sue componenti: SST= SSA+SSB+SSAB + SSE Ovvero la somma totale dei quadrati è uguale alla somma di quella del trattamento A del trattamento B della interazione AB e di quella dell’errore residuo. Il calcolo delle singole componenti si attua mediante formule semplificate (vedi Daniel) che non vengono qui trattate i quanto questo piano viene da noi esplorato solo mediante pacchetti statistici di analisi Excel, R, STATA. ------------------------------------------------------------------------------------------------------Tavola riassuntiva per l’analisi della varianza a blocchi Fonte di variazione Somma dei quadrati Gradi di libertà gdl Media quadratica Trattamento A -colonneTrattamento B -righe- SSA a-1 MSA = SSA/(a-1) R.V. = MSA/MSE SSB b-1 MSB=SSB/(b-1) R.V. = MSB/MSE SSAB (a-1)*(b-1) Interazione AB MSAB= SSAB/ (a-1)*(b-1) Residuo -errore- SSE ab*(n-1) Totale SST abn-1 Rapporto di varianze R.V. R.V. = MSAB/MSE MSE= SSE/ ab(n-1) Decisione statistica La regola di decisione per accettare o rifiutare le ipotesi sfrutta un valore di F critico definito da: • livello di significatività alfa (α solitamente = 0.05, 1- α = 0.95) • gradi di libertà gdl del numeratore • gradi di libertà gdl del denominatore Valori di F maggiori di F critico portano a rifiutare H0 (e rispettivamente accettare HA) mentre valori di F inferiori di F critico ne determinano l’accettazione (e rispettivamente il rifiuto di HA). Nel caso in cui l’ipotesi H0 di nessuna interazione AB viene rifiutata possiamo concludere che i due fattori A e B interagiscono. In questo caso l’interesse nei confronti dei fattori A e B singoli viene subordinata agli effetti delle interazioni. Il numero delle osservazioni in ogni cella può non essere uguale e ciò comporta un diverso numero dei gradi di libertà per i rispettivi trattamenti e d interazioni. Vedi esercizio anova2-2RR.xls Comando Excel strumenti analisi dati analisi varianza: a due fattori con replica includere o meno le etichette di riga e colona e specificare nella dialog box Origine della variazione SQ Età Uso di marijuana Interazione età-uso residua 116.666 716.666 183.333 166 Totale gdl MQ F Valore di significativitàF crit 2 58.333 6.325 2 358.33338.855 4 45.833 4.969 18 9.222 0.008 2.94E-07 0.007 3.554 3.554 2.927 1182.667 26 Il risultato del test indica valori significativi (F calcolato > F critico) per il fattore età, quello dell’uso di marijuana ed anche per la interazione dei due fattori. Rifiuto le ipotesi H0 L’uso l’uso di marijuana agisce sulla maturità emotiva in maniera sinergica con l’età. L’interesse nei confronti dei fattori età dell’uso di marijuana viene subordinata agli effetti della interazione reciproca.