Analisi della Varianza (ANalysis Of VAriance: ANOVA) Introduzione Test ANOVA sulle medie Test ANOVA sulla significatività della regressione lineare Test ipotesi per i singoli coefficienti regressione lineare multipla Test ANOVA Somma Extra dei Quadrati Test ANOVA Lack Of Fit (LOF) Analisi della varianza ad una via Introduzione Test statistici: Analisi della Varianza • Esempio: • Si consideri il caso di tre macchine che producono un dato oggetto ed esibiscano i seguenti risultati di produzione oraria: ( Xi ) Macchina 1 Macchina 2 Macchina 3 47 53 49 50 46 55 54 58 61 52 54 50 51 51 49 X 1 = 49 X 2 = 56 X 3 = 51 X = 52 • Da una lettura preliminare dei risultati, parrebbe che le macchine non presentino la stessa produzione oraria (per esempio, per la Macchina 2 si è osservato un rendimento superiore alle altre) Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 1 Test statistici: Analisi della Varianza Analisi della varianza ad una via Introduzione • Esistono due differenti possibilità per interpretare tale comportamento: a) Le fluttuazioni sperimentali hanno portato (inevitabilmente) a differenze nei valori medi registrati per i differenti trattamenti b) La macchina 2 è effettivamente superiore alle altre Macchina 1 • Da una prima analisi qualitativa su un’ispezione grafica parrebbe che i dati non provengano dalla stessa popolazione Macchina 2 Macchina 3 70 70 70 65 65 65 60 60 60 55 55 55 50 50 50 45 45 45 40 0 0.05 0.1 40 0 0.05 0.1 Analisi della varianza ad una via Introduzione 40 0 0.05 0.1 Test statistici: Analisi della Varianza • Altro esempio: • I valori medi coincidono con il caso precedente Macchina 1 Macchina 2 Macchina 3 50 42 53 45 53 48 57 65 59 51 57 59 48 46 45 X 1 = 49 X 2 = 56 X 3 = 51 • Ma … Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 2 Test statistici: Analisi della Varianza Analisi della varianza ad una via Introduzione • Le fluttuazioni all’interno della singola colonna sono ampie, per cui possono essere “dovute” ad una distribuzione molto ampia • Le differenze tra le medie possono in questo caso essere spiegate dal caso 70 70 70 65 65 65 60 60 60 55 55 55 50 50 50 45 45 45 40 40 40 35 0 0.02 0.04 0.06 35 0 0.02 0.04 0.06 35 0 Analisi della varianza ad una via Introduzione 0.02 0.04 0.06 Test statistici: Analisi della Varianza • Un po’ di nomenclatura Macchina 1 Macchina 2 Macchina 3 47 53 49 50 46 55 54 58 61 52 54 50 51 51 49 La singola osservazione è caratterizzata da due indici: Ogni singola colonna prende il nome di trattamento Ciascun trattamento è costituito da n osservazioni (nel caso in esame n = 5) L’analisi è svolta su a differenti trattamenti (nel caso in esame a =3) Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza xij Indice i: si riferisce alla riga iesima Indice j: si riferisce al trattamento jesimo Esempio: x21=54 3 Analisi della varianza ad una via Metodo Test statistici: Analisi della Varianza • Lo spirito del test ANOVA è confrontare le fluttuazioni presenti all’interno di ogni trattamento, con le fluttuazioni registrate tra i trattamenti • Intuitivamente, se le fluttuazioni tra i trattamenti sono maggiori delle fluttuazioni all’interno dei trattamenti si può affermare che esiste un’influenza del differente trattamento sul processo. Analisi della varianza ad una via Metodo Test statistici: Analisi della Varianza • Dispersione tra i trattamenti • Per ogni trattamento j-esimo è possibile calcolare la media xj = ∑x ij i n • È possibile calcolare la dispersione tra le medie dei differenti trattamenti: q1 = n∑ (x j − x ) a 2 j =1 • Nella formula è stata introdotta la media delle medie (ovvero la media di tutte le osservazioni indipendentemente dai trattamenti) x= 1 1 ⎛1 ⎞ 1 a n = x x xij ⎜ ∑ j a ∑j ⎝ n ∑i ij ⎟⎠ = n a ∑∑ a j j =1 i =1 • È anche chiamata la “grande media” Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 4 Test statistici: Analisi della Varianza Analisi della varianza ad una via Metodo • Dispersione tra i trattamenti • Nel caso in esame: Macchina 1 Macchina 2 Macchina 3 47 53 49 50 46 55 54 58 61 52 54 50 51 51 49 v x1 = 49 ( ) ( v x3 = 51 v x2 = 56 2 q1 = n ⎛⎜ x1 − x + x2 − x ⎝ v x = 52 )2 + (x2 − x )2 ⎞⎟⎠ = 5 ((− 3)2 + (4)2 + (− 1)2 ) = 130.0 Analisi della varianza ad una via Metodo Test statistici: Analisi della Varianza • Dispersione nei trattamenti • Si può calcolare la dispersione all’interno di ciascun gruppo (per esempio per il primo trattamento) n SS21: Somma dei Quadrati (Sum of Squares) degli elementi della colonna 1 SS12 = ∑ ( xi1 − x1 ) 2 i =1 • sommando le dispersioni calcolate per tutti i trattamenti si può stimare una misura complessiva di tutte le varianze “interne” a q2 = SS12 + SS 22 + ... + SS a2 = ∑ SS 2j j =1 n n n = ∑ (x1i − x1 ) + ∑ ( x2i − x2 ) + ... + ∑ ( xai − xa ) 2 i =1 2 i =1 2 i =1 • In maniera più formale: q2 = ∑∑ (xij − x j ) a n 2 j =1 i =1 Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 5 Analisi della varianza ad una via Metodo Test statistici: Analisi della Varianza • Dispersione nei trattamenti Macchina 1 Macchina 2 Macchina 3 47 53 49 50 46 55 54 58 61 52 54 50 51 51 49 n n SS22 = ∑(xi 2 − x2 ) = 50 SS12 = ∑ ( xi1 − x1 ) = 30 2 2 i=1 i =1 n SS32 = ∑(xi3 − x3 ) =14 2 i=1 q2 = ∑∑(xij − x j ) = 94 a n 2 j =1 i=1 Analisi della varianza ad una via Metodo Test statistici: Analisi della Varianza • Si può dimostrare che: SST = ∑∑ (xti − x ) = a n 2 i =1 t =1 q1 + Somma dei quadrati Dispersione totale: tra i Dispersione complessiva trattamenti in tutto il campione q2 Dispersione nei trattamenti • Con l’ANOVA distribuisco la dispersione complessiva in due grandezze dalle caratteristiche ben distinte: – q1: dispersione spiegata dai trattamenti – q2: dispersione non spiegata dai trattamenti Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 6 Test statistici: Analisi della Varianza Analisi della varianza ad una via Metodo • Intuitivamente, se q1 >> q2: – le differenze tra i trattamenti sono più importanti delle dispersioni nei trattamenti – le fluttuazioni statistiche non sono sufficienti a giustificare i diversi valori di media osservati e il trattamento ha un impatto • Nelle applicazioni, si considera il seguente rapporto di varianze: q1 F = a −1 q2 a(n − 1) Test statistici: Analisi della Varianza Analisi della varianza ad una via Metodo • La procedura può essere riassunta nella cosiddetta tabella ANOVA Sorgente di variazione Variazione (somma dei quadrati) gradi di libertà Varianza Fattore A: Differenze tra le medie dei gruppi (o trattamenti) Residuo (Errore): Differenze all'interno dei gruppi TOTALE q1 = n∑ (x j − x ) (a-1) q1 / (a − 1) q2 = ∑∑ (xij − x j ) a(n-1) q2 / a (n − 1) SST = ∑∑ (xij − x ) na-1 a 2 j =1 a n 2 Rapporto F F= q1 / (a − 1) q2 / a(n − 1) j =1 i =1 a n 2 j =1 i =1 Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 7 Analisi della Varianza: Esempio di test statistico Test statistici: Analisi della Varianza • Il test ANOVA è un tipico esempio di test statistico, atto a verificare la plausibilità o meno di un’ipotesi. • Un’ipotesi statistica è un’assunzione che noi facciamo su un campione osservato. • Un test statistico di un’ipotesi è una procedura in cui si conclude se è possibile non rigettare l’ipotesi (cioè non si può escludere che essa sia vera) oppure rigettare l’ipotesi. – Si usa un campione e si cerca di concludere se tale campione è compatibile o meno con l’assunzione di partenza. Analisi della Varianza: Esempio di test statistico Test statistici: Analisi della Varianza • Il test statistico implica l’introduzione di una ipotesi che noi battezziamo ipotesi nulla • Si indica con il simbolo: H0 • All’ipotesi nulla di partenza si può contrapporre un’ipotesi alternativa • Si indica con il simbolo H1 • Tutti i test delle ipotesi statistici richiedono la formulazione di un’ipotesi nulla e di un’ipotesi alternativa • L’ipotesi nulla e l’ipotesi alternativa sono esaustive e mutuamente esclusive. Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 8 Analisi della Varianza: Esempio di test statistico Test statistici: Analisi della Varianza • Nel caso in esame si assume come ipotesi nulla che non vi sia differenza tra i trattamenti e le fluttuazioni che osserviamo siano g al caso: legate H0: μ1=μ2=μ3 • Come ipotesi alternativa si assume che l’assunzione di partenza sia falsa, ovvero che vi sia almeno un trattamento che si disco H1: μ1 ≠ μ2 e/o μ1 ≠ μ3 e/o μ2 ≠ μ3 Analisi della varianza ad una via Teoria • Test statistici: Analisi della Varianza Si può dimostrare che il rapporto F delle varianze è un valore osservato di una variabile aleatoria di tipo Fisher a (a-1,a(n-1)) (a 1 a(n 1)) gradi di libertà se è vera l’ipotesi nulla H0: – tutti i dati provengono dalla stessa popolazione (ovvero non c’è differenza tra i trattamenti) q1 a − 1 := F a − 1, a ( n − 1) ( ) q2 a ( n − 1) Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 9 Analisi della varianza ad una via Teoria Test statistici: Analisi della Varianza • Esempio di funzione densità di probabilità di una VA di tipo Fisher. 0.8 0 7 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 La maggior parte delle osservazioni della variabile aleatoria si ottiene a bassi valori di f 4 5 6 7 La probabilità di osservare valori ad alti f è sempre minore (ma mai completamente impossibile) Se il valore osservato F è nella coda l’ipotesi di partenza è poco plausibile Analisi della varianza ad una via Test statistici: Analisi della Varianza • Il valore di significatività (in inglese: p-value) rappresenta la probabilità di osservare un valore maggiore o uguale a F per una variabile aleatoria di Fisher a ((a-1,a(n-1)) , ( )) g gradi di libertà • Nel caso in esame F = 8.3 e p = 0.5% P‐value: Area sottesa dalla curva 1 0.9 -3 5 x 10 4.5 0.8 4 3.5 0.7 3 2.5 0.6 2 1.5 0.5 1 0.5 0.4 0 7 8 9 10 11 12 13 14 0.3 0.2 0.1 0 0 1 2 3 4 5 f 6 7 8 9 10 F • Possiamo concludere che la probabilità che non ci siano differenze tra le macchine è molto bassa Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 10 Test statistici: Analisi della Varianza Analisi della Varianza ad una via Gruppi di dimensioni non uguali • Il modo più efficace per fare un ANOVA è di considerare tutti i gruppi delle stesse dimensioni n • Nel caso ciò non fosse possibile è comunque possibile generalizzare la tabella ANOVA • Si introduce ni la dimensione del generico gruppo considerato. 21 Test statistici: Analisi della Varianza Analisi della Varianza ad una via Gruppi di dimensioni non uguali Tabella ANOVA Sorgente di variazione Fattore A: Differenze tra le medie dei gruppi (o trattamenti) Residuo (Errore): Differenze all'interno dei gruppi Variazione (somma dei quadrati) gradi di libertà Varianza q1 = ∑ n j (x j − x ) (a-1) q1 / (a − 1) q2 = ∑∑ (xij − x j ) (nT-a) q2 / (nT − a ) a nj a 2 j =1 i =1 ∑∑ (x a TOTALE 2 j =1 nj j =1 i =1 ij − x) 2 Rapporto F F= q1 / (a − 1) q2 / (nT − a ) nT-1 • Dove x= 1 nT a nj ∑∑ x j =1 i =1 ij = 1 nT a ∑n x j =1 j j • E’ una media ponderata in cui i gruppi di dimensioni maggiori contano di più. 22 Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 11 Analisi della varianza – Regressione lineare Test statistici: Analisi della Varianza • Si consideri il caso di una regressione lineare il cui modello è: yi = β0 + β1 xi + ε i ( εi ~ N 0, σ 2 ) • Può essere di interesse stabilire se la regressione lineare sia significativa oppure no – Esiste effettivamente una dipendenza di tipo lineare tra variabile dipendente e variabile regressore? Ipotesi nulla H0: Ipotesi alternativa H1: y non dipende da x y dipende da x β1=0 β1≠0 Analisi della varianza – Regressione lineare Test statistici: Analisi della Varianza • Per il singolo punto sperimentale Valore osservato sperimentalmente yi yˆ i − yi yˆ i = b0 + b1 xi yˆ i − y Valore predetto dal modello n y= ∑y i =1 n i Media di tutti i punti sperimentali Retta di migliore regressione y = b0 + b1 x Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 12 Analisi della varianza – Regressione lineare Test statistici: Analisi della Varianza • È possibile introdurre le seguenti grandezze: Y Y = + S yy = ∑ ( yi − y ) SSR = ∑ ( yˆ i − y ) SSE = ∑ ( yˆ i − yi ) Dispersione (varianza) totale presente nei dati Dispersione (varianza) spiegata dalla regressione Dispersione (varianza) non spiegata dalla regressione 2 i 2 i 2 i Analisi della varianza – Regressione lineare Test statistici: Analisi della Varianza • Interpretazione delle grandezze: S yy (n − 1 g .d .l.)) SSE (n − 2 g .d .l.) p delle Variabilità complessiva misure = Sum of Square of Errors: Variabilità delle misure non spiegata dalla regressione + SSR (1 g .d .l.) Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza Sum of Square of Regression: Variabilità delle misure spiegata dalla regressione 13 Analisi della varianza – Regressione lineare Test statistici: Analisi della Varianza • Intuitivamente si può introdurre la seguente statistica: SSR F= 1 SSE n−2 • Rappresenta il rapporto tra la “varianza” (dispersione) dei dati spiegata dalla regressione e la “varianza” non spiegata dalla regressione. • Se la regressione è significativa mi aspetto che la varianza al numeratore sia maggiore della varianza al denominatore Analisi della varianza – Regressione lineare Test statistici: Analisi della Varianza • Le considerazioni precedenti possono essere riassunte nella seguente tabella ANOVA: Sorgente di variazione Variazione (somma dei quadrati) Regressione SSR = ∑ ( yˆ i − y ) n 2 gradi di libertà Varianza 1 MSR=SSR/1 n-2 MSE = SSE/(n-2) i =1 Residuo n 2 SSE = ∑ ( yi − yˆ i ) Rapporto F F= MSR MSE i =1 TOTALE n S yy = ∑ ( yi − y ) 2 n-1 i =1 • Inoltre, MSE e MSR sono variabili aleatorie indipendenti. • Da notare che la tabella è identica a quella fornita da Matlab® Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 14 Test statistici: Analisi della Varianza Analisi della varianza per la regressione multilineare • Il modello è: y = α1 ⋅1 + α 2 f 2 + α 3 f 3 + ... + α p f p • In questo caso le ipotesi sono: H0 : α 2 = α 3 = ... = α p = 0 α1 qualunque H1 : ∃ almeno j≥2 αj ≠ 0 • Come nel caso della regressione semplice, il nostro scopo è di stabilire se è plausibile una relazione lineare tra la variabile misurata e le variabili regressore xi. Test statistici: Analisi della Varianza Analisi della varianza per la regressione multilineare • Come nel caso della regressione lineare Y X1 X2 Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza Syy SSR SSE 15 Test statistici: Analisi della Varianza Analisi della varianza per la regressione multilineare • Dal punto di vista concettuale la procedura è analoga al caso della semplice regressione lineare. • Si consideri la variazione delle misure y rispetto al valore medio. Tale grandezza può essere decomposta in due quantità: S yy = SSR + SSE • È possibile quindi introdurre la seguente statistica: SSR p −1 F0 = SSE n− p • E ripetere la procedura vista nel caso precedente. Test statistici: Analisi della Varianza Analisi della varianza per la regressione multilineare • Le considerazioni precedenti possono essere riassunte nella seguente tabella ANOVA: Sorgente di errore Somma dei Quadrati Regressione SSR = ∑ ( yˆ i − y )2 Gradi di libertà Quadrato medio (Varianza) F ratio p MSR = SSR/(p‐1) MSR/ MSE n‐p MSE = SSE/(n‐p) i Residuo SSE = ∑ ( yˆ i − yi ) 2 i Totale S yy = ∑ ( yi − y ) 2 n‐1 n i • Inoltre, MSE e MSR sono variabili aleatorie indipendenti. Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 16 Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • Aggiungendo in una regressione lineare ulteriori dipendenze dalle variabili regressore si ottiene: SSR aumenta SSE diminuisce • Si deve stabilire se l’aumento nella somma dei quadrati è sufficiente per giustificare il regressore addizionale del modello Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • Le ipotesi per il test sulla significatività della regressione per il singolo coefficiente j sono: H0 : αj = 0 H1 : α j ≠ 0 per un fissato j • In questo caso la statistica test per l’ipotesi nulla è la distribuzione T di student ad n-p gradi di libertà: t0 = aj MSE C jj • Dove Cjj è l’elemento diagonale di (FTF)-1 corrispondente a aj Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 17 Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • Si può anche utilizzare la cosiddetta “somma extra” dei quadrati. • Tale procedura può essere usata per investigare il contributo di un sottoinsieme di variabili regressore del modello. • A tale scopo, si consideri il modello di regressione con k variabili regressore y = (n ×1) F⋅α + (n × p )( p ×1) ε (n ×1) • Si vuole stabilire se esiste qualche sottoinsieme r<p regressori che contribuisce significativamente al modello. Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • Si partiziona il vettore dei parametri β in due vettori ⎡α ⎤ α = ⎢ 1⎥ ⎣α 2 ⎦ ( p − r )×1 r ×1 • Per comodità di discussione nel seguito si introduce la seguente variabile: m=(p-r) • Si vuole testare l’ipotesi: ⎧H 0 : ⎨ ⎩H1 : α2 = 0 α2 ≠ 0 Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 18 Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • Il modello può quindi essere scritto: = y (n ×1) F⋅α (n × p )( p ×1) + ε (n ×1) = F1 ⋅ α1 (n × m)(m ×1) + F2 ⋅ α 2 (n × r )(r ×1) + ε (n ×1) Modello completo • Per il modello completo: ( a = F TF ) −1 FTy Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • È possibile valutare la somma di regressione dei quadrati: SSR(a ) = ∑ ( yˆ i − y ) = (y − F ⋅ a)T ⋅ (y − F ⋅ a) 2 • Rappresenta la somma dei quadrati della regressione dovuta al vettore dei parametri β • È possibile inoltre valutare la somma dei residui: SSE (a ) = ∑ ( yˆ i − y ) = (y − F ⋅ a)T ⋅ (y − F ⋅ a) 2 • E l’errore quadratico medio per il modello completo: MSE (a ) = Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza SSE (a ) n− p 19 Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • Per trovare il contributo dei termini β2 nella regressione si fitta il modello assumendo che l’ipotesi nulla sia vera. y = F1 α1 + (n ×1) ε (n × m )(m ×1) (n ×1) Modello ridotto • Per il modello ridotto sarà: ( a1 = F1T ⋅ F1 ) −1 ⋅ F1T ⋅ y • Il modello ridotto è valido se il contributo delle variabili regressore relative a α2 è nulla, ovvero se l’ipotesi nulla H0 è vera: H0: α2 = 0 Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • La somma dei quadrati della regressione è: SSR(a1 ) = ∑ ( yˆ i1 − y ) 2 m = ( p − r ) gradi di libertà • Si può quindi calcolare la quantità: SSR (a 2 | a1 ) = SSR(a ) − SSR (a1 ) ( p − ( p − r )) = r gradi di libertà • Tale quantità è chiamata somma extra dei quadrati dovuta a α2 dato che è la misura dell’aumento nel termine regressione g dei quadrati che risulta dall’addizionare le variabili regressore in esame. Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 20 Test delle ipotesi sui coefficienti individuali della regressione. Test statistici: Analisi della Varianza • La quantità SSR(a2|a1) è indipendente da MSE e l’ipotesi nulla può essere testata con la statistica: f0 = SSR(a 2 | a1 ) / r MSE • Tale statistica è una distribuzione di Fisher a (r, n-p) g.d.l. • Se F0 > Fa,r,n-p , si rigetta l’ipotesi nulla e si conclude che almeno uno dei parametri in α2 deve essere diverso da 0. • Tale statistica è importante nella analisi della scelta del miglior modello di regressione. Misure sperimentali ripetute – Test “lack of fit” Test statistici: Analisi della Varianza • È possibile sfruttare l’opportunità di avere più prove sperimentali ripetute nelle stesse condizioni. • In questo modo è possibile avere una stima “genuina” genuina della varianza dell’errore sperimentale: – la varianza tra tutte le osservazioni ripetute nelle stesse condizioni sperimentali – Tale misura non è affetta da una eventuale valutazione erronea del modello. • Il test statistico prende il nome di test “lack of fit” e verrà introdotto qualitativamente nei prossimi lucidi. lucidi • Lo scopo è di confrontare la dispersione dei dati all’interno delle prove ripetute con la dispersione dei dati dovuta al modello prescelto. 42 Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 21 Test statistici: Analisi della Varianza Misure sperimentali ripetute – Test “lack of fit” • Test “Lack of fit” - Grandezze in gioco: • Esempio caso di una sola variabile regressore x con misure effettuate per tre diversi valori di esso ( ) yij : misura sperimentale alla j‐esima prova ripetuta per la y condizione sperimentale xi yi ŷi yˆ = f x,θ̂ y1j Media delle m misure per la p condizione sperimentale xi y2 y1 ( ) yˆ1 = f x1, θ̂ Valore predetto dal modello per la i‐esima condizione sperimentale x1 x2 x x3 43 Misure sperimentali ripetute – Test “lack of fit” Test statistici: Analisi della Varianza • Misure sperimentali sono ripetute più volte nelle stesse condizioni – y1,1, y1,2, …, y1,n1 sono n1 osservazioni ripetute a x1 – y2,1, y2,2, …, y2,n2 sono n2 osservazioni ripetute a x2 – … – ym,1, ym,2, …, ym,nm sono nm osservazioni ripetute a xm • Si hanno quindi m differenti livelli della variabile regressore x – Inoltre: m ni m i =1 j =1 i =1 nT = ∑∑1 = ∑ ni Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 22 Misure sperimentali ripetute – Test “lack of fit” Test statistici: Analisi della Varianza • Per ciascun livello delle variabili regressore è possibile valutare la media e la varianza tra le diverse prove ripetute yij − yˆi yij − yi yi = ∑ yij n yi − yˆi i ( ) yˆi = f xi , θ̂ ( ) yˆi = f xi , θ̂ yij − yˆi Distanza della prova sperimentale dalla previsione del modello yij − yi x yi − yˆi Distanza della prova Distanza tra media delle prove sperimentale dalla media ripetute e previsione del modello delle prove ripetute Dipendente dal modello Indipendente dal modello Misure sperimentali ripetute – Test “lack of fit” Test statistici: Analisi della Varianza • Facendo il quadrato di primo e secondo membro e sommando per tutti gli indici i e j (per semplicità si considera il caso di n prove ripetute p per m diversi valori sperimentali): p p ) 2 2 ∑∑ (yij − yˆi ) = ∑∑ (yij − yi )2 + ∑ ni ( yˆi − yi ) m ni m ni m i =1 j =1 i =1 j =1 i =1 Somma dei Quadrati degli Errori SSE Somma totale delle distanze tra previsioni del modello ed osservazioni Somma dei Quadrati dell’ Errore Puro SSEE Misura della varianza all’interno delle prove ripetute Somma dei Quadrati della perdita di fit SSLF Ottima stima dell’errore sperimentale: Varianza “depurata” da eventuali errori dovuti alla non adeguatezza del modello Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 46 23 Misure sperimentali ripetute – Test “lack of fit” Test statistici: Analisi della Varianza • La distanza del modello dai dati sperimentali può quindi essere descritta come la somma di due diversi contributi: – SSEE Misura della varianza “pura” pura – SSLF Misura delle distanze tra media delle osservazioni e previsioni. • Se il modello è “corretto” si deve osservare che queste due distanze devono essere confrontabili SSEE ~ SSLF • Nel caso in cui il modello non sia q quello g giusto,, SSLF include anche una dispersione dovuta alla scarsa adeguatezza del modello SSLF à SSEE 47 Misure sperimentali ripetute – Test “lack of fit” Test statistici: Analisi della Varianza • I risultati dell’analisi possono essere sintetizzati nella seguente tabella di tipo ANOVA Sorgente di errore Somma dei Quadrati gdl Quadrato medio (Varianza) F ratio Lack of fit SSLF m ‐ p MSLF = SSLF/(m‐p) MSLF/ MSEE Prove ripetute SSEE nT‐m MSEE = SSEE/(n∙m‐m) Residui SSE nT‐p • Nel caso di modello adeguato le sorgenti di errore in SSLF e SSEE sono dello stesso tipo: 48 Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 24 Misure sperimentali ripetute – Test “lack of fit” Test statistici: Analisi della Varianza • Da cui è possibile valutare il valore f0: SSLF m− p f0 = ~ F (m − p, nT − m ) SSEE nT − m Analisi della Varianza – Sommario Test statistici: Analisi della Varianza • Concetti importanti • Test ANOVA – Test ANOVA per modelli lineari: • test di significatività per la regressione – La variabile dipendente è influenzata da almeno una variabile regressore? • test Somma Extra dei Quadrati – Uno specifico sottoinsieme di variabili regressore influenza il processo? • test Lack Of Fit – Il modello scelto è adeguato per descrivere i dati sperimentali? Analisi dei Processi Chimici e Biotecnologici ‐ Analisi della Varianza 25