Analisi della Varianza (ANalysis Of VAriance: ANOVA)

Analisi della Varianza
(ANalysis Of VAriance: ANOVA)
Introduzione
Test ANOVA sulle medie
Test ANOVA sulla significatività della regressione
lineare
Test ipotesi per i singoli coefficienti regressione
lineare multipla
Test ANOVA Somma Extra dei Quadrati
Test ANOVA Lack Of Fit (LOF)
Analisi della varianza ad una via Introduzione
Test
statistici:
Analisi
della
Varianza
• Esempio:
• Si consideri il caso di tre macchine che producono un dato oggetto
ed esibiscano i seguenti risultati di produzione oraria:
(
Xi
)
Macchina 1
Macchina 2
Macchina 3
47
53
49
50
46
55
54
58
61
52
54
50
51
51
49
X 1 = 49
X 2 = 56
X 3 = 51
X = 52
• Da una lettura preliminare dei risultati, parrebbe che le macchine
non presentino la stessa produzione oraria (per esempio, per la
Macchina 2 si è osservato un rendimento superiore alle altre)
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
1
Test
statistici:
Analisi
della
Varianza
Analisi della varianza ad una via Introduzione
• Esistono due differenti possibilità per interpretare tale
comportamento:
a) Le fluttuazioni sperimentali hanno portato (inevitabilmente) a
differenze nei valori medi registrati per i differenti trattamenti
b) La macchina 2 è effettivamente superiore alle altre
Macchina 1
• Da una prima analisi
qualitativa su
un’ispezione grafica
parrebbe che i dati non provengano dalla stessa
popolazione
Macchina 2
Macchina 3
70
70
70
65
65
65
60
60
60
55
55
55
50
50
50
45
45
45
40
0
0.05
0.1
40
0
0.05
0.1
Analisi della varianza ad una via Introduzione
40
0
0.05
0.1
Test
statistici:
Analisi
della
Varianza
• Altro esempio:
• I valori medi coincidono con il caso precedente
Macchina 1
Macchina 2
Macchina 3
50
42
53
45
53
48
57
65
59
51
57
59
48
46
45
X
1
= 49
X
2
= 56
X
3
= 51
• Ma …
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
2
Test
statistici:
Analisi
della
Varianza
Analisi della varianza ad una via Introduzione
• Le fluttuazioni
all’interno della
singola colonna
sono ampie, per cui
possono essere
“dovute” ad una
distribuzione molto
ampia
• Le differenze tra le
medie possono in
questo caso essere
spiegate dal caso
70
70
70
65
65
65
60
60
60
55
55
55
50
50
50
45
45
45
40
40
40
35
0
0.02
0.04
0.06
35
0
0.02
0.04
0.06
35
0
Analisi della varianza ad una via Introduzione
0.02
0.04
0.06
Test
statistici:
Analisi
della
Varianza
• Un po’ di nomenclatura
Macchina 1
Macchina 2
Macchina 3
47
53
49
50
46
55
54
58
61
52
54
50
51
51
49
La singola osservazione è caratterizzata da
due indici:
Ogni singola colonna prende il nome
di trattamento
Ciascun trattamento è costituito da n
osservazioni (nel caso in esame n =
5)
L’analisi è svolta su a differenti
trattamenti (nel caso in esame a =3)
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
xij
Indice i:
si riferisce
alla riga iesima
Indice j:
si riferisce al
trattamento jesimo
Esempio: x21=54
3
Analisi della varianza ad una via Metodo
Test
statistici:
Analisi
della
Varianza
• Lo spirito del test ANOVA è confrontare le fluttuazioni presenti
all’interno di ogni trattamento, con le fluttuazioni registrate
tra i trattamenti
• Intuitivamente, se le fluttuazioni tra i trattamenti sono maggiori
delle fluttuazioni all’interno dei trattamenti si può affermare che
esiste un’influenza del differente trattamento sul processo.
Analisi della varianza ad una via Metodo
Test
statistici:
Analisi
della
Varianza
• Dispersione tra i trattamenti
• Per ogni trattamento j-esimo è possibile calcolare la media
xj =
∑x
ij
i
n
• È possibile calcolare la dispersione tra le medie dei differenti
trattamenti:
q1 = n∑ (x j − x )
a
2
j =1
• Nella formula è stata introdotta la media delle medie (ovvero la
media di tutte le osservazioni indipendentemente dai trattamenti)
x=
1
1 ⎛1
⎞ 1 a n
=
x
x
xij
⎜
∑ j a ∑j ⎝ n ∑i ij ⎟⎠ = n a ∑∑
a j
j =1 i =1
• È anche chiamata la “grande media”
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
4
Test
statistici:
Analisi
della
Varianza
Analisi della varianza ad una via Metodo
• Dispersione tra i trattamenti
• Nel caso in esame:
Macchina 1
Macchina 2
Macchina 3
47
53
49
50
46
55
54
58
61
52
54
50
51
51
49
v
x1 = 49
(
) (
v
x3 = 51
v
x2 = 56
2
q1 = n ⎛⎜ x1 − x + x2 − x
⎝
v
x = 52
)2 + (x2 − x )2 ⎞⎟⎠ = 5 ((− 3)2 + (4)2 + (− 1)2 ) = 130.0
Analisi della varianza ad una via Metodo
Test
statistici:
Analisi
della
Varianza
• Dispersione nei trattamenti
• Si può calcolare la dispersione all’interno di ciascun gruppo (per
esempio per il primo trattamento)
n
SS21: Somma dei Quadrati (Sum of Squares)
degli elementi della colonna 1
SS12 = ∑ ( xi1 − x1 )
2
i =1
• sommando le dispersioni calcolate per tutti i trattamenti si può
stimare una misura complessiva di tutte le varianze “interne”
a
q2 = SS12 + SS 22 + ... + SS a2 = ∑ SS 2j
j =1
n
n
n
= ∑ (x1i − x1 ) + ∑ ( x2i − x2 ) + ... + ∑ ( xai − xa )
2
i =1
2
i =1
2
i =1
• In maniera più formale:
q2 = ∑∑ (xij − x j )
a
n
2
j =1 i =1
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
5
Analisi della varianza ad una via Metodo
Test
statistici:
Analisi
della
Varianza
• Dispersione nei trattamenti
Macchina 1
Macchina 2
Macchina 3
47
53
49
50
46
55
54
58
61
52
54
50
51
51
49
n
n
SS22 = ∑(xi 2 − x2 ) = 50
SS12 = ∑ ( xi1 − x1 ) = 30
2
2
i=1
i =1
n
SS32 = ∑(xi3 − x3 ) =14
2
i=1
q2 = ∑∑(xij − x j ) = 94
a
n
2
j =1 i=1
Analisi della varianza ad una via Metodo
Test
statistici:
Analisi
della
Varianza
• Si può dimostrare che:
SST = ∑∑ (xti − x ) =
a
n
2
i =1 t =1
q1
+
Somma dei quadrati
Dispersione
totale:
tra i
Dispersione complessiva trattamenti
in tutto il campione
q2
Dispersione
nei
trattamenti
• Con l’ANOVA distribuisco la dispersione complessiva in due
grandezze dalle caratteristiche ben distinte:
– q1: dispersione spiegata dai trattamenti
– q2: dispersione non spiegata dai trattamenti
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
6
Test
statistici:
Analisi
della
Varianza
Analisi della varianza ad una via Metodo
• Intuitivamente,
se q1 >> q2:
– le differenze tra i trattamenti sono più importanti delle
dispersioni nei trattamenti
– le fluttuazioni statistiche non sono sufficienti a giustificare i
diversi valori di media osservati e il trattamento ha un impatto
• Nelle applicazioni, si considera il seguente rapporto di varianze:
q1
F = a −1
q2
a(n − 1)
Test
statistici:
Analisi
della
Varianza
Analisi della varianza ad una via Metodo
• La procedura può essere riassunta nella cosiddetta tabella ANOVA
Sorgente di variazione
Variazione
(somma dei quadrati)
gradi di libertà
Varianza
Fattore A:
Differenze tra le
medie dei gruppi (o
trattamenti)
Residuo (Errore):
Differenze all'interno
dei gruppi
TOTALE
q1 = n∑ (x j − x )
(a-1)
q1 / (a − 1)
q2 = ∑∑ (xij − x j )
a(n-1)
q2 / a (n − 1)
SST = ∑∑ (xij − x )
na-1
a
2
j =1
a
n
2
Rapporto F
F=
q1 / (a − 1)
q2 / a(n − 1)
j =1 i =1
a
n
2
j =1 i =1
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
7
Analisi della Varianza: Esempio di
test statistico
Test
statistici:
Analisi
della
Varianza
• Il test ANOVA è un tipico esempio di test statistico, atto a
verificare la plausibilità o meno di un’ipotesi.
• Un’ipotesi statistica è un’assunzione che noi facciamo su un
campione osservato.
• Un test statistico di un’ipotesi è una procedura in cui si conclude
se è possibile non rigettare l’ipotesi (cioè non si può escludere che
essa sia vera) oppure rigettare l’ipotesi.
– Si usa un campione e si cerca di concludere se tale campione è
compatibile o meno con l’assunzione di partenza.
Analisi della Varianza: Esempio di
test statistico
Test
statistici:
Analisi
della
Varianza
• Il test statistico implica l’introduzione di una ipotesi che noi
battezziamo ipotesi nulla
• Si indica con il simbolo: H0
• All’ipotesi nulla di partenza si può contrapporre un’ipotesi
alternativa
• Si indica con il simbolo H1
• Tutti i test delle ipotesi statistici richiedono la formulazione di
un’ipotesi nulla e di un’ipotesi alternativa
• L’ipotesi nulla e l’ipotesi alternativa sono esaustive e mutuamente
esclusive.
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
8
Analisi della Varianza: Esempio di
test statistico
Test
statistici:
Analisi
della
Varianza
• Nel caso in esame si assume come ipotesi nulla che non vi sia
differenza tra i trattamenti e le fluttuazioni che osserviamo siano
g
al caso:
legate
H0:
μ1=μ2=μ3
• Come ipotesi alternativa si assume che l’assunzione di partenza
sia falsa, ovvero che vi sia almeno un trattamento che si disco
H1:
μ1 ≠ μ2 e/o μ1 ≠ μ3 e/o μ2 ≠ μ3
Analisi della varianza ad una via Teoria
•
Test
statistici:
Analisi
della
Varianza
Si può dimostrare che il rapporto F delle varianze è un
valore osservato di una variabile aleatoria di tipo
Fisher a (a-1,a(n-1))
(a 1 a(n 1)) gradi di libertà
se
è vera l’ipotesi nulla H0:
– tutti i dati provengono dalla stessa popolazione (ovvero
non c’è differenza tra i trattamenti)
q1
a − 1 := F a − 1, a ( n − 1)
(
)
q2
a ( n − 1)
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
9
Analisi della varianza ad una via Teoria
Test
statistici:
Analisi
della
Varianza
• Esempio di funzione densità di probabilità di una VA di tipo Fisher.
0.8
0 7
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
La maggior parte delle
osservazioni della variabile
aleatoria si ottiene a bassi
valori di f
4
5
6
7
La probabilità di osservare valori ad
alti f è sempre minore (ma mai
completamente impossibile)
Se il valore osservato F è nella coda
l’ipotesi di partenza è poco plausibile
Analisi della varianza ad una via
Test
statistici:
Analisi
della
Varianza
• Il valore di significatività (in inglese: p-value) rappresenta la
probabilità di osservare un valore maggiore o uguale a F per una
variabile aleatoria di Fisher a ((a-1,a(n-1))
, (
)) g
gradi di libertà
• Nel caso in esame F = 8.3 e p = 0.5%
P‐value:
Area sottesa dalla curva
1
0.9
-3
5
x 10
4.5
0.8
4
3.5
0.7
3
2.5
0.6
2
1.5
0.5
1
0.5
0.4
0
7
8
9
10
11
12
13
14
0.3
0.2
0.1
0
0
1
2
3
4
5
f
6
7
8
9
10
F
• Possiamo concludere che la probabilità che non ci siano differenze
tra le macchine è molto bassa
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
10
Test
statistici:
Analisi
della
Varianza
Analisi della Varianza ad una via Gruppi di dimensioni non uguali
• Il modo più efficace per fare un ANOVA è di considerare tutti i
gruppi delle stesse dimensioni n
• Nel caso ciò non fosse possibile è comunque possibile
generalizzare la tabella ANOVA
• Si introduce ni la dimensione del generico gruppo considerato.
21
Test
statistici:
Analisi
della
Varianza
Analisi della Varianza ad una via Gruppi di dimensioni non uguali Tabella ANOVA
Sorgente di variazione
Fattore A:
Differenze tra le
medie dei gruppi (o
trattamenti)
Residuo (Errore):
Differenze all'interno
dei gruppi
Variazione
(somma dei quadrati)
gradi di libertà
Varianza
q1 = ∑ n j (x j − x )
(a-1)
q1 / (a − 1)
q2 = ∑∑ (xij − x j )
(nT-a)
q2 / (nT − a )
a
nj
a
2
j =1 i =1
∑∑ (x
a
TOTALE
2
j =1
nj
j =1 i =1
ij
− x)
2
Rapporto F
F=
q1 / (a − 1)
q2 / (nT − a )
nT-1
• Dove
x=
1
nT
a
nj
∑∑ x
j =1 i =1
ij
=
1
nT
a
∑n x
j =1
j
j
• E’ una media ponderata in cui i gruppi di dimensioni maggiori
contano di più.
22
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
11
Analisi della varianza – Regressione
lineare
Test
statistici:
Analisi
della
Varianza
• Si consideri il caso di una regressione lineare il cui modello è:
yi = β0 + β1 xi + ε i
(
εi ~ N 0, σ 2
)
• Può essere di interesse stabilire se la regressione lineare sia
significativa oppure no
– Esiste effettivamente una dipendenza di tipo lineare tra
variabile dipendente e variabile regressore?
Ipotesi nulla H0:
Ipotesi alternativa H1:
y non dipende da x
y dipende da x
β1=0
β1≠0
Analisi della varianza – Regressione
lineare
Test
statistici:
Analisi
della
Varianza
• Per il singolo punto sperimentale
Valore osservato
sperimentalmente
yi
yˆ i − yi
yˆ i = b0 + b1 xi
yˆ i − y
Valore predetto
dal modello
n
y=
∑y
i =1
n
i
Media di tutti i
punti sperimentali
Retta di migliore regressione
y = b0 + b1 x
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
12
Analisi della varianza – Regressione
lineare
Test
statistici:
Analisi
della
Varianza
• È possibile introdurre le seguenti grandezze:
Y
Y
=
+
S yy = ∑ ( yi − y )
SSR = ∑ ( yˆ i − y )
SSE = ∑ ( yˆ i − yi )
Dispersione
(varianza) totale
presente nei dati
Dispersione
(varianza) spiegata
dalla regressione
Dispersione
(varianza) non
spiegata dalla
regressione
2
i
2
i
2
i
Analisi della varianza – Regressione
lineare
Test
statistici:
Analisi
della
Varianza
• Interpretazione delle grandezze:
S yy (n − 1 g .d .l.))
SSE (n − 2 g .d .l.)
p
delle
Variabilità complessiva
misure
=
Sum of Square of Errors:
Variabilità delle misure non
spiegata dalla regressione
+
SSR
(1 g .d .l.)
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
Sum of Square of Regression:
Variabilità delle misure spiegata
dalla regressione
13
Analisi della varianza – Regressione
lineare
Test
statistici:
Analisi
della
Varianza
• Intuitivamente si può introdurre la seguente statistica:
SSR
F= 1
SSE
n−2
• Rappresenta il rapporto tra la “varianza” (dispersione) dei dati
spiegata dalla regressione e la “varianza” non spiegata dalla
regressione.
• Se la regressione è significativa mi aspetto che la varianza al
numeratore sia maggiore della varianza al denominatore
Analisi della varianza – Regressione
lineare
Test
statistici:
Analisi
della
Varianza
• Le considerazioni precedenti possono essere riassunte nella
seguente tabella ANOVA:
Sorgente di variazione
Variazione
(somma dei quadrati)
Regressione
SSR = ∑ ( yˆ i − y )
n
2
gradi di libertà
Varianza
1
MSR=SSR/1
n-2
MSE = SSE/(n-2)
i =1
Residuo
n
2
SSE = ∑ ( yi − yˆ i )
Rapporto F
F=
MSR
MSE
i =1
TOTALE
n
S yy = ∑ ( yi − y )
2
n-1
i =1
• Inoltre, MSE e MSR sono variabili aleatorie indipendenti.
• Da notare che la tabella è identica a quella fornita da Matlab®
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
14
Test
statistici:
Analisi
della
Varianza
Analisi della varianza per la
regressione multilineare
• Il modello è:
y = α1 ⋅1 + α 2 f 2 + α 3 f 3 + ... + α p f p
• In questo caso le ipotesi sono:
H0 :
α 2 = α 3 = ... = α p = 0
α1 qualunque
H1 :
∃ almeno
j≥2
αj ≠ 0
• Come nel caso della regressione semplice, il nostro scopo è di
stabilire se è plausibile una relazione lineare tra la variabile
misurata e le variabili regressore xi.
Test
statistici:
Analisi
della
Varianza
Analisi della varianza per la
regressione multilineare
• Come nel caso della regressione lineare
Y
X1
X2
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
Syy
SSR
SSE
15
Test
statistici:
Analisi
della
Varianza
Analisi della varianza per la
regressione multilineare
• Dal punto di vista concettuale la procedura è analoga al caso della
semplice regressione lineare.
• Si consideri la variazione delle misure y rispetto al valore medio.
Tale grandezza può essere decomposta in due quantità:
S yy = SSR + SSE
• È possibile quindi introdurre la seguente statistica:
SSR
p −1
F0 =
SSE
n− p
• E ripetere la procedura vista nel caso precedente.
Test
statistici:
Analisi
della
Varianza
Analisi della varianza per la
regressione multilineare
• Le considerazioni precedenti possono essere riassunte nella
seguente tabella ANOVA:
Sorgente di
errore
Somma dei
Quadrati
Regressione SSR = ∑ ( yˆ i − y )2
Gradi di libertà
Quadrato medio
(Varianza)
F ratio
p
MSR = SSR/(p‐1)
MSR/ MSE
n‐p
MSE = SSE/(n‐p)
i
Residuo
SSE = ∑ ( yˆ i − yi )
2
i
Totale
S yy = ∑ ( yi − y )
2
n‐1
n
i
• Inoltre, MSE e MSR sono variabili aleatorie indipendenti.
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
16
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• Aggiungendo in una regressione lineare ulteriori dipendenze dalle
variabili regressore si ottiene:
SSR
aumenta
SSE
diminuisce
• Si deve stabilire se l’aumento nella somma dei quadrati è
sufficiente per giustificare il regressore addizionale del modello
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• Le ipotesi per il test sulla significatività della regressione per il
singolo coefficiente j sono:
H0 :
αj = 0
H1 :
α j ≠ 0 per un fissato j
• In questo caso la statistica test per l’ipotesi nulla è la distribuzione
T di student ad n-p gradi di libertà:
t0 =
aj
MSE C jj
• Dove Cjj è l’elemento diagonale di (FTF)-1 corrispondente a aj
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
17
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• Si può anche utilizzare la cosiddetta “somma extra” dei quadrati.
• Tale procedura può essere usata per investigare il contributo di un
sottoinsieme di variabili regressore del modello.
• A tale scopo, si consideri il modello di regressione con k variabili
regressore
y
=
(n ×1)
F⋅α +
(n × p )( p ×1)
ε
(n ×1)
• Si vuole stabilire se esiste qualche sottoinsieme r<p regressori
che contribuisce significativamente al modello.
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• Si partiziona il vettore dei parametri β in due vettori
⎡α ⎤
α = ⎢ 1⎥
⎣α 2 ⎦
( p − r )×1
r ×1
• Per comodità di discussione nel seguito si introduce la seguente
variabile:
m=(p-r)
• Si vuole testare l’ipotesi:
⎧H 0 :
⎨
⎩H1 :
α2 = 0
α2 ≠ 0
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
18
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• Il modello può quindi essere scritto:
=
y
(n ×1)
F⋅α
(n × p )( p ×1)
+
ε
(n ×1)
=
F1 ⋅ α1
(n × m)(m ×1)
+
F2 ⋅ α 2
(n × r )(r ×1)
+
ε
(n ×1)
Modello completo
• Per il modello completo:
(
a = F TF
)
−1
FTy
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• È possibile valutare la somma di regressione dei quadrati:
SSR(a ) = ∑ ( yˆ i − y ) = (y − F ⋅ a)T ⋅ (y − F ⋅ a)
2
• Rappresenta la somma dei quadrati della regressione dovuta al
vettore dei parametri β
• È possibile inoltre valutare la somma dei residui:
SSE (a ) = ∑ ( yˆ i − y ) = (y − F ⋅ a)T ⋅ (y − F ⋅ a)
2
• E l’errore quadratico medio per il modello completo:
MSE (a ) =
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
SSE (a )
n− p
19
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• Per trovare il contributo dei termini β2 nella regressione si fitta il
modello assumendo che l’ipotesi nulla sia vera.
y
=
F1 α1 +
(n ×1)
ε
(n × m )(m ×1)
(n ×1)
Modello ridotto
• Per il modello ridotto sarà:
(
a1 = F1T ⋅ F1
)
−1
⋅ F1T ⋅ y
• Il modello ridotto è valido se il contributo delle variabili regressore
relative a α2 è nulla, ovvero se l’ipotesi nulla H0 è vera:
H0: α2 = 0
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• La somma dei quadrati della regressione è:
SSR(a1 ) = ∑ ( yˆ i1 − y )
2
m = ( p − r ) gradi di libertà
• Si può quindi calcolare la quantità:
SSR (a 2 | a1 ) = SSR(a ) − SSR (a1 )
( p − ( p − r )) = r gradi di libertà
• Tale quantità è chiamata somma extra dei quadrati dovuta a α2
dato che è la misura dell’aumento nel termine regressione
g
dei
quadrati che risulta dall’addizionare le variabili regressore in
esame.
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
20
Test delle ipotesi sui coefficienti
individuali della regressione.
Test
statistici:
Analisi
della
Varianza
• La quantità SSR(a2|a1) è indipendente da MSE e l’ipotesi nulla può
essere testata con la statistica:
f0 =
SSR(a 2 | a1 ) / r
MSE
• Tale statistica è una distribuzione di Fisher a (r, n-p) g.d.l.
• Se F0 > Fa,r,n-p , si rigetta l’ipotesi nulla e si conclude che almeno
uno dei parametri in α2 deve essere diverso da 0.
• Tale statistica è importante nella analisi della scelta del miglior
modello di regressione.
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici:
Analisi
della
Varianza
• È possibile sfruttare l’opportunità di avere più prove sperimentali
ripetute nelle stesse condizioni.
• In questo modo è possibile avere una stima “genuina”
genuina della
varianza dell’errore sperimentale:
– la varianza tra tutte le osservazioni ripetute nelle stesse
condizioni sperimentali
– Tale misura non è affetta da una eventuale valutazione erronea
del modello.
• Il test statistico prende il nome di test “lack of fit” e verrà
introdotto qualitativamente nei prossimi lucidi.
lucidi
• Lo scopo è di confrontare la dispersione dei dati all’interno delle
prove ripetute con la dispersione dei dati dovuta al modello
prescelto.
42
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
21
Test
statistici:
Analisi
della
Varianza
Misure sperimentali ripetute – Test
“lack of fit”
• Test “Lack of fit” - Grandezze in gioco:
• Esempio caso di una sola variabile regressore x con misure
effettuate per tre diversi valori di esso
( )
yij : misura sperimentale
alla j‐esima prova
ripetuta per la y
condizione
sperimentale xi
yi
ŷi
yˆ = f x,θ̂
y1j
Media delle m misure per la p
condizione sperimentale xi
y2
y1
( )
yˆ1 = f x1, θ̂
Valore predetto dal modello per la i‐esima condizione sperimentale
x1
x2
x
x3
43
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici:
Analisi
della
Varianza
• Misure sperimentali sono ripetute più volte nelle stesse condizioni
– y1,1, y1,2, …, y1,n1 sono n1 osservazioni ripetute a x1
– y2,1, y2,2, …, y2,n2 sono n2 osservazioni ripetute a x2
– …
– ym,1, ym,2, …, ym,nm sono nm osservazioni ripetute a xm
• Si hanno quindi m differenti livelli della variabile regressore x
– Inoltre:
m ni
m
i =1 j =1
i =1
nT = ∑∑1 = ∑ ni
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
22
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici:
Analisi
della
Varianza
• Per ciascun livello delle variabili regressore è possibile valutare la
media e la varianza tra le diverse prove ripetute
yij − yˆi
yij − yi
yi = ∑ yij n
yi − yˆi
i
( )
yˆi = f xi , θ̂
( )
yˆi = f xi , θ̂
yij − yˆi
Distanza della prova
sperimentale dalla
previsione del modello
yij − yi
x
yi − yˆi
Distanza della prova
Distanza tra media delle prove sperimentale dalla media ripetute e previsione del modello
delle prove ripetute
Dipendente dal modello
Indipendente dal modello
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici:
Analisi
della
Varianza
• Facendo il quadrato di primo e secondo membro e sommando per
tutti gli indici i e j (per semplicità si considera il caso di n prove
ripetute
p
per m diversi valori sperimentali):
p
p
)
2
2
∑∑ (yij − yˆi ) = ∑∑ (yij − yi )2 + ∑ ni ( yˆi − yi )
m ni
m ni
m
i =1 j =1
i =1 j =1
i =1
Somma dei Quadrati
degli Errori
SSE
Somma totale delle
distanze tra previsioni
del modello ed
osservazioni
Somma dei Quadrati
dell’ Errore Puro
SSEE
Misura della varianza
all’interno delle prove
ripetute
Somma dei Quadrati
della perdita di fit
SSLF
Ottima stima dell’errore sperimentale: Varianza
“depurata” da eventuali errori dovuti alla non
adeguatezza del modello
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
46
23
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici:
Analisi
della
Varianza
• La distanza del modello dai dati sperimentali può quindi essere
descritta come la somma di due diversi contributi:
– SSEE Misura della varianza “pura”
pura
– SSLF Misura delle distanze tra media delle osservazioni e
previsioni.
• Se il modello è “corretto” si deve osservare che queste due
distanze devono essere confrontabili
SSEE ~ SSLF
• Nel caso in cui il modello non sia q
quello g
giusto,, SSLF include anche
una dispersione dovuta alla scarsa adeguatezza del modello
SSLF à SSEE
47
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici:
Analisi
della
Varianza
• I risultati dell’analisi possono essere sintetizzati nella seguente
tabella di tipo ANOVA
Sorgente di
errore
Somma dei
Quadrati
gdl
Quadrato
medio
(Varianza)
F ratio
Lack of fit
SSLF
m ‐ p
MSLF = SSLF/(m‐p)
MSLF/ MSEE
Prove ripetute
SSEE
nT‐m
MSEE = SSEE/(n∙m‐m)
Residui
SSE
nT‐p
• Nel caso di modello adeguato le sorgenti di errore in SSLF e SSEE
sono dello stesso tipo:
48
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
24
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici:
Analisi
della
Varianza
• Da cui è possibile valutare il valore f0:
SSLF
m− p
f0 =
~ F (m − p, nT − m )
SSEE
nT − m
Analisi della Varianza – Sommario
Test
statistici:
Analisi
della
Varianza
• Concetti importanti
• Test ANOVA
– Test ANOVA per modelli lineari:
• test di significatività per la regressione
– La variabile dipendente è influenzata da almeno una
variabile regressore?
• test Somma Extra dei Quadrati
– Uno specifico sottoinsieme di variabili regressore
influenza il processo?
• test Lack Of Fit
– Il modello scelto è adeguato per descrivere i dati
sperimentali?
Analisi dei Processi Chimici e Biotecnologici ‐
Analisi della Varianza
25