Test delle Ipotesi e Analisi della Varianza (ANalysis Of VAriance

Test delle Ipotesi e Analisi della
Varianza
(ANalysis Of VAriance: ANOVA)
Test delle Ipotesi sulla media
Introduzione
Definizioni basilari
Teoria per il caso di varianza nota
Rischi nel test delle ipotesi
Teoria per il caso di varianza non nota
Analisi della Varianza
Introduzione
Teoria
Test ANOVA sulle medie
Test ANOVA sulla significatività della regressione
lineare
Test ipotesi per i singoli coefficienti regressione
lineare multipla
Test ANOVA Somma Extra dei Quadrati
Test ANOVA Lack Of Fit (LOF)
1
Test delle Ipotesi
Introduzione
•
•
Test
statistici
Un’ipotesi statistica è un’assunzione che noi facciamo su una
distribuzione di una variabile aleatoria
Il test statistico ha lo scopo di verificare se il campione a nostra
disposizione è compatibile o meno con l’ipotesi di partenza.
Un test statistico di un’ipotesi è una procedura in cui si conclude di
– non rigettare l’ipotesi (cioè non si può escludere che essa sia
vera) oppure
– rigettare l’ipotesi.
• Si usa un campione e si cerca di concludere se tale campione è
compatibile o meno con l’assunzione di partenza.
•
•
•
Una conclusione non può mai essere completamente certa.
Ogni test statistico comporta un certo rischio di errore
– ovvero, giungere ad una conclusione sbagliata
2
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
1
Test delle Ipotesi
Introduzione
•
•
Test
statistici
Esempio:
Una fabbrica produce un catalizzatore per l’industria la cui durata
di vita media è  = 1215 h e la deviazione standard è  = 300 h
Un’altra fabbrica produce (con un’altra procedura) lo stesso tipo di
catalizzatore. Un campione di 100 catalizzatori provenienti dalla
nuova fabbrica ha rilevato una media di vita
y = 1260 ore
•
Due possibilità:
– la nuova procedura produce effettivamente un catalizzatore di
maggior durata
– la differenza è legata semplicemente alla natura stocastica dei
dati
3
Test delle ipotesi: Definizioni
Test
statistici
•
Il test statistico implica l’introduzione di una ipotesi da testare sul
campione a disposizione
– ipotesi nulla
– si indica con il simbolo: H0
•
All’ipotesi nulla di partenza si può contrapporre:
– un’ipotesi alternativa
– si indica con il simbolo: H1
•
Tutti i test delle ipotesi statistici richiedono la formulazione di
un’ipotesi nulla e di un’ipotesi alternativa
•
L’ipotesi nulla e l’ipotesi alternativa sono esaustive e mutuamente
esclusive.
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
2
Test delle Ipotesi – Esempio
Test
statistici
•
La media osservata per il nuovo campione di dati è compatibile
con la variabile aleatoria di riferimento?
•
Si vuole testare l’ipotesi che i risultati di questo campionamento
sperimentale siano delle variabili aleatorie che abbiano media  =
1,215
Ipotesi nulla:
•
H0 :
•
•
 =  0 = 1,215
Una altra possibilità (plausibile) è che il nuovo catalizzatore sia
effettivamente più longevo della vecchia produzione
Ipotesi alternativa:
H1 :
 > 0
5
Test delle Ipotesi
Significatività del test
•
Test
statistici
Ogni test delle ipotesi implica una scelta del livello di
significatività del test
probabilità di rigettare l’ipotesi nulla nonostante essa sia
vera
•
Questa probabilità prende il nome di errore di tipo I e si indica
con la lettera 
•
È un dato assegnato a priori nel processo
6
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
3
Test delle Ipotesi sulla media
Teoria
Caso in cui la varianza
•
 = 0
fosse vera, allora la variabile aleatoria media del campione di
dati sperimentali
Y =
•
2 sia nota
Se l’ipotesi nulla
H0 :
•
Test
statistici
 Yi
n
ha una funzione densità di probabilità che è una distribuzione
gaussiana di media 0 e varianza 2 /n
7
Test delle Ipotesi sulla media
Teoria
Caso in cui la varianza
Test
statistici
2 sia nota
•
Se si assume vera l’ipotesi nulla, la probabilità che assuma
valori prossimi a 0 è molto elevata, ma non si possono escludere
anche valori diversi
•
Fissare un livello di significatività del test equivale a calcolare
quale è il valore della variabile aleatoria al di sopra del quale la
probabilità di osservare risultati è molto bassa
8
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
4
Test delle Ipotesi sulla media
Teoria
Caso varianza
Test
statistici
2 nota
 = 0.05
c
Non rigetto l’ipotesi nulla H0 Rigetto l’ipotesi nulla H0
•
Al di sopra di c la probabilità che la VA
=
,
assuma valori
è bassa (pari al 5%)
9
Test delle Ipotesi sulla media
Ricetta 1/3
•
•
Fissare un livello di significatività 
Stabilire l’ipotesi nulla:
H0 :
•
 = 0
Contro l’ipotesi alternativa:
H1 :
•
Test
statistici
 > 0
Calcolare il valore stimato per la media (che corrisponde ad un
valore osservato della VA):
y=
 yi
n
10
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
5
Test delle Ipotesi sulla media
Ricetta 2/3
•
Nel caso in cui la VA fosse una gaussiana di media
2/n, la variabile aleatoria
X= n
Test
statistici
0 e varianza
Y - 0

sarebbe una distribuzione normale di tipo standard
• Quindi
c - 0 

P Y < c =0 = F  n
 = 1- 
 

•
•
dove F è la distribuzione cumulativa della gaussiana di tipo
standard
Determinato il valore della distribuzione normale che mi soddisfa
l’eguaglianza è possibile determinare c
11
Test delle Ipotesi sulla media
Ricetta 3/3
•
Test
statistici
Se
y >c
•
rigettiamo l’ipotesi nulla ed accettiamo l’ipotesi alternativa:
– la probabilità che il risultato ottenuto appartenga alla variabile
aleatoria ipotizzata è molto bassa
•
Se
•
non rigettiamo l’ipotesi nulla.
•
La regione contenente i valori per cui rigettiamo l’ipotesi nulla si
chiama regione di rigetto dell’ipotesi nulla
y<c
12
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
6
Test delle ipotesi sulla media Esempio
•
•
Si consideri di nuovo l’esempio introduttivo.
Il test delle ipotesi è sul valore medio:
H0 :
H1 :
•
Test
statistici
 = 0
 > 0
Con un livello di significatività  = 10 %
13
Test delle ipotesi sulla media Esempio
•
Si valuta innanzitutto il valore c tale che P(Z>c) =  = 0.1.
F c  = 1 - 
•

c = 1.282
Se l’ipotesi nulla fosse vera, la variabile
x=
•
Test
statistici
y - 0

n=
1260 - 1215
10 = 1.500
300
sarebbe un valore osservato di una variabile aleatoria normale
di tipo standard.
14
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
7
Test delle ipotesi sulla media Esempio
•
Test
statistici
La probabilità che la variabile aleatoria normale di media 0
e varianza 2/n in questione assuma un valore eguale a 1.5
rientra nella zona di rigetto
Il valore osservato
rientra nella regione
0.5
in cui la variabile
0.4
aleatoria ha poche
probabilità di cadere
0.3
0.2
0.1
0.0
-3
-2
-1
0
1
2
3
C’è un 10% di
probabilità che il
valore osservato
appartenga alla VA
supposta nell’ipotesi
nulla H0 e sia
comunque rigettata
15
Test delle ipotesi sulla media Esempio
Test
statistici
•
Si consideri ora il caso in cui si scelga un livello di significatività
 = 5 %.
•
Si valuta innanzitutto il valore c tale che P(Z>c) = .
F c  = 1 - 

c = 1.96
•
Per il livello di significatività scelto, il valore osservato della
variabile aleatoria non rientra nella regione di rigetto dell’ipotesi.
•
Si conclude che, per il livello di significatività scelto, non ci sono
evidenze sufficienti per affermare che l’esito osservato non sia
compatibile con la variabile aleatoria dell’ipotesi nulla
– non si rigetta l’ipotesi nulla.
16
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
8
Test delle ipotesi sulla media Esempio
Test
statistici
0.5
0.4
 = 0.05
0.3
0.2
0.1
0.0
-3
-2
-1
0
1
2
3
Valore osservato della variabile aleatoria di tipo standard
17
Test delle ipotesi sulla media
Ipotesi alternative 1/3
•
Nel problema in esame si assume che il nostro campione di dati
sperimentali sia caratterizzato da una variabile aleatoria che abbia
una funzione densità di probabilità che coinvolge un parametro
ignoto  e si assume l’ipotesi nulla che
H0 :
•
•
•
•
Test
statistici
θ = θ0
L’ipotesi alternativa era che
H1 :
 > 0
H1 :
 < 0
(2)
H1 :
  0
(3)
(1)
Ma non è l’unica alternativa che possiamo considerare. In altri casi
la natura può suggerire altri tipi di alternative:
Oppure
Le prime 2 alternative si chiamano one-sided. L’ultima twosided
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
18
9
Test delle ipotesi sulla media
Ipotesi alternative 2/3
Test
statistici
•
Nel caso della ipotesi alternativa H1:  < 0, si deve determinare il
valore critico c1 tale che tutti i valori inferiori a c1 abbiano una
probabilità di verificarsi pari a 
•
Dobbiamo escludere i valori per cui la distribuzione assuma valori
inferiori a c tali che
P(Y<0-c) =

Insieme dei
valori per i quali
rigettiamo
l’ipotesi nulla
=0.05
0-c1
0
19
Test delle ipotesi sulla media
Ipotesi alternative 3/3
•
Test
statistici
Nel caso in cui l’ipotesi alternativa H1 è two-sided, ovvero  ≠ 0,
dobbiamo escludere sia i valori per cui la distribuzione assuma
valori inferiori a 0-c, sia i valori per cui la distribuzione assuma
valori superiori a 0 +c
Insieme dei valori per
i quali l’ipotesi nulla è
rigettata
=0.05
0-c
0
0+c
20
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
10
Rischi di fare false decisioni nei test
•
•
•
•
Test
statistici
Nella enunciazione del test delle ipotesi è stato introdotto il
concetto di Errore di tipo I
Tale probabilità è pari al livello di significatività del test
Ma l’errore di tipo I non è il solo tipo di errore che possiamo
incontrare in un test statistico.
Per introdurre i concetti successivi consideriamo il caso
semplificato di una sola possibile ipotesi alternativa per cui la
media possa assumere solo un altro valore preciso distinto
– 1 > 0.
H0 :
 = 0
H1 :
 = 1
21
Rischi di fare false decisioni nei test
•
Test
statistici
Ci si può porre il problema di quale era la probabilità di non
rigettare l’ipotesi nonostante essa fosse falsa e fosse invece
 = 1


0
•
1
L’integrale  in figura rappresenta tale tipo di probabilità
22
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
11
Rischi di fare false decisioni nei test
•
L’errore rappresentato dall’integrale
Test
statistici
 si chiama errore di tipo II
P  c =1 = 
•
Questo valore dipende dall’alternativa
1.
In sintesi:
•  = Errore di tipo I: Probabilità di rigettare l’ipotesi nulla
nonostante essa fosse vera
•  = Errore di tipo II: Probabilità di non rigettare l’ipotesi nulla
nonostante essa fosse falsa
23
Test delle ipotesi - Potenza del test
•
Test
statistici
La quantità:
h=1-
•
•
•
•
è battezzata potenza del test
Rappresenta la probabilità di evitare un errore di tipo II, una volta
stabilito il livello di significatività del test.
Osservazioni
Diminuire un errore di tipo II può essere ottenuto per esempio
spostando c a valori minori, ma questo comporta un aumento
dell’errore di tipo I
Come è possibile, almeno per i casi sinora analizzati, ridurre
entrambi gli errori?
24
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
12
Test delle ipotesi - Errori di tipo I e
II
Test
statistici
•
Se l’alternativa non è un singolo numero, ma del tipo <0, >0,
 diverso da 0, allora  diviene una funzione continua di .
•
Questa funzione  () si chiama caratteristica operativa (OC) del
test e la sua curva di chiama curva OC
25
Test delle ipotesi
Altra procedura
Test
statistici
•
Dal punto di vista storico, l’introduzione del livello di significatività
del test è giustificato dalle difficoltà computazionali relative alla
valutazione di una CDF:
– le distribuzioni più importanti sono valutate solo in
corrispondenza di un numero discreto (e limitato) di valori di .
•
Con le disponibilità computazionali attuali, questo problema è
superato.
26
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
13
Test delle ipotesi
Altra procedura
•
•
Test
statistici
Si considerino due differenti risultati: x1 = 2.5 e x2= 9.6.
Nonostante entrambi i risultati rigettino l’ipotesi nulla per un
livello di significativita  = 0.05, sono quantitativamente ben
diversi.
0.4
La probabilità che si
verifichi l’evento z2 è di
gran lunga inferiore alla
probabilita dell’evento
z1
2e-20
1e-20
0.3
1e-20
5e-21
0
0.2
9.4
9.6
9.8
10.0
10.2
10.4
0.1
0.0
0
2
4
6
8
10
12
Le differenze tra i due
casi non sono
apprezzabili con
l’implementazione
corrente del test
27
Test delle ipotesi
P-value
•
•
•
•
Test
statistici
Negli ultimi anni si tende a calcolare un nuovo parametro per
stabilire l’esito di un test statistico, ovvero il p-value
Esso rappresenta la probabilità che la VA assunta nell’ipotesi H0
assuma valori maggiori (o minori, a seconda dell’ipotesi
alternativa) di quello osservato.
Nell’esempio precedente (H0: =0, H1:  > 0), la probabilità che
la VA supposta assuma valori maggiori del valore osservato z1 è
pari a
Pr(Z>z1) = 6.2e-3
Nel secondo caso:
Pr(Z>z2)~0
•
Tali valori rappresentano i p-value dei due campioni di dati
28
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
14
Test delle ipotesi
P-value
•
Test
statistici
Altro esempio:
– H0: =0
– H1:  < 0
•
Si osserva un valore pari z = -1.50. Il p-value corrispondente è
p=6.7e-2
0.5
L’area
segnata
in giallo è
il p-value
0.4
0.3
0.2
0.1
0.0
-3
-2
-1
0
1
2
3
z =-1.5
Test delle ipotesi sulla media –
Caso Varianza non nota
•
•
Test
statistici
Si consideri di nuovo il caso del catalizzatore in cui stavolta la
varianza non sia nota e sia invece nota la sua stima s
H0 :
 = 0
H1 :
 > 0
Se l’ipotesi nulla fosse vera, allora la variabile aleatoria
Z= n
•
29
Y - 0
s
Sarebbe una distribuzione T di Student ad (n-1) gradi di libertà.
30
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
15
Test delle ipotesi sulla media –
Caso Varianza non nota
•
•
Fissare un livello di significatività del test (es: = 5%)
Calcolare s:
s2 =
•
Test
statistici
1
2
  yi - y 
n -1
Calcolare il valore di c per cui:
PT  c  = F c  = 1 - 
•
•
Dove T è la distribuzione di student ad n-1 gradi di libertà.
Come valore osservato della variabile T possiamo calcolare
t= n
•
•
y - 0
s2
se t > c, rigettare l’ipotesi nulla ed accettare l’ipotesi alternativa
H1: >0
se t < c non rigettare l’ipotesi nulla.
31
Test delle ipotesi sulla media –
Caso Varianza non nota
•
•
La costruzione del test delle ipotesi nel caso di ipotesi alternative
di tipo differente è assolutamente equivalente al caso approcciato
con le distribuzioni di tipo gaussiano.
Nel caso in cui:
H 0 :  = 0
H1 :
•
Test
statistici
 < 0
Dobbiamo escludere i valori per cui la T di student assuma valori
inferiori a c tali che P(c) = 
Insieme dei valori per
i quali rigettiamo
l’ipotesi nulla
=0.05
32
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
16
Test delle ipotesi sulla media –
Caso Varianza non nota
•
•
Nel caso in cui:
H0 :
 = 0
H1 :
  0
Test
statistici
Dobbiamo escludere sia i valori per cui la T di student assume
valori inferiori a -c, sia i valori per cui la T di student assume
valori superiori a c
Insieme dei valori per i
quali rigettiamo H0
=0.025
=0.025
Test delle Ipotesi sulla differenza di
due medie
Test
statistici
•
Si considerino due campioni indipendenti di dimensioni
rispettivamente m ed n, presi da due VA Y1~N(1,1) e
Y2~N(2,2)
•
A tale scopo è possibile calcolare le medie
dei due campioni di dati:
•
Si vuole testare l’ipotesi che le media dei due campioni siano
eguali:
e
e le varianze
e
H 0 : 1 = 2
H1 :
1 > 2
34
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
17
Test delle Ipotesi sulla differenza di
due medie
•
Si può dimostrare che la statistica:
+
+
=
•
−2
−
−1
+
−1
è una distribuzione T di student ad (n+m-2) g.d.l, essendo
=
=
•
Test
statistici
∑
=
1
−1
∑
=
−
1
−1
−
le variabili aleatorie connesse alle osservazioni di media e varianza
del primo e secondo campione rispettivamente.
35
Test delle Ipotesi sulla differenza di
due medie – Ricetta 1/2
Test
statistici
•
Ricetta:
•
•
Si fissa un livello di fiducia 
Si stabilisce l’ipotesi nulla e l’ipotesi alternativa adeguata, per
esempio:
H 0 : 1 = 2
H1 :
•
1 > 2
Si calcola c tale che:
P T < c  = 1 - 
•
Essendo T la distribuzione T di student ad (n+m-2) g.d.l.
36
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
18
Test delle Ipotesi sulla differenza di
due medie – Ricetta 2/2
•
•
Si calcola media e varianza dei due campioni
Si calcola il valore osservato della VA
=
•
•
Test
statistici
+
+
−2
̅ − ̅
−1
+
−1
Se t0 > c, l’ipotesi nulla è rigettata.
Nel caso t0 < c, l’ipotesi nulla non è rigettata.
37
Test delle ipotesi sui coefficienti di
regressione
•
Test delle Ipotesi sulla pendenza
Assunzioni:
Gli errori i sono normalmente distribuiti ed indipendenti
~
•
i.i.d.
1 = 10
Contro l’ipotesi alternativa:
H1:
•
0,
Si vuole testare l’ipotesi
H0:
•
Test
statistici
1 ≠ 10
Ipotesi alternativa di tipo bilaterale (ma può anche essere “onesided”)
38
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
19
Test delle ipotesi sui coefficienti di
regressione
•
Test sulla pendenza:
Se l’ipotesi nulla fosse vera, la stima della pendenza della retta di
regressione sarebbe un esito di una variabile aleatoria di tipo Gaussiano:
~
•
•
,
Essendo 10 il valore supposto nel test delle ipotesi.
La distribuzione:
=
•
•
Test
statistici
−
È una distribuzione normale di tipo Standard nel caso in cui l’ipotesi nulla
fosse vera.
Se 2 fosse nota potremmo usare la X per testare l’ipotesi nulla.
39
Test delle ipotesi sui coefficienti di
regressione
•
Si può comunque dimostrare che, nel caso in cui fosse nota solo
una stima MSE della varianza, la variabile aleatoria:
=
•
•
Test
statistici
−
È una distribuzione di tipo t di Student ad (n-2) gradi di libertà.
Il test è quindi effettuato confrontando il valore osservato di t0 con
il limite superiore della t di Student, per la soglia di errore
stabilito.
40
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
20
Test delle ipotesi sui coefficienti di
regressione
Test
statistici
•
•
Test delle ipotesi sull’intercetta
In modo analogo è possibile ricavare una t di Student per un test
sull’intercetta b0:
H0:
0 = 00
•
Contro l’ipotesi alternativa:
H1:
•
0 ≠ 00
Se l’ipotesi nulla fosse vera, allora la distribuzione:
=
•
−
1
+
̅
È una t di Student ad (n-2) gradi di libertà
41
Test delle ipotesi sui coefficienti di
regressione – Caso particolare
•
Un caso speciale molto importante è:
H0:
H1:
•
•
Test
statistici
1 = 0
1 ≠ 0
Questo test delle ipotesi è legato al concetto di significatività della
regressione.
Il fallimento del rigetto dell’ipotesi nulla H0 implica che ci potrebbe non
essere dipendenza lineare tra la variabile dipendente e la variabile
regressore.
42
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
21
Test delle ipotesi –
Significatività della regressione
Situazioni in cui l’ipotesi nulla 1 = 0
non è rigettata
Test
statistici
Situazioni in cui l’ipotesi nulla 1 = 0
è rigettata
43
Analisi della Varianza Introduzione
Test
statistici
•
Nel caso del test delle ipotesi sulla differenza di due medie ci si
pone il problema di confrontare due medie.
•
Ci si può porre il problema di confrontare anche più medie tra
loro.
44
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
22
Analisi della varianza sulle medie Introduzione
Test
statistici
In una fabbrica sono prodotti contenitori per bevande.
A tal riguardo registra la loro produzione oraria per
– a=3 diverse macchine
per
– n=5 ore consecutive
Le misure totali sono quindi N=n·a=5·3=15.
•
•
•
Macchina 1
Macchina 2
Macchina 3
47
53
49
50
46
55
54
58
61
52
54
50
51
51
49
X 1 = 49
Xi




X 3 = 51
X 2 = 56



X = 52

Analisi della varianza sulle medie Procedura
Test
statistici
•
Da una lettura preliminare dei risultati, si osserva che la Macchina
2 pare presentare una produzione oraria superiore a quella
registrata per le altre due macchine
•
•
Obbiettivo:
Implementare una procedura rigorosa che permetta
– di stabilire se esistono trattamenti significativamente diversi o,
equivalentemente, se la macchina ha un impatto sulla misura
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
23
ANOVA ad un singolo fattore –
Nomenclatura
Misure
sperimentali
ripetute
1
2
3
1
47
55
54
2
53
54
50
3
49
58
51
4
50
61
51
5
46
52
49
y
y j
49
56
51
52
Test
statistici
Macchina
Ogni singola colonna prende il nome
di trattamento
Ciascun trattamento è costituito da n
osservazioni disposte per riga
(nel caso in esame n = 5)
L’analisi è svolta su a differenti
trattamenti o livelli
(nel caso in esame a =3)
La singola osservazione è caratterizzata da due indici:
yij
Indice i:
si riferisce alla i-esima
osservazione
Indice j:
si riferisce al j-esimo trattamento
Analisi della varianza sulle medie Metodo
Test
statistici
•
Lo spirito del test ANOVA è confrontare le fluttuazioni presenti
all’interno di ogni trattamento, con le fluttuazioni registrate
tra i trattamenti
•
Intuitivamente, se le fluttuazioni tra i trattamenti sono maggiori
delle fluttuazioni all’interno dei trattamenti si può affermare che
esiste un’influenza del differente trattamento sul processo.
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
24
ANOVA ad un singolo fattore –
Studio del modello degli effetti
•
Test
statistici
Nomenclatura usata nel seguito:
n
Somma di tutte le osservazioni per il
trattamento i-esimo
y j =  yij
i =1
a
n
y =  yij
Somma di tutte le osservazioni per tutti
trattamenti
j =1 i =1
y  j = y j n
Media del trattamento i-esimo
y  = y   N
“Grande” media del campione di dati (N=n·a)
ANOVA ad un singolo fattore –
Decomposizione della somma totale dei
quadrati
•
Test
statistici
Si consideri la somma totale dei quadrati SST:
a
n
SST =   yij - y 
2
j =1 i =1
•
•
È una misura della variabilità complessiva presente nei dati.
Con qualche passaggio:
a
n


SST =   yij - y j  -  y j - y 
2
j =1 i =1
a
n
a
n
a
n
=   yij - y j     y j - y   2  yij - y j  y j - y 
j =1 i =1
2
j =1 i =1
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
2
j =1 i =1
=0
25
ANOVA ad un singolo fattore –
Decomposizione della somma totale dei
quadrati
•
Test
statistici
In conclusione si ha:
a
n
SST =   yij - y 
2
j =1 i =1
a
n
a
=   yij - y j   n  y j - y 
j =1 i =1
2
2
j =1
SSE: Sum of Squares of
Errors
SSTreatments: Sum of Squares
of Treatments
Somma dei quadrati delle
differenze
all‘interno
dei trattamenti
Somma dei quadrati
delle differenze
tra
i trattamenti
ANOVA ad un singolo fattore –
Decomposizione della somma totale dei
quadrati
•
•
•
Test
statistici
Interpretazione dei termini – Somma dei quadrati degli
errori:
SSE rappresenta la dispersione dei dati non spiegata dai
trattamenti
SSE ha un numero di gradi di libertà pari a (N-a)
– N è il numero totale di punti a disposizione
– a è il numero di informazioni usato per calcolare le medie della
singola colonna
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
26
ANOVA ad un singolo fattore –
Decomposizione della somma totale dei
quadrati
•
Si può quindi calcolare la varianza corrispondente a tale termine di
dispersione
MSE =
•
Test
statistici
SSE
N -a
Stima della varianza comune
all’interno dei trattamenti
Si può dimostrare che il valore atteso per MSE coincide con la
varianza dell’errore sperimentale:
E MSE  =  2
– MSE e una misura genuina dell’errore sperimentale (depurata
dall’eventuale influenza dei trattamenti)
ANOVA ad un singolo fattore –
Decomposizione della somma totale dei
quadrati
•
•
•
Test
statistici
Interpretazione dei termini – Somma dei quadrati dei
trattamenti:
SSTreatments rappresenta la dispersione dei dati spiegata dai
trattamenti
In maniera analoga al caso precedente, si può facilmente
verificare che il numero di gdl di SSTreatments è pari ad (a-1) per
cui è possibile valutarne la varianza corrispondente:
MS Treatments =
SS Treatments
a -1
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
Stima della varianza tra i
trattamenti
27
ANOVA ad un singolo fattore –
Decomposizione della somma totale dei
quadrati
•
Test
statistici
Intuitivamente, se i trattamenti non influenzano il processo:
MSE  MSTrearments
•
Se, viceversa,
MSTreatments >> MSE
•
la sorgente di varianza presente tra i trattamenti non è della
stessa natura della varianza presente all’interno dei trattamenti
– le differenze tra i trattamenti sono più importanti delle
dispersioni nei trattamenti
– le fluttuazioni statistiche non sono sufficienti a giustificare i
diversi valori di media osservati e il trattamento ha un impatto
ANOVA ad un singolo fattore –
Decomposizione della somma totale dei
quadrati
•
Test
statistici
In conclusione la dispersione totale dei dati può essere
decomposta in due distinti contributi:
SST=SSE+SSTreatments
•
Inoltre, in assenza di influenza dei trattamenti, si ha:
SST

•
2
~  2N -1
SSE

2
~  2N -a
SSTreatments

2
~  2a -1
Si può inoltre dimostrare che le VA SST, SSE e SSTreatments sono
indipendenti
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
28
Decomposizione della somma totale dei
quadrati – Analisi statistica
•
Test
statistici
In conclusione, se l’assunzione di partenza:
– trattamenti non influenzano i risultati sperimentali
•
fosse vera, il rapporto delle varianze
SSTreatments
MSTreatments
f0 = a - 1 =
SSE
MSE
N -a
•
•
sarebbe distribuito secondo una F di Fisher a (a-1,N-a) g.d.l.
Valori di f0»1 sono poco verosimili
Analisi della varianza sulle medie Metodo
•
Test
statistici
La procedura può essere riassunta nella cosiddetta tabella ANOVA
Sorgente di
variazione
Somma dei quadrati
Gradi di
libertà
Varianza
a-1
MSTreatments
i =1 yij - y j 2
N-a
MSE
i =1 yij - y 2
N-1
F0
SSTreatments =
Trattamenti
n
 y j - y 2
a
j =1
a
j =1
Errore
SSE = 
Totale
SST = 
a
j =1
n
n
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
f0 =
MSTreat.
MSE
29
Analisi della varianza sulle medie Teoria
•
Test
statistici
Esempio di funzione densità di probabilità di una VA di tipo Fisher.
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
La maggior parte delle
osservazioni della variabile
aleatoria si ottiene a bassi
valori di f
4
5
6
7
La probabilità di osservare valori ad
alti f è sempre minore (ma mai
completamente impossibile)
Se il valore osservato f0 è nella coda
l’ipotesi di partenza è poco plausibile
Analisi della varianza sulle medie
•
•
Test
statistici
Il valore di significatività (in inglese: p-value) rappresenta la
probabilità di osservare un valore maggiore o uguale a F per una
variabile aleatoria di Fisher a (a-1,a(n-1)) gradi di libertà
Nel caso in esame f0 = 8.3 e p = 0.5%
P-value:
Area sottesa
dalla curva
1
0.9
5
x 10
-3
4.5
0.8
4
3.5
0.7
3
2.5
0.6
2
1.5
0.5
1
0.5
0.4
0
7
8
9
10
11
12
13
14
0.3
0.2
0.1
0
•
0
1
2
3
4
5
f
6
7
8
9
10
F
Possiamo concludere che la probabilità che non ci siano differenze
tra le macchine è molto bassa
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
30
Analisi della Varianza: Esempio di
test statistico
•
Nel caso in esame si assume come ipotesi nulla che non vi sia
differenza tra i trattamenti e le fluttuazioni che osserviamo siano
legate al caso:
H0:
•
1=2=3
Come ipotesi alternativa si assume che l’assunzione di partenza
sia falsa, ovvero che vi sia almeno un trattamento che si disco
H1:
1  2 e/o 1  3 e/o 2  3
Analisi della Varianza sulle medie Gruppi di dimensioni non uguali
•
•
•
Test
statistici
Test
statistici
Il modo più efficace per fare un ANOVA è di considerare tutti i
gruppi delle stesse dimensioni n
Nel caso ciò non fosse possibile è comunque possibile
generalizzare la tabella ANOVA
Si introduce ni la dimensione del generico gruppo considerato.
62
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
31
ANOVA ad un singolo fattore – Tabella
ANOVA – Trattamenti di dimensioni
diverse
Sorgente di
variazione
Somma dei quadrati
Gradi di
libertà
Varianza
a-1
MSTreatments
MSE
Test
statistici
F0
SSTreatments =
Trattamenti
 n y
a
j
j =1
- y 
j

2
Errore
SSE =  j =1 i =j1  yij - y j 
2
N-a
Totale
SST =  j =1 i =j1  yij - y 
N-1
a
n
a
n
2
f0 =
MSTreat.
MSE
Dove, per la grande media si definisce:
y =
1
N
a
nj
  yij =
j =1 i =1
1
N
a
n
j
y j
j =1
Analisi della varianza – Regressione
lineare
•
Si consideri il caso di una regressione lineare il cui modello è:
yi = 0  1 xi   i
•
Test
statistici

i ~ N 0,  2

Può essere di interesse stabilire se la regressione lineare sia
significativa oppure no
– Esiste effettivamente una dipendenza di tipo lineare tra
variabile dipendente e variabile regressore?
Ipotesi nulla H0:
Ipotesi alternativa H1:
y non dipende da x
y dipende da x
 1=0
 1≠0
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
32
Analisi della varianza – Regressione
lineare
•
Test
statistici
Per il singolo punto sperimentale
Valore osservato
sperimentalmente
yi
yˆ i - yi
yˆ i = b0  b1 xi
Valore predetto
dal modello
n
yˆ i - y
y
y=
i =1
n
i
Media di tutti i
punti sperimentali
Retta di migliore regressione
y = b0  b1 x
Analisi della varianza – Regressione
lineare
•
Test
statistici
È possibile introdurre le seguenti grandezze:
Y
Y
=
2
S yy =   yi - y 
+
2
SSR =   yˆ i - y 
i
Dispersione
totale presente
nei dati
i
Dispersione
spiegata dalla
regressione
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
2
SSE =   yˆ i - yi 
i
Dispersione non
spiegata dalla
regressione
33
Analisi della varianza – Regressione
lineare
•
Test
statistici
Interpretazione delle grandezze:
S yy (n - 1 g .d .l.)
Variabilità complessiva delle
misure
=
SSE: Sum of Square of Errors:
Variabilità delle misure non
spiegata dalla regressione
SSE (n - 2 g.d .l.)
+
SSR
SSR: Sum of Square of Regression:
Variabilità delle misure spiegata
dalla regressione
(1 g .d .l.)
Analisi della varianza – Regressione
lineare
•
Test
statistici
Si può introdurre la seguente statistica:
SSR
F = 1 ~ F 1, n - 2 
SSE
n-2
•
•
Rappresenta il rapporto tra:
– “varianza” (dispersione) dei dati spiegata dalla regressione e
– “varianza” non spiegata dalla regressione.
Se la regressione è significativa, la varianza al numeratore è
molto maggiore della varianza al denominatore
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
34
Analisi della varianza – Regressione
lineare
•
Test
statistici
Le considerazioni precedenti possono essere riassunte nella
seguente tabella ANOVA:
Sorgente di variazione
Regressione
Variazione
(somma dei quadrati)
n
gradi di libertà
Varianza
1
MSR=SSR/1
n-2
MSE = SSE/(n-2)
2
SSR =   yˆ i - y 
i =1
Residuo
n
SSE =   yi - yˆ i 
2
Rapporto F
F=
MSR
MSE
i =1
TOTALE
n
2
S yy =   yi - y 
n-1
i =1
•
•
Inoltre, MSE e MSR sono variabili aleatorie indipendenti.
Da notare che la tabella è identica a quella fornita da Matlab®
Analisi della varianza per la
regressione multilineare
•
Il modello è:
y = 1   2 f 2   3 f 3  ...   p f p
•
•
Test
statistici
Il modello prevede
una intercetta
 f1 = 1
In questo caso le ipotesi sono:
H0 :
 2 =  3 = ... =  p = 0
H1 :
 almeno
j 0
j2
Come nel caso della regressione semplice, il nostro scopo è di
stabilire se è plausibile una relazione lineare tra la variabile
misurata e le variabili regressore fi.
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
35
Analisi della varianza per la
regressione multilineare
•
Test
statistici
Come nel caso della regressione lineare
Y
X1
Syy
SSR
SSE
X2
Analisi della varianza per la
regressione multilineare
•
•
Test
statistici
Dal punto di vista concettuale la procedura è analoga al caso della
semplice regressione lineare.
Si consideri la variazione delle misure y rispetto al valore medio.
Tale grandezza può essere decomposta in due quantità:
S yy = SSR  SSE
•
È possibile quindi introdurre la seguente statistica:
SSR
p -1
F=
~ F  p - 1, n - p 
SSE
n- p
•
E ripetere la procedura vista nel caso precedente.
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
36
Analisi della varianza per la
regressione multilineare
•
Test
statistici
Le considerazioni precedenti possono essere riassunte nella
seguente tabella ANOVA:
Sorgente di
errore
Somma dei
Quadrati
Gradi di libertà
Quadrato medio
(Varianza)
F ratio
p-1
MSR = SSR/(p-1)
MSR/ MSE
SSE =   yˆ i - yi 
n-p
MSE = SSE/(n-p)
2
n-1
Regressione SSR =   yˆ i - y 2
i
Residuo
2
i
Totale
S yy =   yi - y 
i
•
Inoltre, MSE e MSR sono variabili aleatorie indipendenti.
Test delle ipotesi sui coefficienti
individuali della regressione.
•
•
Test
statistici
Aggiungendo in una regressione lineare ulteriori dipendenze dalle
variabili regressore si ottiene:
SSR
aumenta
SSE
diminuisce
Si deve stabilire se l’aumento nella somma dei quadrati è
sufficiente per giustificare il regressore addizionale del modello
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
37
Test delle ipotesi sui coefficienti
individuali della regressione.
•
•
Le ipotesi per il test sulla significatività della regressione per il
singolo coefficiente j sono:
H0 :
j = 0
H1 :
j  0
per un fissato j
In questo caso la statistica test per l’ipotesi nulla è la distribuzione
T di student ad n-p gradi di libertà:
t0 =
•
Test
statistici
ˆ j
ˆ 2C jj
Dove Cjj è l’elemento diagonale di (XTX)-1 corrispondente a  j.
75
Test delle ipotesi sui coefficienti
della regressione.
•
•
•
Si può utilizzare la somma extra dei quadrati:
Tale procedura può essere usata per investigare il contributo di un
sottoinsieme di variabili regressore del modello.
A tale scopo, si consideri il modello di regressione con k=p-1
variabili regressore (si consideri quindi la presenza dell’intercetta:
fi1=1)
y
n 1
•
Test
statistici
=
F
n  p 


 p 1


n 1
Si vuole stabilire se esiste qualche sottoinsieme r<k regressori
che contribuisce significativamente al modello.
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
38
Test delle ipotesi sui coefficienti
della regressione.
•
Si partiziona il vettore dei parametri  in due vettori
 p - r  1
 
 =  1
 2 
•
Test
statistici
r 1
Per semplicità di discussione si definisce:
m = p-r
•
Si vuole testare l’ipotesi:
H 0 :

 H1 :
2 = 0
2  0
Test delle ipotesi sui coefficienti
della regressione.
•
Test
statistici
Il modello può quindi essere scritto:
Modello completo
=
y
n 1
=
•

F



n  p 
 p 1
n 1
F1

n  m
1

m 1
F2

n  r 
2

r 1

n 1
Per il modello completo:

a = FT  F

-1
FTy
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
39
Test delle ipotesi sui coefficienti
della regressione.
•
Test
statistici
È possibile valutare la somma di regressione dei quadrati:
2
SSRa  =   yˆi - y 
•
•
Rappresenta la somma dei quadrati della regressione “spiegata”
dal vettore completo dei parametri 
È possibile inoltre valutare la somma dei residui:
2
SSE a  =   yˆ i - y  = (y - F  a)T  (y - F  a)
•
E l’errore quadratico medio per il modello completo:
MSE a  =
SSE a 
n- p
Test delle ipotesi sui coefficienti
della regressione.
•
Test
statistici
Per trovare il contributo dei termini  2 nella regressione si fitta il
modello assumendo che l’ipotesi nulla sia vera.
Modello ridotto
y
=
F1
n 1
•
n  m 
1
m 1


n 1
Per il modello ridotto sarà:

a1 = F1T  F1
•


-1
 F1T  y
Il modello ridotto è valido se il contributo delle variabili regressore
relative a 2 è nulla, ovvero se l’ipotesi nulla H0 è vera:
H0:
2 = 0
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
40
Test delle ipotesi sui coefficienti
della regressione.
•
La somma dei quadrati della regressione è:
2
SSRa1  =   yˆ i1 - y 
•
m gradi di libertà
Si può quindi definire la quantità:
SSRa 2 | a1  = SSR a  - SSRa1 
•
m - p = r gradi di libertà
Tale quantità è chiamata somma extra dei quadrati dovuta a 2:
– misura dell’aumento nel termine regressione dei quadrati
legata all’addizione delle variabili regressore 2.
Test delle ipotesi sui coefficienti
della regressione.
•
Test
statistici
Test
statistici
La quantità SSR(a2|a1) è indipendente da MSE e l’ipotesi nulla può
essere testata con la statistica:
f0 =
SSRa 2 | a1  / r
MSE
•
•
Tale statistica è una distribuzione di Fisher a (r, n-p) g.d.l.
Se f0 > Fa,r,n-p , si rigetta l’ipotesi nulla e si conclude che almeno
uno dei parametri in 2 deve essere diverso da 0.
•
Tale statistica è importante nella analisi della scelta del miglior
modello di regressione.
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
41
Misure sperimentali ripetute – Test
“lack of fit”
•
•
•
•
Test
statistici
È possibile sfruttare l’opportunità di avere più prove sperimentali
ripetute nelle stesse condizioni.
In questo modo è possibile avere una stima “genuina” della
varianza dell’errore sperimentale:
– la varianza tra tutte le osservazioni ripetute nelle stesse
condizioni sperimentali
– Tale misura non è affetta da una eventuale valutazione erronea
del modello.
Il test statistico prende il nome di test “lack of fit” e verrà
introdotto qualitativamente nei prossimi lucidi.
Lo scopo è di confrontare la dispersione dei dati all’interno delle
prove ripetute con la dispersione dei dati dovuta al modello
prescelto.
83
Misure sperimentali ripetute – Test
“lack of fit”
•
•
Test
statistici
Test “Lack of fit” - Grandezze in gioco:
Esempio caso di una sola variabile regressore x con misure
effettuate per tre diversi valori di esso
yij : misura sperimentale
alla j-esima prova
ripetuta per la
y
condizione
sperimentale xi
yi
ŷi
 
yˆ = f x,θ̂
y1j
Media delle m
misure per la
condizione
sperimentale xi
Valore predetto
dal modello per la
i-esima condizione
sperimentale
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
y2
y1
 
yˆ1 = f x1,θ̂
x1
x2
x
x3
84
42
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici
•
Misure sperimentali sono ripetute più volte nelle stesse condizioni
– y1,1, y1,2, …, y1,n1 sono n1 osservazioni ripetute a x1
– y2,1, y2,2, …, y2,n2 sono n2 osservazioni ripetute a x2
– …
– ym,1, ym,2, …, ym,nm sono nm osservazioni ripetute a xm
•
Si hanno quindi m differenti livelli della variabile regressore x
– Inoltre:
m ni
m
nT = 1 =  ni
i =1 j =1
i =1
Misure sperimentali ripetute – Test
“lack of fit”
•
Test
statistici
Per ciascun livello delle variabili regressore è possibile valutare la
media e la varianza tra le diverse prove ripetute
yij - yˆi
yij - yi
yi =  yij n
yi - yˆi
i
 
yˆi = f xi , θ̂
 
yˆi = f xi , θ̂
x
yij - yˆi
Distanza della prova
sperimentale dalla
previsione del modello
yij - yi
Distanza della prova
sperimentale dalla media
delle prove ripetute
Indipendente dal modello
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
yi - yˆi
Distanza tra media delle prove
ripetute e previsione del modello
Dipendente dal modello
43
Misure sperimentali ripetute – Test
“lack of fit”
•
Test
statistici
Facendo il quadrato di primo e secondo membro e sommando per
tutti gli indici i e j (per semplicità si considera il caso di n prove
ripetute per m diversi valori sperimentali):
m ni
m ni
m
i =1 j =1
i =1 j =1
i =1
 yij - yˆi 2 =  yij - yi 2   ni  yˆi - yi 2
Somma dei Quadrati
degli Errori
SSE
Somma totale delle
distanze tra previsioni
del modello ed
osservazioni
Somma dei Quadrati
dell’ Errore Puro
SSPE
Misura della varianza
all’interno delle prove
ripetute
Somma dei Quadrati
della perdita di fit
SSLF
(lack of fit)
Ottima stima dell’errore sperimentale: Varianza
“depurata” da eventuali errori dovuti alla non
adeguatezza del modello
Misure sperimentali ripetute – Test
“lack of fit”
•
87
Test
statistici
La distanza del modello dai dati sperimentali può quindi essere
descritta come la somma di due diversi contributi:
– SSPE Misura della varianza “pura” (Sum of Squares Pure
Error)
– SSLF Misura delle distanze tra media delle osservazioni e
previsioni (Sum of Squares Lack of Fit).
88
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
44
Misure sperimentali ripetute – Test
“lack of fit”
•
•
Test
statistici
I risultati dell’analisi possono essere sintetizzati nella seguente
tabella di tipo ANOVA
Sorgente di
errore
Somma dei
Quadrati
gdl
Quadrato
medio
(Varianza)
F ratio
Lack of fit
SSLF
m-p
MSLF =
SSLF/(m-p)
MSLF/
MSPE
Prove
ripetute
SSPE
nT-m
MSPE =
SSPE/(n·m-m)
Residui
SSE
nT-p
Nel caso di modello adeguato le sorgenti di errore in SSLF e SSEE
sono dello stesso tipo:
89
Misure sperimentali ripetute – Test
“lack of fit”
Test
statistici
•
Se il modello è “corretto” si deve osservare che le due varianze
sono confrontabili
MSPE ~ MSLF
•
Nel caso in cui il modello non sia quello giusto, MSLF include
anche una dispersione dovuta alla scarsa adeguatezza del modello
MSLF >> MSPE
•
Da cui è possibile valutare il valore f0:
SSLF
m- p
f0 =
~ F m - p, nT - m 
SSPE
nT - m
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
45
Analisi della Varianza – Sommario
•
•
•
•
Concetti importanti
Test delle ipotesi sulla media
Teste delle ipotesi sui coefficienti di regressione
Test ANOVA
– Test ANOVA per modelli lineari:
• test di significatività per la regressione
– La variabile dipendente è influenzata da
almeno una variabile regressore?
• test Somma Extra dei Quadrati
– Uno specifico sottoinsieme di variabili
regressore influenza il processo?
• test Lack Of Fit
– Il modello scelto è adeguato per
descrivere i dati sperimentali?
Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza
Test
statistici
Basati sulla
T di
student
Basati sulla
Fisher
46