Test delle Ipotesi e Analisi della Varianza (ANalysis Of VAriance: ANOVA) Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Analisi della Varianza Introduzione Teoria Test ANOVA sulle medie Test ANOVA sulla significatività della regressione lineare Test ipotesi per i singoli coefficienti regressione lineare multipla Test ANOVA Somma Extra dei Quadrati Test ANOVA Lack Of Fit (LOF) 1 Test delle Ipotesi Introduzione • • Test statistici Un’ipotesi statistica è un’assunzione che noi facciamo su una distribuzione di una variabile aleatoria Il test statistico ha lo scopo di verificare se il campione a nostra disposizione è compatibile o meno con l’ipotesi di partenza. Un test statistico di un’ipotesi è una procedura in cui si conclude di – non rigettare l’ipotesi (cioè non si può escludere che essa sia vera) oppure – rigettare l’ipotesi. • Si usa un campione e si cerca di concludere se tale campione è compatibile o meno con l’assunzione di partenza. • • • Una conclusione non può mai essere completamente certa. Ogni test statistico comporta un certo rischio di errore – ovvero, giungere ad una conclusione sbagliata 2 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 1 Test delle Ipotesi Introduzione • • Test statistici Esempio: Una fabbrica produce un catalizzatore per l’industria la cui durata di vita media è = 1215 h e la deviazione standard è = 300 h Un’altra fabbrica produce (con un’altra procedura) lo stesso tipo di catalizzatore. Un campione di 100 catalizzatori provenienti dalla nuova fabbrica ha rilevato una media di vita y = 1260 ore • Due possibilità: – la nuova procedura produce effettivamente un catalizzatore di maggior durata – la differenza è legata semplicemente alla natura stocastica dei dati 3 Test delle ipotesi: Definizioni Test statistici • Il test statistico implica l’introduzione di una ipotesi da testare sul campione a disposizione – ipotesi nulla – si indica con il simbolo: H0 • All’ipotesi nulla di partenza si può contrapporre: – un’ipotesi alternativa – si indica con il simbolo: H1 • Tutti i test delle ipotesi statistici richiedono la formulazione di un’ipotesi nulla e di un’ipotesi alternativa • L’ipotesi nulla e l’ipotesi alternativa sono esaustive e mutuamente esclusive. Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 2 Test delle Ipotesi – Esempio Test statistici • La media osservata per il nuovo campione di dati è compatibile con la variabile aleatoria di riferimento? • Si vuole testare l’ipotesi che i risultati di questo campionamento sperimentale siano delle variabili aleatorie che abbiano media = 1,215 Ipotesi nulla: • H0 : • • = 0 = 1,215 Una altra possibilità (plausibile) è che il nuovo catalizzatore sia effettivamente più longevo della vecchia produzione Ipotesi alternativa: H1 : > 0 5 Test delle Ipotesi Significatività del test • Test statistici Ogni test delle ipotesi implica una scelta del livello di significatività del test probabilità di rigettare l’ipotesi nulla nonostante essa sia vera • Questa probabilità prende il nome di errore di tipo I e si indica con la lettera • È un dato assegnato a priori nel processo 6 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 3 Test delle Ipotesi sulla media Teoria Caso in cui la varianza • = 0 fosse vera, allora la variabile aleatoria media del campione di dati sperimentali Y = • 2 sia nota Se l’ipotesi nulla H0 : • Test statistici Yi n ha una funzione densità di probabilità che è una distribuzione gaussiana di media 0 e varianza 2 /n 7 Test delle Ipotesi sulla media Teoria Caso in cui la varianza Test statistici 2 sia nota • Se si assume vera l’ipotesi nulla, la probabilità che assuma valori prossimi a 0 è molto elevata, ma non si possono escludere anche valori diversi • Fissare un livello di significatività del test equivale a calcolare quale è il valore della variabile aleatoria al di sopra del quale la probabilità di osservare risultati è molto bassa 8 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 4 Test delle Ipotesi sulla media Teoria Caso varianza Test statistici 2 nota = 0.05 c Non rigetto l’ipotesi nulla H0 Rigetto l’ipotesi nulla H0 • Al di sopra di c la probabilità che la VA = , assuma valori è bassa (pari al 5%) 9 Test delle Ipotesi sulla media Ricetta 1/3 • • Fissare un livello di significatività Stabilire l’ipotesi nulla: H0 : • = 0 Contro l’ipotesi alternativa: H1 : • Test statistici > 0 Calcolare il valore stimato per la media (che corrisponde ad un valore osservato della VA): y= yi n 10 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 5 Test delle Ipotesi sulla media Ricetta 2/3 • Nel caso in cui la VA fosse una gaussiana di media 2/n, la variabile aleatoria X= n Test statistici 0 e varianza Y - 0 sarebbe una distribuzione normale di tipo standard • Quindi c - 0 P Y < c =0 = F n = 1- • • dove F è la distribuzione cumulativa della gaussiana di tipo standard Determinato il valore della distribuzione normale che mi soddisfa l’eguaglianza è possibile determinare c 11 Test delle Ipotesi sulla media Ricetta 3/3 • Test statistici Se y >c • rigettiamo l’ipotesi nulla ed accettiamo l’ipotesi alternativa: – la probabilità che il risultato ottenuto appartenga alla variabile aleatoria ipotizzata è molto bassa • Se • non rigettiamo l’ipotesi nulla. • La regione contenente i valori per cui rigettiamo l’ipotesi nulla si chiama regione di rigetto dell’ipotesi nulla y<c 12 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 6 Test delle ipotesi sulla media Esempio • • Si consideri di nuovo l’esempio introduttivo. Il test delle ipotesi è sul valore medio: H0 : H1 : • Test statistici = 0 > 0 Con un livello di significatività = 10 % 13 Test delle ipotesi sulla media Esempio • Si valuta innanzitutto il valore c tale che P(Z>c) = = 0.1. F c = 1 - • c = 1.282 Se l’ipotesi nulla fosse vera, la variabile x= • Test statistici y - 0 n= 1260 - 1215 10 = 1.500 300 sarebbe un valore osservato di una variabile aleatoria normale di tipo standard. 14 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 7 Test delle ipotesi sulla media Esempio • Test statistici La probabilità che la variabile aleatoria normale di media 0 e varianza 2/n in questione assuma un valore eguale a 1.5 rientra nella zona di rigetto Il valore osservato rientra nella regione 0.5 in cui la variabile 0.4 aleatoria ha poche probabilità di cadere 0.3 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 C’è un 10% di probabilità che il valore osservato appartenga alla VA supposta nell’ipotesi nulla H0 e sia comunque rigettata 15 Test delle ipotesi sulla media Esempio Test statistici • Si consideri ora il caso in cui si scelga un livello di significatività = 5 %. • Si valuta innanzitutto il valore c tale che P(Z>c) = . F c = 1 - c = 1.96 • Per il livello di significatività scelto, il valore osservato della variabile aleatoria non rientra nella regione di rigetto dell’ipotesi. • Si conclude che, per il livello di significatività scelto, non ci sono evidenze sufficienti per affermare che l’esito osservato non sia compatibile con la variabile aleatoria dell’ipotesi nulla – non si rigetta l’ipotesi nulla. 16 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 8 Test delle ipotesi sulla media Esempio Test statistici 0.5 0.4 = 0.05 0.3 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 Valore osservato della variabile aleatoria di tipo standard 17 Test delle ipotesi sulla media Ipotesi alternative 1/3 • Nel problema in esame si assume che il nostro campione di dati sperimentali sia caratterizzato da una variabile aleatoria che abbia una funzione densità di probabilità che coinvolge un parametro ignoto e si assume l’ipotesi nulla che H0 : • • • • Test statistici θ = θ0 L’ipotesi alternativa era che H1 : > 0 H1 : < 0 (2) H1 : 0 (3) (1) Ma non è l’unica alternativa che possiamo considerare. In altri casi la natura può suggerire altri tipi di alternative: Oppure Le prime 2 alternative si chiamano one-sided. L’ultima twosided Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 18 9 Test delle ipotesi sulla media Ipotesi alternative 2/3 Test statistici • Nel caso della ipotesi alternativa H1: < 0, si deve determinare il valore critico c1 tale che tutti i valori inferiori a c1 abbiano una probabilità di verificarsi pari a • Dobbiamo escludere i valori per cui la distribuzione assuma valori inferiori a c tali che P(Y<0-c) = Insieme dei valori per i quali rigettiamo l’ipotesi nulla =0.05 0-c1 0 19 Test delle ipotesi sulla media Ipotesi alternative 3/3 • Test statistici Nel caso in cui l’ipotesi alternativa H1 è two-sided, ovvero ≠ 0, dobbiamo escludere sia i valori per cui la distribuzione assuma valori inferiori a 0-c, sia i valori per cui la distribuzione assuma valori superiori a 0 +c Insieme dei valori per i quali l’ipotesi nulla è rigettata =0.05 0-c 0 0+c 20 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 10 Rischi di fare false decisioni nei test • • • • Test statistici Nella enunciazione del test delle ipotesi è stato introdotto il concetto di Errore di tipo I Tale probabilità è pari al livello di significatività del test Ma l’errore di tipo I non è il solo tipo di errore che possiamo incontrare in un test statistico. Per introdurre i concetti successivi consideriamo il caso semplificato di una sola possibile ipotesi alternativa per cui la media possa assumere solo un altro valore preciso distinto – 1 > 0. H0 : = 0 H1 : = 1 21 Rischi di fare false decisioni nei test • Test statistici Ci si può porre il problema di quale era la probabilità di non rigettare l’ipotesi nonostante essa fosse falsa e fosse invece = 1 0 • 1 L’integrale in figura rappresenta tale tipo di probabilità 22 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 11 Rischi di fare false decisioni nei test • L’errore rappresentato dall’integrale Test statistici si chiama errore di tipo II P c =1 = • Questo valore dipende dall’alternativa 1. In sintesi: • = Errore di tipo I: Probabilità di rigettare l’ipotesi nulla nonostante essa fosse vera • = Errore di tipo II: Probabilità di non rigettare l’ipotesi nulla nonostante essa fosse falsa 23 Test delle ipotesi - Potenza del test • Test statistici La quantità: h=1- • • • • è battezzata potenza del test Rappresenta la probabilità di evitare un errore di tipo II, una volta stabilito il livello di significatività del test. Osservazioni Diminuire un errore di tipo II può essere ottenuto per esempio spostando c a valori minori, ma questo comporta un aumento dell’errore di tipo I Come è possibile, almeno per i casi sinora analizzati, ridurre entrambi gli errori? 24 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 12 Test delle ipotesi - Errori di tipo I e II Test statistici • Se l’alternativa non è un singolo numero, ma del tipo <0, >0, diverso da 0, allora diviene una funzione continua di . • Questa funzione () si chiama caratteristica operativa (OC) del test e la sua curva di chiama curva OC 25 Test delle ipotesi Altra procedura Test statistici • Dal punto di vista storico, l’introduzione del livello di significatività del test è giustificato dalle difficoltà computazionali relative alla valutazione di una CDF: – le distribuzioni più importanti sono valutate solo in corrispondenza di un numero discreto (e limitato) di valori di . • Con le disponibilità computazionali attuali, questo problema è superato. 26 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 13 Test delle ipotesi Altra procedura • • Test statistici Si considerino due differenti risultati: x1 = 2.5 e x2= 9.6. Nonostante entrambi i risultati rigettino l’ipotesi nulla per un livello di significativita = 0.05, sono quantitativamente ben diversi. 0.4 La probabilità che si verifichi l’evento z2 è di gran lunga inferiore alla probabilita dell’evento z1 2e-20 1e-20 0.3 1e-20 5e-21 0 0.2 9.4 9.6 9.8 10.0 10.2 10.4 0.1 0.0 0 2 4 6 8 10 12 Le differenze tra i due casi non sono apprezzabili con l’implementazione corrente del test 27 Test delle ipotesi P-value • • • • Test statistici Negli ultimi anni si tende a calcolare un nuovo parametro per stabilire l’esito di un test statistico, ovvero il p-value Esso rappresenta la probabilità che la VA assunta nell’ipotesi H0 assuma valori maggiori (o minori, a seconda dell’ipotesi alternativa) di quello osservato. Nell’esempio precedente (H0: =0, H1: > 0), la probabilità che la VA supposta assuma valori maggiori del valore osservato z1 è pari a Pr(Z>z1) = 6.2e-3 Nel secondo caso: Pr(Z>z2)~0 • Tali valori rappresentano i p-value dei due campioni di dati 28 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 14 Test delle ipotesi P-value • Test statistici Altro esempio: – H0: =0 – H1: < 0 • Si osserva un valore pari z = -1.50. Il p-value corrispondente è p=6.7e-2 0.5 L’area segnata in giallo è il p-value 0.4 0.3 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 z =-1.5 Test delle ipotesi sulla media – Caso Varianza non nota • • Test statistici Si consideri di nuovo il caso del catalizzatore in cui stavolta la varianza non sia nota e sia invece nota la sua stima s H0 : = 0 H1 : > 0 Se l’ipotesi nulla fosse vera, allora la variabile aleatoria Z= n • 29 Y - 0 s Sarebbe una distribuzione T di Student ad (n-1) gradi di libertà. 30 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 15 Test delle ipotesi sulla media – Caso Varianza non nota • • Fissare un livello di significatività del test (es: = 5%) Calcolare s: s2 = • Test statistici 1 2 yi - y n -1 Calcolare il valore di c per cui: PT c = F c = 1 - • • Dove T è la distribuzione di student ad n-1 gradi di libertà. Come valore osservato della variabile T possiamo calcolare t= n • • y - 0 s2 se t > c, rigettare l’ipotesi nulla ed accettare l’ipotesi alternativa H1: >0 se t < c non rigettare l’ipotesi nulla. 31 Test delle ipotesi sulla media – Caso Varianza non nota • • La costruzione del test delle ipotesi nel caso di ipotesi alternative di tipo differente è assolutamente equivalente al caso approcciato con le distribuzioni di tipo gaussiano. Nel caso in cui: H 0 : = 0 H1 : • Test statistici < 0 Dobbiamo escludere i valori per cui la T di student assuma valori inferiori a c tali che P(c) = Insieme dei valori per i quali rigettiamo l’ipotesi nulla =0.05 32 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 16 Test delle ipotesi sulla media – Caso Varianza non nota • • Nel caso in cui: H0 : = 0 H1 : 0 Test statistici Dobbiamo escludere sia i valori per cui la T di student assume valori inferiori a -c, sia i valori per cui la T di student assume valori superiori a c Insieme dei valori per i quali rigettiamo H0 =0.025 =0.025 Test delle Ipotesi sulla differenza di due medie Test statistici • Si considerino due campioni indipendenti di dimensioni rispettivamente m ed n, presi da due VA Y1~N(1,1) e Y2~N(2,2) • A tale scopo è possibile calcolare le medie dei due campioni di dati: • Si vuole testare l’ipotesi che le media dei due campioni siano eguali: e e le varianze e H 0 : 1 = 2 H1 : 1 > 2 34 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 17 Test delle Ipotesi sulla differenza di due medie • Si può dimostrare che la statistica: + + = • −2 − −1 + −1 è una distribuzione T di student ad (n+m-2) g.d.l, essendo = = • Test statistici ∑ = 1 −1 ∑ = − 1 −1 − le variabili aleatorie connesse alle osservazioni di media e varianza del primo e secondo campione rispettivamente. 35 Test delle Ipotesi sulla differenza di due medie – Ricetta 1/2 Test statistici • Ricetta: • • Si fissa un livello di fiducia Si stabilisce l’ipotesi nulla e l’ipotesi alternativa adeguata, per esempio: H 0 : 1 = 2 H1 : • 1 > 2 Si calcola c tale che: P T < c = 1 - • Essendo T la distribuzione T di student ad (n+m-2) g.d.l. 36 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 18 Test delle Ipotesi sulla differenza di due medie – Ricetta 2/2 • • Si calcola media e varianza dei due campioni Si calcola il valore osservato della VA = • • Test statistici + + −2 ̅ − ̅ −1 + −1 Se t0 > c, l’ipotesi nulla è rigettata. Nel caso t0 < c, l’ipotesi nulla non è rigettata. 37 Test delle ipotesi sui coefficienti di regressione • Test delle Ipotesi sulla pendenza Assunzioni: Gli errori i sono normalmente distribuiti ed indipendenti ~ • i.i.d. 1 = 10 Contro l’ipotesi alternativa: H1: • 0, Si vuole testare l’ipotesi H0: • Test statistici 1 ≠ 10 Ipotesi alternativa di tipo bilaterale (ma può anche essere “onesided”) 38 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 19 Test delle ipotesi sui coefficienti di regressione • Test sulla pendenza: Se l’ipotesi nulla fosse vera, la stima della pendenza della retta di regressione sarebbe un esito di una variabile aleatoria di tipo Gaussiano: ~ • • , Essendo 10 il valore supposto nel test delle ipotesi. La distribuzione: = • • Test statistici − È una distribuzione normale di tipo Standard nel caso in cui l’ipotesi nulla fosse vera. Se 2 fosse nota potremmo usare la X per testare l’ipotesi nulla. 39 Test delle ipotesi sui coefficienti di regressione • Si può comunque dimostrare che, nel caso in cui fosse nota solo una stima MSE della varianza, la variabile aleatoria: = • • Test statistici − È una distribuzione di tipo t di Student ad (n-2) gradi di libertà. Il test è quindi effettuato confrontando il valore osservato di t0 con il limite superiore della t di Student, per la soglia di errore stabilito. 40 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 20 Test delle ipotesi sui coefficienti di regressione Test statistici • • Test delle ipotesi sull’intercetta In modo analogo è possibile ricavare una t di Student per un test sull’intercetta b0: H0: 0 = 00 • Contro l’ipotesi alternativa: H1: • 0 ≠ 00 Se l’ipotesi nulla fosse vera, allora la distribuzione: = • − 1 + ̅ È una t di Student ad (n-2) gradi di libertà 41 Test delle ipotesi sui coefficienti di regressione – Caso particolare • Un caso speciale molto importante è: H0: H1: • • Test statistici 1 = 0 1 ≠ 0 Questo test delle ipotesi è legato al concetto di significatività della regressione. Il fallimento del rigetto dell’ipotesi nulla H0 implica che ci potrebbe non essere dipendenza lineare tra la variabile dipendente e la variabile regressore. 42 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 21 Test delle ipotesi – Significatività della regressione Situazioni in cui l’ipotesi nulla 1 = 0 non è rigettata Test statistici Situazioni in cui l’ipotesi nulla 1 = 0 è rigettata 43 Analisi della Varianza Introduzione Test statistici • Nel caso del test delle ipotesi sulla differenza di due medie ci si pone il problema di confrontare due medie. • Ci si può porre il problema di confrontare anche più medie tra loro. 44 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 22 Analisi della varianza sulle medie Introduzione Test statistici In una fabbrica sono prodotti contenitori per bevande. A tal riguardo registra la loro produzione oraria per – a=3 diverse macchine per – n=5 ore consecutive Le misure totali sono quindi N=n·a=5·3=15. • • • Macchina 1 Macchina 2 Macchina 3 47 53 49 50 46 55 54 58 61 52 54 50 51 51 49 X 1 = 49 Xi X 3 = 51 X 2 = 56 X = 52 Analisi della varianza sulle medie Procedura Test statistici • Da una lettura preliminare dei risultati, si osserva che la Macchina 2 pare presentare una produzione oraria superiore a quella registrata per le altre due macchine • • Obbiettivo: Implementare una procedura rigorosa che permetta – di stabilire se esistono trattamenti significativamente diversi o, equivalentemente, se la macchina ha un impatto sulla misura Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 23 ANOVA ad un singolo fattore – Nomenclatura Misure sperimentali ripetute 1 2 3 1 47 55 54 2 53 54 50 3 49 58 51 4 50 61 51 5 46 52 49 y y j 49 56 51 52 Test statistici Macchina Ogni singola colonna prende il nome di trattamento Ciascun trattamento è costituito da n osservazioni disposte per riga (nel caso in esame n = 5) L’analisi è svolta su a differenti trattamenti o livelli (nel caso in esame a =3) La singola osservazione è caratterizzata da due indici: yij Indice i: si riferisce alla i-esima osservazione Indice j: si riferisce al j-esimo trattamento Analisi della varianza sulle medie Metodo Test statistici • Lo spirito del test ANOVA è confrontare le fluttuazioni presenti all’interno di ogni trattamento, con le fluttuazioni registrate tra i trattamenti • Intuitivamente, se le fluttuazioni tra i trattamenti sono maggiori delle fluttuazioni all’interno dei trattamenti si può affermare che esiste un’influenza del differente trattamento sul processo. Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 24 ANOVA ad un singolo fattore – Studio del modello degli effetti • Test statistici Nomenclatura usata nel seguito: n Somma di tutte le osservazioni per il trattamento i-esimo y j = yij i =1 a n y = yij Somma di tutte le osservazioni per tutti trattamenti j =1 i =1 y j = y j n Media del trattamento i-esimo y = y N “Grande” media del campione di dati (N=n·a) ANOVA ad un singolo fattore – Decomposizione della somma totale dei quadrati • Test statistici Si consideri la somma totale dei quadrati SST: a n SST = yij - y 2 j =1 i =1 • • È una misura della variabilità complessiva presente nei dati. Con qualche passaggio: a n SST = yij - y j - y j - y 2 j =1 i =1 a n a n a n = yij - y j y j - y 2 yij - y j y j - y j =1 i =1 2 j =1 i =1 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 2 j =1 i =1 =0 25 ANOVA ad un singolo fattore – Decomposizione della somma totale dei quadrati • Test statistici In conclusione si ha: a n SST = yij - y 2 j =1 i =1 a n a = yij - y j n y j - y j =1 i =1 2 2 j =1 SSE: Sum of Squares of Errors SSTreatments: Sum of Squares of Treatments Somma dei quadrati delle differenze all‘interno dei trattamenti Somma dei quadrati delle differenze tra i trattamenti ANOVA ad un singolo fattore – Decomposizione della somma totale dei quadrati • • • Test statistici Interpretazione dei termini – Somma dei quadrati degli errori: SSE rappresenta la dispersione dei dati non spiegata dai trattamenti SSE ha un numero di gradi di libertà pari a (N-a) – N è il numero totale di punti a disposizione – a è il numero di informazioni usato per calcolare le medie della singola colonna Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 26 ANOVA ad un singolo fattore – Decomposizione della somma totale dei quadrati • Si può quindi calcolare la varianza corrispondente a tale termine di dispersione MSE = • Test statistici SSE N -a Stima della varianza comune all’interno dei trattamenti Si può dimostrare che il valore atteso per MSE coincide con la varianza dell’errore sperimentale: E MSE = 2 – MSE e una misura genuina dell’errore sperimentale (depurata dall’eventuale influenza dei trattamenti) ANOVA ad un singolo fattore – Decomposizione della somma totale dei quadrati • • • Test statistici Interpretazione dei termini – Somma dei quadrati dei trattamenti: SSTreatments rappresenta la dispersione dei dati spiegata dai trattamenti In maniera analoga al caso precedente, si può facilmente verificare che il numero di gdl di SSTreatments è pari ad (a-1) per cui è possibile valutarne la varianza corrispondente: MS Treatments = SS Treatments a -1 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza Stima della varianza tra i trattamenti 27 ANOVA ad un singolo fattore – Decomposizione della somma totale dei quadrati • Test statistici Intuitivamente, se i trattamenti non influenzano il processo: MSE MSTrearments • Se, viceversa, MSTreatments >> MSE • la sorgente di varianza presente tra i trattamenti non è della stessa natura della varianza presente all’interno dei trattamenti – le differenze tra i trattamenti sono più importanti delle dispersioni nei trattamenti – le fluttuazioni statistiche non sono sufficienti a giustificare i diversi valori di media osservati e il trattamento ha un impatto ANOVA ad un singolo fattore – Decomposizione della somma totale dei quadrati • Test statistici In conclusione la dispersione totale dei dati può essere decomposta in due distinti contributi: SST=SSE+SSTreatments • Inoltre, in assenza di influenza dei trattamenti, si ha: SST • 2 ~ 2N -1 SSE 2 ~ 2N -a SSTreatments 2 ~ 2a -1 Si può inoltre dimostrare che le VA SST, SSE e SSTreatments sono indipendenti Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 28 Decomposizione della somma totale dei quadrati – Analisi statistica • Test statistici In conclusione, se l’assunzione di partenza: – trattamenti non influenzano i risultati sperimentali • fosse vera, il rapporto delle varianze SSTreatments MSTreatments f0 = a - 1 = SSE MSE N -a • • sarebbe distribuito secondo una F di Fisher a (a-1,N-a) g.d.l. Valori di f0»1 sono poco verosimili Analisi della varianza sulle medie Metodo • Test statistici La procedura può essere riassunta nella cosiddetta tabella ANOVA Sorgente di variazione Somma dei quadrati Gradi di libertà Varianza a-1 MSTreatments i =1 yij - y j 2 N-a MSE i =1 yij - y 2 N-1 F0 SSTreatments = Trattamenti n y j - y 2 a j =1 a j =1 Errore SSE = Totale SST = a j =1 n n Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza f0 = MSTreat. MSE 29 Analisi della varianza sulle medie Teoria • Test statistici Esempio di funzione densità di probabilità di una VA di tipo Fisher. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 La maggior parte delle osservazioni della variabile aleatoria si ottiene a bassi valori di f 4 5 6 7 La probabilità di osservare valori ad alti f è sempre minore (ma mai completamente impossibile) Se il valore osservato f0 è nella coda l’ipotesi di partenza è poco plausibile Analisi della varianza sulle medie • • Test statistici Il valore di significatività (in inglese: p-value) rappresenta la probabilità di osservare un valore maggiore o uguale a F per una variabile aleatoria di Fisher a (a-1,a(n-1)) gradi di libertà Nel caso in esame f0 = 8.3 e p = 0.5% P-value: Area sottesa dalla curva 1 0.9 5 x 10 -3 4.5 0.8 4 3.5 0.7 3 2.5 0.6 2 1.5 0.5 1 0.5 0.4 0 7 8 9 10 11 12 13 14 0.3 0.2 0.1 0 • 0 1 2 3 4 5 f 6 7 8 9 10 F Possiamo concludere che la probabilità che non ci siano differenze tra le macchine è molto bassa Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 30 Analisi della Varianza: Esempio di test statistico • Nel caso in esame si assume come ipotesi nulla che non vi sia differenza tra i trattamenti e le fluttuazioni che osserviamo siano legate al caso: H0: • 1=2=3 Come ipotesi alternativa si assume che l’assunzione di partenza sia falsa, ovvero che vi sia almeno un trattamento che si disco H1: 1 2 e/o 1 3 e/o 2 3 Analisi della Varianza sulle medie Gruppi di dimensioni non uguali • • • Test statistici Test statistici Il modo più efficace per fare un ANOVA è di considerare tutti i gruppi delle stesse dimensioni n Nel caso ciò non fosse possibile è comunque possibile generalizzare la tabella ANOVA Si introduce ni la dimensione del generico gruppo considerato. 62 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 31 ANOVA ad un singolo fattore – Tabella ANOVA – Trattamenti di dimensioni diverse Sorgente di variazione Somma dei quadrati Gradi di libertà Varianza a-1 MSTreatments MSE Test statistici F0 SSTreatments = Trattamenti n y a j j =1 - y j 2 Errore SSE = j =1 i =j1 yij - y j 2 N-a Totale SST = j =1 i =j1 yij - y N-1 a n a n 2 f0 = MSTreat. MSE Dove, per la grande media si definisce: y = 1 N a nj yij = j =1 i =1 1 N a n j y j j =1 Analisi della varianza – Regressione lineare • Si consideri il caso di una regressione lineare il cui modello è: yi = 0 1 xi i • Test statistici i ~ N 0, 2 Può essere di interesse stabilire se la regressione lineare sia significativa oppure no – Esiste effettivamente una dipendenza di tipo lineare tra variabile dipendente e variabile regressore? Ipotesi nulla H0: Ipotesi alternativa H1: y non dipende da x y dipende da x 1=0 1≠0 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 32 Analisi della varianza – Regressione lineare • Test statistici Per il singolo punto sperimentale Valore osservato sperimentalmente yi yˆ i - yi yˆ i = b0 b1 xi Valore predetto dal modello n yˆ i - y y y= i =1 n i Media di tutti i punti sperimentali Retta di migliore regressione y = b0 b1 x Analisi della varianza – Regressione lineare • Test statistici È possibile introdurre le seguenti grandezze: Y Y = 2 S yy = yi - y + 2 SSR = yˆ i - y i Dispersione totale presente nei dati i Dispersione spiegata dalla regressione Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 2 SSE = yˆ i - yi i Dispersione non spiegata dalla regressione 33 Analisi della varianza – Regressione lineare • Test statistici Interpretazione delle grandezze: S yy (n - 1 g .d .l.) Variabilità complessiva delle misure = SSE: Sum of Square of Errors: Variabilità delle misure non spiegata dalla regressione SSE (n - 2 g.d .l.) + SSR SSR: Sum of Square of Regression: Variabilità delle misure spiegata dalla regressione (1 g .d .l.) Analisi della varianza – Regressione lineare • Test statistici Si può introdurre la seguente statistica: SSR F = 1 ~ F 1, n - 2 SSE n-2 • • Rappresenta il rapporto tra: – “varianza” (dispersione) dei dati spiegata dalla regressione e – “varianza” non spiegata dalla regressione. Se la regressione è significativa, la varianza al numeratore è molto maggiore della varianza al denominatore Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 34 Analisi della varianza – Regressione lineare • Test statistici Le considerazioni precedenti possono essere riassunte nella seguente tabella ANOVA: Sorgente di variazione Regressione Variazione (somma dei quadrati) n gradi di libertà Varianza 1 MSR=SSR/1 n-2 MSE = SSE/(n-2) 2 SSR = yˆ i - y i =1 Residuo n SSE = yi - yˆ i 2 Rapporto F F= MSR MSE i =1 TOTALE n 2 S yy = yi - y n-1 i =1 • • Inoltre, MSE e MSR sono variabili aleatorie indipendenti. Da notare che la tabella è identica a quella fornita da Matlab® Analisi della varianza per la regressione multilineare • Il modello è: y = 1 2 f 2 3 f 3 ... p f p • • Test statistici Il modello prevede una intercetta f1 = 1 In questo caso le ipotesi sono: H0 : 2 = 3 = ... = p = 0 H1 : almeno j 0 j2 Come nel caso della regressione semplice, il nostro scopo è di stabilire se è plausibile una relazione lineare tra la variabile misurata e le variabili regressore fi. Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 35 Analisi della varianza per la regressione multilineare • Test statistici Come nel caso della regressione lineare Y X1 Syy SSR SSE X2 Analisi della varianza per la regressione multilineare • • Test statistici Dal punto di vista concettuale la procedura è analoga al caso della semplice regressione lineare. Si consideri la variazione delle misure y rispetto al valore medio. Tale grandezza può essere decomposta in due quantità: S yy = SSR SSE • È possibile quindi introdurre la seguente statistica: SSR p -1 F= ~ F p - 1, n - p SSE n- p • E ripetere la procedura vista nel caso precedente. Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 36 Analisi della varianza per la regressione multilineare • Test statistici Le considerazioni precedenti possono essere riassunte nella seguente tabella ANOVA: Sorgente di errore Somma dei Quadrati Gradi di libertà Quadrato medio (Varianza) F ratio p-1 MSR = SSR/(p-1) MSR/ MSE SSE = yˆ i - yi n-p MSE = SSE/(n-p) 2 n-1 Regressione SSR = yˆ i - y 2 i Residuo 2 i Totale S yy = yi - y i • Inoltre, MSE e MSR sono variabili aleatorie indipendenti. Test delle ipotesi sui coefficienti individuali della regressione. • • Test statistici Aggiungendo in una regressione lineare ulteriori dipendenze dalle variabili regressore si ottiene: SSR aumenta SSE diminuisce Si deve stabilire se l’aumento nella somma dei quadrati è sufficiente per giustificare il regressore addizionale del modello Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 37 Test delle ipotesi sui coefficienti individuali della regressione. • • Le ipotesi per il test sulla significatività della regressione per il singolo coefficiente j sono: H0 : j = 0 H1 : j 0 per un fissato j In questo caso la statistica test per l’ipotesi nulla è la distribuzione T di student ad n-p gradi di libertà: t0 = • Test statistici ˆ j ˆ 2C jj Dove Cjj è l’elemento diagonale di (XTX)-1 corrispondente a j. 75 Test delle ipotesi sui coefficienti della regressione. • • • Si può utilizzare la somma extra dei quadrati: Tale procedura può essere usata per investigare il contributo di un sottoinsieme di variabili regressore del modello. A tale scopo, si consideri il modello di regressione con k=p-1 variabili regressore (si consideri quindi la presenza dell’intercetta: fi1=1) y n 1 • Test statistici = F n p p 1 n 1 Si vuole stabilire se esiste qualche sottoinsieme r<k regressori che contribuisce significativamente al modello. Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 38 Test delle ipotesi sui coefficienti della regressione. • Si partiziona il vettore dei parametri in due vettori p - r 1 = 1 2 • Test statistici r 1 Per semplicità di discussione si definisce: m = p-r • Si vuole testare l’ipotesi: H 0 : H1 : 2 = 0 2 0 Test delle ipotesi sui coefficienti della regressione. • Test statistici Il modello può quindi essere scritto: Modello completo = y n 1 = • F n p p 1 n 1 F1 n m 1 m 1 F2 n r 2 r 1 n 1 Per il modello completo: a = FT F -1 FTy Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 39 Test delle ipotesi sui coefficienti della regressione. • Test statistici È possibile valutare la somma di regressione dei quadrati: 2 SSRa = yˆi - y • • Rappresenta la somma dei quadrati della regressione “spiegata” dal vettore completo dei parametri È possibile inoltre valutare la somma dei residui: 2 SSE a = yˆ i - y = (y - F a)T (y - F a) • E l’errore quadratico medio per il modello completo: MSE a = SSE a n- p Test delle ipotesi sui coefficienti della regressione. • Test statistici Per trovare il contributo dei termini 2 nella regressione si fitta il modello assumendo che l’ipotesi nulla sia vera. Modello ridotto y = F1 n 1 • n m 1 m 1 n 1 Per il modello ridotto sarà: a1 = F1T F1 • -1 F1T y Il modello ridotto è valido se il contributo delle variabili regressore relative a 2 è nulla, ovvero se l’ipotesi nulla H0 è vera: H0: 2 = 0 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 40 Test delle ipotesi sui coefficienti della regressione. • La somma dei quadrati della regressione è: 2 SSRa1 = yˆ i1 - y • m gradi di libertà Si può quindi definire la quantità: SSRa 2 | a1 = SSR a - SSRa1 • m - p = r gradi di libertà Tale quantità è chiamata somma extra dei quadrati dovuta a 2: – misura dell’aumento nel termine regressione dei quadrati legata all’addizione delle variabili regressore 2. Test delle ipotesi sui coefficienti della regressione. • Test statistici Test statistici La quantità SSR(a2|a1) è indipendente da MSE e l’ipotesi nulla può essere testata con la statistica: f0 = SSRa 2 | a1 / r MSE • • Tale statistica è una distribuzione di Fisher a (r, n-p) g.d.l. Se f0 > Fa,r,n-p , si rigetta l’ipotesi nulla e si conclude che almeno uno dei parametri in 2 deve essere diverso da 0. • Tale statistica è importante nella analisi della scelta del miglior modello di regressione. Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 41 Misure sperimentali ripetute – Test “lack of fit” • • • • Test statistici È possibile sfruttare l’opportunità di avere più prove sperimentali ripetute nelle stesse condizioni. In questo modo è possibile avere una stima “genuina” della varianza dell’errore sperimentale: – la varianza tra tutte le osservazioni ripetute nelle stesse condizioni sperimentali – Tale misura non è affetta da una eventuale valutazione erronea del modello. Il test statistico prende il nome di test “lack of fit” e verrà introdotto qualitativamente nei prossimi lucidi. Lo scopo è di confrontare la dispersione dei dati all’interno delle prove ripetute con la dispersione dei dati dovuta al modello prescelto. 83 Misure sperimentali ripetute – Test “lack of fit” • • Test statistici Test “Lack of fit” - Grandezze in gioco: Esempio caso di una sola variabile regressore x con misure effettuate per tre diversi valori di esso yij : misura sperimentale alla j-esima prova ripetuta per la y condizione sperimentale xi yi ŷi yˆ = f x,θ̂ y1j Media delle m misure per la condizione sperimentale xi Valore predetto dal modello per la i-esima condizione sperimentale Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza y2 y1 yˆ1 = f x1,θ̂ x1 x2 x x3 84 42 Misure sperimentali ripetute – Test “lack of fit” Test statistici • Misure sperimentali sono ripetute più volte nelle stesse condizioni – y1,1, y1,2, …, y1,n1 sono n1 osservazioni ripetute a x1 – y2,1, y2,2, …, y2,n2 sono n2 osservazioni ripetute a x2 – … – ym,1, ym,2, …, ym,nm sono nm osservazioni ripetute a xm • Si hanno quindi m differenti livelli della variabile regressore x – Inoltre: m ni m nT = 1 = ni i =1 j =1 i =1 Misure sperimentali ripetute – Test “lack of fit” • Test statistici Per ciascun livello delle variabili regressore è possibile valutare la media e la varianza tra le diverse prove ripetute yij - yˆi yij - yi yi = yij n yi - yˆi i yˆi = f xi , θ̂ yˆi = f xi , θ̂ x yij - yˆi Distanza della prova sperimentale dalla previsione del modello yij - yi Distanza della prova sperimentale dalla media delle prove ripetute Indipendente dal modello Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza yi - yˆi Distanza tra media delle prove ripetute e previsione del modello Dipendente dal modello 43 Misure sperimentali ripetute – Test “lack of fit” • Test statistici Facendo il quadrato di primo e secondo membro e sommando per tutti gli indici i e j (per semplicità si considera il caso di n prove ripetute per m diversi valori sperimentali): m ni m ni m i =1 j =1 i =1 j =1 i =1 yij - yˆi 2 = yij - yi 2 ni yˆi - yi 2 Somma dei Quadrati degli Errori SSE Somma totale delle distanze tra previsioni del modello ed osservazioni Somma dei Quadrati dell’ Errore Puro SSPE Misura della varianza all’interno delle prove ripetute Somma dei Quadrati della perdita di fit SSLF (lack of fit) Ottima stima dell’errore sperimentale: Varianza “depurata” da eventuali errori dovuti alla non adeguatezza del modello Misure sperimentali ripetute – Test “lack of fit” • 87 Test statistici La distanza del modello dai dati sperimentali può quindi essere descritta come la somma di due diversi contributi: – SSPE Misura della varianza “pura” (Sum of Squares Pure Error) – SSLF Misura delle distanze tra media delle osservazioni e previsioni (Sum of Squares Lack of Fit). 88 Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 44 Misure sperimentali ripetute – Test “lack of fit” • • Test statistici I risultati dell’analisi possono essere sintetizzati nella seguente tabella di tipo ANOVA Sorgente di errore Somma dei Quadrati gdl Quadrato medio (Varianza) F ratio Lack of fit SSLF m-p MSLF = SSLF/(m-p) MSLF/ MSPE Prove ripetute SSPE nT-m MSPE = SSPE/(n·m-m) Residui SSE nT-p Nel caso di modello adeguato le sorgenti di errore in SSLF e SSEE sono dello stesso tipo: 89 Misure sperimentali ripetute – Test “lack of fit” Test statistici • Se il modello è “corretto” si deve osservare che le due varianze sono confrontabili MSPE ~ MSLF • Nel caso in cui il modello non sia quello giusto, MSLF include anche una dispersione dovuta alla scarsa adeguatezza del modello MSLF >> MSPE • Da cui è possibile valutare il valore f0: SSLF m- p f0 = ~ F m - p, nT - m SSPE nT - m Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza 45 Analisi della Varianza – Sommario • • • • Concetti importanti Test delle ipotesi sulla media Teste delle ipotesi sui coefficienti di regressione Test ANOVA – Test ANOVA per modelli lineari: • test di significatività per la regressione – La variabile dipendente è influenzata da almeno una variabile regressore? • test Somma Extra dei Quadrati – Uno specifico sottoinsieme di variabili regressore influenza il processo? • test Lack Of Fit – Il modello scelto è adeguato per descrivere i dati sperimentali? Analisi dei Processi Chimici e Biotecnologici Test delle Ipotesi e Analisi della Varianza Test statistici Basati sulla T di student Basati sulla Fisher 46