Metodi statistici per l’analisi dei dati Confronto tra due trattamenti Metodi statistici per l'analisi dei dati Motivazioni • Confronto tra trattamenti Obbiettivo: – Confrontare due diverse condizioni (anche definiti trattamenti) per cui sono stati condotti gli esperimenti. Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 1 Confronto tra trattamenti Esempio introduttivo • • L’impasto dell’esempio introduttivo è modificato aggiungendo un additivo che dovrebbe ridurne la viscosità. A tal proposito si prendono in considerazione – 10 misure sperimentali di viscosità del trattamento originale (controllo) – 10 misure sperimentali di viscosità del prodotto alimentare modificato. j Crema modificata (cp) Controllo (cp) 1 67.40 70.00 2 65.60 70.52 3 68.84 73.00 4 65.40 72.00 5 66.08 71.44 6 68.16 71.00 7 67.84 72.88 8 68.60 71.60 9 66.36 71.84 10 66.28 72.60 y 67.06 71.69 Metodi statistici per l'analisi dei dati Introduzione – Esempio • • • • Confronto tra trattamenti Il valore medio delle misure del prodotto modificato è minore del valore medio del prodotto originale Due possibili spiegazioni: – Le due formulazioni sono realmente differenti – La differenza osservata nei trattamenti è dovuta alle fluttuazioni inevitabilmente presenti nelle misure sperimentali, e le due formulazioni sono di fatto equivalenti Obiettivo: Concludere che i due campioni sono realmente differenti con strumenti statistici rigorosi Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 2 Concetti di statistica di base – Descrizioni grafiche della variabilità Confronto tra trattamenti Diagramma per punti Utile per campioni di piccole dimensioni (sino a 20 osservazioni). • • 64 66 68 70 72 Viscosità [cp] n n yi 2 yi1 y1 = i =1 n 74 = 67.06 y2 = i =1 n = 71.69 Il diagramma permette di riconoscere il trend centrale e la dispersione dei dati. Un’ispezione visiva (qualitativa) del diagramma rivela che i due trattamenti sono verosimilmente differenti. • • Metodi statistici per l'analisi dei dati Concetti di statistica di base – Descrizioni grafiche della variabilità Confronto tra trattamenti Rappresentazione dei campioni tramite “diagrammi a scatola” (“box-plots”) • Valore massimo osservato nel campione 74 75-mo percentile Viscosità [cp] 72 70 Mediana 68 25-mo percentile 66 64 Modificato Non modificato Valore minimo osservato nel campione Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 3 Confronto tra campioni • • Confronto tra trattamenti I due diversi trattamenti possono essere visti come due livelli del fattore “formulazioni” Modello statistico per i dati: yij = m i e ij mi yij j-esima Media della osservazione dal risposta al livello livello i-esimo i-esimo i = 1,2 j = 1,2,..., ni eij Variabile aleatoria normale associata con la j-esima osservazione Metodi statistici per l'analisi dei dati Confronto tra campioni Confronto tra trattamenti • Assunzione: • Gli errori e sono normali, indipendenti e identicamente distribuiti (i.i.d.): e N 0, s 2 Metodi statistici per l'analisi dei dati 14 -18 settembre 2015 Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 4 Confronto tra campioni – Test statistici – Definizione del problema • Confronto tra trattamenti Dal punto di vista formale, si possono definire le seguenti ipotesi nulla H0 e l’ipotesi alternativa H1: H0: m1=m2 H1: m1≠m2 Metodi statistici per l'analisi dei dati Confronto tra campioni – Test statistici – Definizione del problema Confronto tra trattamenti • Tipologia di errori che possono essere commessi durante un test statistico: • Errore di tipo I: rigettare l’ipotesi H0 di partenza nonostante essa fosse vera = P errore di tipo I = P rigetto H 0 | H 0 è vera • Errore di tipo II: non rigettare H0 nonostante essa fosse falsa = Perrore di tipo II = Pnon rigetto H 0 | H 0 è falsa • Si deve ridurre al minimo il rischio (le probabilità e ) di incorrere in questi due tipi di errore Metodi statistici per l'analisi dei dati 14 -18 settembre 2015 Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 5 Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 1/4 • • • Confronto tra trattamenti Scegliere un livello di significatività del test (in genere =0.05). Rappresenta la probabilità di sbagliare, nel caso in cui arrivassimo alla conclusione di rigetto dell’ipotesi nulla. Calcolare il valore critico t/2 tale che: P- t / 2 T t / 2 = 1 - dove T è la distribuzione t di Student a (n1+n2-2) gradi di libertà Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 2/4 • Confronto tra trattamenti Distribuzione T di student a 18 gdl con l’evidenzia delle regioni critiche 0.4 0.3 0.2 area=/2=0.025 area=/2=0.025 0.1 -2.101 3 Regione di rigetto 2 1 -2.101 1 2 Regione di non rigetto 3 Regione di rigetto Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 6 Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 3/4 • • Calcolare t0 = Confronto tra trattamenti y1 - y2 1 1 S P2 n1 n2 dove SP2 è la stima della varianza campionaria comune s12=s22=s2: S P2 = n1 - 1S12 n2 - 1S22 n1 n2 - 2 – Nota: nel caso di n=n1=n2, l’espressione si riduce a t0 = n y1 - y2 S12 S 22 Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 4/4 • Confronto tra trattamenti Si confronta il t0 osservato con il valore critico t/2 t0 t / 2 • • non rigettiamo l’ipotesi nulla H0. Non si hanno evidenze sperimentali tali da affermare che i due trattamenti siano significativamente diversi t0 t / 2 • • Si rigetta l’ipotesi nulla: i due trattamenti sono significativamente diversi Si corre un «rischio» di affermare la conclusione sbagliata pari al livello di significatività del test Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 7 Confronto tra trattamenti Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria • La differenza delle medie dei due trattamenti può essere vista come una VA di tipo normale: y1 - y2 ~ N m1 - m 2 , s 2 1 n1 1 n2 • Se i due trattamenti provenissero dalla stessa popolazione (ovvero m1=m2 , s12=s22), e la varianza s2 fosse nota, la statistica: z0 = • • y1 - y2 s 1 n1 1 n2 sarebbe un valore osservato di una Gaussiana di tipo standard (Z~N(0,1)) t0 è un’osservazione di una T di student a (n1+n2-2) gdl: Metodi statistici per l'analisi dei dati Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria • Dato che la varianza è ignota, si ricorre alla sua stima SP2, per cui la statistica t0: t0 = • • • Confronto tra trattamenti y1 - y2 S 1 n1 1 n2 2 P è relativa ad una T di student a (n1+n2-2) g.d.l. Se H0 fosse vera, ci si aspetta quindi che la probabilità per t0 di cadere nell’intervallo [-t/2, t/2] sia pari a 100(1-). Un campione che produce dei risultati al di fuori di questo intervallo non sarebbe usuale – è quindi più plausibile che l’ipotesi nulla di partenza sia sbagliata Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 8 Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione • • Confronto tra trattamenti Per le emulsioni alimentari dell’esempio Calcolo valore critico t/2: – (da tabelle disponibili in letteratura o, equivalentemente, con l’ausilio di software) t/2=2.101 • Calcolo statistica t0: S P2 = t0 = n1 - 1S12 n2 - 1S 22 n1 n2 - 2 = 9 1.602 9 0.983 = 1.2928 18 y1 - y2 67.06 - 71.69 = = -9.109 S P 1 n1 1 n2 1.137 1 10 1 10 Metodi statistici per l'analisi dei dati Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione • Confronto tra trattamenti Conclusioni: t0 t / 2 • Il valore osservato t0 è maggiore (in valore assoluto) del valore critico t/2 • I due trattamenti sono significativamente differenti con un rischio (errore di tipo I) del 5% che tale conclusione sia sbagliata Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 9 Confronto tra trattamenti Test statistici – Definizione ipotesi alternative • L’ipotesi alternativa presa in considerazione H1: • contempla l’eventualità che i due trattamenti presi in considerazione siano solo differenti H1: • • m1≠m2 m1<m2 oppure m1<m2 Tale ipotesi prende il nome di ipotesi alternativa “twosided” (valori sia maggiori che minori portano al rigetto di H0). In altri casi, la natura del problema può suggerire altre espressioni per le ipotesi alternative. Metodi statistici per l'analisi dei dati Confronto tra trattamenti Test statistici – Definizione ipotesi alternative «one sided» H1: • m1<m2 Si arriva al rigetto dell’ipotesi nulla solo se m1 è significativamente minore di m2 0.4 0.3 0.2 area==0.05 0.1 3 2 Regione di rigetto 1 1 2 3 Regione di non rigetto Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 10 Confronto tra trattamenti Test statistici – Definizione ipotesi alternative «one sided» H1: • m1>m2 Si arriva al rigetto dell’ipotesi nulla solo se m1 è significativamente maggiore di m2 0.4 0.3 0.2 area==0.05 0.1 3 2 1 1 2 Regione di non rigetto 3 Regione di rigetto Metodi statistici per l'analisi dei dati Intervalli di fiducia – Differenza di medie • • Supponiamo di essere interessati a determinare un intervallo di fiducia al 95% per la differenza 1=m1-m2 delle medie. A tale scopo, si consideri la statistica: t= • Confronto tra trattamenti y - y - m1 - m 2 d1 - 1 = 1 2 1 1 1 1 SP SP n1 n2 n1 n2 essa è distribuita secondo una tn1+n2-2. Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 11 Confronto tra trattamenti Intervalli di fiducia – Differenza di medie Da cui: y - y - m1 - m 2 t = g P - t / 2 1 2 /2 1 1 SP n1 n2 • ovvero: 1 1 1 1 P y1 - y2 - t / 2 S P m1 - m 2 y1 - y2 t / 2 S P n n n n2 1 2 1 • • =g Per cui 1 1 1 1 CONF y1 - y2 - t / 2 S P m1 - m 2 y1 - y2 t / 2 S P n1 n2 n1 n2 L U q Metodi statistici per l'analisi dei dati Intervalli di fiducia differenza di due medie - Applicazione • Confronto tra trattamenti Per l’esempio introduttivo 1 1 1 1 CONF 67.06 - 71.69 - 2.1011.137 m1 - m 2 67.06 - 71.69 2.1011.137 10 10 10 10 y1 - y2 • t / 2 S P 1 1 n1 n2 y1 - y2 t / 2 S P 1 1 n1 n2 ovvero: CONF - 5.70 m1 - m 2 -3.56 • Da notare che il valore m1-m2=0 non è incluso nell’intervallo, confermando ulteriormente che l’ipotesi m1=m2 non è plausibile per il livello di significatività =1-g=5%. Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 12 Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni • • • Confronto tra trattamenti s12≠s22 - Parte 1/2 In presenza di un test delle ipotesi: H0: m1=m2 H1: m1≠m2 in cui non è possibile assumere che le varianze dei campioni siano uguali, si può ricorrere alla statistica test t0 = y1 - y2 S12 S 22 n1 n2 Metodi statistici per l'analisi dei dati Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni • • Confronto tra trattamenti Caso in cui s12≠s22 - Parte 2/2 essendo la statistica t ben approssimata da una t di student a gradi di libertà: = S12 S 22 n 1 n2 S 2 1 2 2 n1 S2 n - 2 2 n1 - 1 n2 - 1 2 Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 13 Test statistici – Esempio: Test per il confronto di due campioni – Estensioni • • • s12 e s22 note - 1/2 In presenza di un test delle ipotesi: H0: m1=m2 H1: m1≠m2 in cui le varianze sono a priori note, si può usare la statistica: z0 = • Confronto tra trattamenti y1 - y2 s12 s 22 n1 n2 Se entrambi le popolazioni sono normali (o le dimensioni del campioni sono grandi) la statistica z0 ~ N(0,1) Metodi statistici per l'analisi dei dati Test statistici – Esempio: Test per il confronto di due campioni – Estensioni • • Confronto tra trattamenti s12 e s22 note - 2/2 La regione critica per i test delle ipotesi può essere calcolata usando la distribuzione normale di tipo standard anziché la t di student. Sarà necessario calcolare il valore critico z tale che, per esempio (caso test ipotesi two-sided): P- z / 2 Z z / 2 = 1 - Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 14 Esempio introduttivo – Confronto medie con “blocco” Confronto tra trattamenti • • Si consideri di nuovo il caso dell’esempio introduttivo. La randomizzazione dei campioni ha portato alla selezione casuale di: – 10 campioni da modificare – 10 campioni non trattati che saranno usati come controllo • Tale politica implica una inevitabile sorgente di variazione: – la casualità nella scelta dei campioni da destinare ai due trattamenti si aggiunge alla eventuale variazione indotta dalla differenza dei trattamenti y Metodi statistici per l'analisi dei dati Esempio introduttivo – Confronto medie con “blocco” • Confronto tra trattamenti Strategia possibile per eliminare tale sorgente di incertezza: 1. Si selezionano 10 campioni (anziché 20) non modificati 2. Se ne misura la viscosità 3. In seguito, gli stessi campioni sono modificati con l’aggiunta dell’additivo. 4. Si ripete la misura della viscosità sui campioni modificati Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 15 Esempio introduttivo – Confronto medie con “blocco” • Confronto tra trattamenti Il modello statistico per descrivere la procedura è il seguente: i = 1,2 j = 1,2,..., ni yij = m i j eij yij j-esima osservazione dal livello iesimo mi Media al livello i-esimo j Effetto del campione specifico eij Variabile aleatoria normale associata con la j-esima osservazione Metodi statistici per l'analisi dei dati Esempio introduttivo – Confronto medie con “blocco” • In questo modo è possibile valutare la differenza per la coppia j-ma: d j = y1 j - y2 j • Confronto tra trattamenti j = 1,..., n Il valore atteso di questa differenza è = E y1 j - y2 j = E y1 j - E y2 j = m1 j - m 2 j md = E d j = m1 - m 2 È possibile fare inferenza sulla differenza di medie lavorando semplicemente con le differenze delle coppie Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 16 Confronto tra trattamenti Esempio introduttivo – Confronto medie con “blocco” • • Testare H0: m1=m2 è equivalente a testare H0: md=0 H1: md≠0 La statistica test per questa ipotesi è ancora una t a (n-1) gdl: t0 = • dove d S d2 n n d= j =1 d j n j =1 d j - d 2 n e S d2 = n -1 Metodi statistici per l'analisi dei dati Esempio introduttivo – Confronto medie con “blocco” • • • Confronto tra trattamenti La possibilità di una campagna sperimentale con dati accoppiati, risulta da preferire alla campagna sperimentale completamente randomizzata. Si elimina una sorgente di incertezza dovuta alle differenze eventualmente presenti tra i campioni (e non dovute ai trattamenti). La filosofia del “blocco”permette di eliminare sorgenti di incertezza presenti nel campione di dati. Metodi statistici per l'analisi dei dati Metodi Statistici per l’Analisi dei Dati Confronto tra due trattamenti 17