Corso di biomatematica lezione 7-2: Test di significatività Silvia Capelli Sommario •Test a 1 o 2 code •P-Value •Regressione lineare e significatività Adattamento dei dati • Test a 1 e a 2 code Abbiamo la possibilità di effettuare dei test cosiddetti ad una coda (unilaterali) o a due code (bilaterali) in funzione della parte di distribuzione gaussiana che consideriamo, ovvero se solo oltre un certo valore di Z=(x – m)/s con segno o considerandone il valore assoluto. • Nel test ad una coda mi chiedo solamente se una media è maggiore di un’altra (o di un valore atteso), escludendo a priori che possa essere minore • Nel test a due code mi chiedo se tra le due medie o la media ed il valore atteso esistano differenze significative senza indicazioni su chi sia maggiore o minore. Davide Grandi - Dottorato in Biologia Adattamento dei dati • Test a 1 e a 2 code I test unilaterali sono più potenti dei test bilaterali e a volte sono anche logicamente più appropriati (ad esempio se so che un determinato farmaco è più efficace dell’altro e devo solamente verificare se lo è in una determinata percentuale. n termini tecnici si dice che il test a due code è più conservativo. Davide Grandi - Dottorato in Biologia Adattamento dei dati • P-Value Il cosiddetto p-value altro non è che il probability value di un test di inferenza statistica (di solito il Z test o il test del c2 che mi permette di stabilire se sia valida lipotesi nulla H0 o quella alternativa H1 Fissiamo ora un valore di probabilità a sufficientemente piccolo (ad es. 0.05) che escluda le misure meno probabili. Dati m e s dalla distribuzione normale avremo un intervallo m 1.96 s N , m 1.96 s N entro cui con probabilità (1–a) il mio risultato sarà compatibile con l’ipotesi nulla H0 Davide Grandi - Dottorato in Biologia Adattamento dei dati • P-Value e intervallo di confidenza Dalla relazione s s Pr m za X n m za 1a 2 N 2 N Deduco s s Pr X n za 1a m X z n a 2 2 N N L’intervallo di “confidenza” con cui conosco m Davide Grandi - Dottorato in Biologia Adattamento dei dati • Z-test Lo Z test è essenzialmente un test di significatività per la media di una popolazione, una volta noto sia la deviazione standard s che il valor medio (atteso) m una volta calcolato il mio valo medio m (dai dati in possesso) In questo caso calcolerò la variabile xm z s dove xm N E in funzione del suo valore potrò stabilire la validità dell’ipotesi nulla H0 o di quella alternativa H1 Davide Grandi - Dottorato in Biologia Adattamento dei dati • Z-test Se ora abbiamo z za 2 Cioè quel valore che nella distribuzione normale lascia a destra un’area pari ad a/2, questo ci permette di rifiutare l’ipotesi nulla H0 e accettare quella alternativa H1 mentre in caso contrario non potrò farlo Errore I tipo: rifiutare H0 quando è vera (tipo a) Errore II tipo: non rifiutare H0 quando è falsa (tipo b) Davide Grandi - Dottorato in Biologia Regressione lineare • Ipotesi nulla e alternativa Ora abbiamo che le ipotesi nulla e alternativa nel caso di una relazione y = a + bx saranno 1. H0 : b = 0 2. H1 : b 0 Per verificare la significatività della retta ottenuta si ricorre al test F dato da: F 1, n 2 var(regressione) var(errore) Ora vediamo come ottenere le due varianze partendo dalle rispettive devianze (con g.d.l. la prima 1 e la seconda n–2) Davide Grandi - Dottorato in Biologia Regressione lineare • significatività Data la devianza totale con g.d.l. (n–1): Y 2 Y 2 N E la devianza della regressione: con g.d.l. 1 X Y X Y N 2 X 2 Davide Grandi - Dottorato in Biologia X 2 N Regressione lineare • significatività Ottengo la devianza d’errore come differenza della devianza totale meno la devianza della regressione con g.d.l. (n–2). La varianza della regressione sarà la devianza diviso i suoi g.d.l, mentre la varianza d’errore sarà la devianza diviso I suoi g.d.l, ed alla fine effettuerò il test F. Quindi: Dev. Errore = (Dev. Totale – Dev. regressione) Varianza Reg. = (Dev. Reg.)/ g.d.l. Var. Errore = (Dev. Errore) / g.d.l Se vale H0 allora le due varianze sono simili, altrimenti la varianza della regressione è maggiore Davide Grandi - Dottorato in Biologia Regressione lineare • significatività I valori di F sono tabulati in funzione dei due g.d.l. Posso anche effettuare un test di Student e sappiamo che vale la relazione t 2 ( n2) F (1,n2) Il test t si rappresenta come: t ( n2) b b S 0 b Con b0 valore atteso della pendenza, Sb invece dato da Davide Grandi - Dottorato in Biologia Regressione lineare • significatività S b var(errore _ retta) devianza _ x Si pone di solito b0 = 0 e vale devianza _ x X i X 2 Yi Yˆi S n2 2 e Davide Grandi - Dottorato in Biologia 2 Regressione lineare • Coefficiente R2 Il coefficiente di determinazione definito come dev _ regressione R dev _ totale 2 Serve per misurare quanto della variabile dipendente Y sia predetto dalla variabile X, ovvero stimare l’utilità della regressione per prvedere valori di Y e vale Y Y Yˆi Y n R 2 2 1 n 1 2 i Davide Grandi - Dottorato in Biologia