Corso di biomatematica lezione 7-2:
Test di significatività
Silvia Capelli
Sommario
•Test a 1 o 2 code
•P-Value
•Regressione lineare e significatività
Adattamento dei dati
• Test a 1 e a 2 code
Abbiamo la possibilità di effettuare dei test cosiddetti ad una
coda (unilaterali) o a due code (bilaterali) in funzione della
parte di distribuzione gaussiana che consideriamo, ovvero se
solo oltre un certo valore di Z=(x – m)/s con segno o
considerandone il valore assoluto.
• Nel test ad una coda mi chiedo solamente se una media è
maggiore di un’altra (o di un valore atteso), escludendo a
priori che possa essere minore
• Nel test a due code mi chiedo se tra le due medie o la
media ed il valore atteso esistano differenze significative
senza indicazioni su chi sia maggiore o minore.
Davide Grandi - Dottorato in Biologia
Adattamento dei dati
• Test a 1 e a 2 code
I test unilaterali sono più potenti dei test bilaterali e a volte
sono anche logicamente più appropriati (ad esempio se so
che un determinato farmaco è più efficace dell’altro e devo
solamente verificare se lo è in una determinata percentuale.
n termini tecnici si dice che il test a due code è più
conservativo.
Davide Grandi - Dottorato in Biologia
Adattamento dei dati
• P-Value
Il cosiddetto p-value altro non è che il probability value di
un test di inferenza statistica (di solito il Z test o il test del c2
che mi permette di stabilire se sia valida lipotesi nulla H0 o
quella alternativa H1
Fissiamo ora un valore di probabilità a sufficientemente
piccolo (ad es. 0.05) che escluda le misure meno probabili.
Dati m e s dalla distribuzione normale avremo un intervallo
m 1.96
s
N
, m 1.96
s
N
entro cui con probabilità (1–a) il mio risultato sarà
compatibile con l’ipotesi nulla H0
Davide Grandi - Dottorato in Biologia
Adattamento dei dati
• P-Value e intervallo di confidenza
Dalla relazione
s
s


Pr m  za
 X n  m  za
1a


2 N
2 N 

Deduco
s
s


Pr X n  za
 1a

m

X

z
n
a


2
2
N
N


L’intervallo di “confidenza” con cui conosco m
Davide Grandi - Dottorato in Biologia
Adattamento dei dati
• Z-test
Lo Z test è essenzialmente un test di significatività per la
media di una popolazione, una volta noto sia la deviazione
standard s che il valor medio (atteso) m una volta calcolato il
mio valo medio m (dai dati in possesso)
In questo caso calcolerò la variabile
xm
z s
dove
xm
N
E in funzione del suo valore potrò stabilire la validità
dell’ipotesi nulla H0 o di quella alternativa H1
Davide Grandi - Dottorato in Biologia
Adattamento dei dati
• Z-test
Se ora abbiamo
z

za
2
Cioè quel valore che nella distribuzione normale lascia a
destra un’area pari ad a/2, questo ci permette di rifiutare
l’ipotesi nulla H0 e accettare quella alternativa H1 mentre in
caso contrario non potrò farlo
Errore I tipo: rifiutare H0 quando è vera (tipo a)
Errore II tipo: non rifiutare H0 quando è falsa (tipo b)
Davide Grandi - Dottorato in Biologia
Regressione lineare
• Ipotesi nulla e alternativa
Ora abbiamo che le ipotesi nulla e alternativa nel caso di una
relazione y = a + bx saranno
1. H0 : b = 0
2. H1 : b  0
Per verificare la significatività della retta ottenuta si ricorre
al test F dato da:
F
1, n  2
var(regressione)

var(errore)
Ora vediamo come ottenere le due varianze partendo dalle
rispettive devianze (con g.d.l. la prima 1 e la seconda n–2)
Davide Grandi - Dottorato in Biologia
Regressione lineare
• significatività
Data la devianza totale con g.d.l. (n–1):



Y

2
Y
2
N
E la devianza della regressione: con g.d.l. 1




 X Y

X Y 
N




2

 X 2 


Davide Grandi - Dottorato in Biologia
 X  
2
N


Regressione lineare
• significatività
Ottengo la devianza d’errore come differenza della devianza
totale meno la devianza della regressione con g.d.l. (n–2).
La varianza della regressione sarà la devianza diviso i suoi
g.d.l, mentre la varianza d’errore sarà la devianza diviso I
suoi g.d.l, ed alla fine effettuerò il test F.
Quindi:
Dev. Errore = (Dev. Totale – Dev. regressione)
Varianza Reg. = (Dev. Reg.)/ g.d.l.
Var. Errore = (Dev. Errore) / g.d.l
Se vale H0 allora le due varianze sono simili, altrimenti la
varianza della regressione è maggiore
Davide Grandi - Dottorato in Biologia
Regressione lineare
• significatività
I valori di F sono tabulati in funzione dei due g.d.l.
Posso anche effettuare un test di Student e sappiamo che vale
la relazione
t
2
( n2)
 F (1,n2)
Il test t si rappresenta come:
t
( n2)
b b

S
0
b
Con b0 valore atteso della pendenza, Sb invece dato da
Davide Grandi - Dottorato in Biologia
Regressione lineare
•
significatività
S
b

var(errore _ retta)
devianza _ x
Si pone di solito b0 = 0 e vale

devianza _ x   X i  X
2
 Yi Yˆi
S 
n2

2

e
Davide Grandi - Dottorato in Biologia

2
Regressione lineare
• Coefficiente R2
Il coefficiente di determinazione definito come
dev _ regressione
R  dev _ totale
2
Serve per misurare quanto della variabile dipendente Y sia
predetto dalla variabile X, ovvero stimare l’utilità della
regressione per prvedere valori di Y e vale
 
 Y Y 
 Yˆi Y
n
R
2

2
1
n
1
2
i
Davide Grandi - Dottorato in Biologia