TEST

Schede riassuntive di Statistica inferenziale
TEST D’IPOTESI
Gli obiettivi della statistica inferenziale sono:
 Stima puntuale di un parametro.
 Stima per intervalli.
 Test statistici per verificare l’ipotesi su un parametro o su un’assunzione.
Effettuare un test statistico significa verificare un’IPOTESI. Ad esempio
1. si vuole verificare se la media della durata di una lampadina supera le 1000 ore
2. si vuole verificare se il genere e l’essere fumatori sono indipendenti.
Cosa é necessario per effetturare un test?
1. Formulare le ipotesi
H0: ipotesi principale
H1: ipotesi alternativa
2. Stabilire il livello del test.
3. Utilizzare i dati campionari per stabilire se si accetta o non si accetta l’ipotesi H0.
Analizzeremo 4 tipi di test
1.
2.
3.
4.
Test
Test
Test
Test
sulla media.
dell’uguaglianza delle medie di due campioni indipendenti.
dell’ugualglianza delle medie di due campioni appaiati.
d’indipendenza.
1. Test sulla media
Esempio: Supponiamo di voler verificare che il tempo di vita di una lampadina è di 1400 ore.
Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di
n=5 lampadine:
Lampadina 1
X1
1450
Lampadina 2
X2
1380
Lampadina 3
X3
1460
Lampadina 4
X4
1420
Lampadina 5
X5
1470
Con questi dati si può determinare uno stimatore e una stima puntuale per la media e
realizzare un intervallo di confidenza per la media.
Attraverso i test parametrici (la media è un parametro) si vuole stabilire se sia ragionevole
che il tempo medio di vita sia 1400 ore.
La regola di decisione che lega i campioni al parametro su cui si vuole eseguire il test si
chiama statistica test.
X1  X 2  X 3  X 4  X 5
e
5
1450  1380  1460  1420  1470
x5 
 1436
5
Lo stimatore della media è
X5 
è una stima puntuale per la media. Si decide di accettare l’ipotesi che la media sia 1400 se la
lontano da 1400, cioè se è piccola la differenza fra x e 1400.
stima non è troppo
5
In questo caso H0: la media è 1400.
L’ipotesi alternativa può essere

H1: la media è diversa da 1400
H1: la media è maggiore da 1400
H1: la media è minore da 1400
A questo punto bisogna scegliere il livello del test , ossia il margine di errore che viene
concesso e determinare una regione di rifiuto (che dipenderà dal livello, dalla statistica
scelta e dall’ipotesi alternativa, tale che
In generale, avremo che per effettuare un test sulla media si sceglie
1. la media campionaria X come statistica test
2.  (normalmente 0,05 o 0,01) come livello del test
3. si formulano le ipotesi (principale e alternativa), che determineranno la forma della
regione di rifiuto

Gli errori che si possono commettere sono
 RIFIUTARE H0 quando H0 è vera (errore di I specie, viene fissato con probabilità )
 ACCETTARE H0 quando H1 è vera (errore di II specie, dipende da  ed è difficile da
calcolare)
Nella seguente tabella vengono riportate le regioni di rifiuto R in relazione all’ipotesi
alternativa, quando l’ipotesi principale è
H0:  (media) = 0
H1:  0
H1: > 0
H1: < 0
R= (-,0-t
s
s
)(0+t
,+)
n
n
s
,+)
n
s
)
R=(-,0-t
n
R= (0+t

Dove

s è la deviazione standard campionaria

n è la numerosità
 campionaria

t è un coefficiente che dipende da n e da  e si ricava da apposite tavole (t di
Student)
A questo punto per concludere il test, è sufficiente verificare se il valore campionario della
statistica test appartiene alla regione di rifiuto.
Se x NON appartiene alla regione di rifiuto, si accetta l’ipotesi H0
Se x appartiene alla regione di rifiuto, si rifiuta l’ipotesi H0 e si accetta
l’ipotesi H1

 Nel caso dell’esempio delle lampadine si ha che
H1:  1400
H1: > 1400
H1: < 1400
(-,1354.74)(1445.26,+)
(1434.75,+)
(-,1365.25)
Accetto H0
Rifiuto H0
Accetto H0
Più semplicemente si può concludere il test, calcolandosi il p-value ossia il livello massimo
con il quale si accetta l’ipotesi principale considerate le osservazioni rilevate. Il p-value è,
quindi, la probabilità di rifiutare l’ipotesi principale quando questa è vera, scegliendo come
estremo della regione di rifiuto la stima puntuale della statistica test. Avremo quindi che
p-value >
p-value <
accettiamo l’ipotesi H0
rifiutiamo l’ipotesi H0
Sempre nell’esempio delle lampadine si ha che
H1:  1400
H1: > 1400
H1: < 1400
p-value=0.092
p-value=0.046
p-value=0.954
>0.05
<0.05
>0.05
L’output di Minitab per il test con ipotesi H1:  1400 è il seguente:
One-Sample T: C1
Test of mu = 1400 vs not = 1400
Variable
C1
Dove:





N
5
Mean
1436,0
StDev
36,5
SE Mean
16,3
95% CI
(1390,7; 1481,3)
T
2,21
P
0,092
Stdev è la deviazione standard campionaria
SE Mean è il rapporto fra StDev e la numerosità campionaria
95% CI è l’intervallo di confidenza per la media al 95%
T è il valore della statistica test standardizzata
P è il p-value
Osservazione: Questa procedura si può applicare quando la variabile che si studia ha una
distribuzione normale (a campana) o sempre quando si lavora con grandi campioni.
2. Test per la differenza di medie per popolazioni di legge normale
Consideriamo due campioni estratti da due popolazioni indipendenti e con distribuzione
normale (o numerosità campionaria elevata). Ad esempio, si rileva la stessa grandezza su
individui appartenenti a due popolazioni diverse e indiependenti. Indichiamo con X 1,…,Xn il
primo campione e con Y1,…,Ym il secondo campione.
Un problema che si incontra molte frequentemente è quello di stabilire se le due medie X e
Y sono uguali oppure no. Nel linguaggio dei test statistici questo equivale ad effettuare un
test per verificare
H0: X=Y
contro una delle tre ipotesi alternative
H1: XY
H1: X<Y
H1: X>Y
Siccome X n è uno stimatore per X e Ym è uno stimatore per Y, segue che D= X n  Ym può
essere usato per stimare X-Y.
In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come
ipotesi H0: D=0 e
H1: d=0
H1: D<0
H1: D
>0


A questo punto si può seguire la procedura descritta per il test sulla media e concludere il
test dal confronto del p-value con il livello scelto.
Rimane, comunque, non banale calcolare la varianza campionaria di tale stimatore.
Esempio: Si vuole verificare se il peso medio di una specie di cavie è differente per
esemplari femmine e maschi. Da un campione di 2205 femmine si ottiene un valore medio di
547g mentre da un campione di 2610 maschi il valore medio è 540g. L’output di Minitab per
il test a campioni indipendenti è il seguente:
Two-Sample T-Test and CI: PESO_F; PESO_M
Two-sample T for PESO_F vs PESO_M
PESO_F
PESO_M
N
2205
2610
Mean
547
540
StDev
962
700
SE
Mean
20
14
Difference = mu (PESO_F) - mu (PESO_M)
Estimate for difference: 7,6
95% CI for difference: (-40,7; 55,9)
T-Test of difference = 0 (vs not =): T-Value = 0,31
3946
Dove:


P-Value = 0,757
DF =
Estimate for difference è la differenza di medie campionate
P-Value = 0,757 è il p-value che porta ad accettare l’ipotesi principale, ossia che
abbiano la stessa media.
3. Test di differenza di medie per dati appaiati
Un caso particolare del test sulla differenza di media è quello relativo ai dati appaiati, cioè
quando vengono rilevati i dati riferiti allo stesso campione (ad esempio, in tempi diversi o con
differenti strumenti).
Un caso tipico di applicazione di questo test sono le rilevazioni di parametri fisiologici prima e
dopo la somministrazione di un farmaco.
I dati da esaminare avranno quindi la forma
Obs
1
2
…
n
X
X1
X2
…
Xn
Y
Y1
Y2
…
Yn
Si suppone che la caratteristica studiata abbia distribuzione normale oppure la numerosità del
campione sia elevata.
Come nel caso precedente, un problema che si incontra molte frequentemente è quello di
stabilire se le due medie X e Y sono uguali oppure no. Nel linguaggio dei test statistici
questo equivale ad effettuare un test per verificare
H0: X=Y
contro una delle tre ipotesi alternative
H1: XY
H1: X<Y
H1: X>Y
In questo caso non si può usare l’ipotesi d’indipendenza e si deve sempre tener presente che
i dati sono appaiati. Per effettuare il test, si deve, quindi, costruire una nuova variabile D=XY come riportato in tabella
Obs
1
2
X
X1
X2
Y
Y1
Y2
D
D1=X1- Y1
D2=X2- Y2
…
n
…
Xn
…
Yn
…
Dn=Xn- Yn
In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come
ipotesi H0: D=0 e
H1: d=0
H1: D<0
H1: D>0
A questo punto si può seguire la procedura descritta per il test sulla media e concludere il
test dal confronto del p-value con il livello scelto.
Esempio: X e Y sono due variabili quantitative rilevate su un campione di 16 persone in due
tempi diversi (prima e dopo). Si vuole verificare che non ci sono state variazioni in media.
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Prima
334
150
520
95
212
30
1055
300
85
129
40
440
610
208
880
25
Dopo
405
125
540
100
200
30
1200
265
90
206
18
489
590
310
995
75
D
-71
25
-20
-5
12
0
-145
35
-5
-77
22
-49
20
-102
-115
-50
L’output in Minitab è il seguente:
Paired T-Test and CI: Prima; Dopo
Paired T for Prima - Dopo
Prima
Dopo
Difference
N
16
16
16
Mean
319,6
352,4
-32,8
StDev
309,6
344,0
55,8
SE Mean
77,4
86,0
13,9
95% CI for mean difference: (-62,5; -3,1)
T-Test of mean difference = 0 (vs not = 0): T-Value = -2,35
P-Value = 0,033
Dove:
 95% CI for mean difference è l’intervallo di confiodenza per la differenza delle
media al 95%
 T-Value è il valore della statistica test standardizzata
 P-Value = 0,033<0,05 permette di rifiutare l’ipotesi principale, ossia possiamo
affermare che c’è differenza in media.
4. Test del chi-quadro di indipendenza
Date due variabili qualitative. Possiamo riassumere i dati in una tabella di contingenza.
Indichiamo con fij le frequenze congiunte e fi+ e f+j le frequenze marginali della X e della Y
rispettivamente. Si vuole verificare se sono indipendenti. Dalla statistica descrittiva, si sa che
se le righe (risp. colonne) del profilo riga (risp. colonna) sono uguali o equivalentemente se
fij= fi+ f+j, si può concludere che c’è indipendenza statistica. Questa uguaglianza è difficile che
si verifichi con i dati campionari, applicando le tecniche dei test statistici, si vuole verificare
se si può accettare l’ipotesi d’indipendenza con un margine d’errore.
Le ipotesi del test sono qundi
H0: X e Y sono indipendenti H1: X e Y non sono indipendenti
Esempio: Si vuole verificare se 4 tipi di farmaci A, B, C e D (X) producono gli stessi effetti
terapeutici. A tal fine si somministrano i quattro farmaci a quattro gruppi di pazienti,
rilevando la risposta (Y) al trattamento (0=scarsa, 1=media, 2=notevole). I risultati sono
riassunti nella seguente tabella (output di Minitab)
Rows: X
0
1
2
3
All
Columns: Y
0
1
2
All
0
5
2
0
7
2
5
7
0
14
0
4
4
1
9
2
14
13
1
30
Cell Contents:
Count
Verificare se i due farmaci producono gli stessi effetti terapeutici equivale a verificare se le
due variabili X e Y sono indipendenti. Se fossero indipendenti la tabella sarebbe stata
0
A
B
C
D
All
1
2
All
0,467
0,933 0,600
2,000
3,267
6,533 4,200 14,000
3,033
6,067 3,900 13,000
0,233
0,467 0,300
1,000
7
14
9
30
7,000 14,000 9,000 30,000
Cell Contents:
Expected count
Dobbiamo ora verificare quanto la tabella dei dati reali si discosta dalla tabella
d’indipendenza.
La statistica che si usa per verificare le ipotesi di indipendenza è
I
J
Q  n
i 1 j 1
(fij  fi  f  j ) 2
fi  f  j
con n la numerosità campionaria, I il numero di classi della variabile X e J il numero di classi
della variabile Y.
Anche in questo caso per concludere il test è sufficiente confrontare il p-value con il livello
scelto.
Nel caso dell’esempio farmaci/risposta la realizzazione della statistica Q vale 6,406 e il pvalue vale 0,379278, quindi accettiamo l’ipotesi che siano indipendenti.