Test delle ipotesi

Test delle ipotesi – Parte 2
Test delle ipotesi sulla distribuzione: Introduzione
2 sulla distribuzione
T
Test χ
ll di ib i
Test χ2 sulla distribuzione: Esercizio
Test delle ipotesi sulla distribuzione
• Molte conclusioni tratte nell’inferenza parametrica nascono dall’assunzione
dall
assunzione implicita che il campione di dati proviene da implicita che il campione di dati proviene da
una popolazione di proprietà ben definite. • In particolare si assume che sia noto il tipo di distribuzione che ha prodotto il campione in esame
• È possibile implementare un test statistico per stabilire, con un certo livello di significatività, se una data distribuzione è compatibile con il campione a disposizione
compatibile con il campione a disposizione
• Tale tipo di test prende il nome di test sulla bontà di adattamento
M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2
1
Test delle ipotesi sulla distribuzione
• Anche per tale tipo di test è prevista un’ipotesi nulla:
H0:
il campione proviene da una distribuzione teorica nota
• La filosofia di tali test si basa sul confrontare:
– Frequenze assolute del campione
– Frequenze assolute previste dalla distribuzione ipotizzata
q
p
p
Test χ2 sulla distribuzione
• Ricetta:
1. Individuare k classi distinte in cui suddividere il campione
Individuare k classi distinte in cui suddividere il campione
2. Valutare la frequenza Oi delle osservazioni del campione per ciascuna classe:
Oi, i=1,…,k
3. Calcolare la frequenza assoluta Ei che spetta alla di t ib i
distribuzione ipotizzata per ciascuna classe:
i ti t
i
l
Ei, i=1,…,k
• Se l’ipotesi nulla fosse vera i valori Ei e Oi dovrebbero essere confrontabili
M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2
2
Test χ2 sulla distribuzione
• Ricetta (cont.)
– Calcolare lo scalare:
k
χ =∑
2
oss
i =1
(O − E )
2
i
i
Ei
• Importante:
• Se l’ipotesi nulla di partenza fosse vera, si può dimostrare che χ2oss è un valore osservato di una VA di tipo χ
p χ2 a ν = k‐1‐m
g.d.l, essendo
ν=k‐1‐m
gdl della VA di tipo χ2
k
Numero di classi
m
Numero di parametri della distribuzione da stimare a partire dal campione
Test χ2 sulla distribuzione
• Ricetta (cont.)
– Il valore osservato χ
Il valore osservato χ2oss deve essere confrontato con il deve essere confrontato con il
2
valore critico χ α della χ2 tale che:
P(χ ≤ χα2 ) = α
– Essendo α il livello di significatività del test e χ la VA di tipo χ2 a ν gradi di libertà.
– L’ipotesi nulla H0 sarà quindi rigettata se:
2
χ oss
> χα2
M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2
3
Test χ2 sulla distribuzione
• N.B.
• Il test di adattamento in esame è valido se Il test di adattamento in esame è valido se
Oi ≥ 5
∀i
• Nel caso non sia soddisfatta questa proprietà si deve ricorrere a raggruppare più classi
Test χ2 sulla distribuzione ‐ Esercizio
• In tabella è riportata la distribuzione della pressione sanguigna sistolica (in mmHg) per un campione casuale di 250 uomini di età compresa tra i 30 e i 40 anni.
p
• Si vuole testare se i dati possano provenire da una VA normale
Pressione
Frequenza osservata (n. di uomini)
Frequenza relativa fi
80< x ≤100
3
0.012
100< x ≤110
12
0.048
110< x ≤120
110< x ≤120
52
0.208
120< x ≤130
74
0.296
130< x ≤140
67
0.268
140< x ≤150
26
0.104
150< x ≤160
12
0.048
160< x ≤180
4
0.010
M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2
k
∑ fi = 1
i =1
4
Test χ2 sulla distribuzione ‐ Esercizio
• Il primo passo è la stima dei parametri per la variabile aleatoria ipotizzata, ovvero devo calcolare media aritmetica e
aleatoria ipotizzata, ovvero devo calcolare media aritmetica e varianza del campione:
k
μˆ = x = ∑ xi f i = 128.46
i =1
σˆ = s = ∑ (xi − x ) f i = 187.48
2
2
k
2
i =1
• Stiamo quindi assumendo che i dati provengano da una VA X
del seguente tipo:
X ~ N (μ = 128.46,σ 2 = 187.48)
• È possibile quindi valutare le frequenze relative che competono teoricamente a ciascuna classe
Test χ2 sulla distribuzione ‐ Esercizio
• Per il calcolo delle frequenze relative si può ricorrere alle proprietà della trasformazione lineare:
X − μ X − 128.46
Z=
=
σ
13.69
• Per cui, per esempio, per la classe [110÷120]:
120 − 128.46 ⎞
⎛ 110 − 128.46
<X≤
P(110 < X ≤ 120 ) = P⎜
⎟
13.69
⎝ 13.69
⎠
= P(− 1.35 < Z ≤ −0.62) = P(0.62 ≤ Z < 1.35)
= 0.9115 − 0.7324 = 0.1791
• Per cui, la frequenza assoluta attesa è:
Ei = N ⋅ 0.1791 = 250 ⋅ 0.1791 = 44.775
M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2
5
Test χ2 sulla distribuzione ‐ Esercizio
Classi
Frequenza
osservata
Oi
Frequenza relativa attesa
Frequenza assoluta attesa Ei
x≤80
0
0.0002
0.050
80<x≤100
3
0.0186
4.65
100<x≤110
12
0.0697
17.425
110<x≤120
52
0.1791
44.775
120<x≤130
74
0.2762
69.050
130<x≤140
67
0 2557
0.2557
63 925
63.925
140<x≤150
26
0.1423
35.575
150<x≤160
12
0.0475
11.875
160<x≤180
4
0.0106
2.650
x>180
0
0.0001
0.025
Da notare che, per x<80 e x>180, nonostante non vi siano valori osservati nel campione, esiste q
una frequenza attesa Ei ≠ 0 e dobbiamo quindi considerare anche queste classi
Test χ2 sulla distribuzione ‐ Esercizio
• Raggruppando le classi con un numero di osservazioni Oi<5:
Classe Oi
Ei
(Oi‐Ei)2/Ei
x≤110
15
22.125
2.294
110<x≤120
52
44.775
1.166
120<x≤130
74
69.050
0.355
130<x≤140
67
63.925
0.148
140<x≤150
26
35.575
2.577
X>150
16
14.550
0.145
Totale: k=6
250
250
χ2oss = 6.685
M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2
6
Test χ2 sulla distribuzione ‐ Esercizio
• Restano da stabilire i gradi di libertà della χ2 da considerare e il valore critico ad esso relativo:
Numero classi k:
6
Numero parametri m:
2
ν=k‐m‐1=3
• Resta da stabilire quale è il valore critico χ20.05 di una χ2 a 3 gdl. Consultando le tabelle si osserva che:
P(χ 3 ≤ χ 02.05 ) = 0.05 ⇒ χ 02.05 = 7.815
• Essendo:
χ2oss < χ20.05 • Non possiamo rigettare l’ipotesi nulla di partenza
M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2
7