Test non parametrici
Il test T di Student per uno o per due campioni, il test F di Fisher per
l'analisi della varianza, la correlazione, la regressione, insieme ad altri test
di statistica multivariata sono parte dei metodi di inferenza classici o
metodi di statistica parametrica.
Prima della loro applicazione, è fondamentale che siano soddisfatti alcuni
assunti che riguardano la popolazione d'origine;
Primo assunto: l'indipendenza dei gruppi campionari
i campioni sottoposti ai differenti trattamenti dovrebbe essere formati per
estrazione casuale da una popolazione, in cui ogni soggetto abbia la stessa
probabilità di essere incluso in un gruppo qualsiasi. In questo modo, i
fattori aleatori o non controllati, quelli che nel test t formano l’errore
standard, sarebbero distribuiti casualmente.
Secondo assunto: normalità delle distribuzioni
da essa deriva,per via del teorema del limite centrale, una stretta relazione
tra popolazione e campioni.
Terzo assunto: omoschedasticità o omogeneità delle varianze.
Quando questi assunti non sono rispettati si ricorre ai c. d. metodi
statistici non parametrici, i quali non dipendono dalla forma di
distribuzione della popolazione, non si basano sui parametri della
distribuzione ed è possibile applicarli anche nei casi di dati qualitativi.
Vi sono diversi metodi, o tests non parametrici e si dividono in due
grandi categorie: quelli basati sulle frequenze e quelli basati
sull'ordinamento delle informazioni. I metodi non parametrici sono meno
efficaci ma più generali e vengono utilizzati quando non possono essere
applicati i metodi parametrici.
TEST χ² (Chi-quadro).
Quando si dispone di un solo campione spesso si ricorre alla verifica di
accordo della distribuzione osservata con una distribuzione teorica o
attesa. Per questo scopo si usa il test della χ², uno dei più diffusi test non
parametrici. Esso è basato sulle frequenze, noto come bontà d'adattamento.
Si tratta di confrontare le frequenze empiriche con quelle teoriche
(probabilità a-priore) per stabilire se la funzione di distribuzione di una
v.c. è quella da noi ipotizzata. Sotto l'ipotesi nulla H0 : ni  nˆ i , cioè che le
frequenze empiriche sono uguali a quelle teoriche n̂i (probabilità attesa), si
calcola la statistica g  c
2
(ni  nˆi ) 2
 i
e se
nˆi
2
H0 , mentre si rifiuta l'ipotesi nulla se  c
 2
>
 c2
<
 2
non si rifiuta
con probabilità pari a α
(g sono i g.d.l., g  k  v  1 ).
Esempio 1).
Adattamento di una distribuzione di Poisson alla distribuzione del numero
di incidenti in 120 settimane, con α = 0.05.
n. inc.
settimane
0
23
1
48
2
27
P( x) 
H0 : X~> Poisson
la media è λ = 1.5
n.
inc.
0
1
2
3
4
5
Pi
N x Pi
23
48
27
13
6
3
0.2231
0.3347
0.251
0.1255
0.0471
0.0141
26.776
40.163
30.123
15.061
5.648
1.6944
Poiché
4
6
5
3
x  exp(  )
x!
1.5 x  exp( 1.5)
quindi P( x) 
x!
ni
120
3
13
CHI-q
27
40
30
15
6
2
27
40
30
15
8
0.593
1.6
0.3
0.267
0.125
2.884
 c2 = 2.884 < 3  02.05 = 7.814725
gdl
5-1-1=3
2
7.814725
3 0.05

si accetta H0
Esempio 2).
Normalità della pressione sistolica in un campione di 1000 persone.
con α = 0.05.
Si stimano la media e la varianza dal campione.
H0 : X~> N(μ,σ²)
x
1
n

xi  f i = 145.6
1
Sˆ 2 
n 1
 (x
i
 x ) 2 = 702.3
freq.
classi
soggetti Z1
Z2
Prob teoriche Chi-Q
0
100
32 -5.49 -1.72 0.04
43
2.8140 media
100
120
124 -1.72 -0.97 0.12
124
0 var
120
140
260 -0.97 -0.21 0.25
249
0.4859 dev st.
140
160
340 -0.21 0.543 0.29
290
8.6207
160
180
139 0.54 1.298
0.2
196 16.5765
180
200
85
1.3 2.053 0.08
77
0.8312
200 oltre 200
20 2.05 5.826 0.02
20
0
gdl
2
1000
29.3283 4 0.01
13.277
 02.05
9.488

P-val 6.70E-06 4
Il valore della
rifiuta H0 .
145.6
702.3
26.5
4
 c2 è superiore al valore teorico della Chi-quadro, quindi si
 Metodi non parametrici con ordinamento delle informazioni.
Questi metodi non parametrici sono test statistici basati sui ranghi delle
osservazioni, cioè sul loro numero d'ordine invece che sulle osservazioni
in se. Essi prescindono dalla distribuzione della popolazione (infatti si
usano quando non è possibile conoscerla).
Rispetto alle stime sono meno efficienti di quelli parametrici.
Sono giustificati quando:
1) le variabili hanno evidenti scostamenti dalla normalità (o sono
fortemente asimmetriche o presentano più di un picco);
2) quando il campione è troppo piccolo per comprendere se esiste una
distribuzione normale dei dati;
3) quando le osservazioni sono rappresentate da classifiche ordinali (es.
gravità di una malattia da 1 a 4).
Test di Mann-Whitney (o della somma dei ranghi): due campioni
indipendenti; è uno dei test non parametrici più potenti e serve a verificare
se due gruppi indipendenti appartengono alla stessa popolazione. È
un'alternativa molto valida al test parametrico T-Student, quando non
possono considerarsi i postulati del T test, oppure la scala di misura è più
debole di una scala ad intervalli.
Es. diuresi in due gruppi di soggetti sottoposti a due
trattamenti (3 con placebo e 4 con farmaco)
Placebo
Farmaco
Diuresi
Rango
Diuresi
Rango
1000
1
1400
6
1300
5
1600
7
1200
3
1180
2
1220
4
Test di Verifica:
 Ipotesi Ho :me(1) = me(2)


U  min   R1 ,  R2 
j
 i

u 
n1 (n1  n2  1)
2
u 
n1n2 (n1  n2  1)
12
Z=
U   u  0 .5
u
(+0.5 coda a sx; –0.5 coda a dx)
n1 (n1  1)
R
2
Nel caso di piccoli campioni, una volta calcolato la somma dei ranghi si
confronta questa con il valore teorico di una tavola in corrispondenza delle
dimensioni dei due campioni. Per grandi campioni si usa Z = N(0,1).
Oppure: U = n1n2 
Es.: un gruppo di comunità con un certo comportamento e un altro gruppo
di controllo sono sottoposti ad un test i cui risultati sono espressi in
punteggi: g1) gruppo di controllo, g2) gruppo di comunità. Test
unidirezionale a sinistra: ipotesi: H0:me(1) = me(2) contro H1 :me(1) <
me(2).
g1 g2 C ord. dati rang
N1 N2 R
13 10 1 1 6 1.5
16 23 200
12 10 2 2 6 1.5
Test
12 10 1 3 7
5 MANN-WHITNEY
mu
320
10 8 1 4 7
5
U= 304
var
1226.667
10 8 1 5 7
5
sigma 35.0238
10 6 1 6 7
5
alfa= 0.05
10 17 1 7 7
5 Tavole di U(16,23)= 253
U=
-3.4119
9 16 1 8 8 9.5 304 > 253, quindi si
P-value 0.000323
8 15 1 9 8 9.5 rifiuta Ho, I due
Z critico -1.645
8
7
7
7
7
7
6
15 2
15 2
14 1
14 1
14 1
13 1
13 1
13 2
10
11
12
13
14
15
16
17
gruppi differiscono
8 9.5 signif.
8
9
10
10
10
10
10
9.5
12
16
16
16
16
16
12 2
12 2
12 2
12 2
11 1
11 1
2
2
2
2
1
2
2
2
2
2
2
2
2
2
2
2
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
10 16
10 16
11 20.5
11 20.5
12 24.5
12 24.5
12 24.5
12 24.5
12 24.5
12 24.5
13 29.5
13 29.5
13 29.5
13 29.5
14 33
14 33
14 33
15 36
15 36
15 36
16 38
17 39
Test della Mediana
Consiste nel costruire una tabella di contingenza 2x2 dove sono riportati i
valori dei due campioni distinti maggiori del valore mediano dell'insieme
dei due campioni e i valori minori o uguali al valore mediano.
gruppo 1 gruppo 2
maggiore della mediana
A
B
min. e uguale alla mediana
C
D
m
n
A+B
C+D
N
Calcolare poi la statistica χ² per tabelle 2x2 con 1 gdl:
 
2
N ( AD  BC  N / 2) 2
( A  B)(C  D)( m)( n)
L'potesi è Ho :me(1) = me(2). Il test si può usare quando i valori nei due
gruppi sono misurati almeno su una scala ordinale.
Applicazione all'esempio precedente dove la mediana comune è 11 e
α = 0.05 .
> mediana
<=mediana
g1
3
13
16
g2
15
8
23
18
21
39
coeffi. Xq P-value
6.435 0.0111
Poiché il valore χ² è 6.435 > 3.841 (valore teorico Chi-q) si rifiuta H0 .
Test di Wilcoxon (o test del segno per ranghi): campioni dipendenti
o dati appaiati; è l'equivalente del paired T test . Questo test è molto utile
nel campo delle scienze comportamentali. Consente di considerare la
direzione e la grandezza della differenza dei dati appaiati (mentre il test dei
segni considera solo la direzione delle differenze delle coppie dei dati).
Test di verifica:
 Ipotesi Ho :me(1) = me(2)
T+ = ΣR+
T 
T 
n1 (n1  1)
4
n1 (n1  1)(2n1  1)
24
d  T  T
Z=
T  T
T
Nel caso di piccoli campioni (n<20) si ricorre a delle tavole dove ai valori
di T+ sono associate delle probabilità P(T+ ≥ c) in base a n; per accettare
Ho la condizione è che P > α; si può ricorrere anche a questa statistica:
W 
T
R
2
e se il P-value ad essa associato è minore di α si rifiuta Ho.
Per campioni grandi (n>20) si usa Z =
T  T
T
e si accetta Ho se
Z  Z (oppure Z < Zα e Z > -Zα ).
Esempio: stimoli visivi nell'interpretazione di segnali uditivi (congruenza
tra movimenti delle labbra e suoni delle parole).
Esperimento in condizioni di normale conversazione con 12 bambini da 10
a 16 settimane.
Quantità di tempo durante la quale ogni bambino guarda il viso di una
persona che parla in sincronia e fuori sincronia.
Ipotesi nulla H0 : la quantità di tempo che il bambino trascorre a guardare
non dipende dalla presentazione; in termini di test di Wicoxon non c'è
differenza tra mediana dei ranghi positivi e mediana ranghi negativi (per
piccoli campioni non c'è differenza tra la somma dei ranghi positivi e la
somma dei ranghi negativi ).
Test a due code (la direzione delle differenze non è nota in anticipo) con
α = 0.01 e 0.05; la regione critica consiste in tutti i valori di T (somma dei
ranghi positivi) elevati con una probabilità inferiore ad α = 0.01 e 0.05.
Il tempo misurato consiste in percentuali di disattenzione alla
presentazione in o fuori sincronia.
diff
rank (rank
segno
segno
(rank
sogg. sincrone asincrone As-S diff
diff)^2 rank
rank
diff)^2
1
20.3
50.4 30.1
9
81
9 Somme
73
650
2
17
87
70
11
121
11
3
6.5
2501 2494.5
12
144
12
Wilcoxon 2.8633
4
25
28.5
3.5
3
9
3
P-value 0.0042
5
5.4
26.9 21.5
7
49
7 alfa=0.01 Z critico 2.576
6
29.2
36.6
7.4
5
25
5 alfa=0.05 Z critico 1.960
7
2.9
1
-1.9
1
1
-1
8
6.6
43.8 37.2
10
100
10
9
15.8
44.2 28.4
8
64
8
10
8.3
10.4
2.1
2
4
2
11
34
29.9
-4.1
4
16
-4
12
8
27.7 19.7
6
36
6
Sia la tavola della somma ranghi che la statistica Z portano al rifiuto di H0
(con n = 12, P(T+ ≥ 73) = 0.0024, al valore di T=73 corrisponde una prob.
2x0.0024 e Z=2.8633 > di Z(α)=2.576). I bambini sono in grado di
discriminare le parole dai movimenti delle labbra in sincronia e fuori
sincronia.
Test dei segni.
Es. effetto di un diuretico su 6 soggetti:
Sogg. DiuresiP DiuresiD Diff. Rango diff. Rango con segno
1
1600 1490 -110
5
-5
2
1850 1300 -550
6
-6
3
1300 1400 +100
4
+4
4
1500 1410
-90
3
-3
5
1400 1350
-50
2
-2
6
1550 1520
-30
1
-1
(N.B. : i ranghi sono attribuiti sulla base del valore assoluto)
sogg.
A
1
2
3
4
5
6
B
1600
1850
1300
1500
1400
1550
rank
diff B-A diff
1490
-110
1300
-550
1400
100
1410
-90
1350
-50
1520
-30
(rank
segno
(rank
diff)^2 segno rank
rank
diff)^2
5
25 -5
Somme
-13
91
6
36 -6
4
16 4
Wilcoxon -1.36277
3
9 -3
P-value 0.172955
2
4 -2
Z critico
1.960
1
1 -1
Test di Wilcoxon applicato ad un solo campione.
In questo caso il test non parametrico sostituisce il calcolo dell'intervallo di
confidenza sulla media quando non è possibile ricorrere ai metodi
parametrici perché mancano le condizioni (non è rispettata la normalità
della distribuzione, ecc.). L'ipotesi sul valor medio viene verificata
prendendo come riferimento la mediana. Stabilita la mediana (ipotesi
nulla), si fanno le differenze dei valori dalla mediana e i ranghi delle
differenze in valore assoluto. Si sommano poi i ranghi di segno positivo.
Es.: 13 osservazioni, Ho: mediana=300, H1: mediana < 300, α = 0.05
oss
235
230
180
250
280
330
440
430
260
225
240
255
215
diff(Ho)
-65
-70
-120
-50
-20
30
140
130
-40
-75
-60
-45
-85
ranghi
65
70
120
50
20
30
140
130
40
75
60
45
85
7
8
11
5
1
2
13
12
3
9
6
4
10
13
-7
-8
-11
-5
-1
2
13
12
-3 media
45.5
-9 sigma 14.30909
-6 Zc
-1.29288
-4
0.098026
-10 Z critico -1.64485
27 T+
Dalle tavole, con n = 13, P(T+ ≤ 27) > α (T+ può essere al massimo 21.7),
quindi si accetta Ho.
In condizioni di incertezza sull’esistenza delle condizioni richieste da un test parametrico, una
soluzione sempre più diffusa suggerisce una duplice strategia:
1 - utilizzare un test appropriato di statistica parametrica,
2 - convalidare tali risultati mediante l’applicazione di un equivalente test non parametrico.
Se le probabilità stimate con i due differenti metodi risultassero simili, sono confermate la
robustezza del test parametrico e la sua sostanziale validità anche in quel caso. Il test non
parametrico può servire per confermare i risultati ottenuti con quello parametrico. Se le probabilità
risultassero sensibilmente differenti, dovrebbe essere considerato come più attendibile il test non
parametrico e sarebbe conveniente riportare nella pubblicazione solo esso, in quanto fondato su
condizioni meno rigorose e caratterizzato da inferenze più generali.