Mann-Whitney_nonparametrico

TEST NON PARAMETRICO
DI MANN-WHITNEY
Questo test viene può essere utilizzato come
test di confronto tra due campioni in maniera
analoga ai test ipotesi parametrici di confronto
medie
(test Z se la varianza è nota ed il test t di Student se
la varianza non è nota).
Il test di Mann-Whitney si applica solitamente
quando le assunzioni per effettuare il test
parametrico non sono soddisfatte, ovvero
quando entrambe le condizioni 1 e 2 sono
presenti:
1) le distribuzione della variabile oggetto di
studio non è normale
2) le dimensioni campionarie sono ridotte
( n < di 30 casi in almeno un campione).
.15
.1
Density
.05
0
0
5
10
15
var
Shapiro-Wilk W test for normal data
Variable
Obs
var
26
W
V
z
0.91255
2.501
1.878
Prob>z
0.03017
Esempio di variabile distribuita non normalmente con forte
asimmetria positiva e n numero di casi < 30 ( 26 casi),
Nelle condizioni (1+2) è possibile analizzare i
dati con questa procedura che valuta ipotesi di
confronto sulla mediana dei due campioni ed
utilizza i ranghi delle osservazioni.
Il test mann-Whitney utilizzando i ranghi ed è più
informativo e completo del test semplice della mediana che
valuta solo il numero di casi sopra o sotto questa misura di
posizione.
Le assunzioni che sottostanno il test sono ridotte
rispetto ai test parametrici ( Z e t):
• i due campioni di dimensione n ed m sono
casuali ed indipendenti
• la scala di misurazione è almeno ordinale
• la variabile di interesse è continua (anche se
misurata sulla scala ordinale)
Le ipotesi considerate dal test di Mann-Whitney:
-----------------------------------------------------------H0: le due popolazioni da cui sono estratti i
campioni hanno mediana uguale.
HA: la mediana della popolazione 1 è maggiore
della mediana della pop 2 (test unidirezionale con
valori di rifiuto della statistica test maggiori del valore
critico).
--------------------------------------------------------------------------------------------
Oppure
HA: la mediana della popolazione 1 è minore della
mediana della pop 2 (test unidirezionale con valori di
rifiuto della statistica test minori del valore critico).
------------------------------------------------------------Oppure
HA: la mediana della popolazione 1 è diversa
della mediana della pop 2 (test bidirezionale con valori
di rifiuto della statistica test minori o maggiori dei 2 valori
critici: minori di –U alfa/2, o maggiori di +U alfa/2).
Procedura:
1) E’ necessario ordinare i dati in maniera
crescente, tenendo separati i due campioni
(campione X e campione Y) di provenienza,
che hanno un numero n (del campione X) ed
m (del campione Y) di osservazioni.
E’ opportuno che le due serie di valori siano riportate in
colonna lasciando uno spazio accanto alla prima serie e che si
lasci uno o più spazi nella elencazione dei valori della serie x
(ed y rispettivamente) quando il valore successivo della
elencazione sia quello della serie d confronto. Vedi esempio .
2) Quindi si
assegnano
i ranghi (vedi
procedura
specifica
dispensa
1
trasformazione scala ranghi) che tiene conto
anche dei ties, ovvero valori uguali a i quali
viene attribuito il valor medio del rango.
3)
La statistica viene quindi semplicemente
calcolata come segue:
U=S-
n(n + 1)
2
Dove n è la dimensione campionaria del campione
usato come riferimento (uno dei due campioni, ad es.
campione X) ed S la somma dei ranghi specifica dello
stesso campione.
A seconda delle ipotesi del test il valore di U viene
confrontato con il valore critico della tabella
specifica per un alfa (es. alfa= 0.05) ed un numero n
ed m di osservazioni.
---------------------------------------------------------------------------------------
Caso HA: Mx < My
La mediana del campione x è minore di quella del campione Y
Si rifiuta H0 se il valore calcolato di U risulta
minore del valore U critico riportato nella tabella
per n, m ed alfa specificato.
---------------------------------------------------------------------------------------
Caso HA: Mx > My
La mediana del campione x è maggiore di quella del campione Y
Si rifiuta H0 se il valore calcolato di U risulta
maggiore del valore U critico riportato nella tabella
per n m ed alfa specificato.
---------------------------------------------------------------------------------------
Caso HA: Mx ≠ My
La mediana del campione x diversa della mediana del campione Y
Si rifiuta H0 se il valore calcolato di U risulta
rispettivamente maggiore del valore +U critico
alfa/2 o minore del valore - U critico alfa/2
riportato nella tabella per n m ed alfa specificato.
-----------------------------------------------------------
Se i campioni sono più grandi
(in questo caso valutare la possibilità di effettuare un t test)
ovvero quando n o m sono > di 20 è possibile
ricorrere ad una valutazione della statistica
ricorrendo ai valori della distribuzione normale
standardizzata Z come segue:
z=
U − mn / 2
nm( n + m + 1) / 12
Esempio dati da analizzare
n
1
2
3
4
5
6
7
Valori
Valori
variabile nel variabile nel
Campione X Campione Y
1
2
2
3
0
2
1
4
2
2
3
1
2
Esempio ordinamento dati ed assegnazione ranghi
Valori variabile
ordinati nel
Valori variabile
ordinati nel
Rango
Rango
Campione X Campione X Campione Y Campione Y
n
1
2
3
4
5
6
7
8
9
10
11
12
13
somma
0
1
1
2
2
2
3
ranghi S=
1
3
3
1
3
2
2
2
7.5
7.5
7.5
7.5
7.5
7.5
11.5
41
3
4
ranghi S=
11.5
13
50