TEST NON PARAMETRICO DI MANN-WHITNEY Questo test viene può essere utilizzato come test di confronto tra due campioni in maniera analoga ai test ipotesi parametrici di confronto medie (test Z se la varianza è nota ed il test t di Student se la varianza non è nota). Il test di Mann-Whitney si applica solitamente quando le assunzioni per effettuare il test parametrico non sono soddisfatte, ovvero quando entrambe le condizioni 1 e 2 sono presenti: 1) le distribuzione della variabile oggetto di studio non è normale 2) le dimensioni campionarie sono ridotte ( n < di 30 casi in almeno un campione). .15 .1 Density .05 0 0 5 10 15 var Shapiro-Wilk W test for normal data Variable Obs var 26 W V z 0.91255 2.501 1.878 Prob>z 0.03017 Esempio di variabile distribuita non normalmente con forte asimmetria positiva e n numero di casi < 30 ( 26 casi), Nelle condizioni (1+2) è possibile analizzare i dati con questa procedura che valuta ipotesi di confronto sulla mediana dei due campioni ed utilizza i ranghi delle osservazioni. Il test mann-Whitney utilizzando i ranghi ed è più informativo e completo del test semplice della mediana che valuta solo il numero di casi sopra o sotto questa misura di posizione. Le assunzioni che sottostanno il test sono ridotte rispetto ai test parametrici ( Z e t): • i due campioni di dimensione n ed m sono casuali ed indipendenti • la scala di misurazione è almeno ordinale • la variabile di interesse è continua (anche se misurata sulla scala ordinale) Le ipotesi considerate dal test di Mann-Whitney: -----------------------------------------------------------H0: le due popolazioni da cui sono estratti i campioni hanno mediana uguale. HA: la mediana della popolazione 1 è maggiore della mediana della pop 2 (test unidirezionale con valori di rifiuto della statistica test maggiori del valore critico). -------------------------------------------------------------------------------------------- Oppure HA: la mediana della popolazione 1 è minore della mediana della pop 2 (test unidirezionale con valori di rifiuto della statistica test minori del valore critico). ------------------------------------------------------------Oppure HA: la mediana della popolazione 1 è diversa della mediana della pop 2 (test bidirezionale con valori di rifiuto della statistica test minori o maggiori dei 2 valori critici: minori di –U alfa/2, o maggiori di +U alfa/2). Procedura: 1) E’ necessario ordinare i dati in maniera crescente, tenendo separati i due campioni (campione X e campione Y) di provenienza, che hanno un numero n (del campione X) ed m (del campione Y) di osservazioni. E’ opportuno che le due serie di valori siano riportate in colonna lasciando uno spazio accanto alla prima serie e che si lasci uno o più spazi nella elencazione dei valori della serie x (ed y rispettivamente) quando il valore successivo della elencazione sia quello della serie d confronto. Vedi esempio . 2) Quindi si assegnano i ranghi (vedi procedura specifica dispensa 1 trasformazione scala ranghi) che tiene conto anche dei ties, ovvero valori uguali a i quali viene attribuito il valor medio del rango. 3) La statistica viene quindi semplicemente calcolata come segue: U=S- n(n + 1) 2 Dove n è la dimensione campionaria del campione usato come riferimento (uno dei due campioni, ad es. campione X) ed S la somma dei ranghi specifica dello stesso campione. A seconda delle ipotesi del test il valore di U viene confrontato con il valore critico della tabella specifica per un alfa (es. alfa= 0.05) ed un numero n ed m di osservazioni. --------------------------------------------------------------------------------------- Caso HA: Mx < My La mediana del campione x è minore di quella del campione Y Si rifiuta H0 se il valore calcolato di U risulta minore del valore U critico riportato nella tabella per n, m ed alfa specificato. --------------------------------------------------------------------------------------- Caso HA: Mx > My La mediana del campione x è maggiore di quella del campione Y Si rifiuta H0 se il valore calcolato di U risulta maggiore del valore U critico riportato nella tabella per n m ed alfa specificato. --------------------------------------------------------------------------------------- Caso HA: Mx ≠ My La mediana del campione x diversa della mediana del campione Y Si rifiuta H0 se il valore calcolato di U risulta rispettivamente maggiore del valore +U critico alfa/2 o minore del valore - U critico alfa/2 riportato nella tabella per n m ed alfa specificato. ----------------------------------------------------------- Se i campioni sono più grandi (in questo caso valutare la possibilità di effettuare un t test) ovvero quando n o m sono > di 20 è possibile ricorrere ad una valutazione della statistica ricorrendo ai valori della distribuzione normale standardizzata Z come segue: z= U − mn / 2 nm( n + m + 1) / 12 Esempio dati da analizzare n 1 2 3 4 5 6 7 Valori Valori variabile nel variabile nel Campione X Campione Y 1 2 2 3 0 2 1 4 2 2 3 1 2 Esempio ordinamento dati ed assegnazione ranghi Valori variabile ordinati nel Valori variabile ordinati nel Rango Rango Campione X Campione X Campione Y Campione Y n 1 2 3 4 5 6 7 8 9 10 11 12 13 somma 0 1 1 2 2 2 3 ranghi S= 1 3 3 1 3 2 2 2 7.5 7.5 7.5 7.5 7.5 7.5 11.5 41 3 4 ranghi S= 11.5 13 50