I metodi non parametrici sono meno efficaci ma più generali (possono essere applicati a tutte le serie di dati). Vengono utilizzati quando non possono essere applicati i metodi parametrici (dati non distribuiti normalmente). Si dividono in due grandi categorie: Statistica16 – 1/12/2015 quelli basati sulle frequenze quelli basati sull'ordinamento delle informazioni. •Questi metodi non parametrici sono test statistici basati sui ranghi delle osservazioni, cioè sul loro numero d'ordine invece che sul valore delle osservazioni in se. •Questi metodi “prescindono” dalla “distribuzione” dei valori nella popolazione (si possono usare anche quando non è possibile conoscere la distribuzione dei dati) 1 In termini statistici: •Rispetto alla individuazione di differenze significative, sono meno efficienti (Efficaci) di quelli parametrici in quanto si perdono informazioni (vedi 1ma lezione, la misura contiene più informazione del rango). •Sono quindi generalmente più restrittivi Selettivi) (necessitano di numerosità maggiori per individuare differenze significative). 2 Sono giustificati quando: le variabili della stessa classificazione è noto che non seguono la distribuzione normale (i valori sono fortemente asimmetrici, sono distorti, presentano più di un picco ecc. ecc.); il parametro che si deve valutare è “nuovo”, non deriva da misurazioni semplici ma da analisi strumentali o scaturisce da operazioni di calcolo matematico su più parametri o da analisi di immagini (TAC, PET ecc.). Non è possibile reperire in bibliografia lavori scientifici che hanno già utilizzato tale parametro e i nostri rilievi sono ancora troppo pochi per comprendere se quei dati o la loro trasformazione (es. inversa logaritmica, esponenziale ecc.) può seguire la normale distribuzione biologica dei dati; le osservazioni sono rappresentate da classifiche ordinali arbitrarie (es. gravità di una infestazione parassitaria: punteggi da 1 a 4; scale di colorazioni ecc.). 3 Test della mediana, è il test non parametrico più semplice e più restrittivo, serve a verificare se due campioni indipendenti appartengono alla stessa popolazione. In pratica sostituisce il test t di Student nel caso elaborazione di dati “non normali” (cioè che non seguono la distribuzione normale). Utilizza la mediana al posto della media come misura di tendenza centrale (ma nei risultati si trova spesso riportata anche, o solo, la media aritmetica): - la mediana, come noto, è meno influenzata dai valori anomali (vedi lezione 1); - se la distribuzione fosse normale, media e mediana coinciderebbero; quindi le inferenze sulla mediana possono essere estese alla media; - se la distribuzione dei dati mediante trasformazione diventa normale, il valore che identifica la nuova media coincide con quello della 4 mediana precedente, ovviamente trasformata. In pratica: 1. Calcolo la mediana di tutti i numeri senza considerare se appartengono alla prima o seconda serie di numeri; 2. Nella prima serie di numeri conto quanti numeri sono più grandi della mediana e quanti sono più piccoli (o uguali) alla mediana; 3. Nella seconda serie di numeri conto quanti numeri sono più grandi della mediana e quanti sono più piccoli (o uguali) alla mediana; 4. Con i quattro numeri ottenuti (due dalla prima serie e due dalla seconda serie) costruisco una tabella di contingenza 2*2 il cui totale è uguale alla numerosità totale e i due totali parziali sono uguali alla numerosità della prima serie e della seconda serie. 5 Test della mediana Consiste nel costruire una tabella di contingenza 2x2 dove sono riportati i valori dei due campioni distinti in maggiori e in minori o uguali al valore mediano dell'insieme dei due campioni. gruppo 1 gruppo 2 maggiore della mediana A B min. e uguale alla mediana C D TOTALE A+C B+D a tale tabella di contingenza 2x2 viene poi applicato il Chi 2. 6 A+B C+D TOT record n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 TESI A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A x 2 2 2 2 2 2 2 2 2 2 4 4 4 4 4 4 14 14 14 14 14 14 14 14 14 14 14 14 14 16 16 record n 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 TESI A A A A A A A A A A A B B B B B B B B B B B B B B B B B B B B x 16 16 16 16 16 16 16 16 16 16 16 4 4 4 4 6 6 6 6 6 6 6 6 6 6 8 8 8 8 8 8 record n 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 TESI B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B x 8 8 8 8 9 9 9 9 9 9 10 12 12 12 12 12 12 12 12 12 12 12 12 12 14 14 14 14 14 14 14 7 42/2=21, media 21mo-22mo = 14 record 93-42=51 diviso 2= 25,5+42=67.5=68mo numero = 9 Mediana di A = 14 Mediana di B = 9 8 record record 11 22 33 44 55 66 77 88 99 10 10 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20 21 21 22 22 23 23 24 24 25 25 26 26 27 27 28 28 29 29 30 30 31 31 TESI TESI A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B xx 22 22 22 22 22 22 22 22 22 22 44 44 44 44 44 44 44 44 44 44 66 66 66 66 66 66 66 66 66 66 88 record record 32 32 33 33 34 34 35 35 36 36 37 37 38 38 39 39 40 40 41 41 42 42 43 43 44 44 45 45 46 46 47 47 48 48 49 49 50 50 51 51 52 52 53 53 54 54 55 55 56 56 57 57 58 58 59 59 60 60 61 61 62 62 TESI TESI B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B A A A A xx 88 88 88 88 88 88 88 88 88 99 99 99 99 99 99 10 10 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 14 14 14 14 record record 63 63 64 64 65 65 66 66 67 67 68 68 69 69 70 70 71 71 72 72 73 73 74 74 75 75 76 76 77 77 78 78 79 79 80 80 81 81 82 82 83 83 84 84 85 85 86 86 87 87 88 88 89 89 90 90 91 91 92 92 93 93 TESI TESI A A A A A A A A A A A A A A A A A A A A A A B B B B B B B B B B B B B B A A A A A A A A A A A A A A A A A A A A A A A A A A xx 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 Mediana = 93/2=46,5=47mo numero = 10 A min o uguale 10 (primi 16) A Mag 10 = (42-16) = 16 = 26 B min o uguale 10 = (73-42) = 31 B Mag 10 = (93-73) = 20 9 gruppo 1 gruppo 2 maggiori della mediana 26 20 min. e uguale alla mediana 16 31 TOTALE 42 51 10 46 47 93 Il passaggio successivo è molto semplice, basta calcolare la statistica χ² per tabelle 2x2 con 1 grado di libertà! Metodo rapido di calcolo con correzione Yates: NUMERI tesi A tesi B osservati osservati magiori mediana 26 a 20 b minori mediana 16 c 31 d totali 42 51 PERCENTUALE tesi A osservati magiori mediana 61,90% minori mediana 38,10% totali 100,00% corr = corr = totali 46 47 93 tesi B osservati 39,22% 60,78% 100,00% [ |ad - bc| - tot/2 ]^2 * tot (a+b) * (c+d) * (a+c) * (b+d) 3,87905 P % <o= totali 49,46% 50,54% 100,00% 0,05 11 NUMERI tesi A tesi B osservati teorici osservati teorici maggiori 26 20,77419 20 25,22581 minori 16 21,22581 31 25,77419 totali 42 51 A maggiori minori B maggiori minori osservata correz. 26 -0,5 16 0,5 20 0,5 31 -0,5 42 42 51 51 attesa -20,77419 -21,22581 -25,22581 -25,77419 22,33325 20,77419 + * * * * 49,46% 50,54% 49,46% 50,54% = = = = 4,725806 -4,725806 -4,725806 4,725806 22,33325 + 21,22581 corr 22,33325 25,22581 = 3,879052 ^2 ^2 ^2 ^2 12 totali 46 47 93 = = = = 20,77419 21,22581 25,22581 25,77419 = = = = 22,33325 22,33325 22,33325 22,33325 + 22,33325 25,77419 Tesi A Tesi B n 42 51 mediana 14 9 (media) (10,3) (9,3) χ²c test 3,88* * valore significativo per p<0,05 13 Test per ranghi di Wilcoxon (the Wilcoxon signed rank test), detto più semplicemente anche test T di Wilcoxon, è uno dei test non parametrici più potenti. Analogamente al test della mediana serve a verificare se due campioni indipendenti appartengono alla stessa popolazione. In pratica sostituisce i test parametrici nel caso elaborazione di dati “non normali” o supposti tali (cioè che non seguono la distribuzione normale). Anche the Wilcoxon signed rank test, come il precedente, utilizza la mediana al posto della media come misura migliore della tendenza centrale ( Vedi test della mediana e lezione 1, la mediana è meno influenzata da valori “anomali”) 14 I passaggi logici fondamentali del metodo del T di Wilcoxon sono: 1 - Calcolare le differenze d, con relativo segno, tra i dati raccolti (i X) ed il valore (Xˆ) dell'ipotesi nulla, data o calcolata come mediana generale (eliminando le eventuali differenze che risultassero uguali a zero); 2 - Calcolare i ranghi (i R) delle differenze (i d), considerate in valore assoluto (cioè ordinare gli n valori assoluti dal minore al maggiore; se esistono valori che hanno lo stesso rango, assegnare ad ognuno di essi un punteggio dato dalla media dei loro ranghi); 3 - Attribuire ad ogni rango il segno della differenza, già calcolata al punto 1; si ottiene la stessa serie di ranghi del punto 2, ma con il “segno”; 4 - Sommare i ranghi (i R) di pari segno = valore T per calcolare T è indifferente quale dei due valori possibili si calcola “somma dei meno o somma dei più”. Di solito si sceglie il valore ottenuto con il numero 15 minore di dati, perché richiede meno lavoro); 5 - Stimare il valore medio, al quale dovrebbe tendere la somma dei ranghi T, nella condizione che l’ipotesi nulla H0 sia vera: i ranghi positivi e quelli negativi dovrebbero essere casualmente distribuiti e dare quindi la stessa somma, in funzione del numero di dati; 6 - Se il valore espresso nell'ipotesi nulla fosse la vera tendenza centrale della popolazione, la somma dei ranghi di segno positivo (o quella di segno negativo) non dovrebbe essere significativamente differente dalla media dei ranghi; Nota: alcuni programmi commerciali di statistica approssimano il RANGO nel seguente modo (accettabile): nel caso di numeri doppi, attribuiscono lo stesso rango del primo a tutti i doppi; la presenza di numeri doppi influenza però il rango dei numeri successivi. Ad esempio, se in un elenco di interi il numero 10 appare due volte ed ha un rango uguale a 5, il numero 11 avrà un rango uguale a 7 e nessun numero potrà avere un rango uguale a 6. 16 Si supponga di voler verificare se una specie ha una colesterolemia significativamente solo minore di 300 mg/dL. A questo scopo, su un campione di 13 plasmi (indicati con lettere da A ad O) provenienti da animali “random” (appartenenti cioè casualmente a diverse categorie di età e sesso) è stata misurato il tasso di colesterolo ematico. Dalle analisi chimiche, si sono ottenuti i risultati (i X) seguenti: Sappiamo che la colesterolemia non è distribuita normalmente! Campione 1 2 3 4 5 6 7 8 9 10 11 12 13 A B C D E F G H I L M N O X 235 230 180 250 280 330 440 430 260 225 240 235 215 Impostazione risposta: Si tratta di un test ad una coda (solo minore!), con test non parametrico che utilizza la mediana: H0: me ≥ 300 contro H1: me < 300 17 1 - Calcolo le differenze d, con relativo segno, tra i dati raccolti (i X) ed il valore (Xˆ) dell'ipotesi nulla (eliminando le eventuali differenze che risultassero uguali a zero); Nota: - nel caso di due campioni (con test a due code) l’ipotesi nulla sarebbe stata mediana di A e di B uguali; uguali cioè alla mediana di entrambe i campioni. Vedi precedente esercizio con test mediana. Valore dato a priori Ipotesi nulla solo minore di 300 mg/dL Campione X A 235 B 230 C 180 D 250 E 280 F 330 G 440 H 430 I 260 L 225 M 240 N 235 O 215 mediana 240 media 273,077 18 differenze assoluti da 300 -65 -70 -120 -50 -20 30 140 130 -40 -75 -60 -65 -85 65 70 120 50 20 30 140 130 40 75 60 65 85 Campione X ordinate E F I D M A N B L O C H G 180 215 225 230 235 235 240 250 260 280 330 430 440 Assoluti ordinati Rango Rango 20 30 40 50 60 65 65 70 75 85 120 130 140 1 2 3 4 5 6 6 8 9 10 11 12 13 1 2 3 4 5 6,5 6,5 8 9 10 11 12 13 2 - Calcolo i ranghi (i R) delle differenze (i d), considerate in valore assoluto (cioè ordinare gli N valori assoluti dal minore al maggiore; se esistono valori che hanno lo stesso rango, assegnare ad ognuno 19 di essi un punteggio dato dalla media dei loro ranghi); 3 - Attribuire ad ogni rango il “segno” della differenza, già calcolata al punto 1; si ottiene la stessa serie di ranghi del punto 2, ma con il “segno”; Campione 5 6 9 4 11 1 12 2 10 13 3 8 7 E F I D M A N B L O C H G X ordinate 180 215 225 230 235 235 240 250 260 280 330 430 440 -20 30 -40 -50 -60 -65 -65 -70 -75 -85 -120 130 140 Assoluti ordinati Rango 20 30 40 50 60 65 65 70 75 85 120 130 140 1 2 3 4 5 6 6 8 9 10 11 12 13 Rango 1 2 3 4 5 6,5 6,5 8 9 10 11 12 13 20 Rango con segno -1 2 -3 -4 -5 -6,5 -6,5 -8 -9 -10 -11 12 13 4 - Sommare i ranghi (i R) dello stesso segno per calcolare T Ricorda: ai fini del test, è indifferente scegliere il valore minore o maggiore tra somma dei ranghi positivi o la somma dei negativi. Si sceglie il valore ottenuto con il numero minore di dati, per il semplice motivo che meno lavoro. richiede Campione X ordinate 5 E 6 F 9 I 4 D 11 M 1 A 12 N 2 B 10 L 13 O 3 C 8 H 7 G mediana media T T somma media ranghi media ranghi 180 215 225 230 235 235 240 250 260 280 330 430 440 240 273,0769 -20 30 -40 -50 -60 -65 -65 -70 -75 -85 -120 130 140 Assoluti ordinati Rango 20 30 40 50 60 65 65 70 75 85 120 130 140 1 2 3 4 5 6 6 8 9 10 11 12 13 Rango 1 2 3 4 5 6,5 6,5 8 9 10 11 12 13 Rango con segno -1 2 -3 -4 -5 -6,5 -6,5 -8 -9 -10 -11 12 13 27 -64 91 45,5 45,5000 21 5 - Stimo il valore medio, al quale dovrebbe tendere la somma dei ranghi T, nella condizione che l’ipotesi nulla H0 sia vera: i ranghi positivi e quelli negativi dovrebbero essere casualmente distribuiti e dare quindi la stessa somma, in funzione del numero di dati; La somma di N ranghi N * ( N 1) può essere anche calcolata come: 2 La media dei ranghi (media dei valori positivi o negativi µT) può essere anche calcolata come la metà della somma di tutti i ranghi e dovrebbe essere: N * ( N 1) T 4 Calcolo quindi la media (µT) attesa nella condizione che l’ipotesi Rivedi anche: Statistica05-probabilità.pdf nulla sia vera: 22 Campione 5 E 6 F 9 I 4 D 11 M 1 A 12 N 2 B 10 L 13 O 3 C 8 H 7 G mediana media T T somma X ordinate 180 215 225 230 235 235 240 250 260 280 330 430 440 240 273,07692 -20 30 -40 -50 -60 -65 -65 -70 -75 -85 -120 130 140 13*14 = 91 = somma 2 Assoluti ordinati Rango Rango Rango con segno 20 30 40 50 60 65 65 70 75 85 120 130 140 1 2 3 4 5 6 6 8 9 10 11 12 13 1 2 3 4 5 6,5 6,5 8 9 10 11 12 13 -1 2 -3 -4 -5 -6,5 -6,5 -8 -9 -10 -11 12 13 |27|+ |64|= 91 27 -64 91 13*14 = 45,5 = media =somma diviso 2 4 23 1 2 3 4 5 6,5 6,5 8 9 10 11 12 13 91 91/2=45,5 1 2 3 4 5 6,5 6,5 8 9 10 11 12 13 N * ( N 1) 2 13(13+1)= 182 182/2=91 N * ( N 1) T 4 13(13+1)= 182 182/4=45,5 24 6 - Se il valore espresso nell'ipotesi nulla fosse la vera tendenza centrale della popolazione, la somma dei ranghi di segno positivo non dovrebbe essere significativamente differente dalla media dei ranghi, cioè: (T = 27 oppure T= |-64|) non dovrebbe essere significativamente differente dalla media dei ranghi (µT = 45,5). 45,5 - |27| = 18,5; 45,5 - |-64| = 18,5 25 Nel caso di grandi campioni (ricordate per gli statistici n>20), sempre nella condizione che H0 sia vera, la somma dei ranghi dello stesso segno segue (approssimativamente) la distribuzione normale e si può quindi applicare tale analisi, cioè: t Vedi: Statistica05-probabilità.pdf e addendum Statistica03-distribuzione normale.pdf T Z T dove T- µT è calcolata con la formula precedente (cioè 27 o 64 meno 45,5) - σT è la deviazione standard di T, determinata solamente da n secondo la relazione: T N * ( N 1)(2 N 1) 2426 Nei lavori di Biologia (Medicina Veterinaria Produzioni Animali ecc.) la formula di approssimazione per grandi campioni è accettata già quando N è maggiore di 10-12 osservazioni! Nel nostro caso quindi si può applicare: 13 * (13 1)(2 *13 1) T 14,31 24 18,5 64 45,5 Z 1,29 14,31 27 45,5 Z 1,29 14,31 27 0 0,0000 0,0398 0,0793 0,1179 0,1554 0,1915 0,2257 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,4987 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,01 0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2611 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,4987 0,4991 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,02 0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941 0,4956 0,4967 0,4976 0,4982 0,4987 0,4991 0,4994 0,4995 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,03 0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,4988 0,4991 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,04 0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984 0,4988 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,05 0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,06 0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,07 0,0279 0,0675 0,1064 0,1443 0,1808 0,2157 0,2486 0,2794 0,3078 0,3340 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985 0,4989 0,4992 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,08 0,0319 0,0714 0,1103 0,1480 0,1844 0,2190 0,2517 0,2823 0,3106 0,3365 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 0,4951 0,4963 0,4973 0,4980 0,4986 0,4990 0,4993 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,09 0,0359 0,0753 0,1141 0,1517 0,1879 0,2224 0,2549 0,2852 0,3133 0,3389 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4633 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952 0,4964 0,4974 0,4981 0,4986 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,4999 0,5000 28 Tabella generata con la funzione distrib.norm.st di excel Z 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 Come è possibile verificare sulla tabella della distribuzione normale standardizzata, Z = 1,29 corrisponde ad una probabilità uguale a 0.0985 (o 9,85%) in una coda: 1.0000 0,500+0,4015= 0,9015 = 0,0985 cioè non minore di 0,05= ns Se il test fosse stato bilaterale, se la domanda fosse stata impostata più correttamente “se la cortisolemia della specie in studio differisce o meno (potrebbe cioè essere sia superiore che inferiore) da 300” corrisponde ad una probabilità uguale a 0.1970 (o 19,70%) in due code: 1.0000 0,4015+0,4015= 0,8030 = 0,1970 cioè non minore29di 0,05 = ns Nella pratica della ricerca ambientale, in cui la distribuzione dei dati è spesso lontana dalla normalità, il test T di Wilcoxon (o anche della mediana) deve sostituire i test parametrici (es. t di Student o l’analisi della varianza). Il suo impiego assicura condizioni di validità più generali, senza perdere molto in potenza/efficienza! (meglio del test della mediana) Nel caso di “non certa distribuzione non normalità dei dati” La tendenza è quella di riportare i risultati dei test non parametrici ma anche di quelli parametrici, soprattutto nei casi significativi al limite. 30 Nel caso di piccoli campioni (N ≤ 20), la significatività del valore di T è fornita direttamente dalla tavola che riporta il valore critico inferiore Valori critici per il test dei ranghi con segno di Wilcoxon (per campioni con N da 6 a 20) N 6 7 8 1 p=0,05 2 3 5 coda p=0,01 * 0 1 9 8 3 10 10 5 11 13 7 12 17 9 13 21 12 14 23 15 15 30 20 16 35 23 17 41 27 18 47 32 19 53 37 20 60 43 2 p=0,05 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 code p=0,01 * * 0 1 3 5 7 9 12 15 19 23 27 32 37 * campione troppo piccolo, per un test statistico valido (test unilaterali e bilaterali, alle probabilità di 0.05 e 0.01) 31 Con i dati dell’esempio, per N=13 nella colonna p= 0,05 per un test unilaterale il valore di T è 21, al quale corrisponde una probabilità (calcolata in modo più preciso nella tabella della pagina seguente) di α = 0.0471. Il valore T calcolato (T=27) con i dati dell’esempio è superiore a quello riportato nella tabella (T=21). Di conseguenza, nell’ipotesi che H0 sia vera, la probabilità di trovare un valore uguale o inferiore a 27 è superiore a 0,05. Non si può quindi rifiutare l'ipotesi nulla, quindi: Conclusione: la tendenza centrale dei dati raccolti non è significativamente minore di 300. 32 Tavola dei valori critici di T nel test di Wilcoxon per un campione e per due campioni dipendenti. Le probabilità sono riferite ad un test unilaterale. Per un test bilaterale occorre moltiplicare per 2 il valore di α. Si può rifiutare l’ipotesi nulla alla probabilità α se il valore di T calcolato sui dati è minore o uguale a quello riportato in grassetto alla colonna corrispondente. Per i valori critici di T intorno al valore α è riportata la probabilità esatta. N 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 T 0 1 2 3 3 4 5 6 8 9 10 11 13 14 17 18 21 22 25 26 30 31 35 36 41 42 47 48 53 54 60 61 a=0,05 0,0313 0,0625 0,0469 0,0781 0,0391 0,0547 0,0391 0,0547 0,0488 0,0645 0,042 0,0527 0,0415 0,0508 0,0461 0,0549 0,0471 0,0549 0,0453 0,052 0,0473 0,0535 0,0467 0,0523 0,0492 0,0544 0,0494 0,0542 0,0478 0,0521 0,0487 0,0527 T a=0,025 T a=0,01 T a=0,005 0 1 2 3 3 4 5 6 8 9 10 11 13 14 17 18 21 22 25 26 29 30 34 35 40 41 46 47 52 53 0,0156 0,0313 0,0234 0,0391 0,0195 0,0273 0,0195 0,0273 0,0244 0,0322 0,021 0,0269 0,0212 0,0261 0,0239 0,0287 0,0247 0,029 0,024 0,0277 0,0222 0,0253 0,0224 0,0253 0,0241 0,0269 0,0247 0,0273 0,0242 0,0266 0 1 1 2 3 4 5 6 7 8 9 10 12 13 15 16 19 20 23 24 27 28 32 33 37 38 43 44 0,0078 0,0156 0,0078 0,0117 0,0098 0,0137 0,0098 0,0137 0,0093 0,0122 0,0081 0,0105 0,0085 0,0107 0,0083 0,0101 0,009 0,0108 0,0091 0,0107 0,0087 0,0101 0,0091 0,0104 0,009 0,0102 0,0096 0,0107 0 1 1 2 3 4 5 6 7 8 9 10 12 13 15 16 19 20 23 24 27 28 32 33 37 38 0,0039 0,0078 0,0039 0,0059 0,0049 0,0068 0,0049 0,0068 0,0046 0,0061 0,004 0,0052 0,0043 0,0054 0,0042 0,0051 0,0046 0,0055 0,0047 0,0055 0,0045 0,0052 0,0047 0,0054 0,0047 0,0053 33 Se il test fosse stato bilaterale, quindi se la domanda fosse stata impostata più correttamente “se la cortisolemia della specie in studio differisce o meno (potrebbe cioè essere sia superiore che inferiore) da 300” i valori critici di confronto per il T (con N = 13) sarebbero stati - T = 17 per una probabilità α = 0.05 - T = 9 per una probabilità α = 0.01. Valori critici per il test dei ranghi con segno di Wilcoxon (per campioni con N da 6 a 20) N 6 7 8 1 p=0,05 2 3 5 coda p=0,01 * 0 1 9 8 3 10 10 5 11 13 7 12 17 9 13 21 12 14 23 15 15 30 20 16 35 23 17 41 27 18 47 32 19 53 37 20 60 43 2 p=0,05 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 code p=0,01 * * 0 1 3 5 7 9 12 15 19 23 27 32 37 * campione troppo piccolo, per un test statistico valido (test unilaterali e bilaterali, alle probabilità di 0.05 e 0.01) 34