Elementi di statistica non parametrica Lucio Barabesi Indice 1 L'equivalenza in distribuzione 1.1 L'equivalenza in distribuzione 1.2 L'equivalenza in distribuzione e le variabili casuali simmetriche 1 1 4 2 Le statistiche “distribution-free” 2.1 I modelli statistici “distribution-free” 2.2 Le statistiche “distribution-free” 2.3 Le statistiche segno 2.4 Le statistiche rango 2.5 Le statistiche rango dei valori assoluti 8 8 9 10 11 16 3 Il test statistico “distribution-free” 3.1 I test statistici “distribution-free” 3.2 L'efficienza asintotica relativa 3.3 La significatività osservata 20 20 24 35 4 Gli intervalli di confidenza “distribution-free” 4.1 Gli intervalli di confidenza “distribution-free” 4.2 Gli intervalli di confidenza “distribution-free” per grandi campioni 36 36 40 5 I test basati su statistiche lineari dei ranghi con segno 5.1 I test basati su statistiche lineari dei ranghi con segno 5.2 I test basati su statistiche lineari dei ranghi con segno localmente più potenti 5.3 La distribuzione per grandi campioni delle statistiche lineari dei ranghi con segno 43 43 47 49 6 I tests per un parametro di posizione: un campione e due campioni appaiati 6.1 Il test dei segni 6.2 Le prestazioni del test dei segni 6.3 Il test dei segni e gli intervalli di confidenza per la mediana 6.4 Il test dei segni per due campioni appaiati 6.5 Il test di Wilcoxon 6.6 Le prestazioni del test di Wilcoxon 6.7 Il test di Wilcoxon e gli intervalli di confidenza per la mediana 6.8 Il test di Wilcoxon per due campioni appaiati 56 56 58 59 60 61 64 65 66 7 I test basati su statistiche lineari dei ranghi 7.1 Le statistiche lineari dei ranghi 7.2 La distribuzione per grandi campioni delle statistiche lineari dei ranghi 67 67 74 8 9 I test per i parametri di posizione: due campioni indipendenti 8.1 Le statistiche lineari dei ranghi per i parametri di posizione 8.2 La distribuzione per grandi campioni delle statistiche lineari dei ranghi per i parametri di posizione 8.3 Il test di Mann-Whitney-Wilcoxon 8.4 Il test della mediana 8.5 Le prestazioni del test di Mann-Whitney-Wilcoxon e del test della mediana 77 77 82 84 86 88 I test per i parametri di scala: due campioni indipendenti 9.1 Le statistiche lineari dei ranghi per i parametri di scala 9.2 La distribuzione per grandi campioni delle statistiche lineari dei ranghi per i parametri di scala 9.3 Il test di Mood 9.4 Il test di Ansari-Bradley 9.5 Le prestazioni del test di Mood e del test di Ansari-Bradley 90 90 96 99 101 103 10 I test per l'associazione 10.1 Verifica di ipotesi sull'associazione 10.2 Il test di correlazione di Spearman 10.3 Il test di correlazione di Kendall 106 106 106 111 11 L'analisi della varianza 11.1 Ulteriori risultati per le statistiche rango 11.2 Il test di Kruskal-Wallis 11.3 Il test di Friedman 11.4 Il test di concordanza di Kendall 120 120 122 124 127 12 I test funzionali 13.1 Il test Chi-quadrato per la bontà di adattamento 13.2 Il test Chi-quadrato per la bontà di adattamento con 5 campioni 13.3 La statistica di Kolmogorov 13.4 Il test di Kolmogorov 13.5 La statistica di Kolmogorov-Smirnov 13.6 Il test di Kolmogorov-Smirnov 129 129 134 137 141 143 146 Appendice A.1 Alcune distribuzioni e relative caratteristiche A.2 Alcuni risultati matematici A.3 Alcuni risultati di teoria delle probabilità 148 148 152 152 Tavole 158 Bibliografia essenziale 181 Riferimenti bibliografici 181 Capitolo 1 L'equivalenza in distribuzione 1.1. L'equivalenza in distribuzione. L'equivalenza in distribuzione è una particolare relazione di equivalenza tra variabili casuali. Definizione 1.1.1. Le variabili casuali \ e ] , con rispettive funzioni di ripartizione J e K , sono dette equivalenti in distribuzione se J ÐBÑ œ KÐBÑ , aB − ‘ . In modo analogo, i vettori di variabili casuali Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ, con rispettive funzioni di ripartizione congiunte J8 e K8 , sono detti equivalenti in distribuzione se J8 ÐB" ß B# ß á ß B8 Ñ œ K8 ÐB" ß B# ß á ß B8 Ñ , aÐB" ß B# ß á ß B8 Ñ − ‘8 . ˜ Per indicare che \ e ] sono equivalenti in distribuzione si adotta la notazione . \œ ] , mentre per indicare che Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ sono equivalenti in distribuzione si adotta la notazione . Ð\" ß \# ß á ß \8 Ñ œ Ð]" ß ]# ß á ß ]8 Ñ . . Si noti che œ rappresenta in effetti una relazione di equivalenza, in quanto è immediato verificare che essa risulta riflessiva, ovvero . \œ \, simmetrica, ovvero . . \œ ] Í ] œ \, e transitiva, ovvero . . . \œ ],] œ ^ Ê \œ ^. Esempio 1.1.1. Si consideri le variabili casuali \ e ] , con rispettive funzioni di ripartizione J e K, dove KÐBÑ œ J ÐB -Ñ (- − ‘). E' immediato verificare che la trasformata ^ œ . ] - ha per funzione di ripartizione J , per cui dalla Definizione 1.1.1 risulta \ œ ^ . Di . conseguenza, si ha \ œ ] -. Alternativamente, si consideri le variabili casuali \ e ] , con rispettive funzioni di ripartizione J e K, dove KÐBÑ œ J ÐBÎ$ Ñ ($ − ‘ ). Anche in questo caso, è immediato verificare che la trasformata ^ œ ] Î$ ha per funzione di ripartizione J , . . per cui dalla Definizione 1.1.1 risulta \ œ ^ e dunque \ œ ] Î$ . – 2 L'equivalenza in distribuzione Esempio 1.1.2. Si consideri le variabili casuali \ e ] equivalenti in distribuzione e sia J la loro funzione di ripartizione comune. Inoltre, sia data una trasformata misurabile Y per cui EÒY Ð\ÑÓ ∞. Dalla definizione di valor medio si ha EÒY Ð\ÑÓ œ ( Y ÐBÑ .J ÐBÑ œ ( Y ÐCÑ .J ÐCÑ œ EÒY Ð] ÑÓ , ‘ ‘ dal momento che \ e ] possiedono la stessa funzione di ripartizione. Dunque, si può concludere che se \ e ] sono equivalenti in distribuzione allora possiedono i medesimi momenti. Analogamente, se Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ sono vettori di variabili casuali equivalenti in distribuzione e se ÐY" ß Y# ß á ß Y5 Ñ è un vettore di trasformate misurabili per cui EÒY4 Ð\" ß \# ß á ß \8 ÑÓ ∞, allora risulta EÒY4 Ð\" ß \# ß á ß \8 ÑÓ œ EÒY4 Ð]" ß ]# ß á ß ]8 ÑÓ , 4 œ "ß #ß á ß 5 . Si noti infine che la proposizione inversa non è valida, ovvero possono esistere due variabili casuali \ e ] che possiedono i medesimi momenti, ma non sono equivalenti in distribuzione. – Esempio 1.1.3. Si consideri le variabili casuali \ e ] equivalenti in distribuzione. Tenendo presente il risultato dell'Esempio 1.1.2, per un dato insieme misurabile E § ‘ risulta dunque EÒIE Ð\ÑÓ œ EÒIE Ð] ÑÓ . Dal momento che EÒIE Ð\ÑÓ œ PrÐ\ − EÑ e EÒIE Ð] ÑÓ œ PrÐ] − EÑ, allora si ha che PrÐ\ − EÑ œ PrÐ] − EÑ . – Esempio 1.1.4. Si consideri i vettori di variabili casuali Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ equivalenti in distribuzione. Se E œ ÖÐB" ß B# ß á ß B8 ÑÀ ÐB" ß B# ß á ß B8 Ñ − ‘8 ß B" B# á B8 × , allora tenendo presente il risultato dell'Esempio 1.1.3, risulta EÒIE Ð\" ß \# ß á ß \8 ÑÓ œ EÒIE Ð]" ß ]# ß á ß ]8 ÑÓ . Essendo EÒIE Ð\" ß \# ß á ß \8 ÑÓ œ PrÐ\" \# á \8 Ñ e EÒIE Ð]" ß ]# ß á ß ]8ÑÓ œ PrÐ]" ]# á ]8 Ñ, si deve concludere che PrÐ\" \# á \8 Ñ œ PrÐ]" ]# á ]8 Ñ . – Esempio 1.1.5. Si consideri i vettori di variabili casuali Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ, . tali che \3 œ ]3 (3 œ "ß #ß á ß 8). Si noti che non si può affermare che Ð\" ß \# ß á ß \8 Ñ è equivalente in distribuzione a Ð]" ß ]# ß á ß ]8 Ñ, come si potrebbe ingenuamente concludere in un primo momento. Infatti, Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ possiedono in generale funzioni di ripartizione congiunte differenti, anche se con identiche funzioni di ripartizione marginali. – Il seguente teorema estende l'equivalenza in distribuzione a trasformate, nel senso che l'equivalenza rimane valida applicando una trasformata misurabile ad ambo i membri della stessa. Teorema 1.1.2. Se \ e ] sono variabili casuali equivalenti in distribuzione e se Y è una trasformata misurabile, allora L'equivalenza in distribuzione 3 . Y Ð\Ñ œ Y Ð] Ñ . Inoltre, se Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ sono vettori di variabili casuali equivalenti in distribuzione e se ÐY" ß Y# ß á ß Y5 Ñ è un vettore di trasformate misurabili, allora . ÐY" Ð\" ß \# ß á ß \8 Ñß Y# Ð\" ß \# ß á ß \8 Ñß á ß Y5 Ð\" ß \# ß á ß \8ÑÑ œ . œ ÐY" Ð]" ß ]# ß á ß ]8 Ñß Y# Ð]" ß ]# ß á ß ]8 Ñß á ß Y5 Ð]" ß ]# ß á ß ]8ÑÑ . Dimostrazione. Se J è la funzione di ripartizione comune alle variabili casuali \ e ] e se E è un dato insieme misurabile, allora PrÒY Ð\Ñ − EÓ œ ( IE ÒY ÐBÑÓ .J ÐBÑ œ ( IE ÒY ÐCÑÓ .J ÐCÑ œ PrÒY Ð] Ñ − EÓ . ‘ ‘ Dal momento che la precedente relazione è vera per ogni insieme misurabile E, dalla . Definizione 1.1.1 risulta Y Ð\Ñ œ Y Ð] Ñ. E' analoga la dimostrazione nel caso di due vettori di variabili casuali. Esempio 1.1.6. Se \ e ] sono variabili casuali equivalenti in distribuzione, si consideri la trasformata Y ÐBÑ œ ÐB -ÑÎ$ , con - e $ costanti. Dal Teorema 1.1.2 si ha \- . ] , œ $ $ ovvero in una equivalenza in distribuzione è possibile aggiungere o moltiplicare i membri per una costante. – Esempio 1.1.7. Si noti che il risultato dell'Esempio 1.1.6 non rimane valido in generale se si aggiunge o si moltiplica i membri per una quantità stocastica. Si consideri infatti una . variabile casuale \ continua con funzione di ripartizione J e tale che \ œ \ . Se si moltiplica ambo i membri dell'equivalenza per \ si dovrebbe concludere che le variabili casuali ] œ \ # e ^ œ \ # sono equivalenti in distribuzione. E' immediato constatare che questa affermazione è falsa in quanto ] è ovviamente una variabile casuale il cui supporto è contenuto in ‘ , mentre ^ è una variabile casuale il cui supporto è contenuto in ‘ . Infatti la funzione di ripartizione di ] risulta KÐCÑ œ PrÐ] Ÿ CÑ œ PrÐ\ # Ÿ CÑ œ [J ÐÈCÑ J Ð ÈCÑ] IÒ!ß∞Ñ ÐCÑ , mentre la funzione di ripartizione di ^ risulta LÐDÑ œ PrÐ^ Ÿ DÑ œ PrÐ \ # Ÿ DÑ œ œ [" J ÐÈDÑ J Ð ÈDÑ] IÐ∞ß!Ñ ÐDÑ IÒ!ß∞Ñ ÐDÑ . Questo esempio serve a sottolineare che si deve porre una certa cautela nell'applicare la nozione di equivalenza in distribuzione. In particolare si noti che il Teorema 1.1.2 rimane valido solo se si considera trasformate misurabili. – Esempio 1.1.8. Se Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ sono vettori di variabili casuali equivalenti in distribuzione, allora si consideri il vettore di trasformate ÐY" ß Y# ß á ß Y8 Ñ tale 4 L'equivalenza in distribuzione . che Y3 ÐB" ß B# ß á ß B8 Ñ œ B3 (3 œ "ß #ß á ß 8). Dal Teorema 1.1.2 risulta dunque \3 œ ]3 (3 œ "ß #ß á ß 8), ovvero si deve concludere che se due vettori di variabili casuali sono equivalenti in distribuzione allora anche le singole componenti dei vettori sono ordinatamente equivalenti in distribuzione. – Il seguente teorema consente di ottenere una relazione di equivalenza in distribuzione per un vettore di variabili casuali indipendenti e ugualmente distribuite. Teorema 1.1.3. Se Ð\" ß \# ß á ß \8 Ñ è un vettore di variabili casuali indipendenti e ugualmente distribuite e Ðα" ß α# ß á ß α8 Ñ è una qualsiasi permutazione di Ð"ß #ß á ß 8Ñ, allora . Ð\" ß \# ß á ß \8 Ñ œ Ð\α" ß \α# ß á ß \α8 Ñ . Dimostrazione. Se J è la funzione di ripartizione marginale di \3 (3 œ "ß #ß á ß 8), allora la funzione di ripartizione congiunta di Ð\" ß \# ß á ß \8 Ñ è data da J8 ÐB" ß B# ß á ß B8 Ñ œ $ J ÐB3 Ñ . 8 3œ" Dal momento che la funzione di ripartizione congiunta di Ð\α" ß \α# ß á ß \α8 Ñ risulta K8 ÐBα" ß Bα# ß á ß Bα8 Ñ œ $ J ÐBα3 Ñ œ $ J ÐB3 Ñ œ J8 ÐB" ß B# ß á ß B8 Ñ , 8 8 3œ" 3œ" allora si ha K8 ÐB" ß B# ß á ß B8 Ñ œ J8 ÐB" ß B# ß á ß B8 Ñ per ogni ÐB" ß B# ß á ß B8 Ñ − ‘8 , e dalla . Definizione 1.1.1 si conclude che Ð\" ß \# ß á ß \8 Ñ œ Ð\α" ß \α# ß á ß \α8 Ñ. 1.2. L'equivalenza in distribuzione e le variabili casuali simmetriche. In questa sezione vengono introdotte alcune relazioni di equivalenza in distribuzione per variabili casuali simmetriche. A questo fine si consideri innanzitutto la definizione di variabile casuale simmetrica. Definizione 1.2.1. Una variabile casuale \ con funzione di ripartizione J è detta simmetrica rispetto ad una costante - se J Ð- BÑ œ " J Ð- BÑ PrÐ\ œ - BÑ , aB − ‘ . ˜ Esempio 1.2.1. Se \ è una variabile casuale continua simmetrica rispetto a - con funzione di ripartizione J e funzione di densità 0 , allora dalla Definizione 1.2.1 risulta J Ð- BÑ œ " J Ð- BÑ , aB − ‘ , da cui si ha inoltre 0 Ð- BÑ œ 0 Ð- BÑ , aB − ‘ . Se invece \ è una variabile casuale discreta simmetrica rispetto a - con funzione di ripartizione J e funzione di probabilità :, allora dalla Definizione 1.2.1 risulta J Ð- BÑ œ " J Ð- BÑ :Ð- BÑ , aB − ‘ , da cui si ottiene inoltre L'equivalenza in distribuzione 5 :Ð- BÑ œ :Ð- BÑ , aB − ‘ . – Nel seguente teorema si ottiene una condizione necessaria e sufficiente per la simmetria rispetto ad una costante. Teorema 1.2.2. La variabile casuale \ ha una distribuzione simmetrica rispetto alla costante - se e solo se . \-œ -\ . Dimostrazione. Si dimostra innanzitutto che la condizione è necessaria. Se \ è simmetrica rispetto a - con funzione di ripartizione J , allora la funzione di ripartizione della trasformata ] œ \ - è data da KÐCÑ œ PrÐ] Ÿ CÑ œ PrÐ\ - Ÿ CÑ œ PrÐ\ Ÿ - CÑ œ J Ð- CÑ , mentre, tenendo presente la definizione di variabile casuale simmetrica, la funzione di ripartizione della trasformata ^ œ - \ risulta LÐDÑ œ PrÐ^ Ÿ DÑ œ PrÐ- \ Ÿ DÑ œ PrÐ\ - DÑ œ œ " J Ð- DÑ PrÐ\ œ - DÑ œ J Ð- DÑ . Dal momento che ] e ^ possiedono la medesima funzione di ripartizione, dalla Definizione . . 1.1.1 si ha ] œ ^ , ovvero \ - œ - \ . Si dimostra ora che la condizione è sufficiente. . Se \ - œ - \ , allora dalla definizione di equivalenza in distribuzione risulta PrÐ\ - Ÿ BÑ œ PrÐ- \ Ÿ BÑ . Tenendo presente la precedente relazione si ha J Ð- BÑ œ PrÐ\ Ÿ - BÑ œ PrÐ\ - Ÿ BÑ œ PrÐ- \ Ÿ BÑ œ œ PrÐ\ - BÑ œ " J Ð- BÑ PrÐ\ œ - BÑ , ovvero \ è simmetrica rispetto a -. . Esempio 1.2.2. Sia Ð\" ß \# Ñ un vettore di variabili casuali tale che Ð\" ß \# Ñ œ Ð\# ß \" Ñ e si consideri la trasformata Y ÐB" ß B# Ñ œ B" B# . Dal Teorema 1.1.2 si ottiene dunque . \" \ # œ \# \" , ovvero . \" \ # œ Ð\" \# Ñ . Dunque, per il Teorema 1.2.2 la trasformata Ð\" \# Ñ è simmetrica rispetto a !. – Esempio 1.2.3. Sia \ una variabile casuale simmetrica rispetto a - con EÐ\Ñ ∞. Dal . Teorema 1.2.2 si ha \ - œ - \ . Dal momento che variabili casuali equivalenti in distribuzione hanno la stessa media Ðvedi Esempio 1.1.2Ñ, allora EÐ\ -Ñ œ EÐ- \Ñ , 6 L'equivalenza in distribuzione ovvero EÐ\Ñ - œ - EÐ\Ñ , da cui infine risulta EÐ\Ñ œ -. – Il seguente teorema considera un insieme di equivalenze in distribuzione per un vettore di variabili casuali le cui componenti sono indipendenti e simmetriche. Teorema 1.2.3. Se Ð\" ß \# ß á ß \8 Ñ è un vettore di variabili casuali indipendenti tali che \3 è simmetrica rispetto a -3 (3 œ "ß #ß á ß 8), allora . . . Ð\" -" ß \# -# ß á ß \8 -8 Ñ œ Ð -" \ " ß \ # -# ß á ß \ 8 -8 Ñ œ á œ . œ Ð -" \ " ß -# \ # ß á ß - 8 \ 8 Ñ , dove l'equivalenza in distribuzione è estesa a tutte le possibili #8 configurazioni di vettori. Dimostrazione. Si dimostra la prima delle equivalenze in distribuzione. Per il Teorema 1.2.2 . -3 \3 , ovvero dalla definizione di la simmetria di \3 rispetto a -3 implica \3 -3 œ equivalenza in distribuzione si ottiene PrÐ\3 -3 Ÿ BÑ œ PrÐ-3 \3 Ÿ BÑ , 3 œ "ß #ß á ß 8 . Data l'indipendenza delle componenti di Ð\" ß \# ß á ß \8 Ñ, risulta dunque PrÐ\" -" Ÿ B" ß \# -# Ÿ B# ß á ß \8 -8 Ÿ B8 Ñ œ œ $ PrÐ\3 -3 Ÿ B3 Ñ œ PrÐ-" \" Ÿ B" Ñ $ PrÐ\3 -3 Ÿ B3 Ñ œ 8 8 3œ" 3œ# œ PrÐ-" \" Ÿ B" ß \# -# Ÿ B# ß á ß \8 -8 Ÿ B8 Ñ , . ovvero si ha Ð\" -" ß \# -# ß á ß \8 -8 Ñ œ Ð-" \" ß \# -# ß á ß \8 -8 Ñ. In modo analogo si ottiene la dimostrazione delle altre equivalenze in distribuzione. Esempio 1.2.4. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale da una variabile casuale \ simmetrica rispetto a -. Dal Teorema 1.2.3 risulta dunque . Ð\" -ß \# -ß á ß \8 -Ñ œ Ð- \ " ß - \ # ß á ß - \ 8 Ñ . Inoltre, se si considera la trasformata Y ÐB" ß B# ß á ß B8 Ñ œ 8" ha " 8 8 . Ð\3 -Ñ œ 3œ" " 8 8 Ð- \ 3 Ñ , 3œ" ovvero – – . \-œ -\ , 8 3œ" B3 , dal Teorema 1.1.2 si L'equivalenza in distribuzione 7 – dove \ œ 8" 83œ" \3 è la media campionaria. Tenendo presente il Teorema 1.2.2, la precedente equivalenza in distribuzione ci porta dunque a concludere che in questo caso la media campionaria è simmetrica rispetto a -. – Esempio 1.2.5. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale da una variabile casuale \ continua e simmetrica rispetto a !. Dal Teorema 1.2.3 risulta . Ð\" ß \# ß á ß \8 Ñ œ Ð \" ß \# ß á ß \ 8 Ñ . Si consideri ora il vettore di trasformate ÐY" ß Y# ß á ß Y8 Ñ tale che Y3 ÐB" ß B# ß á ß B8 Ñ œ BÐ3Ñ , dove BÐ3Ñ rappresenta l'3-esimo elemento ordinato nel vettore ÐB" ß B# ß á ß B8 Ñ (3 œ "ß #ß á ß 8). Si noti che Y3 Ð B" ß B# ß á ß B8 Ñ œ BÐ83"Ñ (3 œ "ß #ß á ß 8), in quanto cambiando il segno agli elementi del vettore ÐB" ß B# ß á ß B8 Ñ se ne inverte l'ordinamento. Dal Teorema 1.1.2 si ottiene dunque . Ð\Ð"Ñ ß \Ð#Ñ ß á ß \Ð8Ñ Ñ œ Ð \Ð8Ñ ß \Ð8"Ñ ß á ß \Ð"Ñ Ñ , dove \Ð3Ñ rappresenta l'3-esima statistica ordinata (3 œ "ß #ß á ß 8). In particolare, tenendo . presente l'Esempio 1.1.8, si ottiene \Ð3Ñ œ \Ð83"Ñ (3 œ "ß #ß á ß 8). E' analogo verificare che se Ð\" ß \# ß á ß \8 Ñ è un campione casuale da una variabile casuale \ continua e simmetrica rispetto a -, allora . Ð\Ð"Ñ -ß \Ð#Ñ -ß á ß \Ð8Ñ -Ñ œ Ð- \Ð8Ñ ß - \Ð8"Ñ ß á ß - \Ð"Ñ Ñ , . - \Ð83"Ñ Ð3 œ "ß #ß á ß 8Ñ. che implica \Ð3Ñ - œ – Esempio 1.2.6. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale da una variabile casuale \ continua e simmetrica rispetto a !. Tenendo presente l'Esempio 1.2.5, si applichi . all'equivalenza in distribuzione Ð\Ð"Ñ ß \Ð#Ñ ß á ß \Ð8Ñ Ñ œ Ð \Ð8Ñ ß \Ð8"Ñ ß á ß \Ð"Ñ Ñ la trasformata Y , dove Y ÐB" ß B# ß á ß B8 Ñ œ BÐ6Ñ con 6 œ Ð8 "ÑÎ# se 8 è dispari e Y ÐB" ß B# ß á ß B8 Ñ œ ÐBÐ6Ñ BÐ6"Ñ ÑÎ# con 6 œ 8Î# se 8 è pari. Dal Teorema 1.1.2 per 8 dispari si ha dunque . \Ð6Ñ œ \Ð6Ñ , mentre per 8 pari si ha " " . Ð\Ð6Ñ \Ð6"Ñ Ñ œ Ð\Ð6Ñ \Ð6"Ñ Ñ . # # ~ Dal momento che la mediana campionaria è usualmente definita come \ œ \Ð6Ñ con ~ 6 œ Ð8 "ÑÎ# se 8 è dispari ed è definita come \ œ Ð\Ð6Ñ \Ð6"Ñ ÑÎ# con 6 œ 8Î# se 8 è pari, allora risulta ~ . ~ \œ \ , ovvero, tenendo presente il Teorema 1.2.2, si deve concludere che in questo caso la mediana campionaria è simmetrica rispetto a !. Risulta analogo verificare che se Ð\" ß \# ß á ß \8 Ñ è un campione casuale da una variabile casuale \ continua e simmetrica rispetto a -, allora la mediana campionaria è simmetrica rispetto a -. – Capitolo 2 Le statistiche “distribution-free” 2.1. I modelli statistici “distribution-free”. Nella statistica inferenziale classica si assume nota la morfologia funzionale delle funzioni di ripartizione congiunte specificate dal modello statistico e in particolare si assume che queste siano dello stesso tipo a meno di un insieme di parametri. Invece, nella statistica moderna si tende a non fare assunzioni funzionali sulla distribuzione congiunta del campione, ovvero si considera i cosiddetti modelli statistici “distribution-free” (una definizione anglosassone ormai consolidata anche nella terminologia statistica italiana). Un modello statistico “distribution-free” ha la seguente definizione formale. Definizione 2.1.1. Si consideri il campione Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y , dove Y è una classe di funzioni di ripartizione congiunte, ovvero un modello statistico. Se Y contiene più di una famiglia di funzioni di ripartizione congiunte, allora è detto modello statistico “distribution-free”. ˜ Esempio 2.1.1. Il modello statistico Y œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ FÒÐB3 .ÑÎ5Óß . − ‘ß 5 − ‘ × 8 3œ" non è “distribution-free”, in quanto contiene una sola famiglia di funzioni di ripartizione congiunte, ovvero le funzioni di ripartizione congiunte di un campione casuale da una R Ð.ß 5# Ñ. Il precedente modello statistico è tipico nell'inferenza classica. Invece, se V8 rappresenta la classe delle funzioni di ripartizione di un vettore di 8 variabili casuali continue, allora Y œ ÖJ8 À J8 − V8 × – costituisce un modello statistico “distribution-free”. Frequentemente il modello statistico è del tipo Y< , ovvero è indicizzato mediante un insieme di “parametri” < Ðnon necessariamente realiÑ. Importanti modelli statistici “distribution-free” possono essere indicizzati in questa maniera. Ad esempio nel seguito sarà fatto riferimento al modello statistico “distribution-free” VJ œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ J ÐB3 Ñß J − V× , 8 3œ" dove V rappresenta la classe delle funzioni di ripartizione di una variabile casuale continua. Ovviamente, VJ rappresenta il modello statistico relativo ad un campione casuale Le statistiche “distribution-free” 9 proveniente da una variabile casuale continua. Una importante sottoclasse di VJ è data dal modello statistico “distribution-free” œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ J ÐB3 -Ñß J − `ß - − ‘× , 8 `-ßJ 3œ" dove ` rappresenta la classe delle funzioni di ripartizione di una variabile casuale continua con mediana pari a !, ovvero ` œ ÖJ À J − Vß J Ð!Ñ œ "Î#× . Si noti che `-ßJ rappresenta il modello statistico relativo ad un campione casuale proveniente da una variabile casuale continua con funzione di ripartizione J ÐB -Ñ e con mediana pari a -. Una sottoclasse di `-ßJ è data dal modello statistico “distribution-free” f-ßJ œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ J ÐB3 -Ñß J − f ß - − ‘× , 8 3œ" dove f rappresenta la classe delle funzioni di ripartizione di una variabile casuale continua e simmetrica rispetto a !, ovvero f œ ÖJ À J − Vß J ÐBÑ œ " J Ð BÑ× . Dunque, f-ßJ rappresenta il modello statistico relativo ad un campione casuale proveniente da una variabile casuale continua con funzione di ripartizione J ÐB -Ñ e simmetrica rispetto a -. Due ulteriori sottoclassi di VJ di uso frequente sono rappresentati dai modelli statistici “distribution-free” _JßJ œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ J ÐB3 Ñ $ J ÐB3 JÑß J − Vß J − ‘× , 8" 8 3œ" 3œ8" " e i(ßJ œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ J ÐB3 Ñ $ J ÐB3 Î(Ñß J − Vß ( − ‘ × , 8" 8 3œ" 3œ8" " dove " Ÿ 8" Ÿ 8. 2.2. Le statistiche “distribution-free”. Le statistiche “distribution-free” hanno la seguente definizione formale. Definizione 2.2.1. Si consideri il campione Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y , dove Y è un modello statistico. La statistica X œ X Ð\" ß \# ß á ß \8 Ñ è detta “distribution-free” su Y se la sua funzione di ripartizione rimane invariata per ogni J8 − Y . ˜ Esempio 2.2.1. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y5 , dove Y5 œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ FÐB3 Î5Ñß 5 − ‘ × . 8 3œ" 10 Le statistiche “distribution-free” Il modello statistico Y5 è ovviamente quello relativo ad un campione casuale da una – R Ð!ß 5# Ñ. Se \ e W # rappresentano rispettivamente la media campionaria e la varianza – campionaria corretta, allora è noto che la statistica X œ È8\ÎW è distribuita come una > di Student con Ð8 "Ñ gradi di libertà. Poichè la distribuzione di X non dipende dal parametro 5, allora X è una statistica “distribution-free” su Y5 . – L'Esempio 2.2.1 evidenzia che una tipica statistica dell'inferenza classica può essere considerata “distribution-free” su un particolare modello statistico classico. Tuttavia, usualmente una statistica è detta “distribution-free” quando il modello statistico Y è anch'esso “distribution-free”. Quando si dispone di campioni di numerosità elevata risulta interessante considerare statistiche “distribution-free” per grandi campioni, che sono definite formalmente di seguito. Definizione 2.2.2. Si consideri il campione Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y , dove Y è un modello statistico per ogni 8. La statistica X œ X8 œ X8 Ð\" ß \# ß á ß \8 Ñ è detta “distribution-free” per grandi campioni su Y , se per . 8 Ä ∞ risulta X8 Ä Z per ogni J8 − Y , dove Z è una data variabile casuale limite. ˜ Esempio 2.2.2. Si consideri il modello statistico “distribution-free” Y5ßJ œ ÖJ8 À J8 − VJ ß EÐ\Ñ œ !ß VarÐ\Ñ œ 5# ∞× . Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta – J8 − Y5ßJ , si consideri la statistica X œ X8 œ È8\ÎW dell'Esempio 2.2.1. Si noti che X può essere espressa come – \ 5 X œ . 5ÎÈ8 W : Dal momento che W # Ä 5# per 8 Ä ∞ (vedi Esempio A.3.4), per il Teorema di Sverdrup : (Teorema A.3.4) si ha W Ä 5 per 8 Ä ∞. Inoltre, per il Teorema Fondamentale Classico del – . Limite (Teorema A.3.6) si ha È8\Î5 Ä R Ð!ß "Ñ. Combinando questi risultati mediante il Teorema di Slutsky (Teorema A.3.5) si ottiene infine – \ . X œ Ä R Ð!ß "Ñ . WÎÈ8 Si deve dunque concludere che la statistica X è “distribution-free” per grandi campioni su Y5ßJ . – 2.3. Le statistiche segno. In questa sezione viene introdotta una prima classe di statistiche “distribution-free”, ovvero le cosiddette statistiche segno. Definizione 2.3.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − `!ßJ . Si definiscono statistiche segno le trasformate ^3 œ IÐ!ß∞Ñ Ð\3 Ñ , 3 œ "ß #ß á ß 8 . Il vettore di statistiche Ð^" ß ^# ß á ß ^8 Ñ è detto vettore dei segni. ˜ Le statistiche “distribution-free” 11 Si noti che ogni statistica segno ^3 assume valore " se \3 ! (ovvero se \3 è maggiore della mediana) e il valore ! altrimenti (3 œ "ß #ß á ß 8) e ovviamente da questo fatto deriva la loro denominazione. Il seguente teorema fornisce la distribuzione congiunta delle statistiche segno. Teorema 2.3.2. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − `!ßJ , il relativo vettore dei segni Ð^" ß ^# ß á ß ^8 Ñ ha componenti indipendenti ed ugualmente distribuite come F3Ð"ß "Î#Ñ. Dimostrazione. Dal momento che dalla Definizione 2.3.1 ogni statistica segno ^3 è trasformata solo della relativa \3 (3 œ "ß #ß á ß 8) e poichè il campione casuale Ð\" ß \# ß á ß \8 Ñ ha componenti indipendenti, allora anche le componenti del vettore dei segni Ð^" ß ^# ß á ß ^8 Ñ sono indipendenti. Inoltre si noti che il supporto della statistica segno ^3 (3 œ "ß #ß á ß 8) è l'insieme Ö!ß "×. Dalla assunzione di continuità fatta per \3 si ha PrÐ^3 œ "Ñ œ PrÐ\3 !Ñ œ " J Ð!Ñ œ " , 3 œ "ß #ß á ß 8 , # e di conseguenza PrÐ^3 œ !Ñ œ " PrÐ^3 œ "Ñ œ " , 3 œ "ß #ß á ß 8 . # E' immediato dunque concludere che la statistica segno ^3 è F3Ð"ß "Î#Ñ. Corollario 2.3.3. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − `!ßJ . Se X œ X Ð^" ß ^# ß á ß ^8 Ñ, ovvero X è una statistica basata solo sul vettore dei segni, allora X è “distribution-free” su `!ßJ . Dimostrazione. Il risultato segue immediatamente dal Teorema 2.3.2 e dalla Definizione 2.3.1, in quanto per qualsiasi distribuzione congiunta J8 − `!ßJ la statistica X è distribuita come una trasformata di un vettore di variabili casuali indipendenti ed ugualmente distribuite come F3Ð"ß "Î#Ñ. Esempio 2.3.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − `!ßJ . Si consideri la statistica 8 Fœ ^3 , 3œ" che ovviamente rappresenta il numero di osservazioni positive nel campione. Utilizzando il Teorema 2.3.2 si verifica facilmente che F µ F3Ð8ß "Î#Ñ. Di conseguenza, poichè la funzione di ripartizione di F rimane invariata per ogni funzione di ripartizione congiunta di `!ßJ , allora F è una statistica “distribution-free” su `!ßJ . Questo risultato può essere ottenuto immediatamente dal Corollario 2.3.3. – 2.4. Le statistiche rango. La classe delle statistiche rango è fondamentale per costruire statistiche “distribution-free”. La seguente è la definizione formale di statistica rango. Definizione 2.4.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − VJ . Si definiscono statistiche rango le seguenti trasformate 12 Le statistiche “distribution-free” 8 V3 œ IÒ!ß∞Ñ Ð\3 \4 Ñ , 3 œ "ß #ß á ß 8 . 4œ" Il vettore di statistiche ÐV" ß V# ß á ß V8 Ñ è detto vettore dei ranghi. ˜ Si noti che la statistica V3 rappresenta la posizione di \3 all'interno del campione ordinato, ovvero \3 œ \ÐV3 Ñ , 3 œ "ß #ß á ß 8 , e da questo deriva ovviamente la denominazione di statistiche rango. Definizione 2.4.2. Si definisce insieme delle permutazioni l'insieme e8 § ‘8 dato da e8 œ ÖÐ<" ß <# ß á ß <8 ÑÀ Ð<" ß <# ß á ß <8 Ñ è una permutazione di Ð"ß #ß á ß 8Ñ× . ˜ Nel seguente teorema viene ottenuta la distribuzione congiunta del vettore dei ranghi. Teorema 2.4.3. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , allora la funzione di probabilità congiunta del relativo vettore dei ranghi ÐV" ß V# ß á ß V8 Ñ è data da PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ " , Ð<" ß <# ß á ß <8 Ñ − e8 . 8x Dimostrazione. E' immediato verificare che il vettore di variabili casuali ÐV" ß V# ß á ß V8 Ñ è discreto con supporto e8 . Si noti inoltre che per un prefissato Ð<" ß <# ß á ß <8 Ñ − e8 risulta PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ PrÐ\" œ \Ð<" Ñ ß \# œ \Ð<# Ñ ß á ß \8 œ \Ð<8 Ñ Ñ œ œ PrÐ\." \.# á \.8 Ñ , dove .3 è la posizione del numero 3 (3 œ "ß #ß á ß 8) nella permutazione Ð<" ß <# ß á ß <8 Ñ. Dal . Teorema 1.1.3 si ha Ð\" ß \# ß á ß \8 Ñ œ Ð\." ß \.# ß á ß \.8 Ñ, che implica (vedi Esempio 1.1.4) PrÐ\." \.# á \.8 Ñ œ PrÐ\" \# á \8 Ñ . Dunque PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ PrÐ\" \# á \8 Ñ œ œ PrÐV" œ "ß V# œ #ß á ß V8 œ 8Ñ . Inoltre, dal momento che #Ðe8 Ñ œ 8x, si ha PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ Ð<" ß<# ßáß<8 Ñ−e8 œ PrÐV" œ "ß V# œ #ß á ß V8 œ 8Ñ œ 8x PrÐV" œ "ß V# œ #ß á ß V8 œ 8Ñ . Ð<" ß<# ßáß<8 Ñ−e8 Le statistiche “distribution-free” 13 Infine, essendo PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ " , Ð<" ß<# ßáß<8 Ñ−e8 allora si ha PrÐV" œ "ß V# œ #ß á ß V8 œ 8Ñ œ " . 8x Si deve concludere dunque che PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ PrÐV" œ "ß V# œ #ß á ß V8 œ 8Ñ œ œ " , Ð<" ß <# ß á ß <8 Ñ − e8 , 8x ovvero il vettore dei ranghi ÐV" ß V# ß á ß V8 Ñ è distribuito uniformemente su e8 . Dal Teorema 2.4.3 è possibile ricavare i seguenti quattro corollari. Corollario 2.4.4. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − VJ . La funzione di probabilità della statistica rango V3 (3 œ "ß #ß á ß 8) risulta PrÐV3 œ <Ñ œ " , < œ "ß #ß á ß 8 , 8 la funzione di probabilità congiunta di una scelta di due statistiche rango ÐV3 ß V4 Ñ (3 Á 4 œ "ß #ß á ß 8) risulta PrÐV3 œ <" ß V4 œ <# Ñ œ " , <" Á <# œ "ß #ß á ß 8 , 8Ð8 "Ñ mentre la funzione di probabilità congiunta di una scelta di 5 statistiche rango ÐV3" ß V3# ß á ß V35 Ñ (3" Á 3# Á á Á 35 œ "ß #ß á ß 8) risulta PrÐV3" œ <" ß V3# œ <# ß á ß V35 œ <5 Ñ œ " , 8Ð8 "Ñá Ð8 5 "Ñ 5 œ "ß #ß á ß 8 , <" Á <# Á á Á <5 œ "ß #ß á ß 8 . Dimostrazione. Dal Teorema 2.4.3 risulta che ogni determinazione del vettore ÐV" ß V# ß á ß V8 Ñ in e8 è ugualmente probabile. Inoltre vi sono Ð8 "Ñx elementi di e8 per cui V3 œ < (< œ "ß #ß á ß 8), e dunque si ha PrÐV3 œ <Ñ œ Ð8 "Ñx " " œ , < œ "ß #ß á ß 8 . 8x 8 Analogamente, vi sono Ð8 #Ñx elementi di e8 (<" Á <# œ "ß #ß á ß 8), e quindi PrÐV3 œ <" ß V4 œ <# Ñ œ Ð8 #Ñx per cui V3 œ <" e V4 œ <# " " œ , <" Á <# œ "ß #ß á ß 8 . 8x 8Ð8 "Ñ 14 Le statistiche “distribution-free” Infine, si noti che vi sono Ð8 5Ñx elementi di e8 per cui V3" œ <" ß V3# œ <# ß á ß V35 œ <5 (<" Á <# Á á Á <5 œ "ß #ß á ß 8), e quindi PrÐV3" œ <" ß V3# œ <# ß á ß V35 œ <5 Ñ œ Ð8 5Ñx " " œ , 8x 8Ð8 "Ñá Ð8 5 "Ñ 5 œ "ß #ß á ß 8 , <" Á <# Á á Á <5 œ "ß #ß á ß 8 . Corollario 2.4.5. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − VJ . Si ha EÐV3 Ñ œ VarÐV3 Ñ œ " Ð8 "Ñ , 3 œ "ß #ß á ß 8 , # " Ð8# "Ñ , 3 œ "ß #ß á ß 8 , "# e CovÐV3 ß V4 Ñ œ " Ð8 "Ñ , 3 Á 4 œ "ß #ß á ß 8 . "# Dimostrazione. Dal Corollario 2.4.4 e tenendo presente il Teorema A.2.1, si ha " EÐV3 Ñ œ 8 8 " Ð8 "Ñ , 3 œ "ß #ß á ß 8 . # <œ <œ" Analogamente EÐV3# Ñ œ " 8 8 <# œ <œ" " Ð8 "ÑÐ#8 "Ñ , 3 œ "ß #ß á ß 8 , ' da cui VarÐV3 Ñ œ " " " Ð8 "ÑÐ#8 "Ñ Ð8 "Ñ# œ Ð8# "Ñ , 3 œ "ß #ß á ß 8 . ' % "# Di nuovo dal Corollario 2.4.4 e tenendo presente il Teorema A.2.1, si ha EÐV3 V4 Ñ œ œ " 8Ð8 "Ñ 8 8 <" <# œ <" œ"<# Á<" œ" 8 " ÒÐ <Ñ# 8Ð8 "Ñ <œ" 8 <# Ó œ <œ" " " " Ò 8# Ð8 "Ñ# 8Ð8 "ÑÐ#8 "ÑÓ œ 8Ð8 "Ñ % ' œ " Ð8 "ÑÐ$8 #Ñ , 3 Á 4 œ "ß #ß á ß 8 , "# per cui CovÐV3 ß V4 Ñ œ EÐV3 V4 Ñ EÐV3 ÑEÐV4 Ñ œ Le statistiche “distribution-free” œ 15 " " " Ð8 "ÑÐ$8 #Ñ Ð8 "Ñ# œ Ð8 "Ñ , 3 Á 4 œ "ß #ß á ß 8 . "# % "# Corollario 2.4.6. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − VJ . Se X œ X ÐV" ß V# ß á ß V8 Ñ, ovvero X è una statistica basata solo sul vettore dei ranghi, allora X è “distribution-free” sulla classe VJ . Dimostrazione. Il risultato segue immediatamente dal Teorema 2.4.3, in quanto per qualsiasi distribuzione congiunta di J8 − VJ la statistica X è distribuita come una trasformata di un vettore di variabili casuali uniformemente distribuito su e8 . Corollario 2.4.7. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − VJ . Si consideri una scelta di 5 statistiche rango ÐV3" ß V3# ß á ß V35 Ñ e sia ÐVÐ3" Ñ ß VÐ3# Ñ ß á ß VÐ35 Ñ Ñ il relativo vettore di statistiche rango ordinato in senso crescente (3" Á 3# Á á Á 35 œ "ß #ß á ß 8). Si ha 8 " PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ Ñ œ Š ‹ , 5 5 œ "ß #ß á ß 8 , " Ÿ <Ð"Ñ <Ð#Ñ á <Ð5Ñ Ÿ 8 . Dimostrazione. Sia Ð<Ð"Ñ ß <Ð#Ñ ß á ß <Ð5Ñ Ñ una scelta di 5 elementi di Ð"ß #ß á ß 8Ñ tale che " Ÿ <Ð"Ñ <Ð#Ñ á <Ð5Ñ Ÿ 8. Dal Corollario 2.4.4 si ha PrÐV3" œ <Ð"Ñ ß V3# œ <Ð#Ñ ß á ß V35 œ <Ð5Ñ Ñ œ " . 8Ð8 "Ñá Ð8 5 "Ñ Tuttavia questa è solo una possibile permutazione di ÐV3" ß V3# ß á ß V35 Ñ per cui si ha VÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ . Poichè esistono 5x di tali permutazioni ed ognuna è ugualmente probabile, allora PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ Ñ œ 5x " œ 8Ð8 "Ñá Ð8 5 "Ñ 8 " œ Š ‹ , 5 œ "ß #ß á ß 8 , " Ÿ <Ð"Ñ <Ð#Ñ á <Ð5Ñ Ÿ 8 . 5 Esempio 2.4.1. Si consideri due campioni casuali Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ provenienti da due variabili casuali continue ed equivalenti in distribuzione. Dunque, se 8 œ 8" 8# , si noti che il campione misto Ð\" ß \# ß á ß \8" ß ]" ß ]# ß á ß ]8# Ñ formato dai due campioni casuali originali può essere considerato sua volta un campione casuale con funzione di ripartizione congiunta J8 − VJ . Di conseguenza, siano ÐV" ß V# ß á ß V8" Ñ i ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ e ÐV8" " ß V8" # ß á ß V8 Ñ i ranghi assegnati a Ð]" ß ]# ß á ß ]8# Ñ nel campione misto. Si consideri la statistica 8" [ œ V3 , 3œ" che fornisce evidentemente la somma dei ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ. Si noti che quando i ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ sono i più bassi (ovvero "ß #ß á ß 8" ) si ottiene " il valore minimo che [ può assumere, dato da 83œ" 3 œ 8" Ð8" "ÑÎ#. Alternativamente, 16 Le statistiche “distribution-free” quando i ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ sono i più elevati (ovvero 8# "ß " 8# #ß á ß 8) si ottiene il valore massimo che [ può assumere, dato da 83œ" Ð8# 3Ñ œ 8" Ð8 8# "ÑÎ#. Di conseguenza, è immediato verificare che il supporto di [ risulta Ö8" Ð8" "ÑÎ#ß 8" Ð8" "ÑÎ# "ß á ß 8" Ð8 8# "ÑÎ#×. Se -8" ß8# ÐAÑ rappresenta il numero di sottoinsiemi di 8" interi di Ð"ß #ß á ß 8Ñ la cui somma è A, dal momento che 8" [ œ VÐ3Ñ , 3œ" allora tenendo presente il Corollario 2.4.7 la funzione di probabilità di [ è data da 8 " :8" ß8# ÐAÑ œ PrÐ[ œ AÑ œ Œ -8" ß8# ÐAÑ , 8" A œ 8" Ð8" "ÑÎ#ß 8" Ð8" "ÑÎ# "ß á ß 8" Ð8 8# "ÑÎ# . Poichè la distribuzione di [ rimane invariata per ogni funzione di ripartizione congiunta di VJ , allora si deve concludere che [ è “distribution-free” su VJ . Questo risultato può essere ottenuto immediatamente dal Corollario 2.4.6. – 2.5. Le statistiche rango dei valori assoluti. Le statistiche rango dei valori assoluti costituiscono un'ulteriore importante classe di statistiche “distribution-free”. Definizione 2.5.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ . Si definiscono come statistiche rango dei valori assoluti le seguenti trasformate 8 V3 œ IÒ!ß∞Ñ Ð ± \3 ± ± \4 ± Ñ , 3 œ "ß #ß á ß 8 . 4œ" Il vettore di statistiche ÐV" ß V# ß á ß V8 Ñ è detto vettore dei ranghi dei valori assoluti. ˜ E' immediato constatare che ÐV" ß V# ß á ß V8 Ñ non è altro che il vettore dei ranghi assegnati ai valori assoluti degli elementi del campione casuale originale. Il seguente teorema fornisce la distribuzione congiunta delle statistiche rango dei valori assoluti. Teorema 2.5.2. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ , allora la funzione di probabilità congiunta del relativo vettore dei ranghi dei valori assoluti ÐV" ß V# ß á ß V8 Ñ è data da PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ " , Ð<" ß <# ß á ß <8 Ñ − e8 . 8x Dimostrazione. E' immediato verificare che Ð ± \" ± ß ± \# ± ß á ß ± \8 ± Ñ è ancora un campione casuale. Dunque, poichè ÐV" ß V# ß á ß V8 Ñ è un vettore dei ranghi relativo ad un campione casuale, allora dal Teorema 2.4.3 si ha che ÐV" ß V# ß á ß V8 Ñ è uniformemente distribuito su e8 . Si noti che se una variabile casuale continua è simmetrica il punto di simmetria coincide con la mediana. Dunque, essendo f!ßJ § `!ßJ , la distribuzione congiunta del vettore dei segni è Le statistiche “distribution-free” 17 quella ottenuta nel Teorema 2.3.2. I seguenti teoremi forniscono la distribuzione congiunta del vettore dei segni e del vettore dei ranghi dei valori assoluti. Teorema 2.5.3. Se \ è una variabile casuale con funzione di ripartizione J − f , allora le variabili casuali trasformate ] œ ± \ ± e ^ œ IÐ!ß∞Ñ Ð\Ñ sono indipendenti. Dimostrazione. Per un dato B ! si ha PrÐ] Ÿ B ± ^ œ "Ñ œ œ PrÐ] Ÿ Bß ^ œ "Ñ PrÐ ± \ ± Ÿ Bß \ !Ñ œ œ PrÐ^ œ "Ñ PrÐ\ !Ñ PrÐ! \ Ÿ BÑ J ÐBÑ J Ð!Ñ œ . PrÐ\ !Ñ " J Ð!Ñ Dal momento che J Ð!Ñ œ "Î# e che la funzione di ripartizione di ] è data da Ò#J ÐBÑ "ÓIÐ!ß∞Ñ ÐBÑ, si ha PrÐ] Ÿ B ± ^ œ "Ñ œ J ÐBÑ "Î# œ #J ÐBÑ " œ PrÐ] Ÿ BÑ . "Î# Analogamente, per un dato B ! si ha PrÐ] Ÿ B ± ^ œ !Ñ œ œ PrÐ] Ÿ Bß ^ œ !Ñ PrÐ ± \ ± Ÿ Bß \ Ÿ !Ñ œ œ PrÐ^ œ !Ñ PrÐ\ Ÿ !Ñ PrÐ B Ÿ \ Ÿ !Ñ J Ð!Ñ J Ð BÑ œ , PrÐ\ Ÿ !Ñ J Ð!Ñ da cui, tenendo presente che J Ð BÑ œ " J ÐBÑ, si ha PrÐ] Ÿ B ± ^ œ !Ñ œ "Î# " J ÐBÑ œ #J ÐBÑ " œ PrÐ] Ÿ BÑ . "Î# Poichè il supporto di ^ è l'insieme Ö!ß "×, allora dalle precedenti relazioni si ottiene che PrÐ] Ÿ B ± ^ œ DÑ œ PrÐ] Ÿ BÑ (D œ !ß "), da cui si conclude che le variabili casuali ] e ^ sono indipendenti. Teorema 2.5.4. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ ß i relativi vettori di statistiche Ð^" ß ^# ß á ß ^8 Ñ e ÐV" ß V# ß á ß V8 Ñ sono indipendenti. Dimostrazione. Dal Teorema 2.5.3, si ottiene che ^3 e ± \3 ± sono indipendenti (3 œ "ß #ß á ß 8). Dunque ogni statistica segno ^3 (3 œ "ß #ß á ß 8) è indipendente dal campione trasformato Ð ± \" ± ß ± \# ± ß á ß ± \8 ± Ñ, in quanto questo vettore costituisce un campione casuale. Di conseguenza dal momento che per la Definizione 2.5.1 ogni statistica rango dei valori assoluti V3 (3 œ "ß #ß á ß 8) dipende solo dal campione trasformato Ð ± \" ± ß ± \# ± ß á ß ± \8 ± Ñ, allora risulta indipendente dal vettore dei segni Ð^" ß ^# ß á ß ^8 Ñ. Quindi si deve concludere Ð^" ß ^# ß á ß ^8 Ñ e ÐV" ß V# ß á ß V8 Ñ sono vettori di statistiche indipendenti. Corollario 2.5.5. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ . Se X œ X Ð^" ß ^# ß á ß ^8 ß V" ß V# ß á ß V8 Ñ, ovvero X è una statistica 18 Le statistiche “distribution-free” basata solo sul vettore dei segni e sul vettore dei ranghi dei valori assoluti, allora X è “distribution-free” su f!ßJ . Dimostrazione. Segue immediatamente dai Teoremi 2.3.2 e 2.5.2, in quanto per ogni distribuzione congiunta J8 − f!ßJ la statistica X è una trasformata di un vettore di variabili casuali indipendenti ed ugualmente distribuite come F3Ð"ß "Î#Ñ e di un vettore uniformemente distribuito su e8 . Teorema 2.5.6. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ . Si consideri una scelta di 5 statistiche rango dei valori assoluti ÐV3" ß V3# ß á ß V35 Ñ e sia ÐVÐ3" Ñ ß VÐ3# Ñ ß á ß VÐ35 Ñ Ñ il relativo vettore dei ranghi dei valori assoluti ordinato in senso crescente (3" Á 3# Á á Á 35 œ "ß #ß á ß 8). Sia inoltre Ð^3" ß ^3# ß á ß ^35 Ñ la scelta di 5 statistiche segno associata a ÐV3" ß V3# ß á ß V35 Ñ. Se O œ 83œ" ^3 , si ha PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ ß O œ 5 ± ^3" œ "ß ^3# œ "ß á ß ^35 œ "Ñ œ œ #8 , 5 œ !ß "ß á ß 8 , " Ÿ <Ð"Ñ <Ð#Ñ á <Ð5Ñ Ÿ 8 . Dimostrazione. Dal Corollario 2.4.7 si ha 8 " PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ ± O œ 5Ñ œ Š ‹ , 5 5 œ !ß "ß á ß 8 , " Ÿ <Ð"Ñ <Ð#Ñ á <Ð5Ñ Ÿ 8 . Inoltre dal Teorema 2.3.2 è immediato verificare che 8 PrÐO œ 5Ñ œ Š ‹ #8 , 5 œ !ß "ß á ß 8 , 5 da cui si ottiene PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ ß O œ 5Ñ œ œ PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ ± O œ 5ÑPrÐO œ 5Ñ œ 8 " 8 œ Š ‹ Š ‹ #8 œ #8 , 5 œ !ß "ß á ß 8 , " Ÿ <Ð"Ñ <Ð#Ñ á <Ð5Ñ Ÿ 8 . 5 5 Tenendo presente che ÐV3" ß V3# ß á ß V35 Ñ è indipendente da Ð^3" ß ^3# ß á ß ^35 Ñ per il Teorema 2.5.4, allora si ha PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ ß O œ 5 ± ^3" œ "ß ^3# œ "ß á ß ^35 œ "Ñ œ œ PrÐVÐ3" Ñ œ <Ð"Ñ ß VÐ3# Ñ œ <Ð#Ñ ß á ß VÐ35 Ñ œ <Ð5Ñ ß O œ 5Ñ œ #8 , 5 œ !ß "ß á ß 8 , " Ÿ <Ð"Ñ <Ð#Ñ á <Ð5Ñ Ÿ 8 . Esempio 2.5.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ . Si consideri dunque la statistica Le statistiche “distribution-free” 19 8 [ ^3 V3 . œ 3œ" E' immediato verificare che il supporto di [ risulta Ö!ß "ß á ß 8Ð8 "ÑÎ#×. Se -8 ÐAÑ rappresenta il numero di sottoinsiemi di interi di Ð"ß #ß á ß 8Ñ la cui somma è A, allora dal Teorema 2.5.6 segue che la funzione di probabilità di [ è data da :8 ÐAÑ œ PrÐ[ œ AÑ œ #8 -8 ÐAÑ , A œ !ß "ß á ß 8Ð8 "ÑÎ# . Poichè la distribuzione di [ rimane invariata per ogni funzione di ripartizione congiunta di f!ßJ , allora [ è “distribution-free” su f!ßJ . Questo risultato poteva essere ottenuto immediatamente dal Corollario 2.5.5. Infine, si noti che dal momento che ad ogni sottoinsieme di interi di Ð"ß #ß á ß 8Ñ la cui somma è A corrisponde un sottoinsieme complementare la cui somma è Ò8Ð8 "ÑÎ# AÓ, allora si ottiene -8 ÐAÑ œ -8 Ò8Ð8 "ÑÎ# AÓ. Quindi, :8 ÐAÑ œ :8 Ò8Ð8 "ÑÎ# AÓ ovvero :8 Ò8Ð8 "ÑÎ% AÓ œ :8 Ò8Ð8 "ÑÎ% AÓ per A œ !ß "ß á ß 8Ð8 "ÑÎ#. Tenendo presente l'Esempio 1.2.1 si può dunque concludere che [ è simmetrica rispetto a 8Ð8 "ÑÎ%. – Capitolo 3 Il test statistico “distribution-free” 3.1. I test statistici “distribution-free”. Se si dispone di un campione Ð\" ß \# ß á ß \8 Ñ, si può stabilire un insieme L delle ipotesi ammissibili sulla relativa funzione di ripartizione congiunta J8 . Se gli insiemi L! e L" costituiscono una partizione di L , il problema della verifica delle ipotesi consiste nel verificare l'ipotesi di base L! À J8 − Y! contro l'ipotesi alternativa L" À J8 − Y Y! , dove Y è il modello statistico e Y! una sua sottoclasse. L'insieme L delle ipotesi ammissibili e la sua partizione in L! e L" è detto sistema di ipotesi. Si noti che se il modello statistico è indicizzato mediante un insieme di parametri <, quando il contesto probabilistico in cui si lavora è evidente, per semplicità di notazione il sistema di ipotesi può essere indicato con L! À < − R! contro L" À < − R R! , dove R rappresenta lo spazio dei parametri e R! un suo sottoinsieme. Esempio 3.1.1. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − f-ßJ . Si vuole verificare che il punto di simmetria è un particolare valore -! , ovvero l'ipotesi di base L! À J8 − f-! ßJ contro l'ipotesi alternativa L" À J8 − f-ßJ f-! ßJ . Si noti che il modello statistico è “distribution-free” ed è indicizzato da due parametri, ovvero < œ Ö-ß J ×. Il sistema di ipotesi può dunque essere espresso più semplicemente come L! À - œ -! ß J − f contro L" À - Á -! ß J − f . In maniera analoga, in un contesto di statistica classica si potrebbe considerare un modello statistico Y- § f-ßJ del tipo Y- œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 Ñ œ $ FÐB3 -Ñß - − ‘× . 8 3œ" Ovviamente, Y- contiene una sola famiglia di funzioni di ripartizione congiunte ed in particolare rappresenta il modello statistico relativo ad un campione casuale da R Ð-ß "Ñ. Il modello Y- è indicizzato solo attraverso -, ovvero < œ Ö-×, e quindi in questo caso il sistema di ipotesi si riduce a verificare L! À - œ -! contro L" À - Á -! . Si deve notare tuttavia che può risultare poco plausibile in pratica assumere un modello statistico classico, ovvero assumere una specifica morfologia funzionale per J . – Lo strumento statistico che sulla base dei dati campionari consente di concludere in favore dell'una o dell'altra ipotesi è il cosiddetto test. Definizione 3.1.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Se k8 è lo spazio campionario, ovvero il supporto di J8 , allora si dice test la funzione HÀ k8 Ä ÖL! ß L" ×. ˜ Il test statistico “distribution-free” 21 Dunque, il test è in effetti una regola decisionale che suddivide k8 negli insiemi complementari k! e k" in modo che si accetta L! se la realizzazione del campione è in k! , mentre si accetta L" se la realizzazione del campione è in k" . L'insieme k" è detto regione critica del test. Definizione 3.1.2. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Se X œ X Ð\" ß \# ß á ß \8 Ñ è una statistica con supporto g , si definisce test basato sulla statistica X la funzione HÀ g Ä ÖL! ß L" ×. La statistica X è detta statistica test. ˜ Si noti che il test basato sulla statistica X è una regola decisionale che suddivide g negli insiemi complementari g! e g" , in modo che si accetta L! se la realizzazione di X è in g! , mentre si accetta L" se la realizzazione di X è in g" . L'insieme g" è detto regione critica del test basato sulla statistica X . Definizione 3.1.3. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Un test per questo sistema di ipotesi è detto “distribution-free” se è basato su una statistica X œ X Ð\" ß \# ß á ß \8 Ñ “distribution-free” su Y< per ogni < − R! . ˜ Uno strumento per misurare la capacità discriminatoria del test basato su una statistica X è dato dalla funzione potenza. Definizione 3.1.4. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . La funzione potenza del test basato sulla statistica X è data da TX Ð<Ñ œ Pr< ÐX − g" Ñ , dove Pr< indica che la probabilità è quella indotta da J8 con il valore del parametro pari a <˜. E' immediato notare che per ogni < − R! la funzione potenza TX Ð<Ñ fornisce la probabilità di respingere L! quando questa è vera, ovvero la probabilità di commettere un errore di I specie. Analogamente, per ogni < − R R! la quantità " TX Ð<Ñ fornisce la probabilità di accettare L! quando è vera L" , ovvero la probabilità di commettere un errore di II specie. Definizione 3.1.5. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Si dice che il test basato sulla statistica X è al livello di significatività α se sup TX Ð<Ñ œ α . ˜ < − R! Ovviamente, il livello di significatività α rappresenta la massima probabilità di errore di I specie. Quando il test è basato su una statistica discreta, allora si noti che esiste solo un numero finito o al più contabile di possibili livelli di significatività, che vengono detti livelli di significatività naturali. Sebbene esistano tecniche per ottenere un qualsiasi livello di significatività per un test basato su una statistica discreta (la cosiddetta casualizzazione del test) tuttavia risultano artificiose ed è preferibile considerare in pratica solo livelli di significatività naturali. 22 Il test statistico “distribution-free” Definizione 3.1.6. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Un test basato sulla statistica X al livello di significatività α con funzione potenza TX Ð<Ñ è detto corretto al livello di significatività α se TX Ð<Ñ α , a< − R R! . ˜ Si noti che la proprietà della correttezza assicura che la probabilità di accettare L" quando è vera risulta maggiore della probabilità di commettere un errore di I specie. Esempio 3.1.2. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione J8 − Y- , dove il modello statistico Y- è definito nell'Esempio 3.1.1. Si vuole – verificare L! À - œ ! contro L" À - ! mediante il test basato sulla statistica X œ È8\ . Se è vera L! la statistica X è distribuita come una R Ð!ß "Ñ. Dunque, dato che g œ Ð ∞ß ∞Ñ, si può scegliere g! œ Ð ∞ß D"α ] e g" œ ÐD"α ß ∞Ñ. Se è vera L" la statistica X è distribuita come una R ÐÈ8-ß "Ñ e perciò la funzione potenza, che in questo caso dipende ovviamente dal solo parametro -, risulta TX Ð-Ñ œ Pr- ÐX − g" Ñ œ " FÐD"α È8-Ñ , - ! . Dal momento che TX Ð!Ñ œ α, allora il test è al livello di significatività α. Inoltre, essendo TX Ð-Ñ una funzione crescente, il test è corretto al livello di significatività α. – Esempio 3.1.3. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione J8 − f-ßJ . Si vuole verificare L! À - œ !ß J − f contro L" À - !ß J − f . Si consideri dunque il test basato sulla statistica 8 Fœ ^3 , 3œ" definita nell'Esempio 2.3.1. Si noti che se è vera L! , allora la statistica F è distribuita come una F3Ð8ß "Î#Ñ essendo f!ßJ § `!ßJ . Dal momento che g œ Ö!ß "ß á ß 8×, si può scegliere g! œ Ö!ß "ß á ß ,8ß"α × e g" œ Ö,8ß"α "ß á ß 8×. Se è vera L" risulta PrÐ\3 !Ñ œ " J Ð -Ñ œ J Ð-Ñ (3 œ "ß #ß á ß 8), per cui F è F3Ö8ß J Ð-Ñ×. La funzione potenza è dunque data da 8 TF Ð-ß J Ñ œ Pr-ßJ ÐF − g" Ñ œ ,œ,8ß"α 8 Š ‹ J Ð-Ñ, [" J Ð-Ñ]8, , - ! . , " Essendo J Ð!Ñ œ "Î#, allora risulta TF Ð!ß J Ñ œ α per ogni J − f e quindi si deve concludere che il test è al livello di significatività α. Inoltre, dal momento che si può dimostrare che TF Ð-ß J Ñ è una funzione crescente di - per ogni J − f , allora il test è corretto al livello di significatività α. – La seguente definizione enuncia una proprietà desiderabile per grandi campioni Ð8 Ä ∞Ñ della funzione potenza di un test. Definizione 3.1.7. Si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Data la statistica X œ X8 , si consideri inoltre la successione di test al livello di significatività α basati sulla successione di statistiche ÖX8 ×. La successione di test è detta coerente se Il test statistico “distribution-free” 23 lim T Ð<Ñ 8 Ä ∞ X8 œ", per ogni < − R R! . ˜ Ovviamente la proprietà della coerenza assicura che la probabilità di commettere un errore di II specie tende a ! per 8 Ä ∞. Esempio 3.1.4. Si consideri il sistema di ipotesi dell'Esempio 3.1.2 e sia ÖX8 × la successione – di statistiche data da ÖÈ8\×. Dal momento che la successione di funzioni ÖFÐD"α È8-Ñ× converge uniformemente alla funzione nulla per - !, allora si ha lim T Ð-Ñ 8 Ä ∞ X8 œ",-!. Dunque la successione di test basata sulla successione di statistiche ÖX8 × è coerente. – Il seguente teorema stabilisce delle condizioni per cui una successione di test basata su una successione di statistiche ÖX8 × è coerente. Teorema 3.1.8. Si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Data la statistica X œ X8 , si consideri inoltre la successione di test al livello di significatività α basati sulla successione di statistiche ÖX8 ×, tale che la regione critica del test basato su X8 è data da g"ß8 œ Ö>À > -8 ×. Se esiste una funzione 1Ð<Ñ per cui : iÑ X8 Ä 1Ð<Ñ, a< − R , iiÑ 1Ð<Ñ œ 1! , a< − R! , iiiÑ 1Ð<Ñ 1! , a< − R R! , ivÑ 8lim - Ÿ 1! , Ä∞ 8 allora la successione di test basata su ÖX8 × è coerente. Dimostrazione. Per un dato < − R R! , sia % œ Ð1Ð<Ñ 1! ÑÎ#. Dalla condizione iiiÑ si ha ovviamente che % ! e dunque per 8 sufficientemente elevato dalla condizione ivÑ si ha -8 Ÿ 1! % œ 1Ð<Ñ %. Di conseguenza si ha lim T Ð<Ñ 8 Ä ∞ X8 Pr ÐX8 -8 Ñ 8lim Pr ÖX8 1Ð<Ñ %× œ 8lim Ä∞ < Ä∞ < 8lim Pr Ö1Ð<Ñ % Ÿ X8 Ÿ 1Ð<Ñ %× œ 8lim Pr Ö ± X8 1Ð<Ñ ± Ÿ %× . Ä∞ < Ä∞ < Per la condizione iÑ si ha che lim8Ä∞ Pr< Ö ± X8 1Ð<Ñ ± Ÿ %× œ ", da cui si ha lim T Ð<Ñ 8 Ä ∞ X8 œ " , a< − R R! , ovvero dalla Definizione 3.1.7 si ha che la successione di test basata su ÖX8 × è coerente. Esempio 3.1.5. Se si considera il sistema di ipotesi dell'Esempio 3.1.3, si vuole verificare che la successione di test basata sulla successione di statistiche ÖF8 × è coerente. Si devono dunque verificare le condizioni iÑ-ivÑ del Teorema 3.1.8. A questo fine si considera la successione di test basata sulla successione di statistiche ÖF8 Î8×, che ovviamente ha le stesse proprietà di quella basata sulla successione di statistiche ÖF8 ×. Per quanto riguarda iÑ, si noti che per la Legge Debole dei Grandi Numeri di Khintchine ÐTeorema A.3.1Ñ si ottiene : F8 Î8 Ä 1Ð-ß J Ñ œ J Ð-Ñ per ogni - !. Inoltre, per quanto riguarda iiÑ e iiiÑ, si ha 1! œ 1Ð!ß J Ñ œ "Î# da cui 1Ð-ß J Ñ œ J Ð-Ñ 1! per ogni - !. Infine, per quanto riguarda ivÑ, si 24 Il test statistico “distribution-free” noti che g"ß8 œ Ö,À , ,8ß"α Î8×. Per il Teorema Fondamentale Classico del Limite ÐTeorema A.3.6Ñ, se L! è vera risulta F8 Î8 "Î# . Ä R Ð!ß "Ñ , "ÎÈ%8 da cui ,8ß"α Î8 ¶ "Î# D"α ÎÈ%8 per 8 elevato. Dunque si ha che lim8Ä∞ ,8ß"α Î8 œ "Î# œ 1! . Le condizioni iÑ-ivÑ del Teorema 3.1.8 sono pertanto soddisfatte e dunque la successione di test basata sulla successione di statistiche ÖF8 Î8× è coerente. Di conseguenza anche la successione di test basata sulla successione di statistiche ÖF8 × è coerente. – 3.2. L'efficienza asintotica relativa. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Se si dispone di due statistiche test X e Y sorge a questo punto il problema di determinare quale delle due è preferibile. Un modo di procedere è quello di fissare il livello di significatività dei due test ad un medesimo valore preassegnato α (ovvero di controllare l'errore di I specie) e di considerare le relative funzioni potenza TX Ð<Ñ e TY Ð<Ñ. Se risulta TX Ð<Ñ TY Ð<Ñ per ogni < − R R! , allora viene preferita la statistica test X , mentre se risulta TX Ð<Ñ Ÿ TY Ð<Ñ per ogni < − R R! , allora viene preferita la statistica test Y . Tuttavia, si deve notare che quando si considera test “distribution-free” in generale non è possibile determinare un test uniformemente più potente come nella statistica classica, dato che la struttura del sistema di ipotesi non è in questo caso rigida abbastanza da consentire un risultato come ad esempio il Lemma di Neyman-Pearson. Per determinati sistemi di ipotesi una possibilità alternativa è quella di ottenere il test localmente più potente, ovvero il test che ha la maggiore potenza dove la discriminazione fra L! e L" è più difficoltosa, ovvero in prossimità del punto di soglia delle due ipotesi (questi test verrano discussi nei prossimi capitoli). In questa sezione viene considerato piuttosto un confronto locale dei test per grandi campioni. Sia dunque Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , dove ) è un parametro reale e J rappresenta la funzione di ripartizione della variabile casuale \ da cui proviene il campione. Si consideri il problema di verificare l'ipotesi di base L! À ) − K! ß J − Y contro l'alternativa L" À ) − K K! ß J − Y , dove K è lo spazio parametrico relativo a ) e K! un suo sottoinsieme, mentre Y è una classe di funzioni di ripartizione. Se per verificare questo sistema di ipotesi si considera i test basati sulle statistiche X e Y , allora il problema è stabilire quale dei due test è preferibile. A questo fine è utile la seguente definizione. Definizione 3.2.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , e si consideri il sistema di ipotesi L! À ) − K! ß J − Y contro L" À ) − K K! ß J − Y . Data la statistica X œ X8 , si consideri inoltre la successione di test basata sulla successione di statistiche ÖX8 ×. Se la regione critica del test basato su X8 è data da g"ß8 , allora per un dato α (! α ") sia TX8 Ð)ß J Ñ œ Pr)ßJ ÐX8 − g"ß8 Ñ Ÿ α , a) − K! , 8 œ "ß #ß á . Se R è il più piccolo valore di 8 tale che per un dato " Ðα " "Ñ risulta TXR Ð)ß J Ñ œ Pr)ßJ ÐX8 − g"ß8 Ñ " , a) − K K! , allora si dice che R è la minima numerosità campionaria del test al livello di significatività α basato sulla statistica X per raggiungere la potenza " per l'alternativa ) − K K! . ˜ Il test statistico “distribution-free” 25 La quantità R è ovviamente funzione di α, " , ) e della funzione di ripartizione J , ovvero R œ R Ðαß " ß )ß J Ñ. Ovviamente, per una determinata alternativa ) e per α e " fissati, un test è maggiormente preferibile quanto minore risulta R Ðαß " ß )ß J Ñ. Questa considerazione conduce alla seguente definizione. Definizione 3.2.2. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , e si consideri il sistema di ipotesi L! À ) − K! ß J − Y contro L" À ) − K K! ß J − Y . Siano inoltre R Ðαß " ß )ß J Ñ e Q Ðαß " ß )ß J Ñ le minime numerosità campionarie dei test al livello di significatività α basati sulle statistiche X e Y per raggiungere la potenza " per l'alternativa ) − K K! . Si dice dunque efficienza relativa del test basato sulla statistica X rispetto al test basato sulla statistica Y la quantità /X ßY Ðαß " ß )ß J Ñ œ Q Ð αß " ß ) ß J Ñ , ) − K K! . R Ð αß " ß ) ß J Ñ Se /X ßY Ðαß " ß )ß J Ñ " allora si dice che il test basato su X è più efficiente di quello basato su Y , mentre se /X ßY Ðαß " ß )ß J Ñ " è vero l'opposto. ˜ Si noti che l'efficienza relativa è una misura locale dell'efficienza di un test rispetto ad un altro, nel senso che dipende dalle quantità α, " , ) e J . Al fine di eliminare almeno la dipendenza da α, " , ) e quindi di ottenere una misura più globale dell'efficienza è conveniente introdurre un indice basato su un confronto per grandi campioni in un particolare sistema di ipotesi. Definizione 3.2.3. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , e si consideri il sistema di ipotesi L! À ) œ )! ß J − Y contro L" À ) œ )3 ß J − Y dove Ö)3 × è una successione di alternative tali che lim3Ä∞ )3 œ )! . Date le statistiche X œ X8 e Y œ Y8 , si consideri le due successioni di test al livello di significatività α basati sulle successioni di statistiche ÖX83 × e ÖY73 ×. Se le regioni critiche dei test basati su X83 e Y73 sono date da g"ß83 œ Ö>À > -83 × e h"ß73 œ Ö?À ? .73 ×, allora siano TX83 Ð)3 ß J Ñ œ Pr)3 ßJ ÐX83 -83 Ñ e TY73 Ð)3 ß J Ñ œ Pr)3 ßJ ÐY73 .73 Ñ le rispettive potenze per l'alternativa )3 Ð3 œ "ß #ß á Ñ. Se Ö83 × e Ö73 × sono due successioni crescenti di interi tali che α lim TX83 Ð)3 ß J Ñ œ lim TY73 Ð)3 ß J Ñ " , 3Ä∞ 3Ä∞ allora si definisce efficienza asintotica relativa del test basato su X rispetto a quella basato su Y la seguente quantità 73 EARX ßY œ lim , 3 Ä ∞ 83 dove il limite deve essere costante per qualsiasi successione Ö83 × e Ö73 × ed essere indipendente dalla successione Ö)3 ×. ˜ 26 Il test statistico “distribution-free” Si noti che EARX ßY è il limite del rapporto delle numerosità campionarie necessarie ad ottenere la medesima potenza dei due test per la stessa successione di alternative (che converge al valore specificato sotto ipotesi di base) a un livello di significatività costante. Ovviamente, EARX ßY œ EARX ßY ÐJ Ñ, ovvero l'efficienza asintotica relativa dipende comunque dalla struttura funzionale della funzione di ripartizione J . Il seguente teorema permette di determinare una espressione di EARX ßY più conveniente dal punto di vista computazionale. Teorema 3.2.4. (Teorema di Noether) Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , e si consideri il sistema di ipotesi L! À ) œ )! ß J − Y contro L" À ) œ )3 ß J − Y dove Ö)3 × è una successione di alternative tali che lim3Ä∞ )3 œ )! . Date le statistiche X œ X8 e Y œ Y8 , siano ÖX83 × e ÖY73 × due successioni di statistiche a cui sono associate le successioni Ö.X83 Ð)Ñ×, Ö5X83 Ð)Ñ×, Ö.Y73 Ð)Ñ× e Ö5Y73 Ð)Ñ×, dove Ö83 × e Ö73 × sono due successioni crescenti di interi. Siano inoltre g"ß83 œ Ö>À > -83 × e h"ß73 œ Ö?À ? .73 × le regioni critiche dei test al livello di significatività α basati sulle statistiche X83 e Y73 . Se: iÑ quando )3 è il vero valore di ) , per una certa variabile casuale limite Z si ha X83 .X83 Ð)3 Ñ . ÄZ 5X83 Ð)3 Ñ e Y 73 . Y 7 3 Ð )3 Ñ . ÄZ ; 5Y73 Ð)3 Ñ iiÑ stessa condizione iÑ con )! al posto di )3 ; iiiÑ si ha lim 3Ä∞ 5X83 Ð)3 Ñ 5Y73 Ð)3 Ñ œ lim œ"; 5X83 Ð)! Ñ 3 Ä ∞ 5Y73 Ð)! Ñ ivÑ le derivate ` .X Ð)Ñ œ .wX8 Ð)Ñ `) 8 e ` .Y Ð)Ñ œ .wY7 Ð)Ñ `) 7 sono continue in intorno di ) œ )! e .wX8 Ð)! Ñ Á !, .wY7 Ð)! Ñ Á !; vÑ si ha lim 3Ä∞ .wX8 Ð)3 Ñ 3 .wX8 Ð)! Ñ 3 viÑ si ha œ lim 3Ä∞ .wY7 Ð)3 Ñ 3 .wY7 Ð)! Ñ 3 œ"; Il test statistico “distribution-free” 27 OX œ 8lim Ä∞ .wX8 Ð)! Ñ ! È85X8 Ð)! Ñ e .wY7 Ð)! Ñ OY œ 7lim !; Ä∞ È 75Y7 Ð)! Ñ allora EARX ßY OX# œ # . OY Dimostrazione. In base alla condizione ivÑ si può ottenere la seguente espansione in serie di Taylor di .X83 Ð)Ñ a ) œ )! .X83 Ð)3 Ñ œ .X83 Ð)! Ñ Ð)3 )! Ñ.wX8 Ð)3‡ Ñ , )! )3‡ )3 . 3 Analogamente, per .Y73 Ð)Ñ si ha .Y73 Ð)3 Ñ œ .Y73 Ð)! Ñ Ð)3 )! Ñ.wY7 Ð)3‡‡ Ñ , )! )3‡‡ )3 . 3 Si noti ora che dalle assunzioni fatte risulta lim TX83 Ð)! ß J Ñ œ lim Pr)! ßJ ÐX83 -83 Ñ œ 3Ä∞ 3Ä∞ œ lim Pr)! ßJ Ò 3Ä∞ X83 .X83 Ð)! Ñ - 8 3 . X 83 Ð ) ! Ñ Óœα. 5X83 Ð)! Ñ 5X83 Ð)! Ñ Tenendo presente la condizione iiÑ, per il Teorema A.3.12 la precedente relazione implica che -83 .X83 Ð)! Ñ œ @"α , 3Ä∞ 5X83 Ð)! Ñ lim dove @"α è il quantile di ordine Ð" αÑ della variabile casuale Z . Impiegando la precedente relazione e la condizione iiiÑ si ha - 83 . X 8 3 Ð ) 3 Ñ -83 .X83 Ð)! Ñ .X83 Ð)! Ñ .X83 Ð)3 Ñ 5X83 Ð)! Ñ œ lim œ 3Ä∞ 3Ä∞ 5X83 Ð)3 Ñ 5X83 Ð)! Ñ 5X83 Ð)3 Ñ lim .X83 Ð)! Ñ .X83 Ð)3 Ñ . 3Ä∞ 5X83 Ð)! Ñ œ @"α lim Supponiamo ora che lim TX83 Ð)3 ß J Ñ œ lim Pr)3 ßJ ÐX83 -83 Ñ œ " , 3Ä∞ 3Ä∞ ovvero che il limite della potenza della successione di test basata sulla successione di statistiche ÖX83 × per la successione di alternative Ö)3 × sia " . Con un procedimento simile a quello visto in precedenza, tenendo presente la condizione iÑ, per il Teorema A.3.12 si ha che 28 Il test statistico “distribution-free” -83 .X83 Ð)3 Ñ œ @"" . 3Ä∞ 5X83 Ð)3 Ñ lim Analogamente, si ha lim TY73 Ð)! ß J Ñ œ lim Pr)! ßJ ÐY73 .73 Ñ œ α , 3Ä∞ 3Ä∞ da cui .73 . Y 7 3 Ð )3 Ñ . Y73 Ð )! Ñ . Y73 Ð ) 3 Ñ œ @"α lim , 3Ä∞ 3Ä∞ 5Y73 Ð)3 Ñ 5Y73 Ð)! Ñ lim mentre se si suppone che lim TY73 Ð)3 ß J Ñ œ lim Pr)3 ßJ ÐY73 .73 Ñ œ " , 3Ä∞ 3Ä∞ allora .73 . Y 7 3 Ð )3 Ñ œ @"" . 3Ä∞ 5Y73 Ð)3 Ñ lim Combinando le relazioni ottenute si ha dunque .X83 Ð)! Ñ .X83 Ð)3 Ñ . Y 73 Ð ) ! Ñ . Y 73 Ð ) 3 Ñ œ lim , 3Ä∞ 3Ä∞ 5X83 Ð)! Ñ 5Y73 Ð)! Ñ lim ovvero .X83 Ð)! Ñ .X83 Ð)3 Ñ 5Y73 Ð)! Ñ œ". 3Ä∞ 5X83 Ð)! Ñ . Y 73 Ð )! Ñ . Y 73 Ð ) 3 Ñ lim Sostituendo in questa ultima espressione le opportune espansioni in serie di Taylor si ha lim 3Ä∞ ovvero Ð)3 )! Ñ.wX8 Ð)3‡ Ñ 3 5X83 Ð)! Ñ 5Y73 Ð)! Ñ œ", Ð)3 )! Ñ.wY7 Ð)3‡‡ Ñ 3 .wX8 Ð)3‡ Ñ È73 5Y7 Ð)! Ñ È 83 3 3 lim œ". ‡‡ w 3 Ä ∞ È 73 È83 5X Ð)! Ñ . Y7 Ð )3 Ñ 83 3 Tenendo presente la condizione ivÑ, vÑ viÑ si ha dunque È 83 OX lim œ", OY 3 Ä ∞ È73 da cui si ottiene infine EARX ßY œ lim 3Ä∞ 73 O# œ X# . 83 OY Definizione 3.2.5. Se sono soddisfatte le condizioni del Teorema 3.2.4, la quantità Il test statistico “distribution-free” 29 .wX8 Ð)! Ñ È85X8 Ð)! Ñ OX œ 8lim Ä∞ è detta efficacia del test basato sulla statistica X ed è denotata con effX . ˜ Si noti che nell'espressione di effX la quantità .wX8 Ð)! Ñ non è altro che una misura del tasso di variazione del parametro di posizione .X8 Ð)Ñ per valori di ) prossimi a )! . La quantità 5X8 Ð)! Ñ serve ovviamente a standardizzare la quantità al numeratore. Sostanzialmente, quindi l'efficacia non è altro che il limite del tasso di variazione standardizzato del parametro di posizione di X8 per alternative prossime a )! . Ovviamente, più questo tasso di variazione è sensibile alle alternative più alta è l'efficacia del test. Inoltre, il Teorema 3.2.4 implica .X83 Ð)3 Ñ .X83 Ð)! Ñ œ @"α @"" , 3Ä∞ 5X83 Ð)! Ñ lim ovvero lim È83 Ð)3 )! Ñ 3Ä∞ da cui .wX8 Ð)3‡ Ñ È83 5X83 Ð)! Ñ 3 lim È83 Ð)3 )! Ñ œ 3Ä∞ œ @"α @"" , @"α @"" . OX Dunque, la successione di alternative Ö)3 × deve essere tale che @"α @"" )3 œ )! 1Ð83 Ñ , È83 OX dove lim3Ä∞ È83 1Ð83 Ñ œ !. Di conseguenza, si deve concludere che il Teorema 3.2.4 implicitamente assume una struttura particolare per la successione di alternative Ö)3 ×, che quindi possono essere espresse in funzione della numerosità campionaria. In effetti, la successione di alternative Ö)3 × è equivalente ad una successione di alternative del tipo Ö)! -ÎÈ83 × con - costante, che è detto sistema di alternative di Pitman. Esempio 3.2.1. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y-ßJ , dove Y-ßJ œ ÖJ8 À J8 − f-ßJ ß VarÐ\Ñ œ 5# ∞× . Dall'Esempio 1.2.3 è immediato verificare che EÐ\Ñ œ -. Si consideri il sistema di ipotesi L! À - œ !ß J − Y contro L" À - œ -3 ß J − Y , dove Ö-3 × è una successione di alternative tali che -3 œ -ÎÈ83 con - costante. Inoltre, Y rappresenta la classe delle funzioni di ripartizione di una variabile casuale continua e simmetrica rispetto a ! con varianza finita. Si noti che non si perde di generalità nel considerare questo sistema di ipotesi, in quanto se il sistema di ipotesi risulta L! À - œ -! ß J − Y contro L" À - œ -3 œ -! -ÎÈ83 , J − Y , allora si può ottenere il sistema di ipotesi originale considerando il campione trasformato Ð\" -! ß \# -! ß á ß \8 -! Ñ. Si vuole determinare l'efficacia del test basato sulla statistica di Student 30 Il test statistico “distribution-free” X œ X8 œ – \ . WÎÈ8 Si deve dunque verificare le condizioni del Teorema 3.2.4. Innanzitutto, si sceglie .X83 Ð-Ñ œ È83 -Î5 e 5X83 Ð-Ñ œ ". Per quanto riguarda la verifica della condizione iÑ si noti che – – X83 .X83 Ð-3 Ñ \ -ÎÈ83 5 \ -3 - 5 œ œ Š "‹ . 5X83 Ð-3 Ñ WÎÈ83 5 Î È 83 5 Î È 83 W 5 W : Dal momento che W # Ä 5# per 3 Ä ∞ (vedi Esempio A.3.5), dal Teorema di Svedrup : (Teorema A.3.4) si ha W Ä 5 per 3 Ä ∞. Inoltre, tenendo presente il Corollario A.3.8 al – . Teorema Fondamentale di Lindberg del Limite, si ottiene È83 Ð\ -ÎÈ83 ÑÎ5 Ä R Ð!ß "Ñ per 3 Ä ∞. Combinando questi risultati mediante il Teorema di Slutsky (Teorema A.3.5) si ha X 83 . X 8 3 Ð - 3 Ñ . Ä R Ð!ß "Ñ , 5X83 Ð-3 Ñ e quindi la condizione iÑ è verificata. Anche la condizione iiÑ è verificata, in quanto se è vera : – . L! si ha W Ä 5 e È83 \Î5 Ä R Ð!ß "Ñ per 3 Ä ∞ Ðvedi Esempio 2.2.2Ñ. Di conseguenza, applicando il Teorema di Slutski (Teorema A.3.5) si ha – X83 .X83 Ð!Ñ \ 5 . œ Ä R Ð!ß "Ñ . 5X83 Ð!Ñ 5 Î È 83 W E' banale verificare la condizione iiiÑ. Anche la condizione ivÑ è verificata, in quanto .wX8 Ð-Ñ œ È8 ` ` . X8 Ð - Ñ œ œ , `` - 5ÎÈ8 5 è una funzione continua in un intorno di ! e .wX8 Ð!Ñ Á !. E' banale verificare anche la condizione vÑ. Infine, per quanto riguarda la condizione viÑ, si ha È8Î5 .wX8 Ð!Ñ " OX œ 8lim œ lim œ !. Ä∞ È 5 85X8 Ð!Ñ 8 Ä ∞ È8 Le condizioni del Teorema 3.2.4 sono dunque soddisfatte e quindi si ha effX œ " . 5 Questa quantità sarà utilizzata per determinare l'efficienza asintotica relativa di questo test classico rispetto ad alcuni test “distribution-free”. – Esempio 3.2.2. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y-ßJ , dove Y-ßJ œ ÖJ8 À J8 − f-ßJ ß ! J w Ð!Ñ œ 0 Ð!Ñ ∞× . Il test statistico “distribution-free” 31 Si consideri inoltre il sistema di ipotesi L! À - œ !ß J − Y contro L" À - œ -3 ß J − Y , dove Ö-3 × è una successione di alternative tali che -3 œ -ÎÈ83 con - costante. Inoltre, Y rappresenta la classe delle funzioni di ripartizione di una variabile casuale continua e simmetrica rispetto a ! con funzione di densità finita e non nulla a !. Si vuole determinare l'efficacia del test basato sulla statistica considerata nell'Esempio 2.3.1 8 F œ F8 œ ^3 . 3œ" Si deve dunque verificare le condizioni del Teorema 3.2.4. Si noti che se è vera L" , allora PrÐ\ !Ñ œ " J Ð -Ñ œ J Ð-Ñ. Dunque, è conveniente scegliere .F83 Ð-Ñ œ 83 J Ð-Ñ e 5F83 Ð-Ñ œ È83 J Ð-Ñ[" J Ð-Ñ]. Si noti che inoltre risulta EÐ^3 Ñ œ J Ð-ÎÈ83 Ñ e VarÐ^3 Ñ œ J Ð-ÎÈ83 Ñ[" J Ð-ÎÈ83 Ñ]. Dunque, la condizione iÑ è verificata, dal momento che per il Corollario A.3.8 al Teorema Fondamentale di Lindberg del Limite per 3 Ä ∞ si ha F83 .F83 Ð-3 Ñ F83 83 J Ð-3 Ñ F83 Î83 J Ð-3 Ñ . œ œ È 83 Ä R Ð!ß "Ñ . È83 J Ð-3 Ñ[" J Ð-3 Ñ] ÈJ Ð-3 Ñ[" J Ð-3 Ñ] 5F83 Ð-3 Ñ Anche la condizione iiÑ è verificata, in quanto dal Teorema Fondamentale Classico del Limite (Teorema A.3.6) si ha F83 .F83 Ð!Ñ F83 83 Î# F83 Î83 "Î# . œ œ È 83 Ä R Ð!ß "Ñ . È 83 Î 4 È"Î4 5F83 Ð!Ñ E' banale verificare la condizione iiiÑ. La condizione ivÑ è verificata, in quanto .wF8 Ð-Ñ œ ` ` .F8 Ð-Ñ œ 8J Ð-Ñ œ 80 Ð-Ñ , ``- è una funzione continua in un intorno di ! e .wX8 Ð!Ñ Á !. E' banale verificare anche la condizione vÑ. Infine, per quanto riguarda la condizione viÑ, si ha OF œ 8lim Ä∞ .wF8 Ð!Ñ 80 Ð!Ñ œ 8lim œ #0 Ð!Ñ ! . Ä ∞ È85F8 Ð!Ñ 8Î# Le condizioni del Teorema 3.2.4 sono dunque soddisfatte e quindi si ha effF œ #0 Ð!Ñ . Utilizzando i risultati dell'Esempio 3.2.1, l'efficienza asintotica relativa del test basato sulla statistica F rispetto al test basato sulla statistica X di Student risulta EARFßX œ OF# %0 Ð!Ñ# œ œ %5# 0 Ð!Ñ# . "Î5# OX# Si noti che se il campione casuale proviene da una R Ð-ß 5# Ñ, dal momento che 0 Ð!Ñ œ "ÎÈ#15# , allora EARFßX œ #Î1 ¶ !Þ'$''. Tuttavia, se il campione casuale proviene da una I.Ð-ß $ Ñ, dal momento che in questo caso 5# œ #$ # e 0 Ð!Ñ œ "ÎÐ#$ Ñ allora EARFßX œ #. Quindi, è evidente che se cade l'assunzione di normalità si può avere una notevole perdita di efficienza dei test classici. – 32 Il test statistico “distribution-free” Esempio 3.2.3. Si consideri i due campioni casuali indipendenti Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ, tali che se 8 œ 8" 8# , allora Ð\" ß \# ß á ß \8" ß ]" ß ]# ß á ß ]8# Ñ costituisce un campione misto con funzione di ripartizione congiunta J8 − YJßJ , dove YJßJ œ ÖJ8 À J8 − _JßJ ß VarÐ\Ñ œ 5# ∞× . E' immediato verificare che con questa assunzione risulta anche VarÐ] Ñ œ 5# e inoltre senza perdita di generalità si può supporre EÐ\Ñ œ !, da cui segue EÐ] Ñ œ J. Si consideri il sistema di ipotesi L! À J œ !ß J − Y contro L" À J œ J3 ß J − Y dove ÖJ3 × è una successione di alternative tali che J3 œ -ÎÈ83 con - costante. In questo caso Y rappresenta la classe delle funzioni di ripartizione di una variabile casuale continua con varianza finita. Siano inoltre Ö8"3 × e Ö8#3 × due successioni tali che lim3Ä∞ 8"3 Î83 œ / e lim3Ä∞ 8#3 Î83 œ " / Ð! / "Ñ. Si vuole dunque determinare l'efficacia del test basato sulla statistica di Student per due campioni indipendenti, data da – – ] \ X œ X8 œ , W È8ÎÐ8" 8# Ñ – – dove \ e ] rappresentano le medie campionarie, mentre 8" " – W œ Ò Ð\3 \Ñ# 8 # 3œ" # 8# 4œ" – Ð]4 ] Ñ# Ó œ " ÒÐ8" "ÑWB# Ð8# "ÑWC# Ó , 8# dove WB# e WC# rappresentano le varianze campionarie corrette. Si deve dunque verificare le condizioni del Teorema 3.2.4. Innanzitutto si sceglie .X83 ÐJÑ œ È8"3 8#3 Î83 ÐJÎ5Ñ e 5X83 ÐJÑ œ ". Per quanto riguarda la verifica della condizione iÑ, si noti che – – X83 .X83 ÐJ3 Ñ ] \ J3 œ œ È È 5X83 ÐJ3 Ñ W 83 ÎÐ8" 3 8# 3 Ñ 5 83 ÎÐ8" 3 8# 3 Ñ – – - È 8" 3 8 # 3 5 Ð] -ÎÈ83 Ñ \ 5 œ Š "‹ . 5 83 W 5È83 ÎÐ8" 3 8# 3 Ñ W : – . Analogamente all'Esempio 3.2.1 si ha WC Ä 5 e È8# 3 Ð] -ÎÈ83 ÑÎ5 Ä R Ð!ß "Ñ per : – . 3 Ä ∞. Inoltre, dall'Esempio 2.2.2 si ha WB Ä 5 e È8"3 \Î5 Ä R Ð!ß "Ñ per 3 Ä ∞. Di conseguenza, applicando il Teorema di Sverdrup (Teorema A.3.4), per 3 Ä ∞ si ha W# œ Ð8#3 "ÑWC# : Ð8"3 "ÑWB# Ä /5# Ð" / Ñ5# œ 5# , 83 # 83 # : da cui W Ä 5. Inoltre, applicando il Metodo Delta (Teorema A.3.10) alle variabili casuali – – indipendenti È8" 3 \Î5 e È8# 3 Ð] -ÎÈ83 ÑÎ5 mediante la funzione 1ÐBß CÑ œ C B, per 3 Ä ∞ si ottiene – – – – Ð] -ÎÈ83 Ñ \ Ð] -ÎÈ83 Ñ \ . œ Ä R Ð!ß "Ñ . È5# Î8" 3 5# Î8# 3 5È83 ÎÐ8" 3 8# 3 Ñ Per il Teorema di Slutski (Teorema A.3.5), combinando i precedenti risultati, per 3 Ä ∞ risulta infine Il test statistico “distribution-free” 33 X 83 . X 8 3 Ð J 3 Ñ . Ä R Ð!ß "Ñ . 5X83 ÐJ3 Ñ La condizione iiÑ è verificata, in quanto con un procedimento analogo a quello considerato per verificare la condizione iÑ per 3 Ä ∞ si ha X83 .X83 Ð!Ñ . Ä R Ð!ß "Ñ . 5X83 Ð!Ñ E' banale verificare la condizione iiiÑ. La condizione ivÑ è verificata, dal momento che .wX8 ÐJÑ œ ` ` J " . X 8 Ð JÑ œ œ , `J ` J 5È8ÎÐ8" 8# Ñ 5È8ÎÐ8" 8# Ñ è una funzione continua in un intorno di ! e .wX8 Ð!Ñ Á !. E' banale verificare anche la condizione vÑ. Infine, per quanto riguarda la condizione viÑ, si ha .wX8 Ð!Ñ " È 8" È 8 # " OX œ 8lim œ lim œ È/ Ð" / Ñ ! . Ä∞ È 8Ä∞ 5 È 5 85X8 Ð!Ñ 8 È8 Le condizioni del Teorema 3.2.4 sono dunque soddisfatte e quindi si ha effX œ " È / Ð" / Ñ . 5 Questa quantità sarà utilizzata per determinare l'efficienza asintotica relativa di questo test classico rispetto ad alcuni test “distribution-free”. – Esempio 3.2.4. Si consideri i due campioni casuali indipendenti Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ, tali che se 8 œ 8" 8# , allora Ð\" ß \# ß á ß \8" ß ]" ß ]# ß á ß ]8# Ñ costituisce un campione misto con funzione di ripartizione J8 − Y(ßJ , dove Y(ßJ œ ÖJ8 À J8 − i(ßJ ß EÐ\ % Ñ œ .% ∞× E' immediato verificare che risulta EÐ\ < Ñ œ (< EÐ] < Ñ. Di conseguenza se VarÐ\Ñ œ 5# si ha VarÐ] Ñ œ (# 5# e se # # œ EÐ\ % Ñ VarÐ\Ñ# œ .% 5% si ha EÐ] % Ñ VarÐ] Ñ# œ (% # # . Si consideri il sistema di ipotesi L! À ( œ "ß J − Y contro L" À ( œ (3 ß J − Y dove Ö(3 × è una successione di alternative tali che (3 œ " -ÎÈ83 con - costante. Inoltre, Y rappresenta la classe delle funzioni di ripartizione di una variabile casuale continua con quarto momento finito. Siano inoltre Ö8"3 × e Ö8#3 × due successioni tali che lim3Ä∞ 8"3 Î83 œ / e lim3Ä∞ 8#3 Î83 œ " / Ð! / "Ñ. Si vuole determinare l'efficacia del test basato sulla statistica di Snedecor per l'omogeneità delle varianze, data da WC# X œ X8 œ # , WB dove WB# e WC# rappresentano le varianze campionarie corrette. Si deve dunque verificare le condizioni del Teorema 3.2.4. Innanzitutto, si sceglie .X8 Ð(Ñ œ (# e 5X8 Ð(Ñ œ È8ÎÐ8" 8# ÑÐ(# # Î5# Ñ. Per quanto riguarda la condizione iÑ, si noti che 34 Il test statistico “distribution-free” X83 .X83 Ð(3 Ñ WC# ÎWB# (3# ÐWC# (3# 5# Ñ (3# ÐWB# 5# Ñ 5# œ œ . È83 ÎÐ8" 3 8# 3 ÑÐ(3# # Î5# Ñ 5X83 Ð(3 Ñ WB# (3# # È83 ÎÐ8" 3 8# 3 Ñ Applicando il Corollario A.3.8 al Teorema Fondamnetale di Lindberg del Limite, si ottiene . che È8#3 ÐWC# (3# 5# ÑÎÐ#(3# Ñ Ä R Ð!ß "Ñ per 3 Ä ∞. Inoltre, dall'Esempio A.3.4 si ha : . WB# Ä 5# per 3 Ä ∞ e dall'Esempio A.3.6 si ha È8"3 ÐWB# 5# ÑÎ# Ä R Ð!ß "Ñ per 3 Ä ∞. Inoltre, applicando il Metodo Delta ÐTeorema A.3.10Ñ alle variabili casuali indipendenti È8" 3 ÐWB# 5# ÑÎ# e È8# 3 ÐWC# (3# 5# ÑÎÐ#(3# Ñ mediante la funzione 1ÐBß CÑ œ C B, per 3 Ä ∞ si ottiene ÐWC# (3# 5# Ñ (3# ÐWB# 5# Ñ ÐWC# (3# 5# Ñ (3# ÐWB# 5# Ñ . œ Ä R Ð!ß "Ñ . (3# È# # Î8" 3 # # Î8# 3 (3# # È83 ÎÐ8" 3 8# 3 Ñ Per il Teorema di Slutski (Teorema A.3.5), combinando i precedenti risultati, per 3 Ä ∞ risulta infine X83 .X83 Ð(3 Ñ . Ä R Ð!ß "Ñ . 5X83 Ð(3 Ñ La condizione iiÑ è verificata, in quanto con un procedimento analogo a quello considerato per verificare la condizione iÑ per 3 Ä ∞ si ha X83 .X83 Ð"Ñ . Ä R Ð!ß "Ñ . 5X83 Ð"Ñ La condizione iiiÑ è verificata in quanto dal momento che lim 3Ä∞ È83 ÎÐ8" 3 8# 3 ÑÐ(3# # Î5# Ñ 5X83 Ð(3 Ñ œ lim œ lim (3# œ " . # 3 Ä ∞ 3Ä∞ È83 ÎÐ8" 3 8# 3 ÑÐ# Î5 Ñ 5X83 Ð"Ñ Inoltre, si ha .wX8 Ð(Ñ œ ` ` # . X8 Ð ( Ñ œ ( œ #( , `( `( che è una funzione continua in un intorno di " e .wX8 Ð"Ñ Á ! e quindi anche la condizione ivÑ è verificata. E' banale verificare anche la condizione vÑ. Infine, per quanto riguarda la condizione viÑ, si ha .wX8 Ð"Ñ #5# È8" È8# #5# È OX œ 8lim œ lim œ / Ð" / Ñ ! . Ä∞ È # 85X8 Ð"Ñ 8 Ä ∞ # È8 È8 Le condizioni del Teorema 3.2.4 sono dunque soddisfatte e quindi si ha effX œ #5# È / Ð" / Ñ . # Questa quantità sarà utilizzata per determinare l'efficienza asintotica relativa di questo test classico rispetto ai test “distribution-free”. – Il test statistico “distribution-free” 35 3.3. La significatività osservata. Anche se per sviluppare la teoria è necessario fissare il livello di significatività α, quando si lavora operativamente non esiste nessuna regola ragionevole per stabilirne la scelta. Questa considerazione porta al concetto di significatività osservata o valore-P. Definizione 3.3.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Se la regione critica del test basato su X è data da g" œ Ö>À > -×, per un determinato valore campionario > si definisce significatività osservata la quantità α9== œ sup Pr< ÐX >Ñ . < − R! Alternativamente, se la regione critica del test basato su X è data da g" œ Ö>À > Ÿ -×, per un determinato valore campionario > si definisce significatività osservata la quantità α9== œ sup Pr< ÐX Ÿ >Ñ . ˜ < − R! Dalla definizione è immediato constatare che la significatività osservata rappresenta la probabilità di ottenere, quando L! è vera, un valore campionario > di X estremo (nella appropriata direzione) almeno quanto quello osservato. La significatività osservata fornisce dunque una misura su quanto l'ipotesi di base risulta compatibile con i dati campionari. Una significatività osservata esigua porta dunque a ritenere poco compatibile con i dati campionari l'ipotesi di base, mentre con una significatività osservata elevata è vera l'affermazione contraria. Di conseguenza in una verifica di ipotesi si può semplicemente riportare la significatività osservata, oppure si può arrivare ad una decisione sull'accettazione di L! fissando un livello di significatività α. Se la significatività osservata è minore o uguale ad α, allora si respinge L! , altrimenti si accetta L! . La significatività osservata diventa in questo caso il più elevato livello di significatività per cui si accetta L! . Si noti tuttavia che in questo caso la significatività osservata diventa non solo uno strumento per la decisione nella verifica di ipotesi, ma anche misura quantitativa di questa decisione. Infine, la seguente definizione di significatività osservata è utile quando la statistica test X è simmetrica. Definizione 3.3.2. Sia Ð\" ß \# ß á ß \8 Ñ un campione con funzione di ripartizione congiunta J8 − Y< e si consideri il sistema di ipotesi L! À < − R! contro L" À < − R R! . Se X è una statistica simmetrica e se la regione critica del test basato su X è data da g" œ Ö>À > Ÿ -" ß > -# ×, per un determinato valore campionario > si definisce significatività osservata la quantità α9== œ # minÖ sup Pr< ÐX Ÿ >Ñß sup Pr< ÐX >Ñ× . < − R! < − R! ˜ Capitolo 4 Gli intervalli di confidenza “distribution-free” 4.1. Gli intervalli di confidenza “distribution-free”. La seguente è la definizione formale di intervallo di confidenza “distribution-free”. Definizione 4.1.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , dove ) è un parametro reale e J rappresenta la funzione di ripartizione della variabile casuale da cui proviene il campione. Supponiamo inoltre che ) − K e J − Y , dove K è uno spazio relativo a ) mentre Y è una classe di funzioni di ripartizione. Sia inoltre T œ T Ð\" ß \# ß á ß \8 à )Ñ una quantità pivot “distribution-free” su Y)ßJ , ovvero una trasformata la cui funzione di ripartizione rimane invariata per ogni J8 − Y)ßJ . Se -" e -# sono due valori tali che Pr)ßJ Ö-" T Ð\" ß \# ß á ß \8 à )Ñ -# × œ 1 α , ! α " , ) − K , J − Y , e se P œ PÐ\" ß \# ß á ß \8 Ñ e Y œ Y Ð\" ß \# ß á ß \8 Ñ sono statistiche tali che per ogni ) ÖÐB" ß B# ß á ß B8 ÑÀ -" T ÐB" ß B# ß á ß B8 à )Ñ -# × Í Í ÖÐB" ß B# ß á ß B8 ÑÀ PÐB" ß B# ß á ß B8 Ñ ) Y ÐB" ß B# ß á ß B8 Ñ× , allora l'intervallo casuale ÐPß Y Ñ è detto intervallo di confidenza di ) “distribution-free” su Y)ßJ al livello di confidenza Ð" αÑ. ˜ Si noti che quando la quantità pivot è una variabile casuale discreta, allora esiste un numero finito o contabile di livelli di confidenza ottenibili, che vengono detti livelli di confidenza naturali. Nel seguito saranno considerati solo livelli di confidenza naturali. Sia ora Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ e si consideri il sistema di ipotesi L! À ) œ )! ß J − Y contro L" À ) Á )! ß J − Y , dove ) è un parametro reale e J rappresenta la funzione di ripartizione della variabile casuale da cui proviene il campione. Si abbia inoltre un test basato sulla statistica X œ X Ð\" ß \# ß á ß \8 Ñ “distribution-free” su Y)ßJ al livello di significatività α e sia k! œ ÖÐB" ß B# ß á ß B8 ÑÀ -" X ÐB" ß B# ß á ß B8 Ñ -# × la relativa regione di accettazione. Ovviamente, si ha Pr)! ßJ Ö-" X -# × œ " α , che evidenzia come la regione di accettazione k! dipenda dal valore prefissato )! di ) . Dunque, esiste una quantità pivot T œ T Ð\" ß \# ß á ß \8 à )Ñ per cui si ha Pr)ßJ Ö-" T Ð\" ß \# ß á ß \8 à )Ñ -# × œ Pr)! ßJ Ö-" X -# × œ 1 α . Gli intervalli di confidenza “distribution-free” 37 Di conseguenza, se è possibile costruire l'intervallo di confidenza ÐPß Y Ñ a partire dalla quantità pivot T , allora si deve concludere che esiste una equivalenza tra la regione critica del test nel sistema di ipotesi considerato e l'intervallo di confidenza di ). Questa considerazione consente di costruire un intervallo di confidenza per un dato parametro partendo da un opportuno sistema di ipotesi. Esempio 4.1.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − `-ßJ e si consideri il sistema di ipotesi L! À - œ !ß J − ` contro L" À - Á !ß J − `. Dal momento che - rappresenta la mediana della variabile casuale da cui proviene il campioneß a partire da questo sistema di ipotesi si può dunque costruire un intervallo di confidenza per la mediana. In questo caso, un test opportuno è basato sulla statistica F œ FÐ\" ß \# ß á ß \8 Ñ dell'Esempio 2.3.1. La statistica test F è “distributionfree” su `!ßJ e se è vera l'ipotesi di base si distribuisce come una F3Ð8ß "Î#Ñ. Dunque, scelto un livello di significatività α, si ha Pr!ßJ Ö,8ßαÎ# FÐ\" ß \# ß á ß \8 Ñ 8 ,8ßαÎ# × œ " α . Si noti che in questo caso la quantità pivot associata a F è data da T œ FÐ\" -ß \# -ß á ß \8 -Ñ, per cui tenendo presente l'Esempio 1.1.1 e la definizione della classe `-ßJ , si ha Pr-ßJ Ö,8ßαÎ# FÐ\" -ß \# -ß á ß \8 -Ñ 8 ,8ßαÎ# × œ " α . Ovviamente, la quantità pivot FÐ\" -ß \# -ß á ß \8 -Ñ rappresenta il numero di \3 maggiori di - (3 œ "ß #ß á ß 8). Se dunque Ð\Ð"Ñ ß \Ð#Ñ ß á ß \Ð8Ñ Ñ è la statistica ordinata, si ottiene che ÖÐB" ß B# ß á ß B8 ÑÀ FÐB" -ß B# -ß á ß B8 -Ñ 8 ,8ßαÎ# × è equivalente a ÖÐB" ß B# ß á ß B8 ÑÀ BÐ,8ßαÎ# "Ñ -× . Analogamente ÖÐB" ß B# ß á ß B8 ÑÀ ,8ßαÎ# FÐB" -ß B# -ß á ß B8 -Ñ× è equivalente a ÖÐB" ß B# ß á ß B8 ÑÀ - BÐ8,8ßαÎ# Ñ × . Dunque P œ \Ð,8ßαÎ# "Ñ e Y œ \Ð8,8ßαÎ# Ñ , ovvero Ð\Ð,8ßαÎ# "Ñ ß \Ð8,8ßαÎ#Ñ Ñ è un intervallo di confidenza della mediana - “distribution-free” su `-ßJ al livello di confidenza Ð" αÑ. – Il seguente teorema permette di costruire intervalli di confidenza di un parametro ) “distribution-free” su una classe Y)ßJ se la statistica test su cui si basa il sistema di ipotesi associato ha una particolare struttura. Teorema 4.1.2. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , dove ) è un parametro reale e J rappresenta la funzione di ripartizione della variabile casuale da cui proviene il campione () − K , J − Y ). Si consideri inoltre l'insieme di statistiche Z3 œ Z3 Ð\" ß \# ß á ß \8 Ñ (3 œ "ß #ß á ß 5 ), tali che 38 Gli intervalli di confidenza “distribution-free” 5 X œ X ÐZ" ß Z# ß á ß Z5 Ñ œ IÐ!ß∞Ñ ÐZ3 Ñ 3œ" è una statistica “distribution-free” su Y!ßJ . Sia inoltre Pr!ßJ Ö-" X ÐZ" ß Z# ß á ß Z5 Ñ -# × œ œ Pr)ßJ Ö-" X ÐZ" )ß Z# )ß á ß Z5 )Ñ -# × œ " α . Se ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ5Ñ Ñ è la statistica ordinata relativa al vettore di statistiche ÐZ" ß Z# ß á ß Z5 Ñ , allora ÐZÐ5"-# Ñ ß ZÐ5-" Ñ Ñ è un intervallo di confidenza di ) “distribution-free” su Y)ßJ al livello di confidenza Ð" αÑ. Dimostrazione. Si noti innanzitutto che X ÐZ" )ß Z# )ß á ß Z5 )Ñ è una quantità pivot. Inoltre, dal momento che X ÐZ" )ß Z# )ß á ß Z5 )Ñ rappresenta il numero di Z3 maggiori di ) (3 œ "ß #ß á ß 5 ), si ottiene che ÖÐ@" ß @# ß á ß @5 ÑÀ X Ð@" )ß @# )ß á ß @5 )Ñ -# × è equivalente a ÖÐ@" ß @# ß á ß @5 ÑÀ @Ð5"-# Ñ )× . Analogamente ÖÐ@" ß @# ß á ß @5 ÑÀ -" X Ð@" )ß @# )ß á ß @5 )Ñ× è equivalente a ÖÐ@" ß @# ß á ß @5 ÑÀ ) @Ð5-" Ñ × . Di conseguenza, in base alla Definizione 4.1.1, si ha che ÐZÐ5"-# Ñ ß ZÐ5-" Ñ Ñ è un intervallo di confidenza di ) “distribution-free” su Y)ßJ al livello di confidenza Ð" αÑ. Esempio 4.1.2. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ . In questo caso - rappresenta la mediana della variabile casuale da cui proviene il campione. Si consideri inoltre la statistica [ “distribution-free” su f!ßJ dell'Esempio 2.5.1. Se Ð\Ð"Ñ ß \Ð#Ñ ß á ß \Ð8Ñ Ñ è la statistica ordinata, allora si noti che si ha IÐ!ß∞Ñ ÒÐ\Ð3Ñ \Ð4Ñ ÑÎ#Ó œ " se e solo se \Ð3Ñ ! e ± \Ð3Ñ ± ± \Ð4Ñ ± (4 3), mentre si ha IÐ!ß∞Ñ ÒÐ\Ð3Ñ \Ð3Ñ ÑÎ#Ó œ " se e solo se \Ð3Ñ !. Di conseguenza, le variabili casuali ^3 V3 possono essere espresse come 3 ^3 V3 œ IÐ!ß∞Ñ ÒÐ\Ð3Ñ \Ð4Ñ ÑÎ#Ó , 3 œ "ß #ß á ß 8 , 4œ" per cui una rappresentazione alternativa di [ è data da 8 3 [ œ 8 3 IÐ!ß∞Ñ ÒÐ\Ð3Ñ \Ð4Ñ ÑÎ#Ó œ 3œ" 4œ" IÐ!ß∞Ñ ÒÐ\3 \4 ÑÎ#Ó . 3œ" 4œ" Gli intervalli di confidenza “distribution-free” 39 Dunque la statistica [ è basata sulle 5 œ 8Ð8 1ÑÎ# statistiche Z34 œ Ð\3 \4 ÑÎ# (3 4 œ "ß #ß á ß 8) dette anche medie di Walsh. Se si indicizzano di nuovo le statistiche Z34 denotandole con [3 (3 œ "ß #ß á ß 5 ), si ottiene 5 [ Ð[" ß [# ß á ß [5 Ñ œ IÐ!ß∞Ñ Ð[3 Ñ , 3œ" ovvero la statistica [ può essere espressa nella forma richiesta dal Teorema 4.1.2. Inoltre, dal momento che Z34 - œ " " Ð\3 \4 Ñ - œ Ð\3 - \4 -Ñ , 3 4 œ "ß #ß á ß 8 , # # allora, tenendo presente l'Esempio 1.1.1 e la definizione della classe f-ßJ , si ha Pr!ßJ ÖAαÎ# [ Ð[" ß [# ß á ß [5 Ñ 5 AαÎ# × œ œ Pr-ßJ ÖAαÎ# X Ð[" -ß [# -ß á ß [5 -Ñ 5 AαÎ# × œ " α , dove Aα rappresenta il quantile di ordine α della distribuzione di [ e dove si è tenuto presente che [ è simmetrica rispetto a 5Î# (vedi Esempio 2.5.1). Dunque se Ð[Ð"Ñ ß [Ð#Ñ ß á ß [Ð5Ñ Ñ rappresenta la statistica ordinata relativo al vettore di statistiche Ð[" ß [# ß á ß [5 Ñ, allora risulta che Ð[ÐAαÎ# "Ñ ß [Ð5AαÎ#Ñ Ñ è un intervallo di confidenza della mediana - “distribution-free” su f-ßJ al livello di confidenza Ð" αÑ. Si noti che questo intervallo di confidenza è “distribution-free” su una classe più ristretta di quello ottenuto nell'Esempio 4.1.1, dal momento che f-ßJ § `-ßJ . – Esempio 4.1.3. Si consideri i due campioni casuali indipendenti Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ, tali che se 8 œ 8" 8# , allora Ð\" ß \# ß á ß \8" ß ]" ß ]# ß á ß ]8# Ñ costituisce un campione misto con funzione di ripartizione congiunta J8 − _JßJ . Si consideri inoltre la statistica [ “distribution-free” su _!ßJ dell'Esempio 2.4.1. Si noti che ovviamente le classi _!ßJ e VJ coincidono. Se Ð\Ð"Ñ ß \Ð#Ñ ß á ß \Ð8" Ñ Ñ e Ð]Ð"Ñ ß ]Ð#Ñ ß á ß ]Ð8#Ñ Ñ sono le statistiche ordinate relative ai due campioni, allora (vedi Esempio 2.4.1) 8# VÐ3Ñ œ IÐ!ß∞Ñ Ð\Ð3Ñ ]Ð4Ñ Ñ 3 , 3 œ "ß #ß á ß 8" , 4œ" per cui una rappresentazione alternativa di [ risulta 8" 8# [ œ IÐ!ß∞Ñ Ð\Ð3Ñ ]Ð4Ñ Ñ 3œ" 4œ" " 8" Ð8" "Ñ . # Dalla precedente espressione è immediato ricavare che la statistica [ è equivalente alla statistica Y data da 8" 8# Y œ 8" 8# IÐ!ß∞Ñ Ð\Ð3Ñ ]Ð4Ñ Ñ œ 3œ" 4œ" IÐ!ß∞Ñ Ð\3 ]4 Ñ . 3œ" 4œ" E' facile dimostrare che la statistica Y ha supporto Ö!ß "ß á ß 8" 8# × ed è simmetrica rispetto a 8" 8# Î#. Inoltre si noti che Y è basata sulle 5 œ 8" 8# statistiche Z34 œ \3 ]4 40 Gli intervalli di confidenza “distribution-free” (3 œ "ß #ß á ß 8" ß 4 œ "ß #ß á ß 8# ). Se si indicizzano di nuovo le statistiche Z34 denotandole con H3 (3 œ "ß #ß á ß 5 ), si ha 5 Y ÐH" ß H# ß á ß H5 Ñ œ IÐ!ß∞Ñ ÐH3 Ñ , 3œ" ovvero la statistica Y può essere espressa nella forma richiesta dal Teorema 4.1.2. Inoltre, dal momento che Z34 J œ \3 Ð]4 JÑ , 3 œ "ß #ß á ß 8" , 4 œ "ß #ß á ß 8# , allora, tenendo presente l'Esempio 1.1.1 e la definizione della classe _JßJ , si ha Pr!ßJ Ö?αÎ# Y ÐH" ß H# ß á ß H5 Ñ 5 ?αÎ# × œ œ PrJßJ Ö?αÎ# Y ÐH" Jß H# Jß á ß H5 JÑ 5 ?αÎ# × œ " α , dove ?α rappresenta il quantile di ordine α della distribuzione di Y e dove si è tenuto presente che Y è simmetrica rispetto a 5Î#. Dunque, se ÐHÐ"Ñ ß HÐ#Ñ ß á ß HÐ5Ñ Ñ rappresenta la statistica ordinata relativa al vettore di statistiche ÐH" ß H# ß á ß H5 Ñ, allora risulta che ÐHÐ?αÎ# "Ñ ß HÐ5?αÎ# Ñ Ñ è un intervallo di confidenza di J “distribution-free” su _JßJ al livello di confidenza Ð" αÑ. – 4.2. Gli intervalli di confidenza “distribution-free” per grandi campioni. Di seguito viene definito il concetto di intervallo di confidenza “distribution-free” per grandi campioni. Definizione 4.2.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − Y)ßJ , dove ) è un parametro reale e J rappresenta la funzione di ripartizione della variabile casuale da cui proviene il campione. Supponiamo inoltre che ) − K e J − Y , dove K è lo spazio relativo a ) mentre Y è una classe di funzioni di ripartizione. Sia inoltre T8 œ T8 Ð\" ß \# ß á ß \8 à )Ñ una quantità pivot “distribution-free” per grandi campioni su . Y)ßJ , ovvero una trasformata tale che T8 Ä Z (8 Ä ∞) per ogni J8 − Y)ßJ . Se -" e -# sono due valori tali che lim Pr)ßJ Ö-" T8 Ð\" ß \# ß á ß \8 à )Ñ -# × œ " α , ! α " , ) − K , J − Y , 8Ä∞ e se P8 œ P8 Ð\" ß \# ß á ß \8 Ñ e Y8 œ Y8 Ð\" ß \# ß á ß \8 Ñ sono statistiche tali che per ogni ) ÖÐB" ß B# ß á ß B8 ÑÀ -" T8 ÐB" ß B# ß á ß B8 à )Ñ -# × Í Í ÖÐB" ß B# ß á ß B8 ÑÀ P8 ÐB" ß B# ß á ß B8 Ñ ) Y8 ÐB" ß B# ß á ß B8 Ñ× , allora l'intervallo casuale ÐP8 ß Y8 Ñ è detto intervallo di confidenza di ) “distribution-free” per grandi campioni su Y)ßJ al livello di confidenza Ð1 αÑ. ˜ Esempio 4.2.1. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y-ßJ , dove la classe Y-ßJ è definita nell'Esempio 3.2.1. Sia – inoltre T8 œ È8Ð\ -ÑÎW una quantità pivot. Dal momento che per ogni J8 − Y-ßJ risulta . che T8 Ä R Ð!ß "Ñ, allora T8 è una quantità pivot “distribution-free” per grandi campioni su Y-ßJ . Scelto dunque un livello di confidenza pari a Ð" αÑ, si ha Gli intervalli di confidenza “distribution-free” 41 – lim Pr-ßJ Ö D"αÎ# È8Ð\ -ÑÎW D"αÎ# × œ " α . 8Ä∞ Dal momento che – -ÑÎ= D"αÎ# × Í ÖÐB" ß B# ß á ß B8 ÑÀ D"αÎ# È8ÐB – D"αÎ# =ÎÈ8 - B – D"αÎ# =ÎÈ8× , Í ÖÐB" ß B# ß á ß B8 ÑÀ B – – – allora P8 œ \ D"αÎ# WÎÈ8 e Y8 œ \ D"αÎ# WÎÈ8, per cui Ð\ D"αÎ# WÎÈ8ß – \ D"αÎ# WÎÈ8Ñ è un intervallo di confidenza di - “distribution-free” per grandi campioni su Y-ßJ al livello di confidenza Ð" αÑ. – Esempio 4.2.2. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − Y5ßJ , dove Y5ßJ œ ÖJ8 À J8 − VJ ß VarÐ\Ñ œ 5# ∞ß EÐ\ % Ñ œ .% ∞× . . Si noti innanzitutto che dall'Esempio A.3.6 si ha È8ÐW # 5# ÑÎ# Ä R Ð0ß 1Ñ, dove # # œ .% 5% . Inoltre, se Q% rappresenta il quarto momento centrale campionario, allora applicando la Legge Debole dei Grandi Numeri di Khintchine (Teorema A.3.1) e il Teorema : di Sverdrup ÐTeorema A.3.4Ñ, si può facilmente dimostrare che K# œ Q% W % Ä # # . Di . conseguenza, applicando il Teorema di Slutsky risulta T8 œ È8ÐW # 5# ÑÎK Ä R Ð!ß "Ñ per ogni J8 − Y5ßJ , ovvero la quantità pivot T8 è “distribution-free” per grandi campioni su Y5ßJ . Scelto dunque un livello di confidenza pari a Ð" αÑ, si ha lim Pr5ßJ Ö D"αÎ# È8ÐW # 5# ÑÎK D"αÎ# × œ " α . 8Ä∞ Dal momento che ÖÐB" ß B# ß á ß B8 ÑÀ D"αÎ# È8Ð=# 5# ÑÎ1 D"αÎ# × Í Í ÖÐB" ß B# ß á ß B8 ÑÀ =# D"αÎ# 1ÎÈ8 5# =# D"αÎ# 1ÎÈ8× , allora P8 œ W # D"αÎ# KÎÈ8 e Y8 œ W # D"αÎ# KÎÈ8, per cui ÐW # D"αÎ# KÎÈ8ß W # D"αÎ# KÎÈ8Ñ è un intervallo di confidenza di 5# “distribution-free” per grandi – campioni su Y5ßJ al livello di confidenza Ð" αÑ. Esempio 4.2.3. Si consideri un campione casuale Ð\" ß \# ß á ß \8 Ñ con funzione di ripartizione congiunta J8 − `-ßJ . Sia inoltre 8 T8 œ F8 Ð\" -ß \# -ß á ß \8 -Ñ œ IÐ!ß∞Ñ Ð\3 -Ñ 3œ" la quantità pivot dell'Esempio 4.1.1. Dal Teorema Fondamentale Classico del Limite (Teorema A.3.6) si ha T8 8Î# . Ä R Ð!ß "Ñ È8Î% 42 Gli intervalli di confidenza “distribution-free” per ogni J8 − `-ßJ , ovvero la quantità pivot T8 è “distribution-free” per grandi campioni su `-ßJ . Scelto dunque un livello di confidenza pari a Ð" αÑ, si ha lim Pr-ßJ Ö D"αÎ# ÐT8 8Î#ÑÎÈ8Î% D"αÎ# × œ " α . 8Ä∞ Tenendo presente che F8 Ð\" -ß \# -ß á ß \8 -Ñ può assumere solo valori interi, posto 6 œ Ú8Î# D"αÎ# È8Î%Û, dove Ú † Û rappresenta la funzione troncamento, analogamente all'Esempio 4.1.1 si ha ÖÐB" ß B# ß á ß B8 ÑÀ D"αÎ# F8 ÐB" -ß B# -ß á ß B8 -Ñ 8Î# D"αÎ# × Í È8Î% Í ÖÐB" ß á ß B8 ÑÀ 8Î# D"αÎ# È8Î% F8 ÐB" -ß á ß B8 -Ñ 8Î# D"αÎ# È8Î%× Í ÖÐB" ß B# ß á ß B8 ÑÀ 6 F8 ÐB" -ß B# -ß á ß B8 -Ñ 8 6× Í Í ÖBÐ6"Ñ - BÐ86Ñ × . Di conseguenza Ð\Ð6"Ñ ß \Ð86Ñ Ñ è un intervallo di confidenza di - “distribution-free” per grandi campioni su `-ßJ al livello di confidenza Ð" αÑ. – Capitolo 5 I test basati su statistiche lineari dei ranghi con segno 5.1. I test basati su statistiche lineari dei ranghi con segno. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ e si consideri il sistema di ipotesi L! À - œ !ß J − f contro una alternativa bilaterale L" À - Á !ß J − f o direzionale L" À - ! (- !)ß J − f . Questo sistema di ipotesi è del tutto generale. Infatti, se l'ipotesi di base è data da L! À - œ -! ß J − f , allora si ritorna al sistema di ipotesi precedente semplicemente considerando il campione trasformato Ð\" -! ß \# -! ß á ß \8 -! Ñ. Una classe di statistiche test “distribution-free” opportuna in questo sistema di ipotesi è quella delle statistiche lineari dei ranghi con segno. Definizione 5.1.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ e siano Ð^" ß ^# ß á ß ^8 Ñ e ÐV" ß V# ß á ß V8 Ñ i relativi vettori dei segni e dei ranghi dei valori assoluti. Siano inoltre i punteggi un insieme di valori +Ð3Ñ (3 œ "ß #ß á ß 8) tali che ! Ÿ +Ð"Ñ Ÿ +Ð#Ñ Ÿ á Ÿ +Ð8Ñ , +Ð8Ñ ! . Allora una statistica del tipo 8 X œ ^3 +ÐV3 Ñ , 3œ" ˜ è detta statistica lineare dei ranghi con segno. Si noti che in base al Corollario 2.5.5 la statistica X è “distribution-free” sulla classe f!ßJ , ovvero fornisce un test “distribution-free” per il sistema di ipotesi considerato. Inoltre, è evidente che la statistica test X è sensibile a variazioni nel parametro di posizione, in quanto se non è vera l'ipotesi di base X tende ad assumere o valori piccoli o valori elevati. Ovviamente, la scelta dei punteggi influisce sul peso che si vuole assegnare ad ogni singolo rango dei valori assoluti. Esempio 5.1.1. Se i punteggi sono scelti come +Ð3Ñ œ 3 (3 œ "ß #ß á ß 8), allora si ottiene la cosiddetta statistica di Wilcoxon (introdotta nell'Esempio 2.5.1), ovvero 8 [ œ ^3 V3 . 3œ" 44 I test basati su statistiche lineari dei ranghi con segno Se i punteggi sono scelti come +Ð3Ñ œ " (3 œ "ß #ß á ß 8), allora si ottiene la cosiddetta statistica dei segni (introdotta nell'Esempio 2.3.1), ovvero 8 Fœ ^3 . 3œ" Si noti che per la statistica [ i punteggi vengono scelti come funzione lineare crescente dei ranghi dei valori assoluti, ovvero in modo da assegnare un peso maggiore ai ranghi assoluti più elevati. Al contrario per la statistica F i punteggi sono costanti per tutti i ranghi dei valori assoluti. – Il seguente teorema permette di ottenere una importante equivalenza in distribuzione per le statistiche lineari dei ranghi con segno quando è vera l'ipotesi di base. Teorema 5.1.2. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ , per una statistica lineare dei ranghi con segno X si ha 8 X 8 . ^3 +ÐV3 Ñ œ œ 3œ" ^3 +Ð3Ñ . 3œ" Dimostrazione. Dal momento che per il Teorema 2.5.4 i vettori di statistiche Ð^" ß ^# ß á ß ^8 Ñ e ÐV" ß V# ß á ß V8 Ñ sono indipendenti, allora per ogni Ð<" ß <# ß á ß <8 Ñ − e8 si ha ÐX ± V" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ 8 8 ^3 +ÐV3 Ñ œÐ ± V" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ 3œ" ^3 +Ð<3 Ñ . 3œ" Se .3 è la posizione del numero 3 (3 œ "ß #ß á ß 8) nel vettore Ð<" ß <# ß á ß <8 Ñ, allora ovviamente si ha 8 8 ^3 +Ð<3 Ñ œ 3œ" ^.4 +Ð4Ñ . 4œ" Tuttavia, dal momento che il vettore dei segni Ð^" ß ^# ß á ß ^8 Ñ ha componenti indipendenti . per il Teorema 2.3.2, allora dal Teorema 1.1.3 si ha Ð^" ß ^# ß á ß ^8 Ñ œ Ð^." ß ^.# ß á ß ^.8 Ñ essendo Ð." ß .# ß á ß .8 Ñ una permutazione di Ð"ß #ß á ß 8Ñ. Dunque, risulta 8 8 . ^.4 +Ð4Ñ œ ÐX ± V" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ 4œ" ^3 +Ð3Ñ . 3œ" Dal momento che questa equivalenza in distribuzione vale per ogni Ð<" ß <# ß á ß <8 Ñ − e8 , allora il teorema è dimostrato. Esempio 5.1.2. Si consideri la statistica [ dell'Esempio 5.1.1. Dal Teorema 5.1.2 è immediato verificare che I test basati su statistiche lineari dei ranghi con segno 8 [ 45 8 . ^3 V3 œ œ 3œ" 3^3 , 3œ" ovvero, tenendo presente il Teorema 2.3.2, la statistica [ è distribuita come una combinazione lineare di F3Ð"ß "Î#Ñ in cui i pesi sono dati da Ð"ß #ß á ß 8Ñ. – Il seguente teorema fornisce la media e la varianza di una statistica lineare dei ranghi con segno quando è vera l'ipotesi di base. Teorema 5.1.3. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ , allora per una statistica lineare dei ranghi con segno X si ha " # EÐX Ñ œ 8 +Ð3Ñ 3œ" e " VarÐX Ñ œ % 8 +Ð3Ñ# . 3œ" Dimostrazione. Dal momento che il Teorema 2.3.2 implica che EÐ^3 Ñ œ "Î#, allora dal Teorema 5.1.2 si ha 8 8 ^3 +ÐV3 ÑÓ EÐX Ñ œ EÒ 8 œ EÒ 3œ" ^3 +Ð3ÑÓ œ 3œ" 3œ" " EÐ^3 Ñ+Ð3Ñ œ # 8 +Ð3Ñ , 3œ" Inoltre, il Teorema 2.3.2 implica anche che VarÐ^3 Ñ œ "Î% (3 œ "ß #ß á ß 8) e tenendo presente che Ð^" ß ^# ß á ß ^8 Ñ ha componenti indipendenti, dal Teorema 5.1.2 si ha 8 8 ^3 +ÐV3 ÑÓ VarÐX Ñ œ VarÒ 8 œ VarÒ 3œ" ^3 +Ð3ÑÓ œ 3œ" " VarÐ^3 Ñ+Ð3Ñ œ % 8 # 3œ" +Ð3Ñ# . 3œ" Esempio 5.1.3. Si consideri la statistica [ dell'Esempio 5.1.1. Tenendo presente il Teorema A.2.1, dal Teorema 5.1.3 è immediato verificare che " EÐ[ Ñ œ # 8 3œ 3œ" " 8Ð8 "Ñ % e " VarÐ[ Ñ œ % 8 3# œ 3œ" " 8Ð8 "ÑÐ#8 "Ñ . #% – Nel seguente teorema si dimostra la simmetria rispetto alla media di ogni statistica lineare dei ranghi con segno quando è vera l'ipotesi di base. Teorema 5.1.4. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ , allora una statistica lineare dei ranghi con segno X è simmetrica rispetto a EÐX Ñ. 46 I test basati su statistiche lineari dei ranghi con segno Dimostrazione. Si noti che il Teorema 2.3.2 implica la simmetria di ogni statistica segno ^3 (3 œ "ß #ß á ß 8) rispetto alla media, ovvero tenendo presente il Teorema 1.2.2 risulta . Ð^" "Î#ß ^# "Î#ß á ß ^8 "Î#Ñ œ Ð"Î# ^" ß "Î# ^# ß á ß "Î# ^8 Ñ . Tenendo presente l'Esempio 1.1.6, dalla precedente relazione si ha . Ð^" ß ^# ß á ß ^8 Ñ œ Ð" ^" ß " ^# ß á ß " ^8 Ñ . Di conseguenza, dal Teorema 5.1.2 segue che 8 . X EÐX Ñ œ 8 . ^3 +Ð3Ñ EÐX Ñ œ 3œ" 8 œ 3œ" 8 . ^3 +Ð3Ñ EÐX Ñ œ #EÐX Ñ X EÐX Ñ œ EÐX Ñ X . +Ð3Ñ 3œ" Ð" ^3 Ñ+Ð3Ñ EÐX Ñ œ 3œ" Il Teorema 1.2.2 permette infine di concludere che X è simmetrica rispetto a EÐX Ñ. Il seguente teorema fornisce la funzione generatrice di probabilità di una statistica lineare dei ranghi con segno nel caso che i punteggi siano valori interi. Teorema 5.1.5. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ , allora la funzione generatrice di probabilità di una statistica lineare dei ranghi con segno X risulta $ Ð" >+Ð3Ñ Ñ , ± > ± " . 8 PX Ð>Ñ œ # 8 3œ" Dimostrazione. Tenendo presente il Teorema 5.1.2 e il Teorema 2.3.2, dalla definizione di funzione generatrice di probabilità si ha PX Ð>Ñ œ EÐ> Ñ œ EÐ$ > 8 X 3œ" œ $ # Ð" > 8 " 3œ" Ñ œ $ EÐ>+Ð3Ñ^3 Ñ œ 8 +Ð3Ñ^3 3œ" $ Ð" >+Ð3Ñ Ñ , ± > ± " . 8 +Ð3Ñ Ñœ# 8 3œ" Si noti che quando i punteggi non sono interi allora per impiegare il precedente teorema è sufficiente determinare una trasformata biunivoca che discretizza i punteggi originali. Dal momento che la distribuzione di una statistica lineare dei ranghi con segno sotto l'ipotesi di base L! À - œ !ß J − f si può ottenere mediante il Teorema 5.1.5, allora si può determinare le appropriate regioni critiche del test. Se l'alternativa è bilaterale, ovvero L" À - Á !ß J − f , allora si ha PrÐ^3 œ "Ñ Á "Î# e quindi si respingere l'ipotesi di base per determinazioni sia troppo elevate che troppo piccole di X . Fissato quindi un livello di significatività α, poichè la distribuzione della statistica X è simmetrica se è vera l'ipotesi di base, allora la regione critica è data dall'insieme g" œ Ö> À > Ÿ > 8ßαÎ# ß > >8ß"αÎ# × , I test basati su statistiche lineari dei ranghi con segno 47 dove > per una numerosità 8ßα rappresenta il quantile di ordine α della distribuzione di X campionaria pari a 8. Ovviamente, data la simmetria di X , si noti che > 8ß"αÎ# " œ 8 3œ" +Ð3Ñ >8ßαÎ# . Se l'alternativa è direzionale del tipo L" À - !ß J − f , allora si ha PrÐ^3 œ "Ñ "Î# e quindi si respinge l'ipotesi di base per determinazioni troppo elevate di X . Fissato quindi un livello di significatività α, si ha la seguente regione critica g" œ Ö> À > > 8ß"α × . Al contrario, se l'alternativa è direzionale del tipo L" À - !ß J − f , allora si ha PrÐ^3 œ "Ñ "Î# e quindi si respinge l'ipotesi di base per determinazioni troppo piccole di X . Fissato quindi un livello di significatività α, si ha la seguente regione critica g" œ Ö> À > Ÿ > 8ßα × . Si noti infine che il test basato sulla X per i precedenti sistemi di ipotesi è corretto al livello di significatività α. Infatti, dal momento che si può facilmente dimostrare che TX Ð-ß J Ñ œ Pr-ßJ ÐX − g" Ñ è una funzione monotona crescente per - ! e monotona decrescente per - ! per ogni J − f , allora risulta TX Ð-ß J Ñ α, ovvero il test è corretto. 5.2. I test basati su statistiche lineari dei ranghi con segno localmente più potenti. Risulta ora interessante se è possibile determinare una scelta ottima dei punteggi della statistica test per verificare un ipotesi del tipo L! À - œ !ß J œ J! contro un'alternativa direzionale L" À - ! (- !)ß J œ J! , ovvero quando si verifica ipotesi sul parametro di posizione fissando la struttura della funzione di ripartizione J . Dal momento che non è possibile determinare una scelta ottima dei punteggi per ottenere un test uniformemente più potente, allora è utile introdurre un concetto di test localmente più potente. Definizione 5.2.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ e si consideri il sistema di ipotesi L! À - œ !ß J œ J! contro L" À - ! (- !)ß J œ J! , dove J! − f . Il test basato sulla statistica lineare dei ranghi con segno X‡ è detto localmente più potente se esiste un % ! tale che per ogni livello di significatività naturale si ha TX‡ Ð-Ñ TX Ð-Ñ , ! - % , per ogni statistica lineare dei ranghi con segno X . ˜ Il prossimo teorema fornisce la scelta ottima dei punteggi per la costruzione del test localmente più potente per verificare ipotesi sul parametro di posizione. Ovviamente, l'utilità di questo teorema consiste solamente nell'evidenziare la struttura ottima dei punteggi al variare della funzione di ripartizione, dal momento che questa non è mai nota in pratica. Teorema 5.2.2. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ e sia 0 la funzione di densità relativa a J . Si assuma inoltre che 0 w esista, sia assolutamente continua e che w ( ± 0 ÐBÑ ± .B ∞ . ‘ Il test localmente più potente per verificare il sistema di ipotesi L! À - œ !ß J œ J! contro L" À - ! (- !)ß J œ J! è basato sulla statistica lineare dei ranghi con segno 48 I test basati su statistiche lineari dei ranghi con segno 8 X‡ ^3 +‡ ÐV3 Ñ , œ 3œ" dove +‡ Ð3Ñ œ EÒ 0 w Ð]Ð3Ñ Ñ Ó , 3 œ "ß #ß á ß 8 , 0 Ð]Ð3Ñ Ñ e Ð]Ð"Ñ ß ]Ð#Ñ ß á ß ]Ð8Ñ Ñ è la statistica ordinata relativa Ð ± \" ± ß ± \ # ± ß á ß ± \ 8 ± Ñ . Dimostrazione. Si veda Hettmansperger e McKean (1998). al campione casuale Supponiamo ora che J ÐBÑ œ KÐBÎ$ Ñ, ovvero che 0 ÐBÑ œ Ð"Î$ Ñ1ÐBÎ$ Ñ, dove K e 1 sono rispettivamente la funzione di ripartizione e la funzione di densità di una variabile casuale standard. Si noti che se 0Ð3Ñ rappresenta la funzione di densità di ]Ð3Ñ allora risulta 0Ð3Ñ ÐBÑ œ Ð"Î$ Ñ1Ð3Ñ ÐBÎ$ Ñ, dove 1Ð3Ñ è la funzione di densità della variabile casuale standard ordinata ZÐ3Ñ œ ]Ð3Ñ Î$ (3 œ "ß #ß á ß 8). Dunque, si ha 0 w Ð]Ð3Ñ Ñ 0 w ÐBÑ +‡ Ð3Ñ œ EÒ Óœ( 0Ð3Ñ ÐBÑ .B œ 0 Ð]Ð3Ñ Ñ 0 ÐBÑ ‘ œ 1w ÐZÐ3Ñ Ñ " 1w ÐBÑ " 1Ð3Ñ ÐBÑ .B œ EÒ Ó. ( $ ‘ 1ÐBÑ $ 1ÐZÐ3Ñ Ñ Di conseguenza, se i punteggi ottimi sono ottenuti sulla base della distribuzione standardizzata, allora è immediato verificare che la relativa statistica test ottima è data da $X‡ , che ovviamente è una statistica test equivalente a X‡ . Dal momento che la statistica test ottima non dipende dal parametro di scala della distribuzione, allora i punteggi ottimi possono essere calcolati semplicemente a partire dalla distribuzione standard. Esempio 5.2.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ , dove J è la funzione di ripartizione di una R Ð!ß "Ñ. E' facile dimostrare che le condizioni del Teorema 5.2.2 sono soddisfatte. Inoltre, dal momento che in questo caso 0 w ÐBÑ œ B0 ÐBÑ, allora si ha 0 w ÐBÑ œB. 0 ÐBÑ Di conseguenza, la scelta ottimale dei punteggi è data da +‡ Ð3Ñ œ EÐ]Ð3Ñ Ñ , 3 œ "ß #ß á ß 8 , dove Ð]Ð"Ñ ß ]Ð#Ñ ß á ß ]Ð8Ñ Ñ è la statistica ordinata relativa ai valori assoluti di un campione casuale da una R Ð!ß "Ñ. – Esempio 5.2.2. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ , dove J è la funzione di ripartizione di una P9Ð!ß "Ñ. E' facile dimostrare che tutte le condizioni del Teorema 5.2.2 sono soddisfatte. Inoltre, è immediato I test basati su statistiche lineari dei ranghi con segno 49 verificare che in questo caso 0 ÐBÑ œ J ÐBÑ J ÐBÑ# , ovvero 0 w ÐBÑ œ 0 ÐBÑÒ#J ÐBÑ "Ó, da cui 0 w ÐBÑ œ #J ÐBÑ " . 0 ÐBÑ Di conseguenza, la scelta ottimale dei punteggi è data da +‡ Ð3Ñ œ EÒ#J Ð]Ð3Ñ Ñ "Ó , 3 œ "ß #ß á ß 8 , dove Ð]Ð"Ñ ß ]Ð#Ñ ß á ß ]Ð8Ñ Ñ è la statistica ordinata relativa ai valori assoluti di un campione casuale da una P9Ð!ß "Ñ. Tuttavia dal momento che dal Teorema dell'Integrale di Probabilità . (vedi Feller, 1971) si ha #J Ð]Ð3Ñ Ñ " œ YÐ3Ñ (3 œ "ß #ß á ß 8), dove ÐYÐ"Ñ ß YÐ#Ñ ß á ß YÐ8Ñ Ñ rappresenta la statistica ordinata relativa ad un campione casuale da una Y Ð!ß "Ñ, allora risulta +‡ Ð3Ñ œ EÐYÐ3Ñ Ñ œ 3 , 3 œ "ß #ß á ß 8 . 8" Si noti che la statistica lineare dei ranghi con segno costruita su questi punteggi è data da X‡ œ " 8" 8 ^3 V3 œ 3œ" [ , 8" dove [ è la statistica di Wilcoxon. Quindi X‡ e [ forniscono test equivalenti, ovvero la scelta dei punteggi fatta per la statistica di Wilcoxon risulta ottima per una variabile casuale logistica. – Esempio 5.2.3. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ , dove J è la funzione di ripartizione di una I.Ð!ß "Ñ. E' facile dimostrare che tutte le condizioni del Teorema 5.2.2 sono soddisfatte. Inoltre, dal momento che in questo caso risulta 0 w ÐBÑ œ segnÐBÑ0 ÐBÑ, dove segnÐBÑ œ #IÐ!ß∞Ñ ÐBÑ ", allora 0 w ÐBÑ œ segnÐBÑ . 0 ÐBÑ Dunque, la scelta ottimale dei punteggi è data da +‡ Ð3Ñ œ EÒsegnÐ]Ð3Ñ ÑÓ , 3 œ "ß #ß á ß 8 , dove Ð]Ð"Ñ ß ]Ð#Ñ ß á ß ]Ð8Ñ Ñ è la statistica ordinata relativa ai valori assoluti di un campione casuale da una I.Ð!ß "Ñ. Dal momento che EÒsegnÐ]Ð3Ñ ÑÓ œ ", allora risulta +‡ Ð3Ñ œ " (3 œ "ß #ß á ß 8). Si noti che questa scelta dei punteggi fornisce la statistica dei segni F . – 5.3. La distribuzione per grandi campioni delle statistiche lineari dei ranghi con segno. In questa sezione vengono considerate le proprietà per grandi campioni delle statistiche lineari dei ranghi con segno. Di seguito vengono considerati due risultati preliminari. Lemma 5.3.1. Se i punteggi sono tali che +8 Ð3Ñ œ 9Ò3ÎÐ8 "ÑÓ , 3 œ "ß #ß á ß 8 , 50 I test basati su statistiche lineari dei ranghi con segno dove 9 è una funzione punteggio non negativa e non decrescente che non dipende da 8 per cui ! ( 9Ð?Ñ# .? ∞ , " ! allora 8 " 8 lim 8Ä∞ 3œ" +8 Ð3Ñ# œ ( 9Ð?Ñ# .? . " ! Dimostrazione. Innanzitutto sia 8 9Ò3ÎÐ8 "ÑÓ IÒÐ3"ÑÎ8ß3Î8Ó Ð?Ñ ;8 Ð?Ñ œ 3œ" una discretizzazione della funzione 9. Dal momento che IÒÐ3"ÑÎ8ß3Î8Ó Ð?Ñ# œ IÒÐ3"ÑÎ8ß3Î8Ó Ð?Ñ (3 œ "ß #ß á ß 8) e che IÒÐ3"ÑÎ8ß3Î8Ó Ð?ÑIÒÐ4"ÑÎ8ß4Î8Ó Ð?Ñ œ ! (3 Á 4 œ "ß #ß á ß 8), allora si ha ( ;8 Ð?Ñ .? œ ( Ö " " # ! œ( ! " 8 8 9Ò3ÎÐ8 "ÑÓ IÒÐ3"ÑÎ8ß3Î8Ó Ð?Ñ×# .? œ 3œ" 8 # 9Ò3ÎÐ8 "ÑÓ IÒÐ3"ÑÎ8ß3Î8Ó Ð?Ñ.? œ ! 3œ" 3œ" " œ 8 8 9Ò3ÎÐ8 "ÑÓ ( IÒÐ3"ÑÎ8ß3Î8Ó Ð?Ñ.? œ " 9Ò3ÎÐ8 "ÑÓ œ 8 ! 8 # 3œ" " # +8 Ð3Ñ# . 3œ" Inoltre, poichè 9 è una funzione non negativa e non decrescente, si ha Ð3"ÑÎ8 " " 9Ò3ÎÐ8 "ÑÓ# Ÿ 9Ð3Î8Ñ# Ÿ ( 9Ð?Ñ# .? , " Ÿ 3 Ÿ 8 " , 8 8 3Î8 e " " 8" " # # 9Ò8ÎÐ8 "ÑÓ 9Ò8ÎÐ8 "ÑÓ Ÿ 9Ð?Ñ# .? . ( 8" 8 8 8ÎÐ8"Ñ Di conseguenza si ha " ( ;8 Ð?Ñ .? œ 8 ! " 8" Ÿ 3œ" ( Ð3"ÑÎ8 3Î8 8 # 9Ò3ÎÐ8 "ÑÓ# Ÿ 3œ" 9Ð?Ñ# .? 8" " 9Ð?Ñ# .? œ ( 8 8ÎÐ8"Ñ I test basati su statistiche lineari dei ranghi con segno 51 8" " œ ( 9Ð?Ñ .? 9Ð?Ñ# .? , ( 8 "Î8 8ÎÐ8"Ñ " # da cui lim sup( ;8 Ð?Ñ .? Ÿ ( 9Ð?Ñ# .? . " 8Ä∞ " # ! ! Inoltre, per il Lemma di Fatou si ha # inf ;8 Ð?Ñ# .? . ( 9Ð?Ñ .? Ÿ lim 8Ä∞ ( " " ! ! Si deve concludere dunque che lim ;8 Ð?Ñ# .? œ ( 9Ð?Ñ# .? , 8Ä∞ ( " " ! ! ovvero " lim 8Ä∞ 8 8 3œ" +8 Ð3Ñ# œ ( 9Ð?Ñ# .? . " ! Lemma 5.3.2. Se sono valide le condizioni del Lemma 5.3.1 si ha lim 8Ä∞ 8 3œ" +8 Ð3Ñ# œ∞. max +8 Ð3Ñ# "Ÿ3Ÿ8 Dimostrazione. Si noti che 8 # 3œ" +8 Ð3Ñ lim 8 Ä ∞ max + Ð3Ñ# 8 "Ÿ3Ÿ8 lim Ð"Î8Ñ 83œ" +8 Ð3Ñ# Ð"Î8Ñ 83œ" +8 Ð3Ñ# 8Ä∞ œ 8lim œ . Ä ∞ Ð"Î8Ñ max + Ð3Ñ# lim Ð"Î8Ñ max +8 Ð3Ñ# 8 8Ä∞ "Ÿ3Ÿ8 "Ÿ3Ÿ8 Dal Lemma 5.3.1 si ha che il numeratore della precedente espressione è finito e positivo. Inoltre, poichè 9 è non decrescente, allora " " 8" " 9Ð?Ñ# .? , max +8 Ð3Ñ# œ 9Ò8ÎÐ8 "ÑÓ# Ÿ ( 8 "Ÿ3Ÿ8 8 8 8ÎÐ8"Ñ per cui lim 8Ä∞ da cui segue immediatamente la tesi. " max +8 Ð3Ñ# œ ! , 8 "Ÿ3Ÿ8 Nel prossimo teorema si ottiene la distribuzione per grandi campioni delle statistiche lineari dei ranghi con segno sotto ipotesi di base. Teorema 5.3.3. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f!ßJ , allora per una statistica lineare dei ranghi con segno 52 I test basati su statistiche lineari dei ranghi con segno 8 X X8 œ ^3 +8 ÐV3 Ñ , œ 3œ" i cui punteggi +8 Ð3Ñ (3 œ "ß #ß á ß 8) soddisfano le condizioni del Lemma 5.3.1, risulta X8 EÐX8 Ñ . Ä R Ð!ß "Ñ , ÈVarÐX8 Ñ dove EÐX8 Ñ e VarÐX8 Ñ sono definite nel Teorema 5.1.3. Dimostrazione. Dal Teorema 5.1.2 si ottiene che 8 X8 8 . ^3 +8 ÐV3 Ñ œ œ 3œ" ^3 +8 Ð3Ñ . 3œ" Tenendo presente il Teorema 2.3.2 si ha EÒ ± ^3 "Î# ± $ Ó œ "Î) e VarÐ^3 Ñ œ "Î%, da cui 8 3œ" EÒ ± ^3 +8 Ð3Ñ +8 Ð3ÑÎ# ± $ Ó œ Ö 83œ" VarÒ^3 +8 Ð3ÑÓ×$Î# Ÿ 8 3œ" +8 Ð3Ñ# max ± +8 Ð4Ñ ± "Ÿ4Ÿ8 Ò 8 3œ" +8 Ð3Ñ# Ó$Î# œ 8 $ $ 3œ" +8 Ð3Ñ EÒ ± ^3 "Î# ± Ó 8 Ò 3œ" +8 Ð3Ñ# VarÐ^3 ÑÓ$Î# max ± +8 Ð3Ñ ± "Ÿ3Ÿ8 Ò 8 3œ" 8 3œ" œ +8 Ð3Ñ# +8 Ð3Ñ# Ó$Î# Ò œË 8 $ 3œ" +8 Ð3Ñ 8 # $Î# 3œ" +8 Ð3Ñ Ó Ÿ max +8 Ð3Ñ# "Ÿ3Ÿ8 8 3œ" +8 Ð3Ñ# . Di conseguenza dal Lemma 5.3.2 si ha lim 8Ä∞ max +8 Ð3Ñ# EÒ ± ^3 +8 Ð3Ñ +8 Ð3ÑÎ# ± $ Ó "Ÿ3Ÿ8 œ 8lim œ!. 8 Ä∞ Ë # Ö 83œ" VarÒ^3 +8 Ð3ÑÓ×$Î# 3œ" +8 Ð3Ñ 8 3œ" Applicando il Teorema Fondamentale di Lyapunov del Limite (Teorema A.3.9) con $ œ ", si ottiene quindi 8 3œ" ^3 +8 Ð3Ñ EÐX8 Ñ . Ä R Ð!ß "Ñ , ÈVarÐX8 Ñ ovvero, dato che X8 EÐX8 Ñ . œ ÈVarÐX8 Ñ 8 3œ" ^3 +8 Ð3Ñ EÐX8 Ñ , ÈVarÐX8 Ñ si ha la tesi. Si noti che se si considera la statistica X8w i cui punteggi sono dati da +8w Ð3Ñ œ ,8 9Ò3ÎÐ8 "ÑÓ œ ,8 +8 Ð3Ñ , 3 œ "ß #ß á ß 8 , allora risulta X8w œ ,8 X8 con EÐX8w Ñ œ ,8 EÐX8 Ñ e VarÐX8w Ñ œ ,8# VarÐX8 Ñ . I test basati su statistiche lineari dei ranghi con segno 53 Di conseguenza, si ha X8w EÐX8w Ñ ,8 X8 ,8 EÐX8 Ñ X8 EÐX8 Ñ œ œ , ÈVarÐX8w Ñ È,8# VarÐX8 Ñ ÈVarÐX8 Ñ da cui segue evidentemente che X8 e X8w hanno le medesime proprietà per grandi campioni. Dunque, la costante ,8 non influenza il comportamento per grandi campioni della statistica dei ranghi con segno, mentre la scelta della funzione punteggio 9 è determinante sotto questo punto di vista. Esempio 5.3.1. Si consideri la statistica [ œ [8 di Wilcoxon. Al fine di determinare la distribuzione per grandi campioni di [8 è conveniente considerare la statistica X8 œ ,8 [8 con ,8 œ "ÎÐ8 "Ñ che ovviamente ha le medesime proprietà per grandi campioni della statistica [8 . La funzione punteggio relativa alla statistica X8 , data da 9Ð?Ñ œ ?IÒ!ß"Ó Ð?Ñ, è una funzione positiva e crescente. Inoltre si ha # # ( 9Ð?Ñ .? œ ( ? .? œ " ! " ! " ∞. $ Le condizioni del Teorema 5.3.3 sono dunque soddisfatte. Tenendo presente l'Esempio 5.1.3 si deve concludere che [8 EÐ[8 Ñ [8 8Ð8 "ÑÎ% . œ Ä R Ð!ß "Ñ . ÈVarÐ[8 Ñ È8Ð8 "ÑÐ#8 "ÑÎ#% – Tenendo presente i precedenti risultati, fissato un livello di significatività α, la regione critica per verificare L! À - œ !ß J − f contro l'alternativa L" À - Á !ß J − f , può essere dunque approssimata dall'insieme Ö> À > Ÿ EÐX8 Ñ DαÎ# ÈVarÐX8 Ñß > EÐX8 Ñ D"αÎ# ÈVarÐX8 Ñ× . Analogamente, la regione critica per verificare l'alternativa L" À - !ß J − f , può essere approssimata dall'insieme Ö> À > EÐX8 Ñ D"α ÈVarÐX8 Ñ× , mentre la regione critica per verificare l'alternativa L" À - !ß J − f , può essere approssimata dall'insieme Ö> À > Ÿ EÐX8 Ñ Dα ÈVarÐX8 Ñ× . Inoltre, mediante il Teorema 3.1.8 si può dimostrare che la successione di test basata su ÖX8 × è coerente. Il seguente teorema permette di ottenere l'efficacia di una statistica lineare dei ranghi con segno. Teorema 5.3.4. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ e si consideri il sistema di ipotesi L! À - œ !ß J − f contro L" À - œ -3 ß J − f , dove Ö-3 × è una successione di alternative tali che -3 œ -ÎÈ83 con costante. Data una statistica lineare dei ranghi con segno 54 I test basati su statistiche lineari dei ranghi con segno 8 X œ X8 ^3 +8 ÐV3 Ñ , œ 3œ" i cui punteggi +8 Ð3Ñ (3 œ "ß #ß á ß 8) soddisfano le condizioni del Lemma 5.3.1, allora l'efficacia del test basato su X8 risulta effX œ ( 9Ð?Ñ90 Ð?Ñ .?ÎË( 9Ð?Ñ# .? , " " ! ! dove 90 Ð?Ñ œ 0 w ÒJ " Ð"Î# ?Î#ÑÓ . 0 ÒJ " Ð"Î# ?Î#ÑÓ ´ ´ (1967). Dimostrazione. Si veda Hayek e Šidak Esempio 5.3.2. Si consideri la statistica dei segni F œ F8 . La relativa funzione punteggio 9Ð?Ñ œ IÒ!ß"Ó Ð?Ñ, è una funzione positiva e non decrescente, per cui si ha ( 9Ð?Ñ .? œ ( .? œ " ∞ . " " # ! ! Le condizioni del Teorema 5.3.4 sono dunque soddisfatte. Inoltre, risulta ( 9Ð?Ñ90 Ð?Ñ .? œ ( " ! " ! 0 w ÒJ " Ð"Î# ?Î#ÑÓ .? , 0 ÒJ " Ð"Î# ?Î#ÑÓ da cui, mediante la trasformazione di variabile B œ J " Ð"Î# ?Î#Ñ con ? œ #J ÐBÑ " e .? œ #0 ÐBÑ.B, tenendo presente la simmetria di 0 , si ha ( 9Ð?Ñ90 Ð?Ñ .? œ # ( " ! ∞ ! 0 w ÐBÑ 0 ÐBÑ .B œ #Ò0 ÐBÑÓ∞ ! œ #0 Ð!Ñ . 0 ÐBÑ Quindi, l'efficacia del test basato sulla statistica dei segni risulta effF œ ( 9Ð?Ñ90 Ð?Ñ .?ÎË( 9Ð?Ñ# .? œ #0 Ð!Ñ , " " ! ! come era già noto dall'Esempio 3.2.2. Esempio 5.3.3. Si consideri la statistica [ œ [8 del test dei ranghi con segno di Wilcoxon. Dall'Esempio 5.3.1 è noto che le condizioni del Lemma 5.3.1 sono soddisfatte. Inoltre, risulta ( 9Ð?Ñ90 Ð?Ñ .? œ ( " ! " ! 0 w ÒJ " Ð"Î# ?Î#ÑÓ ? .? , 0 ÒJ " Ð"Î# ?Î#ÑÓ da cui, mediante la trasformazione di variabile B œ J " Ð"Î# ?Î#Ñ con ? œ #J ÐBÑ " e .? œ #0 ÐBÑ.B, tenendo presente la simmetria di 0 , si ha I test basati su statistiche lineari dei ranghi con segno ( 9Ð?Ñ90 Ð?Ñ .? œ # ( " ! ∞ 55 0 w ÐBÑÒ#J ÐBÑ "Ó .B œ ! œ #Ò0 ÐBÑÖ#J ÐBÑ "×Ó∞ ! %( ∞ ! 0 ÐBÑ# .B œ # ( ∞ 0 ÐBÑ# .B . ∞ Quindi, l'efficacia del test basato sulla statistica di Wilcoxon risulta eff[ œ ( 9Ð?Ñ90 Ð?Ñ .?ÎË( 9Ð?Ñ# .? œ #È$ ( " " ! ! ∞ 0 ÐBÑ# .B . ∞ Utilizzando i risultati dell'Esempio 3.2.1, l'efficienza asintotica relativa del test basato sulla statistica [ rispetto al test basato sulla statistica X risulta dunque EAR[ ßX ∞ # O[ # œ œ "# 5 Ò( 0 ÐBÑ# .BÓ# . # OX ∞ Si noti che se \ è distribuito come una R Ð-ß 5# Ñ, allora dal momento che ( ∞ ∞ 0 ÐBÑ# .B œ "ÎÐ#È15Ñ , si ha che EAR[ ßX œ $Î1 ¶ !Þ*&%*. Dunque il test basato su [ è quasi equivalente al test basato su X dal punto di vista dell'efficienza asintotica relativa anche sotto assunzione di normalità. – Capitolo 6 I test per un parametro di posizione: un campione e due campioni appaiati 6.1. Il test dei segni. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − `-ßJ . Il test dei segni è basato sulla statistica dei segni 8 Fœ ^3 , 3œ" descritta nell'Esempio 2.3.1. Mediante il test dei segni si può dunque verificare una ipotesi di base del tipo L! À - œ !ß J − `. Si noti che F può essere considerata una statistica lineare dei ranghi con segno con la scelta dei punteggi +Ð3Ñ œ " (3 œ "ß #ß á ß 8), come già evidenziato nell'Esempio 5.1.1. Tuttavia, il test dei segni può essere costruito anche senza ipotizzare la simmetria della variabile casuale dalla quale proviene il campione e quindi questa assunzione sarà evitata. Se l'ipotesi di base è vera, dall'Esempio 2.3.1 è noto che F è una F3Ð8ß "Î#Ñ. Dunque, se :8 Ð,Ñ œ PrÐF œ ,Ñ, allora 8 :8 Ð,Ñ œ Š ‹ #8 , , œ !ß "ß á ß 8 . , E' immediato verificare che EÐFÑ œ 8 , # e VarÐFÑ œ 8 . % Inoltre, dal Corollario 2.3.3 risulta che la statistica F è “distribution-free” su `!ßJ e dunque il test dei segni è “distribution-free”. Dal momento che la distribuzione della statistica F sotto ipotesi di base è specificata, le appropriate regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §5.1. Esempio 6.1.1. Una fabbrica produce un tipo specifico di sfere di acciaio del diametro di 1 micron. Alla fine di una giornata di produzione è stato estratto un campione casuale di 10 sfere ed è stato misurato il loro diametro, ottenendo i dati della Tavola 6.1.1. Per vedere se il livello medio della produzione si discosta dallo standard, si vuole verificare dunque il sistema di ipotesi L! À - œ "ß J − ` contro L" À - Á "ß J − `. I test per un parametro di posizione: un campione e due campione appaiati 57 Tavola 6.1.1. Diametro delle sfere Ðin micronÑ. sfera " # $ % & ' ( ) * "! B3 "Þ") "Þ%# !Þ'* !Þ)) "Þ'# "Þ!* "Þ&$ "Þ!# "Þ"* "Þ$# B3 " !Þ") !Þ%# !Þ$" !Þ"# !Þ'# !Þ!* !Þ&$ !Þ!# !Þ"* !Þ$# D3 " " ! ! " " " " " " Fonte: Romano (1977) Dal momento che per questi dati è immediato verificare che , œ ), allora per 8 œ "! si ha PrÐF )Ñ œ !Þ!&%( e quindi la significatività osservata risulta α9== œ # ‚ !Þ!&%( œ !Þ"!*%. Di conseguenza si può accettare L! ad ogni livello di significatività α !Þ"!*%. – Per quanto riguarda la distribuzione per grandi campioni della statistica F œ F8 , dal Teorema Fondamentale Classico del Limite (Teorema A.3.6) è immediato ottenere che se è vera l'ipotesi di base si ha F8 8Î# . Ä R Ð!ß "Ñ . È8Î% La convergenza della statistica F8 alla normalità è particolarmente veloce anche per campioni moderati (8 "&). Le approssimazioni per grandi campioni delle regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §5.3. Tavola 6.1.2. Rapporto dei lati dei rettangoli. rettangolo " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* #! B3 !Þ'*$ !Þ''# !Þ'*! !Þ'!' !Þ&(! !Þ(%* !Þ'(# !Þ'#) !Þ'!* !Þ)%% !Þ'&% !Þ'"& !Þ'') !Þ'!" !Þ&(' !Þ'(! !Þ'!' !Þ'"" !Þ&&$ !Þ*$$ B3 3 !Þ!(& !Þ!%% !Þ!(# !Þ!"# !Þ!%) !Þ"$" !Þ!&% !Þ!"! !Þ!!* !Þ##' !Þ!$' !Þ!!$ !Þ!&! !Þ!"( !Þ!%# !Þ!&# !Þ!"# !Þ!!( !Þ!'& !Þ$"& Fonte: Dubois (1970) D3 " " " ! ! " " " ! " " ! " ! ! " ! ! ! " 58 I test per un parametro di posizione: un campione e due campioni appaiati Esempio 6.1.2. Gli antichi greci indicavano come rettangolo aureo un rettangolo con un rapporto fra i lati dato da 3 œ " ƒ ÐÈ& "ÑÎ# ¶ !Þ'"). Questo tipo di rettangolo era spesso adoperato nella loro architettura (per esempio nella struttura del Partenone). I dati della Tavola 6.1.2 riguardano il rapporto fra i lati di rettangoli usati dai nativi americani Shoshoni per decorare le loro tende. Si vuole verificare se gli Shoshoni avessero conoscenza del rettangolo aureo, ovvero si vuole verificare il sistema di ipotesi L! À - œ 3ß J − ` contro L" À - Á 3ß J − `. Dal momento che per questi dati è immediato verificare che , œ "", allora si ha PrÐF ""Ñ ¶ " FÒÐ"" "!ÑÎÈ&Ó œ " FÐ!Þ%%(#Ñ œ !Þ$#(# , per cui la significatività osservata risulta α9== ¶ # ‚ !Þ$#(# œ !Þ'&%%. Dato che la significatività osservata è piuttosto elevata l'evidenza empirica porta a concludere che gli Shoshoni avevano conoscenza del rettangolo aureo. Infatti, si può accettare L! ad ogni livello di significatività α !Þ'&%%. – 6.2. Le prestazioni del test dei segni. E' interessante confrontare il test dei segni con la sua controparte classica, ovvero il test di Student. Sebbene sia possibile determinare analiticamente la funzione potenza del test dei segni (vedi Esempio 3.1.3), questa operazione risulta proibitiva nel caso del test di Student quando il campione proviene da una variabile casuale che non è normale. Di conseguenza, le potenze di questi test per varie distribuzioni simmetriche state calcolate mediante simulazione per le numerosità campionarie 8 œ &ß "!ß "&. Le alternative scelte sono state - œ !Þ! 5ß !Þ# 5ß !Þ% 5ß !Þ' 5ß !Þ) 5, dove 5 # rappresenta la varianza della distribuzione ipotizzata. Nel caso della distribuzione di Chauchy si noti che 5 denota il valore per cui PrÐ\ Ÿ 5Ñ œ FÐ"Ñ. Inoltre, il test dei segni è stato casualizzato al fine di ottenere un livello di significatività esattamente pari a α œ !Þ!& per entrambi i test. I risultati della simulazione sono riportati nella Tavola 6.2.1. Tavola 6.2.1. Potenza del test dei segni (potenza del test di Student). distribuzione 0.05 0.#5 0.%5 8œ& !Þ!&Ð!Þ!&Ñ !Þ!)Ð!Þ"!Ñ !Þ"#Ð!Þ"'Ñ !Þ!&Ð!Þ!&Ñ !Þ!*Ð!Þ""Ñ !Þ"&Ð!Þ"*Ñ !Þ!&Ð!Þ!&Ñ !Þ"!Ð!Þ""Ñ !Þ")Ð!Þ#!Ñ !Þ!&Ð!Þ!%Ñ !Þ"$Ð!Þ"#Ñ !Þ#%Ð!Þ#$Ñ !Þ!&Ð!Þ!#Ñ !Þ"#Ð!Þ!(Ñ !Þ#"Ð!Þ"&Ñ 8 œ "! Y Ð-"Î#ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ"!Ð!Þ"$Ñ !Þ")Ð!Þ#)Ñ R Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ"$Ð!Þ"&Ñ !Þ#'Ð!Þ$#Ñ P9Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ"%Ð!Þ"&Ñ !Þ$!Ð!Þ$$Ñ I.Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ"*Ð!Þ"'Ñ !Þ%"Ð!Þ$'Ñ G2Ð-ß "Ñ !Þ!&Ð!Þ!#Ñ !Þ"(Ð!Þ!*Ñ !Þ$(Ð!Þ")Ñ 8 œ "& Y Ð-"Î#ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ"#Ð!Þ"(Ñ !Þ##Ð!Þ%"Ñ R Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ"&Ð!Þ")Ñ !Þ$#Ð!Þ%%Ñ P9Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ"(Ð!Þ")Ñ !Þ$(Ð!Þ%&Ñ I.Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ#&Ð!Þ#!Ñ !Þ&"Ð!Þ%(Ñ G2Ð-ß "Ñ !Þ!&Ð!Þ!#Ñ !Þ##Ð!Þ!*Ñ !Þ%(Ð!Þ#!Ñ Y Ð-"Î#ß "Ñ R Ð-ß "Ñ P9Ð-ß "Ñ I.Ð-ß "Ñ G2Ð-ß "Ñ 0.'5 0.)5 !Þ")Ð!Þ#&Ñ !Þ#'Ð!Þ$(Ñ !Þ#'Ð!Þ$!Ñ !Þ$&Ð!Þ%$Ñ !Þ#)Ð!Þ$$Ñ !Þ%!Ð!Þ%)Ñ !Þ$&Ð!Þ$)Ñ !Þ%'Ð!Þ&#Ñ !Þ$"Ð!Þ#%Ñ !Þ$*Ð!Þ$$Ñ !Þ#*Ð!Þ&#Ñ !Þ%#Ð!Þ&&Ñ !Þ%*Ð!Þ&'Ñ !Þ'!Ð!Þ&*Ñ !Þ&$Ð!Þ#*Ñ !Þ%$Ð!Þ(%Ñ !Þ'!Ð!Þ('Ñ !Þ')Ð!Þ((Ñ !Þ('Ð!Þ()Ñ !Þ'(Ð!Þ$*Ñ !Þ$)Ð!Þ(!Ñ !Þ&&Ð!Þ("Ñ !Þ'$Ð!Þ(#Ñ !Þ(&Ð!Þ($Ñ !Þ'*Ð!Þ$!Ñ !Þ&)Ð!Þ*"Ñ !Þ('Ð!Þ*!Ñ !Þ)#Ð!Þ*!Ñ !Þ)*Ð!Þ)*Ñ !Þ)#Ð!Þ%"Ñ Anche se il test dei segni dimostra scarse prestazioni per distribuzioni a code leggere come l'uniforme, si noti come diventi invece particolarmente efficiente per distribuzioni a code pesanti come l'esponenziale doppia. Questo comportamento risulta in generale ancora più I test per un parametro di posizione: un campione e due campione appaiati 59 evidente con distribuzioni a code particolamente pesanti quali per esempio quelle che non posseggono varianza finita come la distribuzione di Chauchy. Per quest'ultima distribuzione si noti che il test di Student non mantiene neppure il livello di significatività. Si potrebbe verificare inoltre che le prestazioni del test dei segni risultano generalmente superiori (talvolta in modo molto marcato) a quelle del test di Student quando si considerano distribuzioni asimmetriche. Per quanto riguarda le prestazioni per grandi campioni del test dei segni, dall'Esempio 3.2.2 si ha effF œ #0 Ð!Ñ . Inoltre, ancora dall'Esempio 3.2.2, è noto che l'efficienza asintotica relativa del test dei segni rispetto al test di Student risulta EARFßX œ %5# 0 Ð!Ñ# . La Tavola 6.2.2 fornisce i valori dell'efficienza asintotica relativa EARFßX per alcune distribuzioni. Anche per grandi campioni il test dei segni dimostra scarse prestazioni per distribuzioni a code leggere, e ottime prestazioni per distribuzioni a code pesanti. In generale, Noether (1967) ha provato che EARFßX "Î$ e il limite inferiore è raggiunto nel caso di una distribuzione uniforme. Tavola 6.2.2. EAR del test dei segni rispetto al test di Student. distribuzione EARF ßX Y Ð- ß $ Ñ "Î$ ¶ !Þ$$$$ R Ð.ß 5 # Ñ #Î1 ¶ !Þ'$'' 1# Î"# ¶ !Þ)##% P9Ð-ß $ Ñ I.Ð.ß $ Ñ # G2Ð-ß $ Ñ ∞ 6.3. Il test dei segni e gli intervalli di confidenza per la mediana. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − `-ßJ . Dall'Esempio 4.1.1 è noto che se Ð\Ð"Ñ ß \Ð#Ñ ß á ß \Ð8Ñ Ñ è la statistica ordinata allora Ð\Ð,8ßαÎ# "Ñ ß \Ð8,8ßαÎ# Ñ Ñ è un intervallo di confidenza della mediana “distribution-free” su `-ßJ al livello di confidenza Ð" αÑ. Esempio 6.3.1. Si considerino ancora i dati dell'Esempio 6.1.1. Dal momento che PrÐF Ÿ "Ñ œ !Þ!"!( per 8 œ "!, si può scegliere un livello di confidenza naturale pari a " α œ " # ‚ !Þ!"!( œ !Þ*()'. Dunque, una volta ordinato il campione si ottiene facilmente che Ð!Þ))ß "Þ&$Ñ è un intervallo di confidenza della mediana “distribution-free” su `-ßJ al livello di confidenza del *(Þ)'%. – Alternativamente, quando la numerosità campionaria è elevata, dall'Esempio 4.2.3 si ha che Ð\Ð6"Ñ ß \Ð86Ñ Ñ, dove 6 œ Ú8Î# D"αÎ# È8Î%Û, è un intervallo di confidenza della mediana “distribution-free” per grandi campioni su `-ßJ al livello di confidenza Ð" αÑ. Esempio 6.3.2. I dati della Tavola 6.3.1 riguardano i tempi di sopravvivenza dal momento della diagnosi di 43 pazienti malati di leucemia. 60 I test per un parametro di posizione: un campione e due campioni appaiati Tavola 6.3.1. Tempi di sopravvivenza dei malati di leucemia (in giorni). paziente " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* #! #" ## B3 ( %( &) (% "(( #$# #($ #)& $"( %#* %%! %%& %&& %') %*& %*( &$# &(" &(* &)" '&! (!# paziente #$ #% #& #' #( #) #* $! $" $# $$ $% $& $' $( $) $* %! %" %# %$ B3 ("& ((* ))" *!! *$! *') "!(( ""!* "$"% "$$% "$'( "&$% "("# "()% ")(( "))' #!%& #!&' ##'! #%#* #&!* Fonte: Bryson e Siddiqui (1969) Scelto un livello di confidenza pari a " α œ !Þ*&, si ottiene che 6 œ Ú%$Î# "Þ*&((È%$Î%Û œ Ú"&Þ!)Û œ "&, per cui Ð%*(ß *')Ñ è un intervallo di confidenza della mediana “distribution-free” per grandi campioni su `-ßJ al livello di confidenza del *&%. – 6.4. Il test dei segni per due campioni appaiati. I campioni appaiati si ottengono quando sulle unità campionarie si effettuano misure ripetute. Ad esempio, le misure sulle unità campionarie potrebbero essere fatte prima e dopo un certo trattamento e l'obiettivo potrebbe essere quello di verificare se il trattamento stesso è efficace. Più formalmente, supponiamo che Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ sia un campione casuale proveniente dal vettore di variabili casuali bivariato Ð\ß ] Ñ, dove \ è riferita al pre-trattamento ed ] è riferita al posttrattamento. Supponiamo inoltre che il campione casuale trasformato ÐH" ß H# ß á ß H8 Ñ, dove H3 œ ]3 \3 (3 œ "ß #ß á ß 8), abbia funzione di ripartizione congiunta J8 − `-ßJ . Basandosi sul campione trasformato, la verifica dell'efficacia del trattamento si riduce di conseguenza alla verifica dell'ipotesi L! À - œ !ß J − `, contro una opportuna alternativa e dunque il test dei segni può essere applicato in maniera analoga a quanto visto nella §6.1. Esempio 6.4.1. Su 8 pazienti con anemia cronica grave è stato misurato l'indice di infarto prima e dopo un trattamento medico e i relativi dati sono stati riportati nella Tavola 6.4.1. Per vedere se il trattamento è stato effettivo e quindi per determinare se l'indice di infarto è diminuito, si vuole verificare dunque il sistema di ipotesi L! À - œ !ß J − ` contro L" À - 0ß J − `. Dal momento che per questi dati è immediato verificare che , œ ", per 8 œ ) si ha PrÐF Ÿ "Ñ œ !Þ!$&# e quindi la significatività osservata risulta α9== œ !Þ!$&#. I test per un parametro di posizione: un campione e due campione appaiati 61 Tavola 6.4.1. Indice di infarto dei pazienti con anemia Ðin ml/battito/m# Ñ. paziente prima " "!* # &( $ &$ % &( & ') ' (# ( &" ) '& dopo &' %% && %! '# %' %* %" .3 &$ "$ # "( ' #' # #% D3 ! ! " ! ! ! ! ! Fonte: Bhatia, Manchanda e Roy (1969) Sulla base dell'evidenza empirica si deve dunque concludere che il trattamento è efficace, in quanto si può respingere L! ad ogni livello di significatività α !Þ!$&#. – 6.5. Il test di Wilcoxon. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ . Il test di Wilcoxon è basato sulla statistica 8 [ œ ^3 V3 , 3œ" descritta nell'Esempio 2.5.1, e mediante di esso si può verificare una ipotesi di base del tipo L! À - œ !ß J − f. Ovviamente, la statistica [ è una statistica lineare dei ranghi con segno con i punteggi scelti come +Ð3Ñ œ 3 (3 œ "ß #ß á ß 8). Inoltre, dal Teorema 5.1.2 è immediato verificare che 8 . [ œ 3^3 , 3œ" ovvero la statistica [ è equivalente in distribuzione ad una combinazione lineare di F3Ð"ß "Î#Ñ indipendenti in cui i pesi sono dati da ("ß #ß á ß 8). Se l'ipotesi di base è vera, denotando la funzione di probabilità di [ con :8 ÐAÑ œ PrÐ[ œ AÑ, allora dall'Esempio 2.5.1 si ha :8 ÐAÑ œ #8 -8 ÐAÑ , A œ !ß "ß á ß 8Ð8 "ÑÎ# , dove -8 ÐAÑ rappresenta il numero di sottoinsiemi di interi di Ð"ß #ß á ß 8Ñ la cui somma è A. Sebbene esistano delle relazioni ricorrenti per il calcolo diretto della funzione di probabilità di [ , la distribuzione di questa statistica si ottiene più facilmente attraverso la funzione generatrice delle probabilità. Si noti infatti che dal Teorema 5.1.5 risulta P[ Ð>Ñ œ #8 $ Ð" >3 Ñ , ± > ± " . 8 3œ" Esempio 6.5.1. Per 8 œ $ si ha P[ Ð>Ñ œ #$ Ð" >ÑÐ" ># ÑÐ" >$ Ñ œ " Ð" > ># 2>$ >% >& >'Ñ . ) Poichè le probabilità :$ ÐAÑ corrispondono ai coefficienti del polinomio P[ Ð>Ñ, è immediato ottenere la Tavola 6.5.1. 62 I test per un parametro di posizione: un campione e due campioni appaiati Tavola 6.5.1. Funzione di probabilità di [ per 8 œ $. A :$ ÐAÑ ! "Î) " "Î) # "Î) $ #Î) % "Î) & "Î) ' "Î) – Se l'ipotesi di base è vera, dall'Esempio 5.1.3 si ha EÐ[ Ñ œ " 8Ð8 "Ñ , % e VarÐ[ Ñ œ " 8Ð8 "ÑÐ#8 "Ñ . #% Inoltre, dal Teorema 5.1.4 risulta che [ è simmetrica rispetto a EÐ[ Ñ. Infine, dal Corollario 2.5.5 si ha che la statistica [ è “distribution-free” su f!ßJ e di conseguenza anche il test di Wilcoxon è “distribution-free”. Dal momento che la distribuzione della statistica [ sotto ipotesi di base è specificata, le appropriate regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §5.1. Esempio 6.5.2. Il numero trascendente 1 può essere calcolato mediante simulazione alla seguente maniera. Innanzitutto, si consideri un cerchio di raggio unitario ed il relativo quadrato circoscritto e successivamente si generi uniformemente un certo numero di punti casuali all'interno del quadrato. Ovviamente, la probabilità che un punto cada all'interno del cerchio è data da 1Î%, per cui se : rappresenta la proporzione di punti casuali caduti all'interno del cerchio, allora %: è una stima di 1. Con questa procedura si sono ottenute 10 stime di 1, ognuna basata sulla generazione di 10 000 punti pseudo-casuali, che sono state riportate nella Tavola 6.5.2. Al fine di verificare se si sono ottenute delle stime credibili di 1, si deve dunque verificare il sistema di ipotesi L! À - œ 1 ¶ $Þ"%"'ß J − f contro L" À - Á 1ß J − f. Tavola 6.5.2. Stime di 1. stima " # $ % & ' ( ) * "! B3 $Þ"$%) $Þ"&#! $Þ"$$# $Þ"&%! $Þ"#*) $Þ"%!% $Þ"%!! $Þ"#%! $Þ"$$' $Þ"(%% B3 1 !Þ!!') !Þ!"!% !Þ!!)% !Þ!"#% !Þ!"") !Þ!!"# !Þ!!"' !Þ!"(' !Þ!!)! !Þ!$#) <3 $ ' & ) ( " # * % "! D3 <3 ! ' ! ) ! ! ! ! ! "! Dal momento che per questi dati è immediato verificare che A œ #%, per 8 œ "! si ottiene PrÐ[ Ÿ #%Ñ œ !Þ$)%) e quindi la significatività osservata risulta α9== œ # ‚ !Þ$)%) œ !Þ('*', un valore elevato che porta ad accettare l'ipotesi di base. In particolare si può accettare L! ad ogni livello di significatività α !Þ('*'. – I test per un parametro di posizione: un campione e due campione appaiati 63 Per quanto riguarda la distribuzione per grandi campioni della statistica [ œ [8 , se è vera l'ipotesi di base dall'Esempio 5.3.1 risulta [8 8Ð8 1ÑÎ% . Ä R Ð!ß "Ñ . È8Ð8 "ÑÐ#8 "ÑÎ#% La convergenza della statistica di Wilcoxon è abbastanza veloce anche per campioni moderati (8 #&). Si noti inoltre che le approssimazioni per grandi campioni delle regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §5.3. Esempio 6.5.3. Su un campione di 20 soggetti in sovrappeso (con un peso corporeo superiore a 100 chilogrammi) è stato misurato il livello di colesterolo ottenendo i dati della Tavola 6.5.3. Tavola 6.5.3. Livello di colesterolo Ðin mg per 100 mlÑ. soggetto " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* #! B3 $$% ")& #'$ #%' ##% #"# ")) #&! "%) "'* ##' "(& #%# #&# "&$ ")$ "$( #!# "*% #"$ B3 "*! "%% & ($ &' $% ## # '! %# #" $' "& &# '# $( ( &$ "# % #$ <3 #! $ "* "' "! ) " "( "$ ( "" ' "% ") "# % "& & # * D3 <3 #! ! "* "' "! ) ! "( ! ! "" ! "% ") ! ! ! & # * Fonte: Selvin (1991) Da numerose esperienze cliniche risulta che il livello di colesterolo in una persona sana è di circa 190 mg per 100 ml. Si sospetta che i soggetti in forte sovrappeso abbiano un livello del colesterolo più alto della norma e dunque si vuole quindi verificare il sistema di ipotesi L! À - œ "*!ß J − f contro L" À - "*!ß J − f . Dal momento che per questi dati è immediato verificare che A œ "%*, allora PrÐ[ "%*Ñ ¶ FÒÐ"%* #! ‚ #"Î%ÑÎÈ#! ‚ #" ‚ %"Î#%Ó œ " FÐ"Þ'%#'Ñ œ !Þ!&!" , per cui la significatività osservata risulta α9== ¶ !Þ!&!". L'evidenza empirica sembra confermare che i soggetti in sovrappeso hanno un livello del colesterolo più alto della norma, dal momento che si può respingere L! ad ogni livello di significatività α !Þ!&!". L'approssimazione normale è molto buona, in quanto il valore esatto risulta PrÐ[ "%*Ñ œ !Þ!&#(. – 64 I test per un parametro di posizione: un campione e due campioni appaiati 6.6. Le prestazioni del test di Wilcoxon. Analogamente a quanto fatto nella §6.2 per il test dei segni, è stato confrontato il test di Wilcoxon con il test di Student. Anche in questo caso le potenze dei due test sono state calcolate mediante simulazione per le medesime distribuzioni e numerosità considerate nella §6.2. Inoltre, il test di Wilcoxon è stato casualizzato al fine di ottenere un livello di significatività esattamente pari a α œ !Þ!& per entrambi i test. I risultati della simulazione sono riportati nella Tavola 6.6.1. Da questa tavola è evidente che il test di Wilcoxon dimostra ottime prestazioni rispetto al test di Student per tutte le distribuzioni, anche sotto ipotesi di normalità. Inoltre, confrontando la Tavola 6.6.1 con la Tavola 6.2.1, si nota che il test di Wilcoxon risulta generalmente superiore al test dei segni eccetto che per la distribuzione di Cauchy. Tavola 6.6.1. Potenza del test di Wilcoxon Ðpotenza del test di StudentÑ. distribuzione 0.05 0.#5 Y Ð-"Î#ß "Ñ R Ð-ß "Ñ P9Ð-ß "Ñ I.Ð-ß "Ñ G2Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!%Ñ !Þ!&Ð!Þ!#Ñ Y Ð-"Î#ß "Ñ R Ð-ß "Ñ P9Ð-ß "Ñ I.Ð-ß "Ñ G2Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!#Ñ Y Ð-"Î#ß "Ñ R Ð-ß "Ñ P9Ð-ß "Ñ I.Ð-ß "Ñ G2Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!&Ñ !Þ!&Ð!Þ!#Ñ 0.%5 8œ& !Þ!*Ð!Þ"!Ñ !Þ"%Ð!Þ"'Ñ !Þ"!Ð!Þ""Ñ !Þ"(Ð!Þ"*Ñ !Þ""Ð!Þ""Ñ !Þ#!Ð!Þ#!Ñ !Þ"$Ð!Þ"#Ñ !Þ#'Ð!Þ#$Ñ !Þ"#Ð!Þ!(Ñ !Þ##Ð!Þ"&Ñ 8 œ "! !Þ"$Ð!Þ"$Ñ !Þ#)Ð!Þ#)Ñ !Þ"%Ð!Þ"&Ñ !Þ$"Ð!Þ$#Ñ !Þ"'Ð!Þ"&Ñ !Þ$&Ð!Þ$$Ñ !Þ"*Ð!Þ"'Ñ !Þ%"Ð!Þ$'Ñ !Þ"'Ð!Þ!*Ñ !Þ$#Ð!Þ")Ñ 8 œ "& !Þ"(Ð!Þ"(Ñ !Þ$(Ð!Þ%"Ñ !Þ")Ð!Þ")Ñ !Þ%#Ð!Þ%%Ñ !Þ#!Ð!Þ")Ñ !Þ%&Ð!Þ%&Ñ !Þ#%Ð!Þ#!Ñ !Þ&#Ð!Þ%(Ñ !Þ"*Ð!Þ!*Ñ !Þ%!Ð!Þ#!Ñ 0.'5 0.)5 !Þ##Ð!Þ#&Ñ !Þ$#Ð!Þ$(Ñ !Þ#*Ð!Þ$!Ñ !Þ%#Ð!Þ%$Ñ !Þ$#Ð!Þ$$Ñ !Þ%'Ð!Þ%)Ñ !Þ$*Ð!Þ$)Ñ !Þ&"Ð!Þ&#Ñ !Þ$$Ð!Þ#%Ñ !Þ%#Ð!Þ$$Ñ !Þ%'Ð!Þ&#Ñ !Þ&#Ð!Þ&&Ñ !Þ&'Ð!Þ&'Ñ !Þ'#Ð!Þ&*Ñ !Þ%'Ð!Þ#*Ñ !Þ')Ð!Þ(%Ñ !Þ($Ð!Þ('Ñ !Þ((Ð!Þ((Ñ !Þ)!Ð!Þ()Ñ !Þ&)Ð!Þ$*Ñ !Þ'%Ð!Þ(!Ñ !Þ(!Ð!Þ("Ñ !Þ($Ð!Þ(#Ñ !Þ()Ð!Þ($Ñ !Þ'!Ð!Þ$!Ñ !Þ)&Ð!Þ*"Ñ !Þ)*Ð!Þ*!Ñ !Þ*!Ð!Þ*!Ñ !Þ*$Ð!Þ)*Ñ !Þ($Ð!Þ%"Ñ Per quanto riguarda le prestazioni per grandi campioni del test di Wilcoxon, dall'Esempio 5.3.3 si ha che eff [ œ #È $ ( ∞ 0 ÐBÑ# .B , ∞ per cui l'efficienza asintotica relativa del test di Wilcoxon rispetto al test di Student risulta EAR[ ßX œ "#5 Ò( # ∞ 0 ÐBÑ# .BÓ# . ∞ La Tavola 6.6.2 fornisce i valori dell'efficienza asintotica relativa EAR[ ßX per alcune distribuzioni. Tavola 6.6.2. EAR del test di Wilcoxon rispetto al test di Student. distribuzione EAR[ ßX Y Ð- ß $ Ñ " R Ð.ß 5 # Ñ $Î1 ¶ !Þ*&%* 1# Î* ¶ "Þ!*'' P9Ð-ß $ Ñ I.Ð.ß $ Ñ $Î# œ "Þ& G2Ð-ß $ Ñ ∞ I test per un parametro di posizione: un campione e due campione appaiati 65 Anche per grandi campioni il test di Wilcoxon dimostra ottime prestazioni per tutte le distribuzioni considerate. In generale Noether (1967) ha provato che EAR[ ßX "!&Î"#& ¶ !Þ)'% quando la variabile casuale in oggetto di studio è distribuita in modo simmetrico. Si noti infine che l'efficienza asintotica relativa del test di Wilcoxon rispetto al test dei segni risulta EAR[ ßF œ ∞ $ Ò 0 ÐBÑ# .BÓ# . ( 0 Ð!Ñ# ∞ La Tavola 6.6.3 fornisce i valori dell'efficienza asintotica relativa EAR[ ßF per alcune distribuzioni. Anche per grandi campioni il test dei segni fornisce prestazioni buone per distribuzioni a code pesanti, mentre risulta molto meno efficiente per distribuzionia code leggere. Tavola 6.6.3. EAR del test di Wilcoxon rispetto al test dei segni. distribuzione EAR[ ßF Y Ð- ß $ Ñ $ R Ð.ß 5 # Ñ $Î# œ "Þ& P9Ð-ß $ Ñ %Î$ ¶ "Þ$$$$ I.Ð.ß $ Ñ $Î% œ !Þ(& G2Ð-ß $ Ñ $Î% œ !Þ(& 6.7. Il test di Wilcoxon e gli intervalli di confidenza per la mediana. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − f-ßJ , allora è possibile costruire mediante il test dei segni un intervallo di confidenza per la mediana - “distributionfree” su f-ßJ . Analogamente all'Esempio 4.1.2, si denoti le medie di Walsh relative al campione casuale con Ð[" ß [# ß á ß [5 Ñ, dove 5 œ 8Ð8 "ÑÎ#. Se Ð[Ð"Ñ ß [Ð#Ñ ß á ß [Ð5Ñ Ñ è la statistica ordinata relativa alle medie di Walsh, allora Ð[ÐA8ßαÎ# "Ñ ß [Ð5A8ßαÎ# Ñ Ñ è un intervallo di confidenza della mediana “distribution-free” su f-ßJ al livello di confidenza Ð" αÑ. Esempio 6.7.1. Su un campione di cinque regioni italiane è stata considerata l'età media delle donne alla nascita del primogenito e si sono ottenuti i dati della Tavola 6.7.1. Tavola 6.7.1. Età media della madre alla nascita del primogenito Ðin anniÑ. regione Sicilia Toscana Liguria Lombardia Puglia B3 #&Þ" #(Þ( #)Þ$ #(Þ& #&Þ( Fonte: “Repubblica” del 4 novembre 1995, inserto Salute Vi sono & ‚ 'Î# œ "& medie di Walsh e il relativo vettore ordinato risulta Ð#&Þ"ß #&Þ%ß #&Þ(ß #'Þ$ß #'Þ%ß #'Þ'ß #'Þ(ß #'Þ(ß #(Þ!ß #(Þ&ß #(Þ'ß #(Þ(ß #(Þ*ß #)Þ!ß #)Þ$Ñ . Dal momento che si ha PrÐ[ Ÿ "Ñ œ !Þ!'#& per 8 œ &, allora si può scegliere un livello di confidenza naturale pari a " α œ " # ‚ !Þ!'#& œ !Þ)(&. Dunque si deve concludere che 66 I test per un parametro di posizione: un campione e due campioni appaiati Ð#&Þ%ß #)Þ!Ñ è un intervallo di confidenza “distribution-free” su f-ßJ per la mediana al livello di confidenza del )(Þ&%. – Alternativamente, quando la numerosità campionaria è elevata, con un procedimento del tutto analogo a quello dell'Esempio 4.2.3, si ha che Ð[Ð6"Ñ ß [Ð56Ñ Ñ, dove 6 œ Ú8Ð8 "ÑÎ% D"αÎ# È8Ð8 "ÑÐ#8 "ÑÎ#%Û, è un intervallo di confidenza della mediana “distribution-free” per grandi campioni su f-ßJ al livello di confidenza Ð" αÑ. 6.8. Il test di Wilcoxon per due campioni appaiati. Analogamente a quanto fatto per il test dei segni, quando si dispone di un campione casuale di osservazioni appaiate Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ si può considerare il campione casuale trasformato ÐH" ß H# ß á ß H8 Ñ, dove H3 œ ]3 \3 (3 œ "ß #ß á ß 8), con funzione di ripartizione congiunta J8 − f-ßJ . Basandosi sul campione trasformato, si vuole verificare dunque l'ipotesi L! À - œ !ß J − f contro una opportuna alternativa e di conseguenza il test di Wilcoxon può essere applicato in maniera analoga a quanto visto nella §6.4. Esempio 6.8.1. Sono stati considerati 15 coppie di semi della medesima età, di cui uno prodotto con fecondazione incrociata e l'altro con auto-fecondazione, e le piante relative ad ogni coppia sono state cresciute vicine nelle medesime condizioni ambientali. Tavola 6.8.1. Altezze delle piante (pollici). coppia " # $ % & ' ( ) * "! "" "# "$ "% "& incrociata #$Þ& "#Þ! #"Þ! ##Þ! "*Þ" #"Þ& ##Þ" #!Þ% ")Þ$ #"Þ' #$Þ$ #"Þ! ##Þ" #$Þ! "#Þ! auto "(Þ% #!Þ% #!Þ! #!Þ! ")Þ% ")Þ' ")Þ' "&Þ$ "'Þ& ")Þ! "'Þ$ ")Þ! "#Þ) "&Þ& ")Þ! .3 'Þ" )Þ% "Þ! #Þ! !Þ( #Þ* $Þ& &Þ" "Þ) $Þ' (Þ! $Þ! *Þ$ (Þ& 'Þ! <3 "" "% # % " & ( * $ ) "# ' "& "$ "! D3 <3 "" ! # % " & ( * $ ) "# ' "& "$ ! Fonte: Darwin (1876) La Tavola 6.8.1 riporta le altezze finale delle coppie di piante ottenute in questo modo dopo un periodo fissato di tempo. Al fine di determinare se la fecondazione incrociata risulta più efficace dell'auto-fecondazione, si vuole verificare dunque il sistema di ipotesi L! À - œ !ß J − f contro L" À - !ß J − f . Dal momento che per questi dati si ottiene A œ *', allora per 8 œ "& si ha PrÐ[ *'Ñ œ !Þ!#!' e quindi la significatività osservata risulta α9== œ !Þ!#!'. Si deve dunque concludere che la fecondazione incrociata è più efficace dell'auto-fecondazione, in quanto si può respingere L! ad ogni livello di significatività α !Þ!#!'. – Capitolo 7 I test basati su statistiche lineari dei ranghi 7.1. Le statistiche lineari dei ranghi. Una classe molto generale di statistiche “distributionfree” può essere definita nella seguente maniera. Definizione 7.1.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − VJ e sia ÐV" ß V# ß á ß V8 Ñ il relativo vettore dei ranghi. Una statistica del tipo 8 X œ -Ð3Ñ+ÐV3 Ñ , 3œ" è detta statistica lineare dei ranghi, mentre le costanti +Ð"Ñß +Ð#Ñß á ß +Ð8Ñ e -Ð"Ñß -Ð#Ñß á ß -Ð8Ñ sono dette rispettivamente punteggi e costanti di regressione. ˜ Si noti che in base al Corollario 2.4.6 la statistica X è “distribution-free” sulla classe VJ . Ovviamente, differenti scelte dei punteggi e delle costanti di regressione consentono di costruire statistiche test per una vasta gamma di sistemi di ipotesi, come sarà evidenziato nel seguito. Esempio 7.1.1. Se Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ sono campioni casuali indipendenti provenienti dalla stessa variabile casuale continua e se 8 œ 8" 8# , allora il campione misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ . Di conseguenza, se ÐV" ß V# ß á ß V8" Ñ sono i ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ e se ÐV8" " ß V8" # ß á ß V8 Ñ sono i ranghi assegnati a Ð]" ß ]# ß á ß ]8# Ñ nel campione misto, con la seguente scelta delle costanti di regressione -Ð3Ñ œ œ " ! 3 œ "ß #ß á ß 8" 3 œ 8" "ß á ß 8 si ottiene la statistica 8" 8 X œ -Ð3Ñ+ÐV3 Ñ œ 3œ" +ÐV3 Ñ , 3œ" che ovviamente rappresenta la somma dei punteggi assegnati a Ð\" ß \# ß á ß \8" Ñ. In particolare, se i punteggi sono scelti come +Ð3Ñ œ 3 (3 œ "ß #ß á ß 8), allora si ottiene la cosiddetta statistica di Mann-Whitney-Wilcoxon, ovvero 8" [ œ V3 , 3œ" 68 I test basati su statistiche lineari dei ranghi che fornisce la somma dei ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ. Se i punteggi sono scelti invece come +Ð3Ñ œ œ " ! 3 Ú8Î#Û , 3 œ "ß #ß á ß 8 , 3 Ÿ Ú8Î#Û allora si ottiene la statistica 8" Pœ +ÐV3 Ñ , 3œ" che fornisce il numero di Ð\" ß \# ß á ß \8" Ñ maggiori della mediana del campione misto. Per questo motivo P è detta statistica della mediana. – Il seguente risultato preliminare è utile nella determinazione della media e della varianza di una statistica lineare dei ranghi. Lemma 7.1.2. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , allora VarÒ+ÐV3 ÑÓ œ =#+ œ 8 " 8 –œ EÒ+ÐV3 ÑÓ œ + " 8 +Ð<Ñ , 3 œ "ß #ß á ß 8 , <œ" 8 – # , 3 œ "ß #ß á ß 8 , Ò+Ð<Ñ +Ó <œ" CovÒ+ÐV3 Ñß +ÐV4 ÑÓ œ " =# , 3 Á 4 œ "ß #ß á ß 8 . 8" + Dimostrazione. Dal Corollario 2.4.4 si ottiene 8 " EÒ+ÐV3 ÑÓ œ +Ð<ÑPrÐV3 œ <Ñ œ 8 <œ" 8 – , 3 œ "ß #ß á ß 8 , +Ð<Ñ œ + <œ" e 8 VarÒ+ÐV3 ÑÓ œ – # PrÐV3 œ <Ñ œ Ò+Ð<Ñ +Ó <œ" " œ 8 8 – # œ =# , 3 œ "ß #ß á ß 8 . Ò+Ð<Ñ +Ó + <œ" Di nuovo dal Corollario 2.4.4 si ottiene 8 CovÒ+ÐV3 Ñß +ÐV4 ÑÓ œ 8 – – PrÐV3 œ <ß V4 œ =Ñ œ Ò+Ð<Ñ +ÓÒ+Ð=Ñ +Ó <œ" =Á<œ" I test basati su statistiche linearti dei ranghi 8 " œ 8Ð8 "Ñ œ œ 8 69 – – œ Ò+Ð<Ñ +ÓÒ+Ð=Ñ +Ó <œ" =Á<œ" 8 " – # ÖÐ Ò+Ð<Ñ +ÓÑ 8Ð8 "Ñ <œ" " 8Ð8 "Ñ 8 –#œ Ò+Ð<Ñ +Ó <œ" 8 – #× œ Ò+Ð<Ñ +Ó <œ" " =# , 3 Á 4 œ "ß #ß á ß 8 . 8" + Il seguente teorema fornisce la media e la varianza di una statistica lineare dei ranghi. Teorema 7.1.3. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , per una statistica lineare dei ranghi X risulta – –EÐX Ñ œ 8+ e 8# =#+ =-# , 8" VarÐX Ñ œ dove –- œ " 8 8 -Ð3Ñ 3œ" e =#- œ 8 " 8 Ò-Ð3Ñ –-Ó# . 3œ" Dimostrazione. Tenendo presente il Lemma 7.1.2 si ha 8 EÐX Ñ œ 8 – -Ð3ÑEÒ+ÐV3 ÑÓ œ + 3œ" – –-Ð3Ñ œ 8+ 3œ" e 8 8 8 -Ð3Ñ# VarÒ+ÐV3 ÑÓ VarÐX Ñ œ 3œ" 8 œ =#+ " -Ð3Ñ =# 8" + 8 8 # 3œ" œ -Ð3Ñ-Ð4ÑCovÒ+ÐV3 Ñß +ÐV4 ÑÓ œ 3œ" 4Á3œ" " =# ÒÐ8 "Ñ 8" + -Ð3Ñ-Ð4Ñ œ 3œ" 4Á3œ" 8 8 8 -Ð3Ñ# 3œ" -Ð3Ñ-Ð4ÑÓ œ 3œ" 4Á3œ" 70 I test basati su statistiche lineari dei ranghi 8 " œ =#+ Ö8 8" 8# " œ =#+ Ö 8" 8 8 # -Ð3ÑÓ# × œ -Ð3Ñ Ò 3œ" 8 3œ" Ò-Ð3Ñ –-Ó# × œ 3œ" 8# =+# =-# . 8" Esempio 7.1.2. Si consideri la statistica [ dell'Esempio 7.1.1. Dal momento che –œ " + 8 8 <œ <œ" " Ð8 "Ñ # e –- œ " 8 8" "œ 3œ" 8" , 8 dal Teorema 7.1.3 si ottiene – –- œ " 8" Ð8 "Ñ . EÐ[ Ñ œ 8+ # Inoltre, risulta =#+ " œ 8 œ 8 " " Ò< Ð8 "ÑÓ# œ # 8 <œ" 8 <# <œ" " Ð8 "Ñ# œ % " " " Ð8 "ÑÐ#8 "Ñ Ð8 "Ñ# œ Ð8# "Ñ ' % "# e =#- œ " 8 8" " 3œ" 8#" 8" Ð8 8" Ñ 8" 8# œ œ , # # 8 8 8# da cui VarÐ[ Ñ œ 8# " =#+ =-# œ 8" 8# Ð8 "Ñ . 8" "# Esempio 7.1.3. Si consideri la statistica P dell'Esempio 7.1.1. Dal momento che –œ " + 8 Ú8Î#Û "œ <œ" Ú8Î#Û 8 e =#+ " œ 8 Ú8Î#Û " <œ" Ú8Î#Û# Ú8Î#ÛÐ8 Ú8Î#ÛÑ œ , # 8 8# mentre –- e =#- sono stati ottenuti nell'Esempio 7.1.2, allora dal Teorema 7.1.3 si ottiene – I test basati su statistiche linearti dei ranghi 71 – –- œ 8" Ú8Î#Û EÐPÑ œ 8+ 8 e VarÐPÑ œ 8# 8" 8# Ú8Î#ÛÐ8 Ú8Î#ÛÑ =#+ =-# œ . 8" 8# Ð8 "Ñ Nel caso particolare che 8 sia pari, allora risulta EÐPÑ œ 8" # e VarÐPÑ œ 8" 8 # . %Ð8 "Ñ – Il seguente risultato preliminare viene impiegato per ottenere importanti equivalenze in distribuzione per le statistiche lineari dei ranghi. Lemma 7.1.4. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale con funzione di ripartizione congiunta J8 − VJ . Se ÐV" ß V# ß á ß V8 Ñ è il vettore dei ranghi e se ÐY" ß Y# ß á ß Y8 ÑÀ e8 Ä e8 è un vettore di trasformate biunivoche tali che ÐY" ÐV" ß V# ß á ß V8 Ñß Y# ÐV" ß V# ß á ß V8 Ñá ß Y8 ÐV" ß V# ß á ß V8 ÑÑ, allora si ha PrÐY" œ ?" ß Y# œ ?# ß á ß Y8 œ ?8 Ñ œ " , Ð?" ß ?# ß á ß ?8 Ñ − e8 . 8x Dimostrazione. Dal momento che ad ogni Ð?" ß ?# ß á ß ?8 Ñ corrisponde Ð<" ß <# ß á ß <8 Ñ − e8 , dove <3 œ X3" Ð?" ß ?# ß á ß ?8 Ñ (3 œ "ß #ß á ß 8), allora PrÐY" œ ?" ß Y# œ ?# ß á ß Y8 œ ?8 Ñ œ PrÐV" œ <" ß V# œ <# ß á ß V8 œ <8 Ñ œ un " . 8x Dal momento che questa relazione è valida per ogni Ð?" ß ?# ß á ß ?8 Ñ − e8 , il teorema è dimostrato. Teorema 7.1.5. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , per una statistica lineare dei ranghi X si ha 8 8 . -Ð3Ñ+ÐV3 Ñ œ X œ 3œ" +Ð3Ñ-ÐV3 Ñ . 3œ" Dimostrazione. Si consideri il vettore di trasformate ÐY" ß Y# ß á ß Y8 Ñ, tale che Y3 rappresenta la posizione di 3 nel vettore ÐV" ß V# ß á ß V8 Ñ. Ovviamente, per il vettore . ÐY" ß Y# ß á ß Y8 Ñ valgono le condizioni del Lemma 7.1.4 e quindi si ha ÐY" ß Y# ß á ß Y8 Ñ œ ÐV" ß V# ß á ß V8 Ñ, da cui 8 X œ 8 -Ð3Ñ+ÐV3 Ñ œ 3œ" 8 . +Ð3Ñ-ÐY3 Ñ œ 3œ" +Ð3Ñ-ÐV3 Ñ . 3œ" Teorema 7.1.6. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ e se inoltre Ö- w Ð"Ñß - w Ð#Ñß á ß - w Ð8Ñ× e Ö+w Ð"Ñß +w Ð#Ñß á ß +w Ð8Ñ× sono 72 I test basati su statistiche lineari dei ranghi permutazioni di Ö-Ð"Ñß -Ð#Ñß á ß -Ð8Ñ× e Ö+Ð"Ñß +Ð#Ñß á ß +Ð8Ñ× rispettivamente, per una statistica lineare dei ranghi X si ha 8 8 . X œ - w Ð3Ñ+w ÐV3 Ñ . -Ð3Ñ+ÐV3 Ñ œ 3œ" 3œ" Dimostrazione. Sia α3 la posizione di - w Ð3Ñ nella permutazione Ö-Ð"Ñß -Ð#Ñß á ß -Ð8Ñ× e sia "3 la posizione di +w Ð3Ñ nella permutazione Ö+Ð"Ñß +Ð#Ñß á ß +Ð8Ñ×. Di conseguenza, si ha che Ö-Ðα" Ñß -Ðα# Ñß á ß -Ðα8 Ñ× œ Ö- w Ð"Ñß - w Ð#Ñß á ß - w Ð8Ñ× e che Ö+Ð"" Ñß +Ð"#Ñß á ß +Ð"8Ñ× œ Ö+w Ð"Ñß +w Ð#Ñß á ß +w Ð8Ñ×, per cui 8 8 - w Ð3Ñ+w ÐV3 Ñ œ 3œ" -Ðα3 Ñ+Ð"V3 Ñ . 3œ" Dal momento che per il vettore Ð"V" ß "V# ß á ß "V8 Ñ valgono le condizioni del Lemma 7.1.4, . allora si ottiene Ð"V" ß "V# ß á ß "V8 Ñ œ ÐV" ß V# ß á ß V8 Ñ, da cui 8 8 . -Ðα3 Ñ+Ð"V3 Ñ œ 3œ" -Ðα3 Ñ+ÐV3 Ñ . 3œ" Se ora #3 rappresenta la posizione di 3 nella permutazione Ðα" ß α# ß á ß α8 Ñ, si ottiene 8 8 -Ðα3 Ñ+ÐV3 Ñ œ 3œ" -Ð3Ñ+ÐV#3 Ñ . 3œ" Dal momento che per il vettore ÐV#" ß V## ß á ß V#8 Ñ valgono le condizioni del Teorema 7.1.4, . allora si ha ÐV#" ß V## ß á ß V#8 Ñ œ ÐV" ß V# ß á ß V8 Ñ, da cui 8 8 . -Ð3Ñ+ÐV#3 Ñ œ 3œ" -Ð3Ñ+ÐV3 Ñ . 3œ" Si deve dunque concludere che 8 8 3œ" 8 . -Ðα3 Ñ+ÐV3 Ñ œ . - w Ð3Ñ+w ÐV3 Ñ œ 3œ" -Ð3Ñ+ÐV3 Ñ œ X . 3œ" Il seguente teorema fornisce le condizioni per cui una statistica lineare dei ranghi possiede una distribuzione simmetrica rispetto alla media. Teorema 7.1.7. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ e se - ‡ Ð"Ñ Ÿ - ‡ Ð#Ñ Ÿ á Ÿ - ‡ Ð8Ñ e +‡ Ð"Ñ Ÿ +‡ Ð#Ñ Ÿ á Ÿ +‡ Ð8Ñ rappresentano rispettivamente i valori ordinati di -Ð"Ñß -Ð#Ñß á ß -Ð8Ñ e +Ð"Ñß +Ð#Ñß á ß +Ð8Ñ, – –- se allora una statistica lineare dei ranghi X è simmetrica rispetto a EÐX Ñ œ 8+ +‡ Ð3Ñ +‡ Ð8 " 3Ñ œ 5 , 3 œ "ß #ß á ß 8 , o - ‡ Ð3Ñ - ‡ Ð8 " 3Ñ œ 5 , 3 œ "ß #ß á ß 8 , con 5 costante. I test basati su statistiche linearti dei ranghi 73 Dimostrazione. Si dimostra il teorema per la prima condizione. Se si assume vere le 8 relazioni, sommando e dividendo per 8 si ha " 5œ 8 " œ 8 8 3œ" " +Ð3Ñ 8 8 " + Ð3Ñ 8 8 ‡ 3œ" 8 3œ" +‡ Ð8 " 3Ñ œ 3œ" " +Ð8 " 3Ñ œ 8 8 3œ" " +Ð3Ñ 8 8 –. +Ð3Ñ œ #+ 3œ" Sostituendo il valore ottenuto per 5 nelle relazioni originali si ha quindi – œ +‡ Ð3Ñ +‡ Ð8 " 3Ñ , 3 œ "ß #ß á ß 8 , #+ ovvero –œ+ – +‡ Ð8 " 3Ñ , 3 œ "ß #ß á ß 8 . +‡ Ð3Ñ + Data ora la statistica lineare dei ranghi 8 ‡ -Ð3Ñ+‡ ÐV3 Ñ , X œ 3œ" . per il Teorema 7.1.6 si ha X ‡ œ X . Tenendo presente questa equivalenza in distribuzione, – –- . Si noti allora è sufficiente dimostrare che X ‡ è simmetrica rispetto a EÐX Ñ œ EÐX ‡ Ñ œ 8+ che dalla relazione ottenuta in precedenza si ottiene – –- œ X 8+ 8 ‡ – œ -Ð3ÑÒ+ ÐV3 Ñ +Ó 8 – +‡ Ð8 " V3 ÑÓ . -Ð3ÑÒ+ ‡ 3œ" 3œ" Dal momento che per il Lemma 7.1.4 si ha . Ð8 " V" ß 8 " V# ß á ß 8 " V8 Ñ œ ÐV" ß V# ß á ß V8 Ñ , allora – –- œ X ‡ 8+ 8 3œ" . – +‡ Ð8 " V3 ÑÓ œ -Ð3ÑÒ+ 8 – + ‡ ÐV3 ÑÓ œ 8+– –- X ‡ , -Ð3ÑÒ+ 3œ" –– . La dimostrazione della ovvero per il Teorema 1.2.2 si ha che X ‡ è simmetrica rispetto a 8+seconda condizione segue immediatamente dal Teorema 7.1.5 mediante la stessa dimostrazione della prima condizione. Esempio 7.1.4. Si consideri la scelta di costanti di regressione dell'Esempio 7.1.1 e si supponga 8" œ 8# . Dal momento che è immediato verificare che - ‡ Ð3Ñ œ -Ð8 " 3Ñ (3 œ "ß #ß á ß 8), allora risulta - ‡ Ð3Ñ - ‡ Ð8 " 3Ñ œ " , 3 œ "ß #ß á ß 8 , ovvero dal Teorema 7.1.7 si ottiene che la relativa statistica lineare dei ranghi X è simmetrica. – 74 I test basati su statistiche lineari dei ranghi Esempio 7.1.5. Si consideri la statistica [ dell'Esempio 7.1.1. Dal momento che è immediato verificare che +‡ Ð3Ñ œ +Ð3Ñ œ 3 (3 œ "ß #ß á ß 8), risulta +‡ Ð3Ñ +‡ Ð8 " 3Ñ œ 3 8 " 3 œ 8 " , 3 œ "ß #ß á ß 8 , per cui dal Teorema 7.1.7 e tenendo presente l'Esempio 7.1.2, si ha che [ è simmetrica rispetto a EÐ[ Ñ œ 8" Ð8 "ÑÎ#. – Esempio 7.1.6. Si consideri la statistica P dell'Esempio 7.1.1 e si supponga che 8 sia pari. Dal momento che è immediato verificare che +‡ Ð3Ñ œ +Ð3Ñ (3 œ "ß #ß á ß 8), risulta +‡ Ð3Ñ +‡ Ð8 " 3Ñ œ " , 3 œ "ß #ß á ß 8 , per cui dal Teorema 7.1.7 e tenendo presente l'Esempio 7.1.3, si ha che P è simmetrica rispetto a EÐPÑ œ 8" Î#. – 7.2. La distribuzione per grandi campioni delle statistiche lineari dei ranghi. In questa sezione vengono discusse le proprietà delle statistiche lineari dei ranghi per grandi campioni. Definizione 7.2.1. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , allora data una statistica lineare dei ranghi 8 X œ X8 œ -8 Ð3Ñ+8 ÐV3 Ñ , 3œ" si dice che le costanti di regressione -8 Ð"Ñß -8 Ð#Ñß á ß -8 Ð8Ñ soddisfano alla condizione di Noether se lim 8Ä∞ 8 3œ" Ò-8 Ð3Ñ –- 8 Ó# œ∞, max Ò-8 Ð3Ñ –- 8 Ó# "Ÿ3Ÿ8 dove –- 8 œ " 8 8 -8 Ð3Ñ . ˜ 3œ" Esempio 7.2.1. Si consideri le costanti di regressione definite nell'Esempio 7.1.1. Dal momento che –- 8 œ 8" Î8, si ha 8 3œ" Ò-8 Ð3Ñ –- 8 Ó# œ 8 3œ" – # œ 8" 8 # . -8 Ð3Ñ# 88 8 Inoltre – # ß Ð" –- 8 Ñ# Ó œ " maxÐ8# ß 8# Ñ œ " ÒmaxÐ8" ß 8# ÑÓ# , max Ò-8 Ð3Ñ –- 8 Ó# œ maxÒ8 " # "Ÿ3Ÿ8 8# 8# per cui 8 3œ" Ò-8 Ð3Ñ –- 8 Ó# 8" 8 # 8 minÐ8" ß 8# Ñ œ œ8 , – # # max Ò-8 Ð3Ñ - 8 Ó ÒmaxÐ8" ß 8# ÑÓ maxÐ8" ß 8# Ñ "Ÿ3Ÿ8 ovvero la condizione di Noether è soddisfatta quando 8" ß 8# Ä ∞ contemporaneamente. – I test basati su statistiche linearti dei ranghi 75 Nel seguente teorema si ottiene la distribuzione per grandi campioni delle statistiche lineari dei ranghi. Teorema 7.2.2. Si consideri punteggi tali che +8 Ð3Ñ œ 9Ò3ÎÐ8 "ÑÓ , 3 œ "ß #ß á ß 8 , dove 9 è una funzione punteggio esprimibile come differenza di due funzioni non decrescenti che non dipende da 8 per cui – ! ( Ò9Ð?Ñ 9Ó# .? ∞ , " ! – dove 9 œ ë!" 9Ð?Ñ .?. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , allora per una statistica lineare dei ranghi 8 X8 œ -8 Ð3Ñ+8 ÐV3 Ñ , 3œ" le cui costanti di regressione soddisfano la condizione di Noether, si ha X8 EÐX8 Ñ . Ä R Ð!ß "Ñ , ÈVarÐX8 Ñ dove EÐX8 Ñ e VarÐX8 Ñ sono definite nel Teorema 7.1.3. ´ e Šidak ´ (1967). Dimostrazione. Vedi Hajek Si noti che se si considera la statistica X8w i cui punteggi sono dati da +8w Ð3Ñ œ ,8 9Ò3ÎÐ8 "ÑÓ .8 œ ,8 +8 Ð3Ñ .8 , 3 œ "ß #ß á ß 8 , – 8 .8 con allora risulta X8w œ ,8 X8 8– 8 .8 EÐX8w Ñ œ ,8 EÐX8 Ñ 8e VarÐX8w Ñ œ ,8# VarÐX8 Ñ . Di conseguenza, si ha – 8 .8 ,8 EÐX8 Ñ 8– 8 .8 X8w EÐX8w Ñ ,8 X8 8X8 EÐX8 Ñ œ œ , ÈVarÐX8w Ñ È,8# VarÐX8 Ñ ÈVarÐX8 Ñ da cui segue evidentemente che X8 e X8w hanno le medesime proprietà per grandi campioni. Dunque, le costanti ,8 e .8 non influenzano il comportamento per grandi campioni della statistica dei ranghi, mentre la scelta della funzione punteggio 9 è determinante sotto questo punto di vista. Esempio 7.2.2. Si consideri la statistica [ œ [8 di Mann-Whitney-Wilcoxon. Dall'Esempio 7.2.1 è noto che le relative costanti di regressione soddisfano alla condizione di Noether. Inoltre, al fine di determinare la distribuzione per grandi campioni di [8 è conveniente considerare la statistica X8 œ ,8 [8 con ,8 œ "ÎÐ8 "Ñ che ha le medesime proprietà per grandi campioni della statistica [8 . La funzione punteggio relativa alla statistica X8 , data da 76 I test basati su statistiche lineari dei ranghi 9Ð?Ñ œ ?IÒ!ß"Ó Ð?Ñ, può essere ovviamente espressa come differenza di due funzioni non decrescenti. Inoltre, risulta " " " –# # ∞. ( Ò9Ð?Ñ 9Ó .? œ ( Ð? "Î#Ñ .? œ "# ! ! Dunque, tutte le condizioni del Teorema 7.2.2 sono soddisfatte. Quindi, tenendo presente anche l'Esempio 7.1.2, si ha [8 EÐ[8 Ñ [8 8" Ð8 "ÑÎ# . œ Ä R Ð!ß "Ñ . ÈVarÐ[8 Ñ È8" 8# Ð8 "ÑÎ"# – Esempio 7.2.3. Si consideri la statistica P œ P8 della mediana. Dall'Esempio 7.2.1 è noto che le relative costanti di regressione soddisfano alla condizione di Noether. La funzione punteggio della statistica P8 , data da 9Ð?Ñ œ IÒ"Î#ß"Ó Ð?Ñ, può essere ovviamente espressa come differenza di due funzioni non decrescenti. Inoltre, risulta –# ( Ò9Ð?Ñ 9Ó .? œ ( " ! "Î# ! Ð"Î#Ñ# .? ( " "Î# Ð" "Î#Ñ# .? œ " ∞. % Dunque, tutte le condizioni del Teorema 7.2.2 sono soddisfatte. Quindi, tenendo presente anche l'Esempio 7.1.3, dal Teorema 7.2.2 si ottiene P8 EÐP8 Ñ P8 8" Ú8Î#ÛÎ8 . œ Ä R Ð!ß "Ñ . ÈVarÐP8 Ñ È8" 8# Ú8Î#ÛÐ8 Ú8Î#ÛÑÎÒ8# Ð8 "ÑÓ – Capitolo 8 I test per i parametri di posizione: due campioni indipendenti 8.1. Le statistiche lineari dei ranghi per i parametri di posizione. Si consideri due campioni casuali indipendenti Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ e supponiamo che il campione misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ abbia funzione di ripartizione congiunta J8 − _JßJ , dove 8 œ 8" 8# . Dalla definizione della classe _JßJ si noti che in questo caso il parametro J rappresenta in effetti la differenza fra i parametri di posizione relativi alle variabili casuali da cui provengono i due campioni. Risulta interessante dunque verificare il sistema di ipotesi L! À J œ !ß J − V Ðovvero l'omogeneità dei parametri di posizioneÑ contro un'alternativa bilaterale L" À J Á !ß J − V o direzionale L" À J ! ÐJ !Ñß J − V. Una classe di statistiche test “distribution-free” opportuna in questo sistema di ipotesi è definita di seguito. Definizione 8.1.1. Siano Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ due campioni casuali indipendenti, tali che il campione misto abbia funzione di ripartizione congiunta J8 − _!ßJ , dove 8 œ 8" 8# . Siano inoltre ÐV" ß V# ß á ß V8" Ñ i ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ e siano ÐV8" " ß V8" # ß á ß V8 Ñ i ranghi assegnati a Ð]" ß ]# ß á ß ]8# Ñ nel campione misto. Se le costanti di regressione nella Definizione 7.1.1 sono date da -Ð3Ñ œ œ " ! 3 œ "ß #ß á ß 8" 3 œ 8" "ß á ß 8 e i punteggi +Ð3Ñ (3 œ "ß #ß á ß 8) sono tali che ! Ÿ +Ð"Ñ Ÿ +Ð#Ñ Ÿ á Ÿ +Ð8Ñ , +Ð"Ñ Á +Ð8Ñ , allora una statistica del tipo 8" 8 X œ -Ð3Ñ+ÐV3 Ñ œ 3œ" +ÐV3 Ñ 3œ" è detta statistica lineare dei ranghi per i parametri di posizione. ˜ Si noti che per il Corollario 2.4.6 sotto ipotesi di base la statistica X è “distribution-free” sulla classe _!ßJ œ VJ . La statistica X è sensibile a variazioni nel parametro J, in quanto se non è vera l'ipotesi di base X tende ad assumere valori piccoli o elevati. Esempio 8.1.1. Dall'Esempio 7.1.1 è immediato verificare che la statistica [ di MannWhitney-Wilcoxon e la statistica P della mediana sono statistiche lineari dei ranghi per i parametri di posizione. – 78 I test per i parametri di posizione:due campioni indipendenti Il seguente teorema fornisce la media e la varianza di una statistica lineare dei ranghi per i parametri di posizione quando è vera l'ipotesi di base. Teorema 8.1.2. Se il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ possiede funzione di ripartizione congiunta J8 − _!ßJ , allora per una statistica lineare dei ranghi per i parametri di posizione X si ha – EÐX Ñ œ 8" + e VarÐX Ñ œ 8" 8# # = , 8" + – e =# sono definite nel Lemma 7.1.2. dove + + Dimostrazione. Con la stessa simbologia del Teorema 7.1.3 si ha –- œ " 8 8" "œ 3œ" 8" 8 e =#- œ " 8 8" " 3œ" 8#" 8" 8#" 8" Ð8 8" Ñ 8" 8# œ œ œ , # # # 8 8 8 8 8# e quindi ancora dal Teorema 7.1.3 risulta – EÐX Ñ œ 8+ 8" – œ 8" + 8 e VarÐX Ñ œ 8# 8" 8 # 8" 8 # # =#+ œ = . # 8" 8 8" + Il seguente teorema fornisce le condizioni per cui una statistica lineare dei ranghi per i parametri di posizione risulta simmetrica quando è vera l'ipotesi di base. Teorema 8.1.3. Se il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ possiede funzione di ripartizione congiunta J8 − _!ßJ , allora una statistica lineare dei ranghi per i parametri di posizione X è simmetrica rispetto a EÐX Ñ se si ha 8" œ 8# , o +Ð3Ñ +Ð8 " 3Ñ œ 5 , 3 œ "ß #ß á ß 8 , dove 5 è una costante. Dimostrazione. E' immediata considerando il Teorema 7.1.7 e l'Esempio 7.1.4. Il seguente teorema consente di ottenere la funzione generatrice di probabilità di una statistica lineare dei ranghi per i parametri di posizione nel caso che i punteggi siano valori interi. I test per i parametri di posizione: due campioni indipendenti 79 Teorema 8.1.4. Se il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ possiede funzione di ripartizione congiunta J8 − _!ßJ , allora la funzione generatrice di probabilità di una statistica lineare dei ranghi per i parametri di posizione X è data da Š 88" ‹ " volte il coefficiente di ordine 8" del polinomio in ? $ Ð" ?@+Ð3Ñ Ñ . 8 3œ" Dimostrazione. In base al Teorema 7.1.5 risulta 8 . X œ ^3 +Ð3Ñ , 3œ" dove ^3 œ -ÐV3 Ñ (3 œ "ß #ß á ß 8). Ovviamente, ^3 è una variabile casuale che vale " se V3 Ÿ 8" e ! altrimenti (3 œ "ß #ß á ß 8) ed inoltre risulta 83œ" ^3 œ 8" . Supponiamo inoltre che 8" sia la realizzazione di una variabile casuale R" distribuita come una F3Ð8ß "Î#Ñ. Per un dato 8" , dal momento che vi sono Š 88" ‹ modi di assegnare gli 8" ranghi più bassi al campione casuale, allora si ha 8 PrÐ^" œ D" ß á ß ^8 œ D8 ± R" œ 8" Ñ œ Œ 8" " 8 , D3 œ !ß " , 3 œ "ß #ß á ß 8 , D3 œ 8" , 3œ" da cui PrÐ^" œ D" ß ^# œ D# ß á ß ^8 œ D8 Ñ œ œ PrÐ^" œ D" ß ^# œ D# ß á ß ^8 œ D8 ± R" œ 8" ÑPrÐR" œ 8" Ñ œ 8 œŒ 8" " Œ 8 8" #8 œ #8 , D3 œ !ß " , 3 œ "ß #ß á ß 8 . Si dunque noti che le ^3 risultano indipendenti ed ugualmente distribuite come F3Ð"ß "Î#Ñ (3 œ "ß #ß á ß 8). Inoltre, dal momento che la funzione generatrice delle probabilità congiunta di ^3 e di X3 œ ^3 +Ð3Ñ risulta P^3 ßX3 Ð?3 ß @3 Ñ œ " # " D +Ð3Ñ ?D3 3 @3 3 D3 œ! œ " +Ð3Ñ Ð" ?3 @3 Ñ , 3 œ "ß #ß á ß 8 , # e dal momento che R" œ 83œ" ^3 e X œ 83œ" X3 sono somme di 8 variabili casuali indipendenti, allora la funzione generatrice delle probabilità congiunta di R" e X risulta PR" ßX Ð?ß @Ñ œ $ P^3 ßX3 Ð?ß @Ñ œ #8 $ Ð" ?@+Ð3Ñ Ñ . 8 8 3œ" 3œ" Inoltre, denotando con PX Ð@ ± 8" Ñ la funzione generatrice delle probabilità di X condizionata al valore 8" di R" , risulta anche 80 I test per i parametri di posizione:due campioni indipendenti 8 PR" ßX Ð?ß @Ñ œ 8 PX Ð@ ± 8" ÑPrÐR" œ 8" Ñ? 8" œ# 8 8" œ! 8" œ! Œ 8 PX Ð@ ± 8" Ñ?8" , 8" ovvero Š 88" ‹PX Ð@ ± 8" Ñ è il coefficiente di ordine 8" di #83œ" Ð" ?@+Ð3Ñ Ñ. Si noti che la distribuzione di R" è stata scelta semplicemente per convenienza. Quando i punteggi non sono interi il precedente teorema può essere ancora impiegato determinando una trasformata biunivoca che discretizza i punteggi originali. Dal momento che la distribuzione di una statistica lineare dei ranghi per i parametri di posizione sotto l'ipotesi di base L! À J œ !ß J − V si può ottenere mediante il Teorema 8.1.4, allora si può determinare le appropriate regioni critiche del test. Se l'alternativa è bilaterale, ovvero L" À J Á !ß J − V, allora il primo campione tende ad assumere i ranghi più bassi o elevati e quindi si respingere l'ipotesi di base per determinazioni sia troppo elevate che troppo piccole di X . Fissato quindi un livello di significatività α, allora si sceglie come regione critica l'insieme g" œ Ö>À > Ÿ >8" ß8# ßαÎ# ß > >8" ß8# ß"αÎ# × , dove >8" ß8# ßα rappresenta il quantile di ordine α della distribuzione di X per numerosità campionarie pari a 8" e 8# . Se l'alternativa è direzionale del tipo L" À J !ß J − V, allora il secondo campione tende ad assumere i ranghi più elevati e quindi si respinge l'ipotesi di base per determinazioni basse di X . Fissato quindi un livello di significatività α, si ha la seguente regione critica g" œ Ö>À > Ÿ >8" ß8# ßα × . Al contrario se l'alternativa è direzionale del tipo L" À J !ß J − V, allora si il primo campione tende ad assumere i ranghi più elevati e quindi si respinge l'ipotesi di base per determinazioni troppo elevate di X . Fissato quindi un livello di significatività α, si ha la seguente regione critica g" œ Ö>À > >8" ß8# ß"α × . Si noti infine che il test basato sulla X per i precedenti sistemi di ipotesi è corretto al livello di significatività α. Infatti, dal momento che si può dimostrare che TX ÐJß J Ñ œ PrJßJ ÐX − g" Ñ è una funzione monotona crescente per J ! e monotona decrescente per J ! per ogni J − V, allora risulta TX ÐJß J Ñ α, ovvero il test è corretto. Risulta ora interessante determinare la scelta dei punteggi che fornisce il test localmente più potente per verificare il sistema di ipotesi L! À J œ !ß J œ J! contro L" À J !ß J œ J! . In questo caso si ha la seguente definizione di test localmente più potente. Definizione 8.1.5. Se il campione casuale misto Ð\" ß \# ß á ß \8" ß ]" ß ]# ß á ß ]8# Ñ possiede funzione di ripartizione congiunta J8 − _JßJ , dove 8 œ 8" 8# , allora si consideri il sistema di ipotesi L! À J œ !ß J œ J! contro L" À J !ß J œ J! , dove J! − V. Il test basato sulla statistica lineare dei ranghi per i parametri di posizione X‡ è detto localmente più potente se esiste un % ! tale che per ogni livello di significatività naturale si ha TX‡ ÐJÑ TX ÐJÑ , ! J % , per ogni statistica lineare dei ranghi per i parametri di posizione X . ˜ I test per i parametri di posizione: due campioni indipendenti 81 Il prossimo teorema fornisce la scelta ottima dei punteggi per la costruzione del test localmente più potente. Ovviamente, si noti che l'utilità di questo teorema consiste solamente nell'evidenziare la struttura ottima dei punteggi al variare della funzione di ripartizione, dal momento che questa non è mai nota in pratica. Teorema 8.1.6. Si consideri il campione casuale misto Ð\" ß \# ß á ß \8" ß ]" ß ]# ß á ß ]8# Ñ con funzione di ripartizione congiunta J8 − _JßJ , e sia 0 la funzione di densità corrispondente alla funzione di ripartizione J . Si assuma inoltre che 0 w esista, sia assolutamente continua e w ( ± 0 ÐBÑ ± .B ∞ . ‘ Allora il test localmente più potente per verificare il sistema di ipotesi L! À J œ !ß J œ J! contro L" À J !ß J œ J! è basato sulla statistica lineare dei ranghi per i parametri di posizione 8" X‡ œ +‡ ÐV3 Ñ , 3œ" dove 0 w ÐZÐ3Ñ Ñ +‡ Ð3Ñ œ EÒ Ó , 3 œ "ß #ß á ß 8 , 0 ÐZÐ3Ñ Ñ e ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ8Ñ Ñ è la statistica ordinata relativa al campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ. Dimostrazione. Si veda Hettmansperger e McKean (1998). Analogamente a quanto visto per la scelta ottima dei punteggi nel caso di una statistica lineare dei ranghi con segno, anche in questo caso si può dimostrare che la scelta ottima dei punteggi non dipende dal parametro di posizione e di scala della distribuzione. Esempio 8.1.2. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − _JßJ , dove J è la funzione di ripartizione di una R Ð!ß "Ñ e 0 rappresenta la relativa funzione di densità. E' facile dimostrare che le condizioni del Teorema 8.1.6 sono soddisfatte. Inoltre, analogamente all'Esempio 5.2.1, si ha 0 w ÐBÑÎ0 ÐBÑ œ B, per cui la scelta ottimale dei punteggi è data da +‡ Ð3Ñ œ EÐZÐ3Ñ Ñ , 3 œ "ß #ß á ß 8 , dove ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ8Ñ Ñ è la statistica ordinata relativa ad un campione casuale proveniente da una R Ð!ß "Ñ. – Esempio 8.1.3. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − _JßJ , dove J è la funzione di ripartizione di una P9Ð!ß "Ñ e 0 rappresenta la relativa funzione di densità. E' facile dimostrare che le condizioni del Teorema 8.1.6 sono soddisfatte. Inoltre, analogamente all'Esempio 5.2.2, si ha 0 w ÐBÑÎ0 ÐBÑ œ #J ÐBÑ ", per cui la scelta ottimale dei punteggi è data da +‡ Ð3Ñ œ EÒ#J ÐZÐ3Ñ Ñ "Ó œ #EÒJ ÐZÐ3Ñ ÑÓ " , 3 œ "ß #ß á ß 8 , 82 I test per i parametri di posizione:due campioni indipendenti dove ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ8Ñ Ñ è la statistica ordinata relativa ad un campione casuale proveniente . da una P9Ð!ß "Ñ. Tuttavia, dal momento che J ÐZÐ3Ñ Ñ œ YÐ3Ñ (3 œ "ß #ß á ß 8), dove ÐYÐ"Ñ ß YÐ#Ñ ß á ß YÐ8Ñ Ñ rappresenta la statistica ordinata relativa ad una campione casuale proveniente da una Y Ð!ß "Ñ, si ottiene anche +‡ Ð3Ñ œ #EÐYÐ3Ñ Ñ " œ #3 " , 3 œ "ß #ß á ß 8 . 8" Si noti che la statistica lineare dei ranghi per i parametri di posizione costruita su questi punteggi è data da 8" X‡ œ 3œ" #V3 # 8" œ [ 8" , 8" 8" dove [ è la statistica lineare dei ranghi di Mann-Whitney-Wilcoxon. Quindi X‡ e [ forniscono test equivalenti, ovvero la scelta fatta per la statistica di Mann-Whitney-Wilcoxon risulta ottima per una variabile casuale logistica. – 8.2. La distribuzione per grandi campioni delle statistiche lineari dei ranghi per i parametri di posizione. In questa sezione vengono considerate le proprietà per grandi campioni delle statistiche lineari dei ranghi per i parametri di posizione. Teorema 8.2.1. Se Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ è un campione casuale misto con funzione di ripartizione congiunta J8 − _!ßJ , allora per una statistica lineare dei ranghi per i parametri di posizione 8" X œ X8 œ +8 ÐV3 Ñ , 3œ" i cui punteggi +8 Ð3Ñ (3 œ "ß #ß á ß 8) soddisfano le condizioni del Teorema 7.2.2, risulta X8 EÐX8 Ñ . Ä R Ð!ß "Ñ , ÈVarÐX8 Ñ dove EÐX8 Ñ e VarÐX8 Ñ sono definite nel Teorema 8.1.2. Dimostrazione. Segue dall'Esempio 7.2.1 e dal Teorema 7.2.2. Fissato un livello di significatività α, per 8 Ä ∞ la regione critica per verificare L! À J œ !ß J − V contro l'alternativa L" À J Á !ß J − V, può essere approssimata dall'insieme Ö>À > Ÿ EÐX8 Ñ DαÎ# ÈVarÐX8 Ñß > EÐX8 Ñ D"αÎ# ÈVarÐX8 Ñ× . Analogamente per 8 Ä ∞ la regione critica per verificare l'alternativa L" À J !ß J − V, può essere approssimata dall'insieme Ö>À > Ÿ EÐX8 Ñ Dα ÈVarÐX8 Ñ× , mentre la regione critica per verificare l'alternativa L" À J !ß J − V, può essere approssimata dall'insieme I test per i parametri di posizione: due campioni indipendenti 83 Ö>À > EÐX8 Ñ D"α ÈVarÐX8 Ñ× . Mediante il Teorema 3.1.8 si può dimostrare inoltre che la successione di test basata su ÖX8 × è coerente. Per quanto riguarda l'efficacia delle statistiche lineari dei ranghi per i parametri di posizione si ha il seguente teorema. Teorema 8.2.2. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − _JßJ , e si consideri il sistema di ipotesi L! À J œ !ß J − V contro L" À J œ J3 ß J − V, dove ÖJ3 × è una successione di alternative tali che J3 œ -ÎÈ83 con - costante. Data una statistica lineare dei ranghi per i parametri di posizione 8" X œ X8 œ +8 ÐV3 Ñ , 3œ" i cui punteggi +8 Ð3Ñ (3 œ "ß #ß á ß 8) soddisfano le condizioni del Teorema 8.2.1, allora l'efficacia del test basato su X8 risulta – effX œ È/ Ð" / Ñ ( 9Ð?Ñ90 Ð?Ñ .?ÎË( Ò9Ð?Ñ 9Ó# .? , " " ! ! dove / œ 8lim 8 Î8 (! / ") e Ä∞ " 90 Ð?Ñ œ 0 w ÒJ " Ð?ÑÓ . 0 ÒJ " Ð?ÑÓ ´ ´ Ð1967Ñ. Dimostrazione. Vedi Hayek e Šidak Esempio 8.2.1. Si consideri la statistica [ œ [8 del test di Mann-Whitney-Wilcoxon dell'Esempio 8.1.1. Dall'Esempio 7.2.2 risulta che le condizioni del Teorema 8.2.2 sono soddisfatte. Inoltre, si ha ( 9Ð?Ñ90 Ð?Ñ .? œ ( " ! " ! 0 w ÒJ " Ð?ÑÓ ? .? , 0 ÒJ " Ð?ÑÓ da cui, mediante la trasformazione di variabile B œ J " Ð?Ñ con ? œ J ÐBÑ e .? œ 0 ÐBÑ.B, si ha ( 9Ð?Ñ90 Ð?Ñ .? œ ( " ! ∞ ∞ ∞ 0 w ÐBÑ J ÐBÑ0 ÐBÑ .B œ ( 0 w ÐBÑJ ÐBÑ .B œ 0 ÐBÑ ∞ œ Ò0 ÐBÑJ ÐBÑÓ∞ ∞ ( ∞ ∞ 0 ÐBÑ# .B œ ( ∞ 0 ÐBÑ# .B . ∞ Quindi, tenendo presente l'Esempio 7.2.2, l'efficacia del test di Mann-Whitney-Wilcoxon risulta eff[ œ È"#/ Ð" / Ñ ( ∞ 0 ÐBÑ# .B . – ∞ Esempio 8.2.2. Si consideri la statistica P œ P8 del test della mediana dell'Esempio 8.1.1. Dall'Esempio 7.2.3 risulta che le condizioni del Teorema 8.2.2 sono soddisfatte. Inoltre, si ha 84 I test per i parametri di posizione:due campioni indipendenti 0 w ÒJ " Ð?ÑÓ .? , ( 9Ð?Ñ90 Ð?Ñ .? œ ( 0 ÒJ " Ð?ÑÓ ! "Î# " " da cui, mediante la trasformazione di variabile B œ J " Ð?Ñ con ? œ J ÐBÑ e .? œ 0 ÐBÑ.B, se J ÐB!Þ& Ñ œ "Î#, si ha ( 9Ð?Ñ90 Ð?Ñ .? œ ( " ! ∞ B!Þ& ∞ 0 w ÐBÑ 0 ÐBÑ .B œ ( 0 w ÐBÑ .B œ Ò0 ÐBÑÓ∞ B!Þ& œ 0 ÐB!Þ& Ñ . 0 ÐBÑ B!Þ& Quindi, tenendo presente l'Esempio 7.2.3, l'efficacia del test della mediana risulta effP œ È/ Ð" / Ñ 0 ÐB!Þ& Ñ È œ %/ Ð" / Ñ 0 ÐB!Þ& Ñ . È"Î% – 8.3. Il test di Mann-Whitney-Wilcoxon. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − _JßJ . Il test di Mann-WhitneyWilcoxon è basato sulla statistica 8" [ œ V3 , 3œ" descritta nell'Esempio 2.4.1. Mediante questo test si può verificare un'ipotesi di base del tipo L! À J œ !ß J − V. Ovviamente, la statistica [ è una statistica lineare dei ranghi per i parametri di posizione con i punteggi scelti come +Ð3Ñ œ 3 (3 œ "ß #ß á ß 8). Se l'ipotesi di base è vera, dall'Esempio 2.4.1 è noto che la funzione di probabilità della statistica [ risulta :8" ß8# ÐAÑ œ Œ " 8 8" -8" ß8# ÐAÑ , A œ 8" Ð8" "ÑÎ#ß á ß 8" Ð8 8# "ÑÎ# , dove -8" ß8# ÐAÑ è il numero di sottoinsiemi di 8" interi dell'insieme ("ß #ß á ß 8) la cui somma è A. Sebbene esistano delle relazioni ricorrenti per il calcolo della funzione di probabilità di [ , la distribuzione di questa statistica si ottiene più facilmente attraverso la funzione generatrice di probabilità. Si noti infatti che dal Teorema 8.1.4 la funzione generatrice di probabilità P[ Ð@Ñ di [ risulta Š 88" ‹ dato da #83œ" Ð" ?@3 Ñ. " volte il coefficiente di ordine 8" del polinomio in ? Esempio 8.3.1. Per 8" œ # e 8# œ # si ha $ Ð" ?@3 Ñ œ " Ð@ @# @$ @% Ñ? % 3œ" Ð@$ @% #@& @' @( Ñ?# Ð@' @( @) @* Ñ?$ @"! ?% da cui P[ Ð@Ñ œ " $ Ð@ @% #@& @' @( Ñ . ' Dal momento che le probabilità :#ß# ÐAÑ corrispondono ai coefficienti del polinomio P[ Ð@Ñ, è immediato ottenere la Tavola 8.3.1. I test per i parametri di posizione: due campioni indipendenti 85 Tavola 8.3.1. Funzione di probabilità di [ per 8" œ # e 8# œ #. A :#ß# ÐAÑ $ "Î' % "Î' & #Î' ' "Î' ( "Î' – Se l'ipotesi di base è vera, dall'Esempio 7.1.2 si ha EÐ[ Ñ œ " 8" Ð8 "Ñ , # e VarÐ[ Ñ œ " 8" 8# Ð8 "Ñ . "# Inoltre, dall'Esempio 7.1.5 si ottiene che [ è simmetrica rispetto a EÐ[ Ñ. Infine, dal Corollario 2.4.6 si ha che la statistica [ è “distribution-free” su _!ßJ œ VJ e di conseguenza anche il test di Mann-Whitney-Wilcoxon è “distribution-free”. Dal momento che la distribuzione della statistica [ sotto ipotesi di base è specificata, le appropriate regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §8.1. Esempio 8.3.2. In un esperimento due gruppi di piccioni sono stati presi dai loro nidi nella campagna a Siena e sono stati portati in una località vicino Roma. Il gruppo di controllo (composto da 8 piccioni) è stato trasportato in un container non coperto, dove passava aria naturale durante il trasporto. Un secondo gruppo (composto da 10 piccioni) invece è stato trasportato in un container coperto e riceveva solamente aria condizionata. I piccioni sono stati lasciati liberi dopo 172 km, in una località vicino Roma (Siena rimane rispetto a questa località in una direzione di 325°). Le direzioni (in gradi, dove il nord è 0) verso le quali i piccioni sono volati sono contenute nella Tavola 8.3.2. Tavola 8.3.2. Direzioni di fuga (in gradi). piccione " # $ % & ' ( ) * "! guppo controllo B3 <3 #%( "' "&$ "! #!# "% #'% "( #% # ##) "& $$$ ") "*# "$ gruppo esperimento C3 <3 "!( % "!* & ")' "# "#" ) "(" "" % " ""! ' )# $ * "$" ""( ( Fonte: Batschelet (1981) Si vuole verificare se le condizioni di viaggio hanno alterato la capacità di orientamento dei piccioni, ovvero si vuole verificare il sistema di ipotesi L! À J œ !ß J − V contro L" À J Á !ß J − V. Dal momemto che per questi dati è immediato verificare che A œ "!&, per 8" œ ) e 8# œ "! si ha PrÐ[ "!&Ñ œ !Þ!!%$ e quindi la significatività osservata risulta α9== œ # ‚ !Þ!!%$ œ !Þ!!)'. Questa è una significatività osservata molto bassa che porta a respingere l'ipotesi di base. Si deve concludere che le condizioni di trasporto hanno 86 I test per i parametri di posizione:due campioni indipendenti alterato le capacità di orientamento dei piccioni, in quanto si può respingere L! ad ogni livello di significatività α !Þ!!)'. – Per quanto riguarda la distribuzione per grandi campioni della statistica [ œ [8 sotto ipotesi di base, dall'Esempio 7.2.2 si ha [8 8" Ð8 "ÑÎ# . Ä R Ð!ß "Ñ . È8" 8# Ð8 "ÑÎ"# La convergenza della statistica di Mann-Whitney-Wilcoxon è abbastanza veloce anche per campioni moderati, posto che entrambe le numerosità siano abbastanza elevate (8" "! e 8# "!). Le approssimazioni per grandi campioni delle regioni critiche del test per alternative bilaterali o direzionali si possono ottenere tenendo presente la discussione nella §8.2. 8.4. Il test della mediana. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − _JßJ . Il test della mediana è basato sulla statistica 8" Pœ +ÐV3 Ñ , 3œ" descritta nell'Esempio 7.1.1, e mediante di esso si può verificare un'ipotesi di base del tipo L! À J œ !ß J − V. Ovviamente, la statistica P è una statistica lineare dei ranghi per i parametri di posizione i cui punteggi sono definiti nell'Esempio 7.1.1. Come evidenziato nell'Esempio 7.1.1, la statistica P rappresenta il numero di Ð\" ß \# ß á ß \8" Ñ maggiori della mediana del campione misto. Il seguente teorema fornisce la funzione di probabilità della statistica P quando è vera l'ipotesi di base. Teorema 8.4.1. Se Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ è un campione casuale misto con funzione di ripartizione congiunta J8 − _!ßJ , la funzione di probabilità di P è data da PrÐP œ 6Ñ œ 8# ˆ 86" ‰ Š Ú8Î#Û6 ‹ 8 Š Ú8Î#Û ‹ , dove 6 œ maxÐ!ß Ú8Î#Û 8" 8Ñß á ß minÐÚ8Î#Ûß 8" Ñ. Dimostrazione. Sotto ipotesi di base ogni scelta di ranghi è ugualmente probabile. Quindi l'assegnazione di 6 degli Ð8 Ú8Î#ÛÑ ranghi più elevati ad Ð\" ß \# ß á ß \8" Ñ è equivalente ad uno schema probabilistico ipergeometrico dove si estrae in blocco Ú8Î#Û elementi da una popolazione di numerosità 8" 8# œ 8 e gli elementi di interesse sono quelli provenienti dalla sottopopolazione di numerosità 8" . Se l'ipotesi di base è vera, dall'Esempio 7.1.3 si ha EÐPÑ œ e 8" Ú8Î#Û 8 I test per i parametri di posizione: due campioni indipendenti VarÐPÑ œ 87 8" 8# Ú8Î#ÛÐ8 Ú8Î#ÛÑ . 8# Ð8 "Ñ Inoltre, dall'Esempio 7.1.4 e dall'Esempio 7.1.6 si ha che P è simmetrica rispetto a EÐPÑ quando 8" œ 8# o quando 8 è pari. Infine, dal Corollario 2.4.6 risulta che la statistica P è “distribution-free” su _!ßJ œ VJ e di conseguenza anche il test della mediana è “distributionfree”. Dal momento che la distribuzione della statistica P sotto ipotesi di base è specificata, le appropriate regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §8.1. Per quanto riguarda la distribuzione per grandi campioni della statistica P œ P8 sotto ipotesi di base, dall'Esempio 7.2.3 risulta P8 8" Ú8Î#ÛÎ8 . Ä R Ð!ß "Ñ . È8" 8# Ú8Î#ÛÐ8 Ú8Î#ÛÑÎÒ8# Ð8 "ÑÓ La convergenza della statistica della mediana è abbastanza veloce anche per campioni moderati, posto che entrambe le numerosità siano abbastanza elevate (8" "! e 8# "!). Le approssimazioni per grandi campioni delle regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §8.2. Esempio 8.4.1. In un esperimento è stata misurata la secrezione di tromboglobulina urinaria in 12 pazienti sani e in 12 pazienti diabetici, ottenendo in questa maniera i dati della Tavola 8.4.1. Si sospetta che i pazienti diabetici abbiano una secrezione di tromboglobulina più elevata dei pazienti sani, ovvero si vuole verificare il sistema di ipotesi L! À J œ !ß J − V contro L" À J !ß J − V. Tavola 8.4.1. Secrezione di tromboglobulina. paziente " # $ % & ' ( ) * "! "" "# sani B3 <3 %Þ" " 'Þ$ # (Þ) $ )Þ& % )Þ* & "!Þ% ' ""Þ& ( "#Þ! * "$Þ) "" "(Þ' "$ #%Þ$ "' $(Þ# "* diabetici C3 <3 ""Þ' ) "#Þ" "! "'Þ" "# "(Þ) "% #%Þ! "& #)Þ) "( $$Þ* ") %!Þ( #! &"Þ$ #" &'Þ# ## '"Þ( #$ '*Þ# #% Fonte: van Oost, Veldhayzen, Timmermans e Sixma (1983) Si noti che la mediana del campione misto è compresa fra 16.1 e 17.6, per cui si ha 6 œ 3. Dal momento che PrÐP Ÿ $Ñ ¶ FÒÐ$ "# ‚ "#Î#%ÑÎÈ"#% ÎÐ#%# ‚ #$ÑÓ œ FÐ #Þ$*(*Ñ œ !Þ!!)! , allora la significatività osservata risulta α9== ¶ !Þ!!)!, un valore molto basso che porta a respingere l'ipotesi di base. Sulla base dell'evidenza empirica si deve concludere che i pazienti diabetici hanno una secrezione di tromboglobulina più elevata dei pazienti sani, in 88 I test per i parametri di posizione:due campioni indipendenti quanto si può respingere L! ad ogni livello di significatività α !Þ!!)!. L'approssimazione normale è ragionevole, in quanto il valore esatto risulta PrÐP Ÿ $Ñ œ !Þ!"*'. – 8.5. Le prestazioni del test di Mann-Whitney-Wilcoxon e del test della mediana. La potenza del test di Mann-Whitney-Wilcoxon, del test della mediana e del test di Student per due campioni sono state calcolate mediante simulazione per alcune distribuzioni e per numerosità 8" œ 8# œ &ß "!ß "&. Le alternative scelte sono state J œ !Þ! 5ß !Þ$ 5ß !Þ' 5ß !Þ* 5 dove 5# rappresenta la varianza della distribuzione ipotizzata. Per la distribuzione di Chauchy 5 denota il valore per cui PrÐ\ Ÿ 5Ñ œ FÐ"Ñ. I test di Mann-Whitney-Wilcoxon e della mediana sono stati casualizzati al fine di ottenere un livello di significatività pari a α œ !Þ!& per tutti i test. I risultati della simulazione sono riportati nella Tavola 8.5.1. Tavola 8.5.1. Potenza del test di Mann-Whitney-Wilcoxon, del test della mediana e del test di Student per due campioni. distribuzione 0.05 Y Ð-"Î#ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& R Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& P9Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& I.Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& G2Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!$ IÐJ"ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!% Y Ð-"Î#ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& R Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& P9Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& I.Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& G2Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!$ IÐJ"ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!% Y Ð-"Î#ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& R Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& P9Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& I.Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& G2Ð-ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!$ IÐJ"ß "Ñ !Þ!&Ð!Þ!&Ñ!Þ!& 0.$5 0.'5 8" œ & 8# œ & !Þ""Ð!Þ!*Ñ!Þ"! !Þ#!Ð!Þ"$Ñ!Þ"* !Þ""Ð!Þ"!Ñ!Þ"" !Þ#"Ð!Þ"'Ñ!Þ## !Þ"#Ð!Þ""Ñ!Þ"" !Þ#$Ð!Þ"(Ñ!Þ## !Þ"$Ð!Þ"#Ñ!Þ"# !Þ#(Ð!Þ##Ñ!Þ#& !Þ"#Ð!Þ""Ñ!Þ!' !Þ#"Ð!Þ"*Ñ!Þ"$ !Þ"(Ð!Þ""Ñ!Þ"% !Þ$$Ð!Þ##Ñ!Þ#* 8" œ "! 8# œ "! !Þ"&Ð!Þ"!Ñ!Þ"' !Þ$#Ð!Þ"(Ñ!Þ$& !Þ"&Ð!Þ"%Ñ!Þ"' !Þ$#Ð!Þ#&Ñ!Þ$' !Þ"&Ð!Þ"$Ñ!Þ"' !Þ$(Ð!Þ#(Ñ!Þ$( !Þ"*Ð!Þ")Ñ!Þ"( !Þ%%Ð!Þ%!Ñ!Þ$) !Þ"&Ð!Þ"'Ñ!Þ!( !Þ$#Ð!Þ$$Ñ!Þ"% !Þ#%Ð!Þ"'Ñ!Þ"* !Þ&$Ð!Þ$&Ñ!Þ%" 8" œ "& 8# œ "& !Þ"*Ð!Þ""Ñ!Þ"* !Þ%(Ð!Þ#'Ñ!Þ%) !Þ"*Ð!Þ"&Ñ!Þ#! !Þ%)Ð!Þ$'Ñ!Þ%( !Þ#!Ð!Þ"(Ñ!Þ#! !Þ%*Ð!Þ$*Ñ!Þ&! !Þ#*Ð!Þ#(Ñ!Þ#" !Þ&)Ð!Þ&%Ñ!Þ&" !Þ#"Ð!Þ##Ñ!Þ!) !Þ%%Ð!Þ%)Ñ!Þ"& !Þ$%Ð!Þ#!Ñ!Þ#$ !Þ("Ð!Þ%*Ñ!Þ&$ 0.*5 !Þ$$Ð!Þ"*Ñ!Þ$$ !Þ$'Ð!Þ#%Ñ!Þ$& !Þ$)Ð!Þ#(Ñ!Þ$) !Þ%$Ð!Þ$$Ñ!Þ%# !Þ$!Ð!Þ#*Ñ!Þ#! !Þ&!Ð!Þ$%Ñ!Þ%' !Þ&&Ð!Þ#*Ñ!Þ'" !Þ'!Ð!Þ%$Ñ!Þ'# !Þ'#Ð!Þ%(Ñ!Þ'$ !Þ(!Ð!Þ'!Ñ!Þ'& !Þ&$Ð!Þ&%Ñ!Þ## !Þ()Ð!Þ&)Ñ!Þ'& !Þ(#Ð!Þ%!Ñ!Þ() !Þ()Ð!Þ'!Ñ!Þ(( !Þ)"Ð!Þ'(Ñ!Þ() !Þ)&Ð!Þ()Ñ!Þ() !Þ'*Ð!Þ(%Ñ!Þ#% !Þ*#Ð!Þ(#Ñ!Þ)! Dalla Tavola 8.5.1 è evidente che il test di Mann-Whitney-Wilcoxon dimostra ottime prestazioni rispetto agli altri due test per tutte le distribuzioni. Il test della mediana dimostra buone prestazioni solo per una distribuzione a code particolamente pesante quale la distribuzione di Chauchy. Il test di Student per due campioni dimostra prestazioni quasi sempre inferiori al test di Mann-Whitney-Wilcoxon. Inoltre per distribuzioni quali la Cauchy e l'esponenziale si noti che il test di Student per due campioni non mantiene neppure il livello di significatività. Per quanto riguarda le prestazioni asintotiche del test di Mann-WhitneyWilcoxon, dall'Esempio 8.2.1 si ha eff[ œ È"#/ Ð" / Ñ ( ∞ 0 ÐBÑ# .B , ∞ per cui l'efficienza asintotica relativa del test di Mann-Whitney-Wilcoxon rispetto al test di Student per due campioni risulta I test per i parametri di posizione: due campioni indipendenti EAR[ ßX œ "#5# Ò( ∞ 89 0 ÐBÑ# .BÓ# . ∞ Si noti che si è ottenuto la stessa efficienza asintotica del test di Wilcoxon rispetto al test di Student per un campione, per cui si può considerare la Tavola 6.6.2 dove sono tabulati i valori di EAR[ ßX œ EAR[ ßX per alcune distribuzioni simmetriche. Dunque anche in questo caso dal punto di vista asintotico il test di Mann-Whitney-Wilcoxon dimostra ottime prestazioni. Si noti che per una distribuzione non simmetrica quale l'esponenziale si verifica inoltre che EAR[ ßX œ $. Per quanto riguarda l'efficacia del test della mediana, dall'Esempio 8.2.2 si ha effP œ È%/ Ð" / Ñ 0 ÐB!Þ& Ñ , per cui l'efficienza asintotica relativa del test della mediana rispetto al test di Student per due campioni risulta EARPßX œ %5# 0 ÐB!Þ& Ñ# . Si noti che si è ottenuto la stessa efficienza asintotica del test dei segni rispetto al test di Student per un campione, per cui si può considerare la Tavola 6.2.2, dove sono tabulati i valori di EARPßX œ EARFßX per alcune distribuzioni simmetriche. Per una distribuzione non simmetrica quale l'esponeziale è immediato verificare inoltre che EARPßX œ ". Si noti infine che l'efficienza asintotica relativa del test di Mann-Whitney-Wilcoxon rispetto al test della mediana risulta EAR[ ßP ∞ $ œ Ò( 0 ÐBÑ# .BÓ# . 0 Ð!Ñ# ∞ Anche in questo caso si è ovviamente ottenuto la stessa efficienza asintotica del test di Wilcoxon rispetto al test dei segni, per cui si può considerare la Tavola 6.6.3, dove sono tabulati i valori di EAR[ ßP œ EAR[ ßF per alcune distribuzioni simmetriche. Per una distribuzione non simmetrica quale l'esponeziale è immediato verificare inoltre che EAR[ ßP œ $. Capitolo 9 I test per i parametri di scala: due campioni indipendenti 9.1. Le statistiche lineari dei ranghi per i parametri di scala. Si consideri due campioni casuali indipendenti Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ e supponiamo che il campione misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ abbia funzione di ripartizione congiunta J8 − i(ßJ , dove 8 œ 8" 8# . Dalla definizione della classe i(ßJ è immediato verificare che il parametro ( rappresenta in effetti il rapporto fra i parametri di scala relativi alle variabili casuali da cui provengono i campioni. Inoltre, dalla definizione di i(ßJ è evidente che si suppone implicitamente che le due distribuzioni abbiano uguali parametri di posizione. Risulta dunque interessante verificare il sistema di ipotesi L! À ( œ "ß J − V contro un'alternativa bilaterale L" À ( Á "ß J − V o direzionale L" À ( " (( ")ß J − V. Una classe di statistiche test “distribution-free” opportuna in questo sistema di ipotesi è definita di seguito. Definizione 9.1.1. Siano Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ due campioni casuali indipendenti tali che il campione misto abbia funzione di ripartizione congiunta J8 − i"ßJ , dove 8 œ 8" 8# . Siano ÐV" ß V# ß á ß V8" Ñ i ranghi assegnati a Ð\" ß \# ß á ß \8" Ñ e siano ÐV8" " ß V8" # ß á ß V8 Ñ i ranghi assegnati a Ð]" ß ]# ß á ß ]8# Ñ rispettivamente nel campione misto. Se le costanti di regressione nella Definizione 7.2.1 sono date da -Ð3Ñ œ œ " ! 3 œ "ß #ß á ß 8" 3 œ 8" "ß á ß 8 e i punteggi +Ð3Ñ (3 œ "ß #ß á ß 8) sono tali che (tipo 1) ! Ÿ +Ð"Ñ Ÿ +Ð#Ñ Ÿ á Ÿ +ÖÚÐ8 "ÑÎ#Û× ß +ÖÚÐ8 "ÑÎ#Û× á +Ð8Ñ ! , o (tipo 2) +Ð"Ñ +Ð#Ñ á +ÖÚÐ8 "ÑÎ#Û× ! , ! Ÿ +ÖÚÐ8 "ÑÎ#Û× Ÿ á Ÿ +Ð8Ñ , allora una statistica del tipo 8" 8 X œ -Ð3Ñ+ÐV3 Ñ œ 3œ" +ÐV3 Ñ 3œ" è detta statistica lineari dei ranghi per i parametri di scala. ˜ Si noti che per il Corollario 2.4.6 sotto ipotesi di base la statistica X è “distribution-free” sulla classe i"ßJ œ VJ . La statistica X è sensibile a variazioni del parametro (, in quanto se non è vera l'ipotesi di base X tende ad assumere valori piccoli o elevati. Esempio 9.1.1. Se i punteggi sono scelti come I test per i parametri di scala: due campioni indipendenti +Ð3Ñ œ Ò3 91 " Ð8 "ÑÓ# , 3 œ "ß #ß á ß 8 , # allora soddisfano le condizioni della Definizione 9.1.1 (punteggi tipo 2). In questo caso si ottiene la cosiddetta statistica di Mood data da 8" Qœ ÒV3 3œ" " Ð8 "ÑÓ# . # Anche i punteggi " " +Ð3Ñ œ Ò Ð8 "Ñ ± 3 Ð8 "Ñ ± Ó , 3 œ "ß #ß á ß 8 , # # soddisfano le condizioni della Definizione 9.1.1 (punteggi tipo 1). In questo caso si ottiene la cosiddetta statistica di Ansari-Bradley, data da 8" Eœ 3œ" " " Ò Ð8 "Ñ ± V3 Ð8 "Ñ ± Ó . # # – Il seguente teorema fornisce la media e la varianza di una statistica lineare dei ranghi per i parametri di scala quando è vera l'ipotesi di base. Teorema 9.1.2. Se il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ possiede funzione di ripartizione congiunta J8 − i"ßJ , allora per una statistica lineare dei ranghi per i parametri di scala X si ha – EÐX Ñ œ 8" + e VarÐX Ñ œ 8" 8# # = , 8" + – e =# sono definite nel Lemma 7.1.2. dove + + Dimostrazione. E' analoga a quella del Teorema 8.1.2. Il seguente teorema fornisce le condizioni per cui una statistica lineare dei ranghi per i parametri di scala è simmetrica quando è vera l'ipotesi di base. Teorema 9.1.3. Se il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ possiede funzione di ripartizione congiunta J8 − i"ßJ , allora una statistica lineare dei ranghi per i parametri di scala X è simmetrica rispetto a EÐX Ñ se si ha 8" œ 8# , o +‡ Ð3Ñ +‡ Ð8 " 3Ñ œ 5 , 3 œ "ß #ß á ß 8 , dove 5 è una costante. Dimostrazione. E' analoga a quella del Teorema 8.1.3. 92 I test per i parametri di scala:due campioni indipendenti Esempio 9.1.2. Si consideri la statistica Q dell'Esempio 9.1.1. Tenendo presente il Teorema A.2.1, è immediato verificare che –œ " + 8 8 " " Ò< Ð8 "ÑÓ# œ # 8 <œ" 8 <# <œ" " Ð8 "Ñ# œ % " " " Ð8 "ÑÐ#8 "Ñ Ð8 "Ñ# œ Ð8# "Ñ , ' % "# œ da cui –œ EÐQ Ñ œ 8" + " 8" Ð8# "Ñ . "# Inoltre, sempre tenendo presente il Teorema A.2.1, =#+ œ Ð8 "Ñ$ #8 <œ" Ò< <œ" " " Ð8 "ÑÓ# Ð8# "Ñ×# œ # "# " " Ð8 "ÑÓ% Ð8# "Ñ# œ # "%% 8 #Ð8 "Ñ < 8 <œ" % 8 < <œ" ÖÒ< 8 " œ 8 " œ 8 8 " 8 8 $Ð8 "Ñ# < #8 <œ" 8 $ <# <œ" " " " Ð8 "Ñ% Ð8# "Ñ# œ Ð8# "ÑÐ8# %Ñ , "' "%% ")! da cui VarÐQ Ñ œ 8" 8 # # " =+ œ 8" 8# Ð8 "ÑÐ8# %Ñ . 8" ")! Dal momento che +Ð3Ñ +Ð8 " 3Ñ œ Ò3 œ #Ò3 " " Ð8 "ÑÓ# Ò8 " 3 Ð8 "ÑÓ# œ # # " Ð8 "ÑÓ# , 3 œ "ß #ß á ß 8 , # allora dal Teorema 9.1.3 risulta che Q è simmetrica solo se 8" œ 8# . – Esempio 9.1.3. Si consideri la statistica E dell'Esempio 8.1.1. Tenendo presente il Teorema A.2.1, è immediato verificare che per 8 pari si ha –œ " + 8 8 " " Ò Ð8 "Ñ ± < Ð8 "Ñ ± Ó œ # # <œ" I test per i parametri di scala: due campioni indipendenti œ 8Î# " # Ð8 "Ñ # 8 93 " " " Ò Ð8 "Ñ <Ó œ Ð8 "Ñ # # 8 <œ" 8Î# Ð8 "Ñ <œ" # 8 8Î# <œ <œ" " " " " Ð8 "Ñ Ð8 "Ñ Ð8 #Ñ œ Ð8 #Ñ # # % % – nell'Esempio 9.1.2, si ha e inoltre, tenendo presente l'espressione di + œ =#+ œ " 8 " œ 8 8 Ò< <œ" 8 " " " ÖÒ Ð8 "Ñ ± < Ð8 "Ñ ± Ó Ð8 #Ñ×# œ # # % <œ" " " # " " # " Ð8 "ÑÓ# 8 œ Ð8# "Ñ 8 œ Ð8# %Ñ . # "' "# "' %) Dunque, per 8 pari si ha – œ " 8" Ð8 #Ñ EÐEÑ œ 8" + % e VarÐEÑ œ 8" 8# # 8" 8# Ð8# 4Ñ =+ œ . 8" %)Ð8 "Ñ Inoltre, per 8 dispari si ha –œ " + 8 8 " " " # Ò Ð8 "Ñ ± < Ð8 "Ñ ± Ó œ Ð8 "Ñ # # # 8 <œ" œ " " Ð8 "Ñ # 8 Ð8"ÑÎ# Ð8 "Ñ <œ" # 8 Ð8"ÑÎ# <œ" " Ò Ð8 "Ñ <Ó œ # Ð8"ÑÎ# <œ <œ" " 8# " 8# "# Ð8 "Ñ# Ð8 "Ñ œ # #8 %8 %8 – nell'Esempio 9.1.2, si ha e inoltre, sempre tenendo presente l'espressione di + œ =#+ œ œ " 8 8 Ò< <œ" " 8 8 " " Ð8 "Ñ# # ÖÒ Ð8 "Ñ ± < Ð8 "Ñ ± Ó × œ # # %8 <œ" " Ð8# "Ñ# " 8# " Ð8# "ÑÐ8# $Ñ # Ð8 "ÑÓ# œ Ð8 "Ñ œ . # "68# "# "'8# %)8# Dunque per 8 dispari si ha # – œ 8" Ð8 "Ñ EÐEÑ œ 8" + %8 94 I test per i parametri di scala:due campioni indipendenti e VarÐEÑ œ 8" 8 # # 8" 8# Ð8 "ÑÐ8# $Ñ =+ œ . 8" %)8# Inoltre, dal momento che +Ð3Ñ +Ð8 " 3Ñ œ œ " " " " Ð8 "Ñ ± 3 Ð8 "Ñ ± Ð8 "Ñ ± 8 " 3 Ð8 "Ñ ± œ # # # # œ8"# ±3 " Ð8 "Ñ ± , 3 œ "ß #ß á ß 8 , # allora dal Teorema 9.1.3 si ottiene che E è simmetrica solo se 8" œ 8# . – Il seguente teorema consente di ottenere la funzione generatrice di probabilità di una statistica lineare dei ranghi per i parametri di scala nel caso che i punteggi siano valori interi. Teorema 9.1.4. Se il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ possiede funzioni di ripartizione congiunta J8 − i"ßJ , allora la funzione generatrice di probabilità di una statistica lineare dei ranghi per i parametri di scala X è data da Š 88" ‹ " volte il coefficiente di ordine 8" del polinomio in ? $ Ð" ?@+Ð3Ñ Ñ . 8 3œ" Dimostrazione. E' identica a quella del Teorema 8.1.4. Quando i punteggi non sono interi il precedente teorema può essere ancora impiegato determinando una trasformata biunivoca che discretizza i punteggi originali. Dal momento che la distribuzione di una statistica lineare dei ranghi per i parametri di scala sotto l'ipotesi di base L! À ( œ "ß J − V si può ottenere mediante il Teorema 9.1.4, allora si può determinare le appropriate regioni critiche del test. Se l'alternativa è bilaterale, ovvero L" À ( Á "ß J − V, allora il primo campione tende ad assumere i ranghi più bassi o elevati e quindi si respingere l'ipotesi di base per determinazioni sia troppo elevate che troppo piccole di X . Fissato quindi un livello di significatività α, allora la regione critica è data dall'insieme g" œ Ö>À > Ÿ >8" ß8# ßαÎ# ß > >8" ß8# ß"αÎ# × , dove >8" ß8# ßα rappresenta il quantile di ordine α della distribuzione di X per numerosità campionarie pari a 8" e 8# . Se l'alternativa è direzionale del tipo L" À ( "ß J − V, il primo campione tende ad assumere i ranghi più bassi se il test è basato sui punteggi tipo 2 e quindi si respinge l'ipotesi di base per determinazioni troppo basse di X . Analogamente, il primo campione tende ad assumere i ranghi più alti se il test è basato sui punteggi tipo 1 e quindi si respinge l'ipotesi di base per determinazioni troppo alte di X . Fissato quindi un livello di significatività α, per i punteggi tipo 2 si ha la regione critica g" œ Ö>À > Ÿ >8" ß8# ßα × , I test per i parametri di scala: due campioni indipendenti 95 mentre per i punteggi tipo 1 si ha la regione critica g" œ Ö>À > >8" ß8# ß"α × . Al contrario, se l'alternativa è direzionale del tipo L" À ( "ß J − V, allora il primo campione tende ad assumere i ranghi più elevati se il test è basato sui punteggi tipo 2 e quindi si respinge l'ipotesi di base per determinazioni troppo elevate di X . Analogamente, il primo campione tende ad assumere i ranghi più bassi se il test è basato sui punteggi tipo 1 e quindi si respinge l'ipotesi di base per determinazioni troppo basse di X . Fissato quindi un livello di significatività α, per i punteggi tipo 2 si ha la regione critica g" œ Ö>À > >8" ß8# ß"α × , mentre per i punteggi tipo 1 si ha la regione critica g" œ Ö>À > Ÿ >8" ß8# ßα × . Si noti infine che il test basato sulla X per i precedenti sistemi di ipotesi è corretto al livello di significatività α. Infatti, dal momento che si può dimostrare che TX Ð(ß J Ñ œ Pr(ßJ ÐX − g" Ñ è una funzione monotona crescente per ( " e monotona decrescente per ( " per ogni J − V, allora risulta TX Ð(ß J Ñ α, ovvero il test è corretto. Risulta ora interessante determinare la scelta dei punteggi che fornisce il test localmente più potente per verificare il sistema di ipotesi L! À ( œ "ß J œ J! contro L" À ( "ß J œ J! . In questo caso si ha la seguente definizione di test localmente più potente. Definizione 9.1.5. Se il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ possiede funzione di ripartizione congiunta J8 − i(ßJ , dove 8 œ 8" 8# , allora si consideri il sistema di ipotesi L! À ( œ "ß J œ J! contro L" À ( "ß J œ J! , dove J! − V. Il test basato sulla statistica lineare dei ranghi per i parametri di scala X‡ è detto localmente più potente se esiste un % ! tale che per ogni livello di significatività naturale si ha TX‡ Ð(Ñ TX Ð(Ñ , " ( " % , per ogni statistica lineare dei ranghi per i parametri di scala X . ˜ Il prossimo teorema fornisce la scelta ottima dei punteggi per la costruzione del test localmente più potente. Al solito si noti che l'utilità di questo teorema consiste solamente nell'evidenziare la struttura ottima dei punteggi al variare della funzione di ripartizione, dal momento che questa non è mai nota in pratica. Teorema 9.1.6. Si consideri il campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ con funzione di ripartizione congiunta J8 − i(ßJ , e sia 0 la funzione di densità corrispondente a J . Si assuma inoltre che 0 w esista, sia assolutamente continua e che w ( ± 0 ÐBÑ ± .B ∞ . ‘ Allora il test localmente più potente per verificare il sistema di ipotesi L! À ( œ "ß J œ J! contro L" À ( "ß J œ J! è basato sulla statistica lineare dei ranghi per i parametri di scala 8" X‡ œ +‡ ÐV3 Ñ , 3œ" 96 I test per i parametri di scala:due campioni indipendenti dove +‡ Ð3Ñ œ EÒ ZÐ3Ñ 0 w ÐZÐ3Ñ Ñ Ó , 3 œ "ß #ß á ß 8 , 0 ÐZÐ3Ñ Ñ e ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ8Ñ Ñ è la statistica ordinata relativa al campione casuale misto Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ. Dimostrazione. Si veda Hettmansperger e McKean (1998). Analogamente a quanto visto per la scelta ottima dei punteggi nel caso di una statistica lineare dei ranghi con segno, anche in questo caso si può dimostrare che la scelta ottima dei punteggi non dipende dal parametro di posizione e di scala della distribuzione. Esempio 9.1.4. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − i(ßJ , dove J è la funzione di ripartizione di una R Ð!ß "Ñ e 0 rappresenta la relativa funzione di densità. E' facile dimostrare che le condizioni del Teorema 9.1.6 sono soddisfatte. Inoltre dall'Esempio 5.2.1 si ha 0 w ÐBÑÎ0 ÐBÑ œ B, per cui la scelta ottimale dei punteggi è data da # +‡ Ð3Ñ œ EÐZÐ3Ñ Ñ , 3 œ "ß #ß á ß 8 , dove ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ8Ñ Ñ è la statistica ordinata relativa ad un campione casuale proveniente da una R Ð!ß "Ñ. – 9.2. La distribuzione per grandi campioni delle statistiche lineari dei ranghi per i parametri di scala. In questa sezione vengono considerate le proprietà per grandi campioni delle statistiche lineari dei ranghi per i parametri di scala. Teorema 9.2.1. Se Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ è un campione casuale misto con funzione di ripartizione congiunta J8 − i"ßJ , allora per una statistica lineare dei ranghi per i parametri di scala 8" X œ X8 œ +8 ÐV3 Ñ , 3œ" i cui punteggi +8 Ð3Ñ (3 œ "ß #ß á ß 8) soddisfano le condizioni del Teorema 7.2.2, risulta X8 EÐX8 Ñ . Ä R Ð!ß "Ñ , ÈVarÐX8 Ñ dove EÐX8 Ñ e VarÐX8 Ñ sono definite nel Teorema 9.1.2. Dimostrazione. Segue dall'Esempio 7.2.1 e dal Teorema 7.2.2. Dunque, fissato un livello di significatività α, per 8 Ä ∞ la regione critica per verificare L! À ( œ "ß J − V contro l'alternativa L" À ( Á "ß J − V, può essere approssimata dall'insieme Ö>À > Ÿ EÐX8 Ñ DαÎ# ÈVarÐX8 Ñß > EÐX8 Ñ D"αÎ# ÈVarÐX8 Ñ× . Analogamente, per 8 Ä ∞ la regione critica per verificare l'alternativa L" À ( "ß J − V, per i punteggi tipo 2 può essere approssimata dall'insieme I test per i parametri di scala: due campioni indipendenti 97 Ö>À > Ÿ EÐX8 Ñ Dα ÈVarÐX8 Ñ× , mentre per i punteggi tipo 1 può essere approssimata dall'insieme Ö>À > EÐX8 Ñ D"α ÈVarÐX8 Ñ× . Al contrario, la regione critica per verificare l'alternativa L" À ( "ß J − V, per i punteggi tipo 2 può essere approssimata dall'insieme Ö>À > EÐX8 Ñ D"α ÈVarÐX8 Ñ× , mentre per i punteggi tipo 1 può essere approssimata dall'insieme Ö>À > Ÿ EÐX8 Ñ Dα ÈVarÐX8 Ñ× . Mediante il Teorema 3.1.8 si può dimostrare inoltre che la successione di test basata su ÖX8 × è coerente. Per quanto riguarda l'efficacia delle statistiche lineari dei ranghi per i parametri di scala si ha il seguente teorema. Teorema 9.2.2. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − i(ßJ , e si consideri il sistema di ipotesi L! À ( œ "ß J − V contro L" À ( œ (3 ß J − V, dove Ö(3 × è una successione di alternative tali che (3 œ " -ÎÈ83 con costante. Data una statistica lineare dei ranghi per i parametri di scala 8" X œ X8 œ +8 ÐV3 Ñ , 3œ" i cui punteggi +8 Ð3Ñ (3 œ "ß #ß á ß 8) soddisfano le condizioni del Teorema 9.2.1, allora l'efficacia del test basato su X8 risulta – effX œ È/ Ð" / Ñ ( 9Ð?Ñ90 Ð?Ñ .?ÎË( Ò9Ð?Ñ 9Ó# .? , " ! " ! dove / œ 8lim 8 Î8 (! / ") e Ä∞ " 90 Ð?Ñ œ " J " Ð?Ñ 0 w ÒJ " Ð?ÑÓ . 0 ÒJ " Ð?ÑÓ ´ ´ (1967). Dimostrazione. Vedi Hayek e Šidak Esempio 9.2.1. Si consideri la statistica Q œ Q8 del test di Mood dell'Esempio 9.1.1. Analogamente all'Esempio 7.2.2 al fine di determinare la distribuzione asintotica di Q8 è conveniente considerare la statistica X8 œ ,8 Q8 con ,8 œ Ð8 "Ñ# . La funzione punteggio relativa alla statistica X8 , data da 9Ð?Ñ œ Ð? "Î#Ñ# IÒ!ß"Ó Ð?Ñ, è tale che " " " –# # # ∞ ( Ò9Ð?Ñ 9Ó .? œ ( ÒÐ? "Î#Ñ "Î"#Ó .? œ ")! ! ! e dunque le condizioni del Teorema 7.2.2 sono soddisfatte. Inoltre, risulta 98 I test per i parametri di scala:due campioni indipendenti ( 9Ð?Ñ90 Ð?Ñ.? œ ( Ö " J " " ! " ! œ 0 w ÒJ " Ð?ÑÓ Ð?Ñ × Ð? "Î#Ñ# .? œ " 0 ÒJ Ð?ÑÓ " " 0 w ÒJ " Ð?ÑÓ ( J " Ð?Ñ Ð? "Î#Ñ# .? , " Ð?ÑÓ "# 0 ÒJ ! da cui, mediante la trasformazione di variabile B œ J " Ð?Ñ con ? œ J ÐBÑ e .? œ 0 ÐBÑ.B, e integrando successivamente per parti, si ha ( 9Ð?Ñ90 Ð?Ñ .? œ ∞ " 0 w ÐBÑ ( B ÒJ ÐBÑ "Î#Ó# 0 ÐBÑ .B œ "# 0 ÐBÑ ∞ " ! œ ∞ " ÒBÖJ ÐBÑ "Î#×# 0 ÐBÑÓ∞ ÒJ ÐBÑ "Î#Ó# 0 ÐBÑ .B ( ∞ "# ∞ ( ∞ #BÒJ ÐBÑ "Î#Ó0 ÐBÑ# .B œ ∞ œ ∞ " " # ÒÖJ ÐBÑ "Î#×$ Ó∞ # ( BÒJ ÐBÑ "Î#Ó0 ÐBÑ .B œ ∞ "# $ ∞ œ #( ∞ BÒJ ÐBÑ "Î#Ó0 ÐBÑ# .B . ∞ Quindi l'efficacia del test di Mood risulta effQ œ È/ Ð" / Ñ #'∞ BÒJ ÐBÑ "Î#Ó0 ÐBÑ# .B œ È"Î")! ∞ œ È(#!/ Ð" / Ñ ( ∞ BÒJ ÐBÑ "Î#Ó0 ÐBÑ# .B . – ∞ Esempio 9.2.2. Si consideri la statistica E œ E8 del test di Ansari-Bradley dell'Esempio 9.1.1. Analogamente all'Esempio 7.2.2 al fine di determinare la distribuzione asintotica di E8 è conveniente considerare la statistica X8 œ ,8 E8 con ,8 œ Ð8 "Ñ. La funzione punteggio relativa alla statistica X8 , data da 9Ð?Ñ œ ± ? "Î# ± IÒ!ß"Ó Ð?Ñ, è tale che " " –# # Ò 9 Ð?Ñ 9 Ó .? œ ∞ ( ( Ð ± ? "Î# ± "Î%Ñ .? œ %) ! ! " e dunque le condizioni del Teorema 7.2.2 sono soddisfatte. Inoltre, risulta " ( 9Ð?Ñ90 Ð?Ñ.? œ ( Ö " J Ð?Ñ× " ! " ! 0 w ÒJ " Ð?ÑÓ × ± ? "Î# ± .? œ 0 ÒJ " Ð?ÑÓ I test per i parametri di scala: due campioni indipendenti 99 " " 0 w ÒJ " Ð?ÑÓ " œ ( J Ð?Ñ ± ? "Î# ± .? , % 0 ÒJ " Ð?ÑÓ ! da cui, mediante la trasformazione di variabile B œ J " Ð?Ñ con ? œ J ÐBÑ e .? œ 0 ÐBÑ.B, se J ÐB!Þ& Ñ œ "Î#, e integrando successivamente per parti, si ha ( 9Ð?Ñ90 Ð?Ñ.? œ " ! œ œ ∞ " 0 w ÐBÑ ( B ± J ÐBÑ "Î# ± 0 ÐBÑ .B œ % 0 ÐBÑ ∞ B!Þ& ∞ " ( BÒ"Î# J ÐBÑÓ0 w ÐBÑ .B ( BÒJ ÐBÑ "Î#Ó0 w ÐBÑ .B œ % ∞ B!Þ& B!Þ& B!Þ& " !Þ& ÒÖ"Î# J ÐBÑ×B0 ÐBÑÓB∞ ( Ò"Î# J ÐBÑÓ0 ÐBÑ .B ( B0 ÐBÑ# .B % ∞ ∞ ÒÖ"Î# J ÐBÑ×B0 ÐBÑÓ∞ B!Þ& ( ∞ B!Þ& ÖJ ÐBÑ "Î#×0 ÐBÑ .B ( ∞ B0 ÐBÑ# .B œ B!Þ& B!Þ& " " # B!Þ& œ Ò Ö"Î# J ÐBÑ× Ó∞ ( B0 ÐBÑ# .B 4 # ∞ ∞ ∞ B!Þ& " # # ÒÖ"Î# J ÐBÑ×# Ó∞ B0 ÐBÑ .B œ B0 ÐBÑ .B B0 ÐBÑ# .B . ( ( ( B!Þ& # B!Þ& B!Þ& ∞ Quindi l'efficacia del test di Ansari-Bradley risulta effE œ È/ Ð" / Ñ B!Þ& 'B∞ B0 ÐBÑ# .B '∞ B0 ÐBÑ# .B !Þ& œ È%)/ Ð" / Ñ Ò( ∞ B!Þ& È"Î%) B0 ÐBÑ# .B ( B!Þ& œ B0 ÐBÑ# .BÓ . – ∞ 9.3. Il test di Mood. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − i(ßJ . Il test di Mood è basato sulla statistica 8" Qœ ÒV3 3œ" " Ð8 "ÑÓ# , # descritta nell'Esempio 9.1.1. Mediante questo test si può verificare un'ipotesi di base del tipo L! À ( œ "ß J − V. Ovviamente, la statistica Q è una statistica lineare dei ranghi per i parametri di scala con i punteggi di tipo 2 scelti come +Ð3Ñ œ Ò3 Ð8 "ÑÎ#Ó# (3 œ "ß #ß á ß 8). Al fine di calcolare la funzione di probabilità :8" ß8# Ð7Ñ di Q , è conveniente considerare i punteggi +w Ð3Ñ œ %+Ð3Ñ (3 œ "ß #ß á ß 8) al posto dei punteggi originali. In questa maniera la statistica Q w basata sui nuovi punteggi prende valori solo sugli interi ed è equivalente alla statistica originale essendo Q w œ %Q . Dunque, dal Teorema 9.1.4, la 100 I test per i parametri di scala:due campioni indipendenti funzione generatrice di probabilità PQ w Ð@Ñ di Q w è data da Š 88" ‹ " volte il coefficiente di ordine 8" del polinomio in ? $ Ö" ?@Ò#3Ð8"ÑÓ × . 8 # 3œ" Esempio 9.3.1. Per 8" œ # e 8# œ # si ha $ Ö" ?@Ð#3&Ñ × œ % # 3œ" œ " Ð#@ #@* Ñ? Ð@# %@"! @") Ñ?# Ð#@"" #@"* Ñ?$ @#! ?% , da cui PQ w Ð@Ñ œ " # Ð@ %@"! @") Ñ . ' Poichè le probabilità :#ß# Ð7w Ñ corrispondono ai coefficienti del polinomio PQ w Ð@Ñ, è immediato ottenere la Tavola 9.3.1. Tavola 9.3.1. Funzione di probabilità di Q w per 8" œ # e 8# œ #. 7w :#ß# Ð7w Ñ # "Î' "! %Î' ") "Î' Inoltre, tenendo presente la relazione fra Q e Q w dalla Tavola 9.3.1 è immediato ottenere la Tavola 9.3.2. Tavola 9.3.2. Funzione di probabilità di Q per 8" œ # e 8# œ #. 7 :#ß# Ð7Ñ "Î# "Î' &Î# %Î' *Î# "Î' – Se l'ipotesi di base è vera, dall'Esempio 9.1.2 si ha EÐQ Ñ œ " 8" Ð8# "Ñ "# e VarÐQ Ñ œ " 8" 8# Ð8 "ÑÐ8# %Ñ . ")! Inoltre, dall'Esempio 9.1.2, risulta che la distribuzione di Q è simmetrica solo se 8" œ 8# . Infine, dal Corollario 2.4.6 si ha che Q è “distribution-free” su i"ßJ œ VJ e di conseguenza anche il test di Mood è “distribution-free”. Dal momento che la distribuzione della statistica Q sotto ipotesi di base è specificata, le appropriate regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §9.1. I test per i parametri di scala: due campioni indipendenti 101 Esempio 9.3.2. Nella Tavola 9.3.3 sono riportati i tempi in anni dall'elezione alla morte per gli ultimi 8 presidenti degli Stati Uniti e degli ultimi 8 papi (dati aggiornati al 1991). Tavola 9.3.3. Tempi di sopravvivenza dall'elezione Ðin anniÑ. " # $ % & ' ( ) presidente Harding Coolidge Hoover Roosvelt Truman Kennedy Eisenhower Johnson B3 # "! $' "# #) $ "' * <3 # ( "' * "& $ "" ' %+Ð<3 Ñ "'* * ##& " "'* "#" #& #& papa Leone XIII Pio X Benedetto XV Pio XI Pio XII Giovanni XXIII Paolo VI Giovanni Paolo C3 #& "" ) "( "* & "& ! <3 %+Ð<3 Ñ "% "#" ) " & %* "# %* "$ )" % )" "! * " ##& Fonte: Lunn e McNeil (1991) Si vuole verificare se esiste una differente dispersione fra i due gruppi, ovvero si vuole verificare il sistema di ipotesi L! À ( œ "ß J − V contro L" À ( Á "ß J − V. Dal momento che per questi dati è immediato verificare che 7 œ ")', per 8" œ ) e 8# œ ) si ha PrÐQ ")'Ñ œ !Þ$&#& e quindi la significatività osservata risulta α9== œ # ‚ !.$&#& œ !.(!&!. Questo è una significatività osservata piuttosto alta che porta ad accettare l'ipotesi di base. – Per quanto riguarda la distribuzione per grandi campioni della statistica Q œ Q8 sotto ipotesi di base, dal Teorema 9.2.1, si ha Q8 8" Ð8# "ÑÎ"# . Ä R Ð!ß "Ñ . # È8" 8# Ð8 "ÑÐ8 %ÑÎ")! La convergenza della statistica di Mood è abbastanza veloce anche per campioni moderati, posto che entrambe le numerosità siano abbastanza elevate (8" "& e 8# "&). Le approssimazioni per grandi campioni delle regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §9.2. 9.4. Il test di Ansari-Bradley. Sia Ð\" ß á ß \8" ß ]" ß á ß ]8# Ñ un campione casuale misto con funzione di ripartizione congiunta J8 − i(ßJ . Il test di Ansari-Bradley è basato sulla statistica 8" Eœ 3œ" " " Ò Ð8 "Ñ ± V3 Ð8 "Ñ ± Ó # # descritta nell'Esempio 9.1.1. Mediante questo test si può verificare un'ipotesi di base del tipo L! À ( œ "ß J − V. Ovviamente, la statistica E è una statistica lineare dei ranghi per i parametri di scala con i punteggi di tipo 1 scelti come +Ð3Ñ œ Ð8 "ÑÎ# ± 3 Ð8 "ÑÎ# ± (3 œ "ß #ß á ß 8). Al fine di calcolare la funzione di probabilità :8" ß8# Ð+Ñ di E, si noti che è conveniente considerare i punteggi +w Ð3Ñ œ #+Ð3Ñ (3 œ "ß #ß á ß 8) al posto dei punteggi originali. In questa maniera la statistica Ew basata sui nuovi punteggi prende valori solo sugli interi ed è equivalente alla statistica originale essendo Ew œ #E. Dunque, dal Teorema 9.1.4, la funzione generatrice di probabilità PEw Ð@Ñ di Ew è data da Š 88" ‹ ordine 8" del polinomio in ? " volte il coefficiente di 102 I test per i parametri di scala:due campioni indipendenti $ Ò" ?@Ð8"ѱ#3Ð8"ѱ Ó . 8 3œ" Esempio 9.4.1. Per 8" œ # e 8# œ # si ha $ Ò" ?@&±#3&± Ó œ % 3œ" œ " Ð#@# #@% Ñ? Ð@% %@' @) Ñ?# Ð#@) #@"! Ñ?$ @"# ?% , da cui PEw Ð@Ñ œ " % Ð@ %@' @) Ñ . ' Poichè le probabilità :#ß# Ð+w Ñ corrispondono ai coefficienti del polinomio PEw Ð@Ñ, è immediato ottenere la Tavola 9.4.1. Tavola 9.4.1. Funzione di probabilità di Ew per 8" œ # e 8# œ #. +w :#ß# Ð+w Ñ % "Î' ' %Î' ) "Î' Inoltre, tenendo presente la relazione fra E e Ew dalla Tavola 9.4.1 è immediato ottenere la Tavola 9.4.2. Tavola 9.4.2. Funzione di probabilità di E per 8" œ # e 8# œ #. + :#ß# Ð+Ñ # "Î' $ %Î' % "Î' – Se l'ipotesi di base è vera, dall'Esempio 9.1.3 per 8 pari si ha EÐEÑ œ " 8" Ð8 #Ñ % e VarÐEÑ œ 8" 8# Ð8# %Ñ , %)Ð8 "Ñ mentre per 8 dispari si ha EÐEÑ œ 8" Ð8 "Ñ# %8 e VarÐEÑ œ 8" 8# Ð8 "ÑÐ8# $Ñ . %)8# Inoltre, dall'Esempio 9.1.3, risulta che la distribuzione di E è simmetrica solo se 8" œ 8# . Infine, dal Corollario 2.4.6 si ha che la statistica E è “distribution-free” su i"ßJ œ VJ e di I test per i parametri di scala: due campioni indipendenti 103 conseguenza anche il test di Ansari-Bradley è “distribution-free”. Dal momento che la distribuzione della statistica E sotto ipotesi di base è specificata, le appropriate regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §9.1. Esempio 9.4.2. Sebbene i dati dell'Esempio 6.1.1 siano relativi ad un solo campione casuale di sfere di acciaio prodotte da un macchinario, sono tuttavia disponibili anche i dati relativi ad un secondo campione casuale proveniente da un altro macchianario che produce ancora sfere di acciaio del diametro di 1 micron. Si dispone quindi di due campioni casuali indipendenti e si hanno quindi i dati della Tavola 9.4.3. Tavola 9.4.3. Diametro delle sfere Ðin micronÑ. sfera " # $ % & ' ( ) * "! macchianario 1 B3 <3 #+Ð<3 Ñ "Þ") ) "' "Þ%# "# ") !Þ'* " # !Þ)) % ) "Þ'# "& "# "Þ!* ( "% "Þ&$ "% "% "Þ!# ' "# "Þ"* * ") "Þ$# "" #! macchinario 2 C3 <3 #+Ð<3 Ñ "Þ(# ") ' "Þ'$ "' "! "Þ'* "( ) !Þ(* $ ' "Þ(* "* % !Þ(( # % "Þ%% "$ "' "Þ#* "! #! "Þ*' #! # !Þ** & "! Fonte: Romano (1977) Si sospetta che il secondo macchinario produca sfere con minore precisione del primo, ovvero si vuole verificare il sistema di ipotesi L! À ( œ 1ß J − V contro L" À ( "ß J − V. Dal momento che per questi dati è immediato verificare che + œ '(, per 8" œ "! e 8# œ "! si ha PrÐE '(Ñ œ !.!%!$ e quindi la significatività osservata risulta α9== œ !.!%!$. Questa è una significatività osservata bassa che porta a respingere l'ipotesi di base, ovvero sulla base dell'evidenza empirica si deve ritenere che il secondo macchinario sia meno preciso del primo. – Per quanto riguarda la distribuzione per grandi campioni della statistica E œ E8 sotto ipotesi di base, dal Teorema 9.2.1, si ha E8 EÐE8 Ñ . Ä R Ð!ß "Ñ . ÈVarÐE8 Ñ La convergenza della statistica di Ansari-Bradley è abbastanza veloce anche per campioni moderati, posto che entrambe le numerosità siano abbastanza elevate (8" "& e 8# "&). Le approssimazioni per grandi campioni delle regioni critiche del test per alternative bilaterali o direzionali si possono facilmente ottenere tenendo presente la discussione fatta nella §9.2. 9.5. Le prestazioni del test di Mood e del test di Ansari-Bradley. Per quanto riguarda le prestazioni asintotiche del test di Mood, dall'Esempio 9.2.1 si ha effQ œ È(#!/ Ð" / Ñ ( ∞ ∞ BÒJ ÐBÑ "Î#Ó0 ÐBÑ# .B , 104 I test per i parametri di scala:due campioni indipendenti per cui, utilizzando i risultati dell'Esempio 3.2.4, l'efficienza asintotica relativa del test di Mood rispetto al test di Snedecor risulta EARQ ßJ œ ∞ ")!# # # # Ö ( BÒJ ÐBÑ "Î#Ó0 ÐBÑ .B× . 5% ∞ La Tavola 9.5.2 fornisce i valori dell'efficienza asintotica relativa EARQ ßJ per alcune distribuzioni. E' evidente che anche dal punto di vista asintotico il test di Mood dimostra buone prestazioni. Tavola 9.5.2. EAR del test di Mood rispetto al test di Snedecor. distribuzione EARQ ßJ Y Ð- ß $ Ñ " R Ð.ß 5 # Ñ "&ÎÐ#1# Ñ œ !Þ(&** P9Ð-ß $ Ñ " I.Ð.ß $ Ñ '#&Î&(' ¶ "Þ!)&" G2Ð-ß $ Ñ ∞ IÐ-ß 5Ñ ""&Î"%% ¶ !Þ(*)' Per quanto riguarda le prestazioni asintotiche del test di Ansari-Bradley, dall'Esempio 9.2.2 si ha effE œ È%)/ Ð" / Ñ Ò( ∞ B!Þ& B0 ÐBÑ# .B ( B!Þ& B0 ÐBÑ# .BÓ , ∞ per cui utilizzando i risultati dell'Esempio 3.2.4, l'efficienza asintotica relativa del test di Ansari-Bradley rispetto al test di Snedecor risulta EAREßJ ∞ B!Þ& "## # # œ % Ò( B0 ÐBÑ .B ( B0 ÐBÑ# .BÓ# . 5 B!Þ& ∞ La Tavola 9.5.3 fornisce i valori dell'efficienza asintotica relativa EAREßJ per alcune distribuzioni. E' evidente le prestazioni del test di Ansari-Bradley anche in questo caso sono relativamente scarse, eccetto che per una distribuzione a code pesanti quale la Chauchy. Tavola 9.5.3. EAR del test di Ansari-Bradley rispetto al test di Snedecor. distribuzione EAREßJ Y Ð- ß $ Ñ $Î& œ !Þ' R Ð.ß 5 # Ñ 'Î1# ¶ !Þ'!(* P9Ð-ß $ Ñ %Ð% ln # "Ñ# Î"& ¶ !Þ)$(* I.Ð.ß $ Ñ "&Î"' ¶ !Þ*$(& G2Ð-ß $ Ñ ∞ IÐ-ß 5Ñ '*Ð# ln # "Ñ# Î"' ¶ !Þ'%$& Si noti infine che l'efficienza asintotica relativa del test di Mood rispetto al test di AnsariBradley risulta EARQ ßE œ "& Ö( ∞ ∞ BÒJ ÐBÑ "Î#Ó0 ÐBÑ# .B×# ÎÖ( ∞ B!Þ& B0 ÐBÑ# .B ( B!Þ& B0 ÐBÑ# .B×# , ∞ La Tavola 9.5.4 fornisce i valori dell'efficienza asintotica relativa EARQ ßE per alcune distribuzioni. E' evidente che dal punto di vista asintotico il test di Mood risulta superiore al test di Ansari-Bradley. I test per i parametri di scala: due campioni indipendenti Tavola 9.5.4. EAR del test di Mood rispetto al test di Ansari-Bradley. distribuzione EARQ ßE Y Ð- ß $ Ñ &Î$ œ "Þ'''( R Ð.ß 5 # Ñ &Î% œ "Þ#& P9Ð-ß $ Ñ "&ÎÒ%Ð% ln # "Ñ# Ó ¶ "Þ"*$& I.Ð.ß $ Ñ "#&Î"!) ¶ "Þ"&(% G2Ð-ß $ Ñ "&Î"' œ !Þ*$(& IÐ-ß 5Ñ &ÎÒ#(Ð# ln # "Ñ# Ó ¶ "Þ#%"! 105 Capitolo 10 I test per l'associazione 10.1. Verifica di ipotesi sull'associazione. Si consideri innanzitutto il modello statistico “distribution-free” œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 ß C" ß C# ß á ß C8 Ñ œ $ J ÐB3 ß C3 Ñß J − V#× , 8 VJ# 3œ" dove V# rappresenta la classe delle funzioni di ripartizione di un vettore bivariato di variabili casuali continue. Ovviamente, VJ# rappresenta il modello statistico relativo ad un campione casuale proveniente da un vettore bivariato di variabili casuali continue. Una sottoclasse di VJ# è data dal modello statistico “distribution-free” \J#" ßJ# œ ÖJ8 À J8 ÐB" ß B# ß á ß B8 ß C" ß C# ß á ß C8 Ñ œ $ J" ÐB3 ÑJ# ÐC3 Ñß J"ß J# − V× . 8 3œ" Evidentemente, \J#" ßJ# rappresenta il modello statistico relativo ad un campione casuale proveniente da un vettore bivariato di variabili casuali continue a componenti indipendenti. Un sistema di ipotesi interessante da verificare è quindi L! À J8 − \J#" ßJ# contro l'ipotesi alternativa L" À J8 − VJ# \J#" ßJ# , ovvero verificare l'indipendenza delle componenti del vettore bivariato di variabili casuali da cui proviene il campione casuale. 10.2. Il test di correlazione di Spearman. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − VJ# , si vuole verificare il sistema di ipotesi considerato nella §10.1. Una statistica test conveniente in questo caso è il coefficiente di correlazione campionario di Spearman, che non è altro che l'ordinario coefficiente di correlazione calcolato sul vettore dei ranghi relativo a Ð\" ß \# ß á ß \8 Ñ e sul vettore dei ranghi relativo a Ð]" ß ]# ß á ß ]8 Ñ. Si indichi dunque con ÐV" ß V# ß á ß V8 Ñ il vettore dei ranghi relativo a Ð\" ß \# ß á ß \8 Ñ e con ÐY" ß Y# ß á ß Y8 Ñ il vettore dei ranghi relativo a Ð]" ß ]# ß á ß ]8 Ñ. Tenendo presente che " 8 8 V3 œ 3œ" " 8 8 Y3 œ 3œ" " Ð8 "Ñ # e che " 8 8 3œ" " " [V3 Ð8 "Ñ]# œ # 8 8 [Y3 3œ" " " Ð8 "Ñ]# œ Ð8# "Ñ , # "# il coefficiente di correlazione campionario di Spearman è dunque dato da I test per l'associazione VW œ " 8 107 8 3œ" Y3 V3 Ð8# %" Ð8 "Ñ# "# œ "ÑÎ"# 8Ð8# "Ñ 8 Y3 V3 3œ" $Ð8 "Ñ . 8" Il seguente teorema permette di ottenenre un'espressione più semplice per il coefficiente di correlazione di Spearman. Teorema 10.2.1. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − \J#" ßJ# , per il coefficiente di correlazione di Spearman si ha VW œ "# 8Ð8# "Ñ 8 Y3 V3 3œ" $Ð8 "Ñ . "# œ 8" 8Ð8# "Ñ 8 3V3 3œ" $Ð8 "Ñ . 8" Dimostrazione. Dal momento che i vettori dei ranghi ÐV" ß V# ß á ß V8 Ñ e ÐY" ß Y# ß á ß Y8 Ñ sono indipendenti in quanto trasformate di variabili casuali indipendenti, allora per ogni Ð?" ß ?# ß á ß ?8 Ñ − e8 si ha ÐVW ± Y" œ ?" ß Y# œ ?# ß á ß Y8 œ ?8 Ñ œ "# œÐ 8Ð8# "Ñ 8 Y3 V3 3œ" . œ $Ð8 "Ñ . ± Y " œ ?" ß Y # œ ? # ß á ß Y 8 œ ? 8 Ñ œ 8" "# 8Ð8# "Ñ 8 ?3 V3 3œ" $Ð8 "Ñ . 8" Se .3 è la posizione del numero 3 (3 œ "ß #ß á ß 8) nel vettore Ð?" ß ?# ß á ß ?8 Ñ, allora ovviamente si ha "# 8Ð8# "Ñ 8 ?3 V3 3œ" $Ð8 "Ñ "# œ 8" 8Ð8# "Ñ 8 4V.4 4œ" $Ð8 "Ñ . 8" Tuttavia, dal momento che per il Teorema 2.4.3 ÐV" ß V# ß á ß V8 Ñ è distribuito uniformente su e8 , essendo il vettore dei ranghi relativo ad un campione casuale, allora si ha . ÐV" ß V# ß á ß V8 Ñ œ ÐV." ß V.# ß á ß V.8 Ñ per qualsiasi permutazione Ð." ß .# ß á ß .8 Ñ di Ð"ß #ß á ß 8Ñ. Dunque, risulta . ÐVW ± Y" œ ?" ß Y# œ ?# ß á ß Y8 œ ?8 Ñ œ . œ "# 8Ð8# "Ñ "# 8Ð8# "Ñ 8 3V3 3œ" 8 4V.4 4œ" $Ð8 "Ñ . œ 8" $Ð8 "Ñ . 8" Dal momento che questa equivalenza in distribuzione vale per ogni Ð?" ß ?# ß á ß ?8 Ñ − e8 , allora il teorema è dimostrato. Dunque, in base al precedente teorema, il coefficiente di correlazione di Spearman può essere calcolato semplicemente ordinando rispetto alle realizzazioni di Ð]" ß ]# ß á ß ]8 Ñ e 108 I test per l'associazione successivamente assegnando il vettore dei ranghi alle realizzazioni di Ð\" ß \# ß á ß \8 Ñ. Si noti che se V3 œ 3 (3 œ "ß #ß á ß 8) allora esiste associazione positiva perfetta fra i ranghi ed infatti risulta VW œ "# 8Ð8# "Ñ 8 3# 3œ" $Ð8 "Ñ "# 8Ð8 "ÑÐ#8 "Ñ $Ð8 "Ñ œ œ ". # 8" 8Ð8 "Ñ ' 8" Al contrario, se V3 œ 8 " 3 (3 œ "ß #ß á ß 8) allora esiste associazione negativa perfetta fra i ranghi ed infatti risulta VW œ œ œ "# 8Ð8# "Ñ "# 8Ð8 "Ñ 8 3Ð8 " 3Ñ 3œ" 8 3 3œ" "# 8Ð8# "Ñ $Ð8 "Ñ œ 8" 8 3# 3œ" $Ð8 "Ñ œ 8" "# 8Ð8 "Ñ "# 8Ð8 "ÑÐ#8 "Ñ $Ð8 "Ñ œ ". # 8Ð8 "Ñ # 8Ð8 "Ñ ' 8" Indicando con W œ 83œ" 3V3 , si noti che VW è una trasformata lineare di W . Dunque, è evidente che VW e W forniscono test equivalenti. Tenendo presente la Definizione 7.1.1, è immediato verificare che W è una statistica lineare dei ranghi con le costanti di regressione pari a -Ð3Ñ œ 3 (3 œ "ß #ß á ß 8) e i punteggi pari a +Ð3Ñ œ 3 (3 œ "ß #ß á ß 8). Si noti che il supporto di W è Ö8Ð8 "ÑÐ8 #ÑÎ'ß 8Ð8 "ÑÐ8 #ÑÎ' "ß á ß 8Ð8 "ÑÐ#8 "ÑÎ'×. Tenendo presente il Teorema 2.4.3 e denotando la funzione di probabilità di W con :8 Ð=Ñ œ PrÐW œ =Ñ, allora si ha :8 Ð=Ñ œ " -8 Ð=Ñ , = œ 8Ð8 "ÑÐ8 #ÑÎ'ß á ß 8Ð8 "ÑÐ#8 "ÑÎ' ß 8x dove -8 Ð=Ñ rappresenta il numero di permutazioni di Ð"ß #ß á ß 8Ñ per cui W assume valore =. La funzione di probabilità di W (e di conseguenza quella di VW ) è solitamente ottenuta mediante enumerazione, dal momento che non esistono metodi che ne facilitino il calcolo. Se – œ –- œ Ð8 "ÑÎ# e l'ipotesi di base è vera, dal momento che in questo caso si ha + # # # =+ œ =- œ Ð8 "ÑÎ"#, dal Teorema 7.1.3 risulta EÐWÑ œ " 8Ð8 "Ñ# % e VarÐWÑ œ " # 8 Ð8 "ÑÐ8 "Ñ# , "%% da cui EÐVW Ñ œ e "# $Ð8 "Ñ EÐWÑ œ! # 8Ð8 "Ñ 8" I test per l'associazione 109 VarÐVW Ñ œ "%% " VarÐWÑ œ . # "Ñ 8" 8# Ð8# Dal momento che +Ð3Ñ œ 3 (3 œ "ß #ß á ß 8), in modo analogo all'Esempio 7.1.5, si ottiene che W è simmetrica rispetto a EÐWÑ œ 8Ð8# "ÑÎ%. Di conseguenza, anche VW è simmetrica rispetto a EÐVW Ñ œ !. Inoltre, dal Corollario 2.4.4, si ottiene che la statistica W è “distribution-free” su VJ" e dunque anche su \J#" ßJ# , ovvero anche il test di Spearman è “distribution-free”. Se l'ipotesi di base non è vera, W tende ad assumere valori bassi o elevati. Fissato quindi un livello di significatività α, allora si sceglie come regione critica l'insieme g" œ Ö=À = Ÿ =8ßαÎ# ß = =8ß"αÎ# × , dove =8ßα rappresenta il quantile di ordine α della distribuzione di W per una numerosità campionaria pari a 8. Esempio 10.2.1. I dati della Tavola 10.2.1 si riferiscono alla mortalità per cirrosi e al consumo di maiale nell'anno 1978 nelle 10 provincie del Canada. Tavola 10.2.1. Mortalità per cirrosi (per 100 000 abitanti) e consumo di maiale (in 51 per persona). provincia Prince Edward Island Newfoundland Nova Scotia Saskatchewan New Brunswick Alberta Manitoba Ontario Quebec British Columbia C3 'Þ& "!Þ# "!Þ' "$Þ% "%Þ& "'Þ% "'Þ' ")Þ# "*Þ! #(Þ& B3 &Þ) 'Þ) $Þ' %Þ$ %Þ% &Þ( 'Þ* (Þ# "%Þ* )Þ% 3 " # $ % & ' ( ) * "! <3 & ' " # $ % ( ) "! * Fonte: Nanji e French (1985) Si vuole verificare se esiste associazione fra la mortalità per cirrosi e il consumo di maiale. Dal momento che per questi dati è immediato verificare che = œ $'!, allora per 8 œ "! si ha PrÐW $'!Ñ œ !Þ!"&$ e quindi la significatività osservata risulta α9== œ # ‚ !Þ!"&$ œ !Þ!$!'. Dunque esiste associazione fra la mortalità per cirrosi e il consumo di maiale, in quanto si può respingere L! ad ogni livello di significatività α !Þ!$!'. Si noti che esiste una associazione positiva, dato che risulta <W œ #$Î$$ ¶ !Þ'*'*. – Per quanto riguarda la distribuzione per grandi campioni della statistica W œ W8 sotto ipotesi di base, si noti che i relativi coefficienti di regressione verificano la condizione di Noether dal momento che lim 8Ä∞ 8 3œ" [-8 Ð3Ñ 8 # –- 8 ]# 3œ" [3 Ð8 "ÑÎ#] œ lim œ 8 Ä ∞ max [3 Ð8 "ÑÎ#]# max [-8 Ð3Ñ –- 8 ]# "Ÿ3Ÿ8 "Ÿ3Ÿ8 8Ð8# "ÑÎ"# 8Ð8 "Ñ œ 8lim œ lim œ∞. Ä ∞ Ð8 "Ñ# Î% 8 Ä ∞ $Ð8 "Ñ 110 I test per l'associazione In questo caso, notando che alla statistica W è associata una funzione punteggio 9Ð?Ñ œ ?IÒ!ß"Ó , tenendo presente l'Esempio 5.3.1, le condizioni del Teorema 7.2.2 sono soddifatte e quindi si ha W8 8Ð8 "Ñ# Î% . Ä R Ð!ß "Ñ . È8# Ð8 "ÑÐ8 "Ñ# Î"%% Tenendo presente la discussione che segue il Teorema 7.2.2 si ha inoltre VWß8 . œ VWß8 È8 " Ä R Ð!ß "Ñ . È"ÎÐ8 "Ñ Fissato un livello di significatività α, per 8 Ä ∞ la regione critica può essere dunque approssimata dall'insieme Ö=À = Ÿ EÐW8 Ñ DαÎ# ÈVarÐW8 Ñß = EÐW8 Ñ D"αÎ# ÈVarÐW8 Ñ× . Esempio 10.2.2. I dati della Tavola 10.2.2 si riferiscono alle misure (in 7) fatte nel lancio del peso e del giavellotto dalle 25 atlete partecipanti alla gara di eptathlon femminile alle Olimpiadi del 1988. Tavola 10.2.2. Misure nel lancio del peso e del giavellotto (in 7). atleta Joyner-Kersee - USA John - GDR Behmer - GDR Sablovskaite - URS Choubenkova - URS Schultz - GDR Fleming - AUS Greiner - USA Lajbnerova - CZE Bouraga - URS Wijnsma - HOL Dimitrova - BUL Schneider - SWI Braun - FRG Ruotsalainen - FIN Yuping - CHN Hagger - GB Brown - USA Mulliner - GB Hautenauve - BEL Kytola - FIN Geremias - BRA Hui-Ing - TAI Jeong-Me - KOR Launa - PNG C3 "&Þ)! "'Þ#$ "%Þ#! "&Þ#$ "%Þ(' "$Þ&! "#Þ)) "%Þ"$ "%Þ#) "#Þ'# "$Þ!" "#Þ)* ""Þ&) "$Þ"' "#Þ$# "%Þ#" "#Þ(& "#Þ'* "#Þ') ""Þ)" ""Þ'' "#Þ*& "!Þ!! "!Þ)$ ""Þ() B3 %&Þ'' %#Þ&' %%Þ&% %#Þ() %(Þ'% %#Þ)# %!Þ#) $)Þ!! %#Þ#! $*Þ!' $(Þ)' %!Þ#( %(Þ&! %%Þ&) %&Þ%% $)Þ'! $&Þ(' %%Þ$% $(Þ(' $&Þ') $*Þ%) $*Þ'% $*Þ"% $*Þ#' %'Þ$) 3 #% #& "* #$ ## "( "# ") #" ) "& "$ $ "' ( #! "" "! * ' % "% " # & <3 ## "' "* "( #% "& "$ & "% ( % "# #& #! #" ' # ") $ " "! "" ) * #$ Fonte: Lunn e McNeil (1991) I dati sono ordinati in base alla posizione finale dell'atleta nella gara. Si è interessati a conoscere se vi è associazione fra il risultato ottenuto dalle atlete nella gara del lancio del peso e quello ottenuto dalle atlete nella gara del lancio del giavellotto. Dal momento che è immediato verificare che per questi dati si ha = œ %%*$, allora risulta I test per l'associazione 111 PrÐW %%*$Ñ ¶ " FÒÐ%%*$ #& ‚ '('Î%ÑÎÈ'#& ‚ #% ‚ '('Î"%%Ó œ œ " FÐ"Þ!!)!Ñ œ !Þ"&'' , la significatività osservata risulta α9== œ # ‚ !Þ"&'' œ !Þ$"$#. Dunque non esiste associazione fra i risultati ottenuti nel lancio del peso e del giavellotto nella gara di epthatlon, dal momento che si può accettare L! ad ogni livello di significatività α !Þ$"$#. Si noti che il coefficiente di correlazione di Spearman risulta <W œ '(Î$#& ¶ !Þ#!'", un valore relativamente basso che conferma la mancanza di associazione. – 10.3. Il test di correlazione di Kendall. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − VJ# , si vuole verificare il sistema di ipotesi considerato nella §10.1. Una statistica test opportuna in questo sistema di ipotesi è data dalla statistica di Kendall, data da 8" # 7œ 8Ð8 "Ñ 8 segnÐ\4 \3 ÑsegnÐ]4 ]3 Ñ , 3œ" 4œ3" dove segnÐBÑ œ #IÐ!ß∞Ñ ÐBÑ ". Si noti che la statistica 7 può essere scritta come 7œ # ÐG HÑ , 8Ð8 "Ñ dove 8" 8 Gœ IÒ!ß∞Ñ ÒsegnÐ\4 \3 ÑsegnÐ]4 ]3 ÑÓ 3œ" 4œ3" rappresenta il numero di coppie Ð\3 ß ]3 Ñ e Ð\4 ß ]4 Ñ concordanti, mentre 8" 8 Hœ IÒ!ß∞Ñ Ò segnÐ\4 \3 ÑsegnÐ]4 ]3 ÑÓ 3œ" 4œ3" rappresenta il numero di coppie Ð\3 ß ]3 Ñ e Ð\4 ß ]4 Ñ discordanti. Dal momento che è immediato verificare che G H œ 8Ð8 "ÑÎ#, allora si ha anche 7œ %G ". 8Ð8 "Ñ Si noti che in caso di perfetta associazione positiva tutte le coppie sono concordanti, per cui risulta G œ 8Ð8 "ÑÎ# e di conseguenza 7 œ ". Al contrario, in caso di perfetta associazione negativa tutte le coppie sono discordanti, per cui risulta G œ ! e di conseguenza 7 œ ". Infine, se il numero delle coppie concordanti è uguale al numero delle coppie discordanti, ovvero se non vi è associazione, allora risulta G œ 8Ð8 "ÑÎ% per cui 7 œ !. Dunque, 7 è a tutti gli effetti una valida misura di associazione. Si noti che 7 è una trasformata lineare della statistica G . Dunque, è evidente che 7 e G forniscono test equivalenti. Il seguente teorema fornisce una utile equivalenza in distribuzione per la statistica G . 112 I test per l'associazione Teorema 10.3.1. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − \J#" ßJ# , per la statistica G risulta 8" 8 8" 8 . Gœ IÒ!ß∞Ñ ÒsegnÐ\4 \3 ÑsegnÐ]4 ]3 ÑÓ œ 3œ" 4œ3" IÒ!ß∞Ñ ÐV4 V3 Ñ , 3œ" 4œ3" dove ÐV" ß V# ß á ß V8 Ñ è il vettore dei ranghi relativo a Ð\" ß \# ß á ß \8 Ñ. Dimostrazione. Si noti che è immediato dimostrare . segnÐ\4 \3 Ñ œ segnÐV4 V3 Ñ , 3 œ "ß #ß á ß 8 " , 4 œ 3 "ß á ß 8 , e . segnÐ]4 ]3 Ñ œ segnÐY4 Y3 Ñ , 3 œ "ß #ß á ß 8 " , 4 œ 3 "ß á ß 8 , dove ÐY" ß Y# ß á ß Y8 Ñ è il vettore dei ranghi relativo a Ð]" ß ]# ß á ß ]8 Ñ. Dunque, risulta 8" 8 . IÒ!ß∞Ñ ÒsegnÐ\4 \3 ÑsegnÐ]4 ]3 ÑÓ œ Gœ 3œ" 4œ3" 8" 8 . œ IÒ!ß∞Ñ ÒsegnÐV4 V3 ÑsegnÐY4 Y3 ÑÓ . 3œ" 4œ3" Dal momento che ÐV" ß V# ß á ß V8 Ñ e ÐY" ß Y# ß á ß Y8 Ñ sono indipendenti in quanto trasformate di variabili casuali indipendenti, allora per ogni Ð?" ß ?# ß á ß ?8 Ñ − e8 si ha . ÐG ± Y" œ ?" ß Y# œ ?# ß á ß Y8 œ ?8 Ñ œ 8" 8 . œ Ð IÒ!ß∞Ñ ÒsegnÐV4 V3 ÑsegnÐY4 Y3 ÑÓ ± Y" œ ?" ß Y# œ ?# ß á ß Y8 œ ?8 Ñ œ 3œ" 4œ3" 8" 8 œ IÒ!ß∞Ñ ÒsegnÐV4 V3 ÑsegnÐ?4 ?3 ÑÓ . 3œ" 4œ3" Se .3 è la posizione del numero 3 (3 œ "ß #ß á ß 8) nel vettore Ð?" ß ?# ß á ß ?8 Ñ, allora ovviamente si ha 8" 8 IÒ!ß∞Ñ ÒsegnÐV4 V3 ÑsegnÐ?4 ?3 ÑÓ œ 3œ" 4œ3" 8" 8 œ 8" 8 IÒ!ß∞Ñ ÒsegnÐV.7 V.6 ÑsegnÐ7 6ÑÓ œ 6œ" 7œ6" IÒ!ß∞Ñ ÒsegnÐV.7 V.6 ÑÓ . 6œ" 7œ6" Tuttavia, dal momento che per il Teorema 2.4.3 ÐV" ß V# ß á ß V8 Ñ è distribuito uniformente su e8 , essendo il vettore dei ranghi relativo ad un campione casuale, allora si ha . ÐV" ß V# ß á ß V8 Ñ œ ÐV." ß V.# ß á ß V.8 Ñ per qualsiasi permutazione Ð." ß .# ß á ß .8 Ñ di Ð"ß #ß á ß 8Ñ. Dunque, risulta I test per l'associazione 113 . ÐG ± Y" œ ?" ß Y# œ ?# ß á ß Y8 œ ?8 Ñ œ 8" 8 8" . œ 8 . IÒ!ß∞Ñ ÒsegnÐV.6 V.7 ÑÓ œ IÒ!ß∞Ñ ÒsegnÐV4 V3 ÑÓ . 3œ" 4œ3" 6œ" 7œ6" Dal momento che questa equivalenza in distribuzione vale per ogni Ð?" ß ?# ß á ß ?8 Ñ − e8 , allora il teorema è dimostrato. Nel prossimo teorema si ottiene una importante equivalenza in distribuzione per la statistica G. Teorema 10.3.2. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − \J#" ßJ# , allora 8 . Gœ Z3 , 3œ# dove Z3 (3 œ #ß $ß á ß 8) sono Ð8 "Ñ variabili casuali indipendenti con funzione di probabilità data da :3 Ð@Ñ œ " , @ œ !ß "ß á ß 3 " , 3 œ #ß $ß á ß 8 . 3 Dimostrazione. Dal Teorema 10.3.1, si ha 8" 8 . Gœ 8" 8" IÒ!ß∞Ñ ÐV4 V3 Ñ œ 3œ" 4œ3" 8" 8" œ IÒ!ß∞Ñ ÐV4 V3 Ñ IÒ!ß∞Ñ ÐV8 V3 ÑÓ œ 8" 3œ" 4œ3" 8" 4œ" IÒ!ß∞Ñ Ð\8 8# 8" . IÒ!ß∞Ñ ÐV8 V3 Ñ œ IÒ!ß∞Ñ ÐV4 V3 Ñ dove Z8 œ Ò 3œ" 4œ3" 3œ" IÒ!ß∞Ñ Ð\4 \3 Ñ Z8 , 3œ" 4œ3" \4 Ñ. Dalla Definizione 2.4.1 si ha dunque che . Z8 œ V8 " , ovvero Z8 possiede funzione di probabilità :8 Ð@Ñ œ " , @ œ !ß "ß á ß 8 " . 8 8" Inoltre, si noti che 8# 3œ" 4œ3" IÒ!ß∞Ñ Ð\4 \3 Ñ è indipendente da Z8 in quanto eliminando l'ultima osservazione l'ordinamento rimane comunque invariato. Questa variabile casuale è in effetti la statistica G calcolata sul campione casuale Ð\" ß \# ß á ß \8" Ñ. Iterando si ha dunque 8 . Gœ Z3 , 3œ# 114 I test per l'associazione dove Z3 œ 3" 4œ" IÒ!ß∞Ñ ÐV3 V4 Ñ (3 œ #ß $ß á ß 8) sono Ð8 "Ñ variabili casuali indipendenti con funzione di probabilità data da :3 Ð@Ñ œ " , @ œ !ß "ß á ß 3 " , 3 œ #ß $ß á ß 8 . 3 Si noti che il supporto di G è dato da Ö!ß "ß á ß 8Ð8 "ÑÎ#×. Tenendo presente il Teorema 2.4.3 e denotando la funzione di probabilità di G con :8 Ð-Ñ œ PrÐG œ -Ñ, allora se l'ipotesi di base è vera, si ha " -8 Ð-Ñ , - œ !ß "ß á ß 8Ð8 "ÑÎ# , 8x :8 Ð-Ñ œ dove -8 Ð-Ñ rappresenta il numero di permutazioni di Ð"ß #ß á ß 8Ñ per cui G assume valore - . Sebbene esistano delle relazioni ricorrenti per il calcolo diretto della funzione di probabilità di G , la distribuzione della statistica si ottiene più facilmente con la funzione generatrice delle probabilità. Teorema 10.3.3. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − \J#" ßJ# , la funzione generatrice delle probabilità di G risulta PG Ð>Ñ œ $ 8 3œ# " >3 , ±>± ". 3Ð" >Ñ Dimostrazione. Con la notazione del Teorema 10.3.2, la funzione generatrice delle probabilità di Z3 (3 œ "ß #ß á ß 8) risulta " 3 PZ3 Ð>Ñ œ 3" >4 , ± > ± " , 3 œ #ß $ß á ß 8 . 4œ! Dall'indipendenza delle Z3 si ottiene dunque PG Ð>Ñ œ $ 8 3œ# " 3 3" > œ$ 8 3 4œ! 3œ# " >3 , ±>± ". 3Ð" >Ñ Esempio 10.3.1. Per 8 œ % si ha PG Ð>Ñ œ œ " Ð" >ÑÐ" > ># ÑÐ" > ># >% Ñ œ #% " Ð" $> &># '>$ &>% $>& >' Ñ . #% Poichè le probabilità :% Ð-Ñ corrispondono ai coefficienti del polinomio PG Ð>Ñ, è immediato ottenere la Tavola 10.3.1. Tavola 10.3.1. Funzione di probabilità di G per 8 œ %. 7 :% Ð-Ñ ! " "Î#% " #Î$ $Î#% # "Î$ &Î#% $ ! 'Î#% % "Î$ &Î#% & #Î$ $Î#% ' " "Î#% I test per l'associazione 115 Nei seguenti teoremi si ottiene la media e la varianza di G e la sua simmetria rispetto alla media. Teorema 10.3.4. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − \J#" ßJ# , allora EÐGÑ œ " 8Ð8 "Ñ % e VarÐGÑ œ " 8Ð8 "ÑÐ#8 &Ñ . (# Dimostrazione. Per le variabili casuali Z3 (3 œ #ß $ß á ß 8) definite nel Teorema 10.3.2, si ha 3" EÐZ3 Ñ œ @:3 Ð@Ñ œ @œ! " 3 3" @œ @œ! " 3 3" @œ @œ" " Ð3 "Ñ # e 3" @# :3 Ð@Ñ EÐZ3 Ñ# œ VarÐZ3 Ñ œ @œ! " œ 3 3" @# @œ" " 3 3" @# @œ! " Ð3 "Ñ# œ % " " # Ð3 "Ñ# œ Ð3 "Ñ . % "# Di conseguenza, tenendo presente il Teorema 10.3.2, si ha 8 EÐGÑ œ 3œ# " EÐZ3 Ñ œ # 8 3œ# " Ð3 "Ñ œ # 8" 3œ 3œ" " 8Ð8 "Ñ % e 8 VarÐGÑ œ VarÐZ3 Ñ œ 3œ# " "# 8 Ð3# "Ñ œ 3œ# " "# 8 Ð3# "Ñ œ 3œ" 8Ð8 "ÑÐ#8 &Ñ . (# Dal precedente teorema si ha inoltre EÐ7 Ñ œ 4 EÐGÑ " œ ! 8Ð8 "Ñ e VarÐ7 Ñ œ "' #Ð#8 &Ñ VarÐGÑ œ . # "Ñ *8Ð8 "Ñ 8# Ð8 Teorema 10.3.5. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − \J#" ßJ# , allora G è simmetrica rispetto a EÐGÑ œ 8Ð8 "ÑÎ%. 116 I test per l'associazione Dimostrazione. Dal momento che è immediato verificare che ogni Z3 definita nel Teorema 10.3.2 è simmetrica rispetto a EÐZ3 Ñ œ Ð3 "ÑÎ# (3 œ #ß $ß á ß 8), tenendo presente il Teorema 1.2.3, si ha 8 . G EÐGÑ œ 8 . [Z3 EÐZ3 Ñ] œ 3œ# . [EÐZ3 Ñ Z3 ] œ EÐGÑ G , 3œ# per cui dal Teorema 1.2.2 si deve concludere che G è simmetrica rispetto a EÐGÑ. Dal Teorema 10.3.5 è immediato constatare che anche 7 è simmetrica rispetto a EÐ7 Ñ œ !. Dal Teorema 10.3.1, tenendo presente il Corollario 2.4.4, risulta che la statistica G è “distribution-free” su VJ" e dunque anche su \J#" ßJ# , ovvero anche il test di Kendall è “distribution-free”. Se l'ipotesi di base non è vera, G tende ad assumere valori bassi o elevati. Fissato quindi un livello di significatività α, allora si sceglie come regione critica l'insieme g" œ Ö-À - Ÿ -8ßαÎ# ß - -8ß"αÎ# × , dove -8ßα rappresenta il quantile di ordine α della distribuzione di G per una numerosità campionaria pari a 8. Esempio 10.3.2. I dati della Tavola 10.3.2 si riferiscono ai tempi fatti nei 1007 piani dai primi 10 atleti classificati nella gara di decathlon alle Olimpiadi del 1988. Tavola 10.3.2. Tempi nei 100m piani (in sec). 8 atleta C3 B3 <3 4œ3" IÒ!ß∞Ñ ÐV4 V3 Ñ Schenk - GDR " Voss - GDR # Steen - CAN $ Thompson - GB % Blondel - FRA & Plaziat - FRA ' Bright - USA ( DeWit - HOL ) Johnson - USA * Tarnovetsky - URS "! ""Þ#& "!Þ)( ""Þ"* "!Þ'# ""Þ!# "!Þ)$ ""Þ") ""Þ!& ""Þ"& ""Þ#$ "! $ ) " % # ( & ' * ! ' " ' % % " # " ! Fonte: Lunn e McNeil (1991) Si è interessati a conoscere se vi è associazione fra la posizione finale dell'atleta e il risultato fatto nella gara dei 1007. Dal momento che è immediato ottenere che - œ #&, per 8 œ "! si ha PrÐG #&Ñ œ !Þ$'% e quindi la significatività osservata risulta α9== œ # ‚ !Þ$'% œ !Þ("). Dunque, la sola gara dei 1007 non condiziona la posizione finale dell'atleta, dal momento che si può accettare L! ad ogni livello di significatività α !Þ("). Si noti che in questo caso si ha 7 œ "Î* ¶ !Þ"""", un valore basso del coefficiente di Kendall che conferma la mancanza di associazione. – Per quanto riguarda la distribuzione per grandi campioni di G8 , si ha il seguente teorema. Teorema 10.3.6. Se Ð\" ß ]" Ñß Ð\# ß ]# Ñß á ß Ð\8 ß ]8 Ñ è un campione casuale bivariato con funzione di ripartizione congiunta J8 − \J#" ßJ# , allora per 8 Ä ∞ I test per l'associazione 117 G8 8Ð8 "ÑÎ% . Ä R Ð!ß "Ñ . È8Ð8 "ÑÐ#8 &ÑÎ(# Dimostrazione. Dal momento che per il Teorema 10.3.2 G8 è data da una somma di variabili casuali indipendenti, ma non ugualmente distribuite, è opportuno applicare Teorema Fondamentale di Lindberg del Limite (Teorema A.3.7). Si noti che 8 5# œ VarÐZ3 Ñ œ 3œ# " "# 8 Ð3# "Ñ ¶ 8$ . 3œ# Inoltre, dal momento che il supporto di Z3 risulta Ö!ß "ß á ß 3 "× (3 œ #ß $ß á ß 8), dalla disugualianza di Chebicheff si ha EÖ[Z3 Ð3 "ÑÎ#]# IÐ∞ßÐ3"ÑÎ#%5Ñ∪ÐÐ3"ÑÎ#%5ß∞Ñ ÐZ3 Ñ× Ÿ Ÿ " " 3# " Ð3 "Ñ# Ð3# "Ñ Ð3 "Ñ# PrÐ ± Z3 Ð3 "ÑÎ# ± %5Ñ} Ÿ Ð3 "Ñ# œ . % % "#%# 5# %)%# 5# Dunque, si ha " 5# 8 EÖ[Z3 Ð3 "ÑÎ#]# IÐ∞ßÐ3"ÑÎ#%5Ñ∪ÐÐ3"ÑÎ#%5ß∞Ñ ÐZ3 Ñ× Ÿ 3œ# Ÿ " %)%# 5% 8 Ð3 "Ñ# Ð3# "Ñ ¶ 3œ# 8& " œ # , # ' % 8 % 8 da cui " lim 8 Ä ∞ 5# 8 EÖ[Z3 Ð3 "ÑÎ#]# IÐ∞ßÐ3"ÑÎ#%5Ñ∪ÐÐ3"ÑÎ#%5ß∞Ñ ÐZ3 Ñ× œ ! . 3œ# Dal momento che la precedente relazione è soddisfatta per ogni % !, allora le condizioni del Teorema Fondamentale di Lindberg del Limite sono soddisfatte e il teorema è dimostrato. Dal Teorema 10.3.6, segue inoltre che 78 . Ä R Ð!ß "Ñ . È#Ð#8 &ÑÎ[*8Ð8 "Ñ] Fissato un livello di significatività α, per 8 Ä ∞ la regione critica può essere dunque approssimata dall'insieme Ö-À - Ÿ EÐG8 Ñ DαÎ# ÈVarÐG8 Ñß - EÐG8 Ñ D"αÎ# ÈVarÐG8 Ñ× . Esempio 10.3.3. I dati della Tavola 10.3.3 si riferiscono alle misurazioni relative al contenuto totale di acqua corporea e alla stime della massa magra corporea fornite dallo spessore della pliche cutanea misurato mediante il plicometro in 23 bambini. 118 I test per l'associazione Tavola 10.3.3. Acqua (in l) e massa magra (in kg). 8 soggetto C3 B3 <3 4œ3" IÒ!ß∞Ñ ÐV4 V3 Ñ " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* #! #" ## #$ (Þ$& (Þ&' (Þ'& *Þ!$ *Þ*" "!Þ"# "!Þ## "!Þ&# "!Þ&* ""Þ($ ""Þ)' "#Þ$$ "#Þ'# "$Þ&# "%Þ%$ "&Þ)$ "&Þ*( "(Þ%* ")Þ*' ##Þ(& #(Þ") #(Þ#! $!Þ#% ""Þ! ""Þ& "!Þ( "#Þ* "#Þ$ "%Þ% "%Þ! "&Þ" "(Þ% ")Þ! "&Þ$ "'Þ' "*Þ( "*Þ# #"Þ' ##Þ* #"Þ( #&Þ( $"Þ% #*Þ! %!Þ! %$Þ% %%Þ$ # $ " & % ( ' ) "" "# * "! "% "$ "& "( "' ") #! "* #" ## #$ #" #! #! ") ") "' "' "& "# "" "# "" * * ) ' ' & $ $ # " ! Fonte: Brook (1971) Si vuole verificare se esiste associazione fra il contenuto di acqua corporea e la pliche cutanea, ovvero si vuole verificare che le stime della massa magra corporea ottenute mediante il plicometro sono credibili. Dal momento che è immediato ottenere che - œ #%#, allora PrÐG #%#Ñ ¶ " FÒÐ#%# #$ ‚ ##Î%ÑÎÈ#$ ‚ ## ‚ &"Î(#Ó œ œ " FÐ'Þ"!!)Ñ !Þ!!!& , quindi la significatività osservata risulta α9== # ‚ !Þ!!!& œ !Þ!!". In questo caso si può respingere L! ad ogni livello di significatività α !Þ!!". Si noti che il coefficiente di Kendall risulta 7 œ #"Î#$ ¶ !Þ*"$!, un valore elevato che conferma la presenza di una forte associazione. – Il test classico per la verifica di ipotesi sull'indipendenza è basato sulla statistica test J œ È8 # È" V # V , dove V è il coefficiente di correlazione campionario di Pearson. Tavola 10.3.4. EAR del test di Kendall rispetto al test di Pearson. I test per l'associazione 119 distribuzione EARGßJ Y Ð- ß $ Ñ " R Ð .ß 5 # Ñ *Î1# œ !Þ*""* I.Ð.ß $ Ñ )"Î'% œ "Þ#''' La Tavola 10.3.4 fornisce i valori dell'efficienza asintotica relativa EARGßJ per alcune distribuzioni. Si noti che il test di Kendall presenta buone prestazioni per grandi campioni anche sotto ipotesi di normalità. Capitolo 11 L'analisi della varianza 11.1. Ulteriori risultati per le statistiche rango. Si consideri innanzitutto il modello statistico “distribution-free” _-" ß-# ßáß-5 ßJ œ ÖJ8 À J8 ÐB"" ß B"# ß á ß B"8" ß B#" ß B## ß á ß B#8# ß á ß B5" ß B5# ß á ß B585 Ñ œ œ $$ J ÐB43 -4 Ñß J − Vß -" ß -# ß á ß -5 − ‘× , 84 5 4œ" 3œ" dove 8 œ 54œ" 84 . Ovviamente, _-" ß-# ßáß-5 ßJ rappresenta il modello statistico relativo a 5 campioni casuali indipendenti provenienti da 5 variabili casuali continue che sono equivalenti in distribuzione a meno di un parametro di posizione. Inoltre, è evidente che risulta _!ß!ßáß!ßJ œ VJ . In questa struttura è conveniente ampliare la definizione di variabile casuale rango. Definizione 11.1.1. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti con funzione di ripartizione congiunta J8 − VJ . In questo caso si definiscono statistiche rango le seguenti trasformate 84 5 V43 œ IÒ!ß∞Ñ Ð\43 \26 Ñ , 4 œ "ß #ß á ß 5 , 3 œ "ß #ß á ß 84 . 6œ" 2œ" Inoltre, si dice somma dei ranghi del 4-esimo campione la trasformata 84 V4 œ V43 , 4 œ "ß #ß á ß 5 . ˜ 3œ" Si noti che la statistica V43 rappresenta la posizione di \43 all'interno del campione misto ordinato. Dunque, V43 (3 œ "ß #ß á ß 84 ß 4 œ "ß #ß á ß 5 ) sono a tutti gli effetti statistiche rango anche se con una differente indicizzazione e quindi tutte le proprietà discusse nella §2.4 sono valide anche in questo caso. Per quanto riguarda le statistiche somma dei ranghi si ha il seguente teorema. Teorema 11.1.1. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti con funzione di ripartizione congiunta J8 − VJ . Allora si ha EÐV4 Ñ œ " 84 Ð8 "Ñ , 4 œ "ß #ß á ß 5 , # L'analisi della varianza 121 VarÐV4 Ñ œ " 84 Ð8 84 ÑÐ8 "Ñ , 4 œ "ß #ß á ß 5 , "# e CovÐV4 ß V2 Ñ œ " 84 82 Ð8 "Ñ , 4 Á 2 œ "ß #ß á ß 5 . "# Dimostrazione. Tenendo presente il Corollario 2.4.5, si ha 84 84 EÐV4 Ñ œ EÐV43 Ñ œ 3œ" 3œ" " " Ð8 "Ñ œ 84 Ð8 "Ñ , 4 œ "ß #ß á ß 5 , # # e 84 VarÐV4 Ñ œ 84 VarÐV43 Ñ 3œ" 84 œ 3œ" " Ð8# "Ñ "# 84 84 3œ" 6Á3œ" œ 84 CovÐV43 ß V46 Ñ œ 3œ" 6Á3œ" " " " Ð8 "Ñ œ 84 Ð8# "Ñ 84 Ð84 "ÑÐ8 "Ñ œ "# "# "# " 84 Ð8 84 ÑÐ8 "Ñ , 4 œ "ß #ß á ß 5 . "# Inoltre, ancora dal Corollario 2.4.5 risulta 84 82 CovÐV4 ß V2 Ñ œ CovÐV43 ß V26 Ñ œ 3œ" 6œ" " 84 82 Ð8 "Ñ , 4 Á 2 œ "ß #ß á ß 5 . "# Il seguente Teorema è un'estenione del Corollario 2.4.7 e sarà utile nel seguito. Teorema 11.1.2. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti con funzione di ripartizione congiunta J8 − VJ . Se ÐV4Ð"Ñ ß V4Ð#Ñ ß á ß V4Ð84 Ñ Ñ denota il vettore ordinato dei ranghi relativo a ÐV4" ß V4# ß á ß V484 Ñ (4 œ "ß #ß á ß 5 ), allora PrÐV"Ð"Ñ œ <"Ð"Ñ ß á ß V"Ð8" Ñ œ <"Ð8" Ñ ß á ß V5Ð"Ñ œ <5Ð"Ñ ß á ß V5Ð85 Ñ œ <5Ð85 Ñ Ñ œ œŒ 8 8" 8 # á 8 5 " , " Ÿ <4Ð"Ñ á <4Ð84 Ñ Ÿ 8 , 4 œ "ß #ß á ß 5 . Dimostrazione. Dal Corollario 2.4.7 si ha PrÐV"Ð"Ñ œ <"Ð"Ñ ß á ß V"Ð8" Ñ œ <"Ð8" Ñ Ñ œ Œ 8 8" " . Dal momento che è immediato verificare PrÐV#Ð"Ñ œ <#Ð"Ñ ß á ß V#Ð8# Ñ œ <#Ð8# Ñ ± V"Ð"Ñ œ <"Ð"Ñ ß á ß V"Ð8" Ñ œ <"Ð8" Ñ Ñ œ Œ 8 8" 8# " 122 L'analisi della varianza allora PrÐV"Ð"Ñ œ <"Ð"Ñ ß á ß V"Ð8" Ñ œ <"Ð8" Ñ ß V#Ð"Ñ œ <#Ð"Ñ ß á ß V#Ð8# Ñ œ <#Ð8# Ñ Ñ œ œŒ 8 8" 8# " 8 Œ 8" " œŒ 8 8" 8 # " . Procedendo iterativamente si ha la dimostrazione. 11.2. Il test di Kruskal-Wallis. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti con funzione di ripartizione congiunta J8 − _-" ß-# ßáß-5 ßJ . Il test di Kruskal-Wallis è basato sulla statistica Lœ "# 8Ð8 "Ñ 5 84 ÒV4 Î84 Ð8 "ÑÎ#Ó# . 4œ" Ovviamente, la statistica L è in effetti una misura della differenza fra le somme dei ranghi attesi e le somme dei ranghi osservati. Dunque, mediante il test di Kruskal-Wallis si può verificare un'ipotesi di base del tipo L! À -" œ -# œ á œ -5 ß J − V contro L" À -4 Á -2 ß b4 Á 2 œ "ß #ß á ß 5ß J − V. Questa struttura di ipotesi caratterizza la cosiddetta analisi della varianza ad un criterio. La statistica L è opportuna in questo sistema di ipotesi, in quanto se non è vera l'ipotesi di base tende ad assumere valori elevati. Si noti che la statistica L può essere espressa alternativamente come Lœ "# œ 8Ð8 "Ñ "# 8Ð8 "Ñ 5 # V4 Î84 4œ" 5 # 84 ÒV4 Î84# Ð8 "ÑV4 Î84 Ð8 "Ñ# Î4Ó œ 4œ" "# 8 5 84 V43 $Ð8 "Ñ œ 4œ" 3œ" "# 8Ð8 "Ñ 5 # V4 Î84 $Ð8 "Ñ . 4œ" Tenendo presente il Teorema 11.1.2, la funzione di probabilità della statistica L risulta :8" ß8# ßáß85 Ð2Ñ œ Œ 8 8" 8# á 85 " -8" ß8# ßáß85 Ð2Ñ , dove -8" ß8# ßáß85 Ð2Ñ è il numero di 5 sottoinsiemi di Ð8" ß 8# ß á ß 85 Ñ interi dell'insieme Ð"ß #ß á ß 8Ñ per cui la statistica vale 2. Dal momento che è molto laborioso tabulare la distribuzione esatta di L (questo lavoro dovrebbe essere fatto per ogni numerosità campionaria e per ogni 5 ), è conveniente impiegare il seguente risultato per grandi campioni. Teorema 11.2.1. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti con funzione di ripartizione congiunta J8 − VJ . Se /4 œ 8lim 8 Î8 Ä∞ 4 (! /4 ", 4 œ "ß #ß á ß 5 ), allora per 8 Ä ∞ si ha . L8 Ä ;#5" . Dimostrazione. Si veda Hettmansperger (1984). L'analisi della varianza 123 Un'approssimazione per grandi campioni della regione critica del test è quindi data dall'insieme Ö2À 2 ;#5"ß"α × . Esempio 11.2.1. I dati della Tavola 11.2.1 forniscono i coefficienti di salinità per alcuni saggi di acque prelevati in tre zone nei pressi di Bimini Lagoon nelle Bahamas. Tavola 11.2.1. Coefficienti di salinità (numero di parti per mille). saggio " # $ % & ' ( ) * "! "" "# sito 1 B"3 <"3 $(Þ&% "! $(Þ!# % $'Þ(" " $(Þ!% ' $(Þ$# ( $(Þ!" $ $(Þ!$ & $(Þ(! "" $(Þ$' ) $'Þ(& # $(Þ%& * $)Þ)& "( sito 2 B#3 <#3 %!Þ"( #( %!Þ)! $! $*Þ(' #% $*Þ(! #$ %!Þ(* #* %!Þ%% #) $*Þ(& #& $*Þ$) ## sito 3 B$3 <$3 $*Þ!% "* $*Þ#" #" $*Þ!& #! $)Þ#% "# $)Þ&$ "$ $)Þ(" "' $)Þ)* ") $)Þ'' "& $)Þ&" "% %!Þ!) #' Fonte: Till (1974) Si è interessati a determinare se la salinità è identica nelle tre zone considerate, ovvero si vuole verificare il sistema di ipotesi L! À -" œ -# œ -$ ß J − V contro L" À -4 Á -2 ß b4 Á 2 œ "ß #ß $ß J − V. Dal momento che <" œ )$, <# œ #!) e <$ œ "(%, da cui 2 ¶ #$Þ#&$*, allora PrÐL #$Þ#&$*Ñ ¶ PrÐ;## #$Þ#&$*Ñ !Þ!!" , per cui la significatività osservata risulta α9== !Þ!!". Dato che si può respingere L! ad ogni livello di significatività α !Þ!!", l'evidenza empirica porta a concludere che vi è una differente salinità nei tre siti considerati. – Esempio 11.2.2. I dati della Tavola 11.2.2 forniscono i tempi di sopravvivenza di una serie di pazienti con cancro avanzato (allo stomaco, ai bronchi, al colon, alle ovarie e al seno) che sono stati trattati con ascorbato. Si è interessati a determinare se i tempi di sopravvivenza sono differenti a secondo degli organi malati, ovvero si vuole verificare il sistema di ipotesi L! À -" œ -# œ -$ œ -% œ -& ß J − V contro l'alternativa L" À -4 Á -2 ß b4 Á 2 œ "ß #ß $ß %ß &ß J − V. Dal momento che <" œ $"&, <# œ $*(, <$ œ '"!, <% œ #%" e <& œ &"(, da cui 2 ¶ "%Þ*"'*, allora si ha !Þ!!" PrÐL "%Þ*"'*Ñ ¶ PrÐ;#% "%Þ*"'*Ñ !Þ!!& , da cui la significatività osservata risulta !Þ!!" α9== !Þ!!&. Dunque, l'evidenza empirica porta a concludere che i tempi di sopravvivenza differiscono a secondo dell'organo colpito dal cancro, in quanto si può respingere L! ad ogni livello di significatività α !Þ!!&. – 124 L'analisi della varianza Tavola 11.2.2. Tempi di sopravvivenza (in giorni). paziente " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( stomaco B"3 <"3 "#% ") %# ( #& % %& ) %"# %" &" "! """# && %' * "!$ "( )(' &$ "%' #! $%! $% $*' $* bronchi B#3 <#3 )" "% %'" %& #" # %&! %# #%' $" "'( #& '$ "" '% "# "&& ## )&* &# "&" #" "'' #% $( & ##$ #* "$) "* (# "$ #%& $! colon B$3 <$3 #%) $# $(( $) ")* #( ")%$ '" ")! #' &$( %( &"* %' %&& %$ %!' %! $'& $' *%# &% ((' &! $(# $( "'$ #$ "!" "' #! " #)$ $$ ovarie B%3 <%3 "#$% &( )* "& #!" #) $&' $& #*(! '# %&' %% seno B&3 <&3 "#$& &) #% $ "&)" &* ""'' &' %! ' (#( %* $)!) '% (*" &" ")!% '! $%'! '$ Fonte: Cameron e Pauling (1974) Infine, per quanto riguarda le prestazioni per grandi campioni del test di Kruskal-Wallis, si può dimostrare che l'efficienza asintotica relativa del test basato sulla statistica L rispetto al ´ test basato sulla classica statistica J dell'analisi della varianza a un criterio risulta (Hajek e ´ 1967) Šidak, EARLßJ œ "#5# Ò( ∞ 0 ÐBÑ# .BÓ# . ∞ Si noti che questa efficienza asintotica relativa è ancora identica a quella ottenuta per il test [ di Wilcoxon rispetto al test X di Student per un campione e per il test [ di MannWhitney-Wilcoxon rispetto al test X di Student per due campioni, per cui si può considerare ancora la Tavola 6.6.2, dove si hanno i valori di EARLßJ œ EAR[ ßX per alcune distribuzioni. 11.3. Il test di Friedman. Questo test viene utilizzato per la verifica di ipotesi nell'analisi della varianza a due criteri nel cosiddetto disegno campionario con blocchi casualizzati con una osservazione per cella. Più esattamente, in questo disegno si hanno 85 soggetti che vengono divisi in 8 blocchi, in maniera tale che in ogni blocco i soggetti sono assegnati casualmente ai 5 trattamenti. Il modello statistico “distribution-free” opportuno in questo caso è quindi dato da _-" ß-# ßáß-5 ßJ" ßJ# ßáßJ8 œ ÖJ8 À J8 ÐB"" ß á ß B5" ß B"# ß á ß B5# ß á ß B"8 ß á ß B58 Ñ œ œ $$ J3 ÐB43 -4 Ñß J" ß J# ß á ß J8 − Vß -" ß -# ß á ß -5 − ‘× . 5 8 4œ" 3œ" Ovviamente, _-" ß-# ßáß-5 ßJ" ßJ# ßáßJ8 rappresenta il modello statistico relativo a 85 campioni casuali indipendenti di una osservazione provenienti da 85 variabili casuali continue che in ogni blocco sono equivalenti in distribuzione a meno di un parametro di posizione. Inoltre, è evidente che _!ß!ßáß!ßJ" ßJ#ßáßJ8 rappresenta il modello statistico relativo a 8 campioni casuali L'analisi della varianza 125 indipendenti di 5 osservazioni provenienti da 8 variabili casuali continue. Siano dunque \43 (4 œ "ß #ß á ß 5 , 3 œ "ß #ß á ß 8) 85 variabili casuali da cui si dispone di una sola osservazione, con funzione di ripartizione congiunta J8 − _-" ß-# ßáß-5 ßJ" ßJ# ßáßJ8 . Si vuole verificare un'ipotesi di base del tipo L! À -" œ -# œ á œ -5 ß J" ß J# ß á ß J8 − V contro un'alternativa L" À -4 Á -2 ß b4 Á 2 œ "ß #ß á ß 5ß J" ß J# ß á ß J8 − V, ovvero si vuole verificare se i trattamenti hanno effetto differente. Si noti che se è vera l'ipotesi di base allora Ð\"3 ß \#3 ß á ß \53 Ñ (3 œ "ß #ß á ß 8) costituisce un campione casuale e sia ÐV"Ð3Ñ ß V#Ð3Ñ ß á ß V5Ð3Ñ Ñ (3 œ "ß #ß á ß 8) il relativo vettore dei ranghi. La statistica del test di Friedman è quindi data da "# Kœ 85Ð5 "Ñ 5 ÒV4ÐÑ 8Ð5 "ÑÎ#Ó# , 4œ" dove in questo caso V4ÐÑ œ 83œ" V4Ð3Ñ rappresenta la somma dei ranghi associati al 4-esimo trattamento in ogni blocco. Si noti che se è vera l'ipotesi di base il rango associato ad un dato trattamento per un blocco è uniformente distribuito (vedi Corollario 2.4.4), per cui in conseguenza del Corollario 2.4.5 si ha EÐV4ÐÑ Ñ œ 83œ" EÐV4Ð3Ñ Ñ œ 8Ð5 "ÑÎ#. Dunque, la statistica K, che è una misura della differenza fra le somme attese dei ranghi e le somme osservate dei ranghi per un trattamento, è una statistica opportuna per verificare l'ipotesi di base. Si noti che la statistica K può essere espressa alternativamente come "# Kœ 85Ð5 "Ñ "# œ 85Ð5 "Ñ 5 # ÒV4ÐÑ 8Ð5 "ÑV4ÐÑ 8# Ð5 "Ñ# Î4Ó œ 4œ" 5 # V4ÐÑ 4œ" "# œ 85Ð5 "Ñ "# 5 5 8 V4Ð3Ñ $8Ð5 "Ñ œ 4œ" 3œ" 5 # V4ÐÑ $8Ð5 "Ñ . 4œ" Dal momento che è molto laborioso tabulare la distribuzione esatta di K, è conveniente adoperare il seguente risultato per grandi campioni. Teorema 11.3.1. Siano \43 (4 œ "ß #ß á ß 5 , 3 œ "ß #ß á ß 8) 85 variabili casuali da cui si ha a disposizione una sola osservazione, con funzione di ripartizione congiunta data da J8 − _!ß!ßáß!ßJ" ßJ# ßáßJ8 . Allora per 8 Ä ∞ si ha . K8 Ä ;#5" . Dimostrazione. Si veda Hettmansperger (1984). Un'approssimazione per grandi campioni della regione critica del test è quindi data dall'insieme Ö1À 1 ;#5"ß"α × . Esempio 11.3.1. In un esperimento si vuole verificare l'efficacia delle scorie degli altoforni come materiale fertilizzante in agricoltura su tre tipi di suolo, ovvero fertile sabbioso, fertile 126 L'analisi della varianza argilloso e sabbia fertile. Vari tipi di fertilizzante per acro sono stati applicati e i dati della Tavola 11.3.1 si riferiscono al granturco prodotto. Tavola 11.3.1. Granturco prodotto (in staio per acro). fertile sabbioso B4" <4Ð"Ñ Nessuno ""Þ" " Scorie grezze "&Þ$ # Scorie medie ##Þ( $ Scorie per agricoltura #$Þ) % Calcare per agricoltura #&Þ' & Scorie per agricoltura+additivi $"Þ# ( Calcare per agricoltura+additivi #&Þ) ' Fertilizzante fertile argilloso B4# <4Ð#Ñ $#Þ' " %!Þ) # &#Þ" $ &#Þ) % '$Þ" ( &*Þ& ' &&Þ$ & sabbia fertile B4# <4Ð#Ñ '$Þ$ & '&Þ! ' &)Þ) # '"Þ% % %"Þ" " ()Þ" ( '!Þ# $ Fonte: Johnson e Graybill (1972) Ovviamente in questo caso i vari tipi di fertilizzanti rappresentano i trattamenti, mentre i tipi di suolo sono i blocchi. Si è quindi interessati a verificare se i trattamenti sono equivalenti, ovvero l'ipotesi di base L! À -" œ -# œ á œ -( ß J" ß J# ß J$ − V contro L" À -4 Á -2 ß b4 Á 2 œ "ß #ß á ß (ß J" ß J# ß J$ − V. Dal momento che in questo caso <"ÐÑ œ (, <#ÐÑ œ "!, <$ÐÑ œ ), <%ÐÑ œ "#, <&ÐÑ œ "$, <'ÐÑ œ #! e <(ÐÑ œ "%, da cui 1 ¶ )Þ"%#), allora risulta !Þ"! PrÐK )Þ"%#)Ñ ¶ PrÐ;#' )Þ"%#)Ñ !Þ#& , e quindi per la significatività osservata si ha !Þ"! α9== !Þ#&. L'evidenza empirica porta dunque a concludere che i fertilizzanti sono equivalenti, dal momento che si può accettare L! ad ogni livello di significatività α Ÿ !Þ"!. – Esempio 11.3.2. In un esperimento si vuole verificare l'aumento di peso di alcuni topi sottoposti a 4 tipi di dieta. Ogni dieta è caratterizzata da differenti apporti proteici (1 moderato apporto proteico animale, 2 - elevato apporto proteico animale, 3 - moderato apporto proteico vegetale, 4 - elevato apporto proteico vegetale). I dati della Tavola 11.3.2 forniscono gli aumenti di peso in 10 gruppi di 4 topi ciascuno che sono stati assegnati casualmente alle diete. Tavola 11.3.2. Aumenti di peso dei topi (in grammi). 4 " # $ % B4" *! ($ "!( *) <4Ð"Ñ # " % $ B4# (' "!# *& (% <4Ð#Ñ # % $ " B4$ *! "") *( &' <4Ð$Ñ # % $ " B4% '% "!% )! """ <4Ð%Ñ " $ # % B4& )' )" *) *& <4Ð&Ñ # " % $ B4' &" "!( (% )) <4Ð'Ñ " % # $ B4( (# "!! (% )# <4Ð(Ñ " % # $ B4) *! )( '( (( <4Ð)Ñ % $ " # B4* *& ""( )* )' <4Ð*Ñ $ % # " B4"! <4Ð"!Ñ () # """ % &) " *# $ Fonte: Snedecor e Cochran (1967) Ovviamente, in questo caso i vari tipi di dieta rappresentano i trattamenti, mentre i gruppi di topi assegnati casualmete ai 4 trattamenti sono i blocchi. Si è quindi interessati a verificare se le diete sono equivalenti, ovvero l'ipotesi di base L! À -" œ -# œ -$ œ -% ß J" ß J# ß á ß J"! − V contro L" À -4 Á -2 ß b4 Á 2 œ "ß #ß $ß %ß J" ß J# ß á ß J"! − V. Dal momento che <"ÐÑ œ #!, <#ÐÑ œ $#, <$ÐÑ œ #% e <%ÐÑ œ #%, da cui 1 ¶ %Þ&', allora si ha !Þ"! PrÐK %Þ&'Ñ ¶ PrÐ;#$ %Þ&'Ñ !Þ#& , L'analisi della varianza 127 quindi la significatività osservata risulta !Þ"! α9== !Þ#&. L'evidenza empirica porta dunque a concludere che le diete sono equivalenti, in quanto si può accettare L! ad ogni livello di significatività α Ÿ !Þ"!. – Infine, per quanto riguarda l'efficacia del test di Friedman, si può dimostrare che l'efficienza asintotica relativa del test basato sulla statistica K rispetto al test basato sulla classica ´ e Šidak, ´ 1967), statistica J dell'analisi della varianza a due criteri risulta (Hajek EARKßJ œ ∞ "#5# 5 Ò( 0 ÐBÑ# .BÓ# . 5 " ∞ Si noti che questa efficienza asintotica relativa è uguale a quella ottenuta per il test L di Kruskal-Wallis rispetto al test per l'analisi della varianza a un criterio solo per 5 Ä ∞. In particolare, si noti che se è vera l'assunzione di normalità, allora per 5 œ # si ottiene EARKßJ œ #Î1, ovvero l'efficienza asintotica relativa del test dei segni rispetto al test X di Student per un campione. Questa perdita di efficienza è ovviamente dovuta all'ordinamento all'interno dei blocchi, specie per un piccolo numero di trattamenti. Tenendo presente la relazione EARKßJ œ Ò5ÎÐ5 "ÑÓEAR[ ßX , si può ottenere i valori di EARKßJ per alcune distribuzioni mediante la Tavola 6.6.2. 11.4. Il test di concordanza di Kendall. La statistica del test di Friedman può essere adoperata anche nel problema dell'associazione quando si ha a disposizione campioni da variabili casuali 5 dimensionate. Ad esempio questo problema sorge quando si hanno 5 oggetti su cui viene misurato un certo attributo da 8 persone in maniera indipendente e si vuole avere una conferma della credibilità delle 8 misurazioni fatte (ovvero si vuole verificare l'associazione tra le misurazioni). Si noti che questa struttura dei dati è analoga a quella relativa a 5 trattamenti fatti su 8 blocchi. Innanzitutto, si consideri il modello statistico “distribution-free” VJ5 œ ÖJ8 À J8 ÐB"" ß B#" ß á ß B5" ß B"# ß B## ß á ß B5# ß á ß B"8 ß B#8 ß á ß B58 œ œ $ J ÐB"3 ß B#3 ß á ß B53 Ñß J − V5 × , 8 3œ" dove V5 rappresenta la classe delle funzioni di ripartizione di un vettore 5 -variato di variabili casuali continue. Ovviamente, VJ5 rappresenta il modello statistico relativo ad un campione casuale proveniente da un vettore 5 -variato di variabili casuali continue. Una sottoclasse di VJ5 è data dal modello statistico “distribution-free” \J5" ßJ# ßáßJ5 œ ÖJ8 À J8 ÐB"" ß B#" ß á ß B5" ß B"# ß B## ß á ß B5# ß á ß B"8 ß B#8 ß á ß B58 Ñ œ œ $$ J4 ÐB43 Ñß J" ß J# ß á ß J5 − V× . 5 8 4œ" 3œ" Evidentemente, \J5" ßJ# ßáßJ5 rappresenta il modello statistico relativo ad un campione casuale proveniente da un vettore 5 -variato di variabili casuali continue a componenti indipendenti. Il sistema di ipotesi d'interesse è quindi L! À J8 − \J5" ßJ# ßáßJ5 contro L" À J8 − VJ5 \J5" ßJ#ßáßJ5 , ovvero verificare l'indipendenza delle componenti del vettore 5 -variato di variabili casuali da cui proviene il campione casuale. Si noti che se è vera l'ipotesi di base allora 128 L'analisi della varianza _!ß!ßáß!ßJ" ßJ#ßáßJ8 œ \J5" ßJ# ßáßJ5 e quindi una statistica test opportuna è data dalla statistica di Kendall Oœ K . 8Ð5 "Ñ Questa statistica è ovviamente equivalente alla statistica di Friedman ed è stata standardizzata in modo che ! Ÿ O Ÿ ", ovvero in modo che possa essere interpretato come coefficiente di associazione. Infatti, se non esiste associazione allora V4ÐÑ œ 8Ð5 "ÑÎ# (4 œ "ß #ß á ß 5 ) e quindi O œ !. In caso contrario si ha V4ÐÑ œ 84 (4 œ "ß #ß á ß 5 ) e quindi O œ ". Ovviamente, sotto ipotesi di base per 8 Ä ∞ si ha . 8Ð5 "ÑO Ä ;#5" . Dunque, un'approssimazione per grandi campioni della regione critica del test è data dall'insieme Ö5À 5 ;#5"ß"α × . Capitolo 12 I test funzionali 13.1. Il test Chi-quadrato per la bontà di adattamento. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale da una variabile casuale discreta \ . Supponiamo inoltre che il supporto di \ sia finito e che la relativa funzione di probabilità sia data da :ÐB3 Ñ œ PrÐ\ œ B3 Ñ œ 13 , 3 œ "ß #ß á ß < , Sia inoltre 03 la frequenza osservata di determinazioni del valore B3 nel campione < (3 œ "ß #ß á ß <). Ovviamente, si ha 3œ" 03 œ 8. Le quantità Ð0" ß 0# ß á ß 0< Ñ sono dette frequenze osservate, mentre le quantità Ð81" ß 81# ß á ß 81< Ñ sono dette frequenze attese. In questo caso un sistema di ipotesi interessante da verificare risulta L! À 13 œ 13! Ð)Ñß 3 œ "ß #ß á ß < contro L" À 13 Á 13! Ð)Ñß b3 œ "ß #ß á ß <, dove ) è un vettore di parametri tale che ) − K § ‘; . Mediante questo sistema di ipotesi si vuole dunque verificare che la distribuzione di \ appartiene ad una certa famiglia di distribuzioni specificata (eventualmente) a meno di un vettore di parametri. Dal momento che le probabilità 13 (3 œ "ß #ß á ß <) specificano completamente la funzione di ripartizione di \ , la precedente ipotesi è a tutti gli effetti una ipotesi funzionale. Una statistica test conveniente in questo caso è la statistica Chi-quadrato per la bontà d'adattamento data da < Uœ 3œ" sÑ]# [03 813! ÐK , sÑ 813! ÐK s è uno stimatore di ) coerente, efficiente per grandi campioni e che converge in dove K distribuzione ad una normale. Si noti che la statistica U può essere alternativamente espressa come Uœ " 8 < 3œ" 03# sÑ 13! ÐK 8. Ovviamente, se le frequenze osservate si discostano molto da quelle attese stimate, si ottengono determinazioni elevate di U che conseguentemente portano a respingere l'ipotesi di base. La distribuzione esatta di U è proibitiva da calcolare e quindi è conveniente impiegare il seguente risultato per grandi campioni. Teorema 12.1.1. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale da una variabile casuale discreta \ con funzione di probabilità data da :ÐB3 Ñ œ 13! Ð)Ñ (3 œ "ß #ß á ß <) dove ) − K § ‘; , e siano Ð0" ß 0# ß á ß 0< Ñ le relative frequenze osservate. Se 1Ð)Ñ ammette derivate del primo e s è uno stimatore di ) coerente, efficiente per secondo ordine rispetto ad ogni ) − K e se K grandi campioni e che converge in distribuzione ad una normale, allora per 8 Ä ∞ 130 I test funzionali < Uœ 3œ" sÑ]# . # [03 813! ÐK Ä ;<"; . sÑ 813! ÐK Dimostrazione. Si veda Serfling (1980). Un'approssimazione per grandi campioni della regione critica del test è quindi data dall'insieme Ö;À ; ;#<";ß"α × . Esempio 12.1.1. I dati della Tavola 12.1.1 si riferiscono al numero di maschi nei primi sette figli di 1334 pastori prostestanti svedesi. Tavola 12.1.1. Numero dei figli maschi. Numero figli maschi Frequenze osservate ! ' " &( # #!' $ $'# % $'& & #&' ' '* ( "$ Fonte: Edwards e Fraccaro (1960) Si vuole verificare che questi dati provengono da una F3Ð(ß )Ñ, ovvero si vuole verificare ( ‰ 3" l'ipotesi di base L! À 13 œ ˆ 3" ) Ð" )Ñ(3" ß 3 œ "ß #ß á ß ), contro l'ipotesi alternativa ( ‰ 3" L" À 13 Á ˆ 3" ) Ð" )Ñ(3" ß b3 œ "ß #ß á ß ), dove ) − Ð!ß "Ñ. Il parametro ) può essere stimato col metodo della massima verosimiglianza, che fornisce stimatori coerenti, efficienti per grandi campioni e che convergono in distribuzione ad una normale. La funzione di logverosimiglianza risulta ) ln PÐ)Ñ œ - ) 03 lnÒ)3" Ð" )Ñ(3" Ó œ 03 ln 13 œ - 3œ" 3œ" ) œ - ln ) ) Ð3 "Ñ03 lnÐ" )Ñ 3œ" Ð( 3 "Ñ03 , ! ) " . 3œ" E' immediato verificare che la funzione di log-verosimiglianza è massimizzata per s) œ " (8 ) Ð3 "Ñ03 , 3œ" ovvero s) ¶ !Þ&"%!. Dunque, 1" Ðs)Ñ ¶ !Þ!!'%, 1# Ðs)Ñ ¶ !Þ!%(%, 1$ Ðs)Ñ ¶ !Þ"&!%, 1% Ðs)Ñ ¶ !Þ#'&#, 1& Ðs)Ñ ¶ !Þ#)!%, 1' Ðs)Ñ ¶ !Þ"()!, 1( Ðs)Ñ ¶ !Þ!'#(, 1) Ðs)Ñ ¶ !Þ!!*&, da cui ; ¶ &Þ*%#'. Di conseguenza, risulta !Þ#& PrÐU &Þ*%#'Ñ ¶ PrÐ;#' &Þ*%#'Ñ !Þ&! , I test funzionali 131 quindi la significatività osservata risulta !Þ#& α9== !Þ&!. In questo caso si può accettare L! , ovvero che il campione proviene da una F3Ð(ß )Ñ, ad ogni livello di significatività α Ÿ !Þ#&. – Esempio 12.1.2 I dati della Tavola 12.1.2 danno la distribuzione della prima cifra dei numeri contenuti in un volume della rivista Reader's Digest scelto casualmente. Un modello teorico per questi dati è la cosiddetta distribuzione anomala (vedi Feller, 1971). La funzione di probabilità di una variabile casuale anomala è data da :ÐBÑ œ log"! ÐB "Ñ log"! ÐBÑ , B œ "ß #ß á ß * . Si vuole verificare che i dati provengono da una variabile casuale anomala, ovvero si vuole verificare l'ipotesi L! À 13 œ log"! Ð3 "Ñ log"! Ð3Ñß 3 œ "ß #ß á ß *, contro l'alternativa L" À 13 Á log"! Ð3 "Ñ log"! Ð3Ñß b3 œ "ß #ß á ß *. Tavola 12.1.2. Prime cifre dei numeri contenuti in un volume. Prima cifra " # $ % & ' ( ) * Frequenze osservate "!$ &( $) #$ ## #! "( "& "$ Benford, F. (1938) In questo caso non vi sono parametri da stimare, e dunque si ha ; ¶ $Þ#((', da cui !Þ*! PrÐU $Þ#(('Ñ ¶ PrÐ;#) $Þ#(('Ñ !Þ*& , e quindi la significatività osservata risulta !Þ*! α9== !Þ*&. In questo caso vi è una forte evidenza empirica ad accettare L! , ovvero che il campione proviene da una distribuzione anomala, in quanto si potrebbe accettare questa ipotesi ad ogni livello di significatività α Ÿ !Þ*!. – Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale proveniente da una variabile casuale \ discreta con supporto numerabile, con relativa funzione di probabilità :ÐB3 Ñ œ PrÐ\ œ B3 Ñ œ 13 (3 œ "ß #ß á ). In questo caso, per rendere applicabile il test Chi-quadrato si deve considerare un raggruppamento di valori. Più esattamente, si considera solo i primi Ð< "Ñ valori B3 con relativi 13 œ PrÐ\ œ B3 Ñ (3 œ "ß #ß á ß < ") e l'insieme di valori B< ß B<" ß á con relativo 1< œ ∞ 3œ< PrÐ\ œ B3 Ñ. In questo caso, si deve tenere presente che 0< rappresenta la frequenza osservata dei valori B< ß B<" ß á . Esempio 12.1.3. I dati della Tavola 12.1.3 si riferiscono al numero di taxi arrivati in intervalli di un minuto alla stazione di Euston a Londra fra le 9.00 e le 10.00 in una mattina del 1950. Se gli arrivi sono casuali allora è noto dalla teoria dei processi stocastici puntuali che i dati provengono da una T 9Ð)Ñ. Raggruppando opportunamente i valori, si vuole dunque verificare l'ipotesi di base L! À 13 œ expÐ )Ñ)3" ÎÐ3 "Ñxß 3 œ "ß #ß á ß &ß 1' œ " & 3" ÎÐ3 "Ñx, dove ) − ‘ . 3œ" expÐ ) Ñ) 132 I test funzionali Tavola 12.1.3. Numero dei taxi arrivati alla stazione in un ora. numero di taxi per minuto ! " # $ % più di & frequenza ") ") "% ( $ ! Fonte: Kendall (1951) Il parametro ) può essere stimato col metodo della massima verosimiglianza, che fornisce stimatori coerenti, asintoticamente efficienti e asintoticamente normali. Tenendo presente che 0' œ !, la funzione di log-verosimiglianza risulta ' ln PÐ)Ñ œ - 03 ln 13 œ 3œ" & & 03 lnÒexpÐ )Ñ)3" ÎÐ3 "ÑxÓ 0' lnÒ" œ- 3œ" expÐ )Ñ)3" ÎÐ3 "ÑxÓ œ 3œ" & œ- & 03 Ò ) Ð3 "Ñ ln )Ó œ - ln ) 3œ" Ð3 "Ñ03 8) , ) ! . 3œ" E' immediato verificare che la funzione di log-verosimiglianza è massimizzata per s) œ " 8 & Ð3 "Ñ03 , 3œ" ovvero s) ¶ "Þ$"'(. Dunque, si ha 1" Ðs)Ñ œ !Þ#')!, 1# Ðs)Ñ œ !Þ$&#*, 1$ Ðs)Ñ œ !Þ#$#$, 1% Ðs)Ñ œ !Þ"!#!, 1& Ðs)Ñ œ !Þ!$$', 1' Ðs)Ñ œ !Þ!""#, da cui ; ¶ "Þ*)%". Di conseguenza !Þ&! PrÐU "Þ*)%"Ñ ¶ PrÐ;#% "Þ*)%"Ñ !Þ*! , quindi la significatività osservata risulta !Þ&! α9== !Þ*!. In questo caso, si può accettare L! , ovvero che il campione proviene da una variabile casuale di Poisson, ad ogni livello di significatività α Ÿ !Þ&!. – Esempio 12.1.4 I dati della Tavola 12.1.4 si riferiscono al numero di scintillazioni in intervalli di 72 secondi causate dal decadimento radioattivo del polonio. Se le scintillazioni avvengono casualmente, allora è noto dalla teoria dei processi stocastici puntuali che i dati provengono da una T 9Ð)Ñ. Raggruppando opportunamente i valori, si vuole dunque verificare L! À 13 œ expÐ )Ñ)3" ÎÐ3 "Ñxß 3 œ "ß #ß á ß "#ß "# 1"$ œ " 3œ" expÐ )Ñ)3" ÎÐ3 "Ñx, dove ) − ‘ . Analogamente all'Esempio 12.1.3, il parametro ) può essere stimato col metodo della massima verosimiglianza. Si noti tuttavia in questo caso 0"$ non è nullo, per cui la funzione di log-verosimiglianza risulta I test funzionali 133 "$ ln PÐ)Ñ œ - 03 ln 13 œ 3œ" "# œ- "# 03 lnÒexpÐ )Ñ) 3" expÐ )Ñ)3" ÎÐ3 "ÑxÓ œ ÎÐ3 "ÑxÓ 0"$ lnÒ" 3œ" 3œ" "# œ - ln ) "# expÐ )Ñ)3" ÎÐ3 "ÑxÓ , ) ! , Ð3 "Ñ03 8) 0"$ lnÒ" 3œ" 3œ" che può essere massimizzata solo numericamente. Sostituendo i dati si deve dunque massimizzare numericamente la seguente funzione "" )3 Î3xÓ , ) ! . 1Ð)Ñ œ "!!(! ln ) #'!) ) # lnÒ" expÐ )Ñ 3œ! Per via numerica si ottiene che il massimo della precedente funzione è raggiunto per s) œ $Þ)'(). Sostituendo si ha dunque 1" Ðs)Ñ œ !Þ!#!*, 1# Ðs)Ñ œ !Þ!)!), 1$ Ðs)Ñ œ !Þ"&'$, 1% Ðs)Ñ œ !Þ#!"', 1& Ðs)Ñ œ !Þ"*&!, 1' Ðs)Ñ œ !Þ"&!), 1( Ðs)Ñ œ !Þ!*(#, 1) Ðs)Ñ œ !Þ!&$(, 1* Ðs)Ñ œ !Þ!#'!, 1"! Ðs)Ñ œ !Þ!""#, 1"" Ðs)Ñ œ !Þ!!%$, 1"# Ðs)Ñ œ !Þ!!"&, 1"$ Ðs)Ñ œ !Þ!!!%, da cui ; ¶ "%Þ'&)!. Di conseguenza, si ha !Þ"! PrÐU "%Þ'&)!Ñ ¶ PrÐ;#"" "%Þ'&)!Ñ !Þ#& , quindi la significatività osservata risulta !Þ"! α9== !Þ#&. In questo caso si può accettare L! , ovvero che il campione proviene da una variabile casuale di Poisson, ad ogni livello di significatività α Ÿ !Þ"!. – Tavola 12.1.4. Numero di scintillazioni (in intervalli di 72sec) del polonio. Numero scintillazioni Frequenze osservate ! &( " #!$ # $)$ $ &#& % &$# & %!) ' #($ ( "$* ) %& * #( "! "! "" % "# # Fonte: Rutheford e Geiger (1910) Esempio 12.1.5. In un indagine sono state contate le bombe cadute in un area di 36km# nella parte sud di Londra durante la Seconda Guerra Mondiale. L'area è stata suddivisa in sottoaree ognuna delle quali misurava 1/16 di km# , per un totale di 576 sottoaree in cui è stato contato il numero di bombe cadute. I dati relativi sono forniti nella Tavola 12.1.5. 134 I test funzionali Tavola 12.1.5. Numero di bombe (in aree di 1/4 di km# ). Numero bombe Frequenze osservate ! ##* " #"" # *$ $ $& % ( & " Fonte: Clarke (1946) Si vuole verificare se le bombe sono cadute casualmente o se sono state lanciate su precisi obiettivi. Se le bombe sono cadute casualmente, allora dalla teoria dei processi stocastici puntuali sul piano è noto che i dati provengono da una T 9Ð)Ñ. Si vuole dunque verificare l'ipotesi di base L! À 13 œ expÐ )Ñ)3" ÎÐ3 "Ñxß 3 œ "ß #ß á ß 5ß 1' œ " & 3" ÎÐ3 "Ñx, dove ) − ‘ . Analogamente all'Esempio 13.1.4, lo stimatore di 3œ" expÐ ) Ñ) massima verosimiglianza di ) viene ottenuto massimizzando numericamente la seguente funzione % )3 Î3xÓ , ) ! , 1Ð)Ñ œ &$! ln ) &(' ) lnÒ" expÐ )Ñ 3œ! da cui si ha s) œ !Þ*#(&. Sostituendo si ha dunque 1" Ðs)Ñ œ !Þ$*&&, 1# Ðs)Ñ œ !Þ$''*, 1$ Ðs)Ñ œ !Þ"(!", 1% Ðs)Ñ œ !Þ!&#', 1& Ðs)Ñ œ !Þ!"##, 1' Ðs)Ñ œ !Þ!!#(, da cui ; ¶ "Þ")(). Di conseguenza risulta !Þ&! PrÐU "Þ")()Ñ ¶ PrÐ;#% "Þ")()Ñ !Þ*! , quindi la significatività osservata risulta !Þ&! α9== !Þ*!. In questo caso si può accettare L! , ovvero che il campione proviene da una variabile casuale di Poisson, ad ogni livello di significatività α Ÿ !Þ&!. – 13.2. Il test Chi-quadrato per la bontà di adattamento con 5 campioni. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti, ognuno dei quali proviene rispettivamente da una variabile casuale discreta \4 (4 œ "ß #ß á ß 5 ). Sia inoltre 8 œ 54œ" 84 . Supponiamo che le \4 (4 œ "ß #ß á ß 5 ) abbiano identico supporto finito e che la relativa funzione di probabilità sia data da :ÐB3 Ñ œ PrÐ\4 œ B3 Ñ œ 143 , 3 œ "ß #ß á ß < , Sia inoltre 043 la frequenza osservata di determinazioni del valore B3 nel 4-esimo campione < (3 œ "ß #ß á ß <, 4 œ "ß #ß á ß 5 ). Ovviamente, 3œ" 043 œ 84 (4 œ "ß #ß á ß 5 ). Inoltre si 5 indica con 03 œ 4œ" 043 (3 œ "ß #ß á ß <). In questo caso un sistema di ipotesi interessante da verificare è dato dall'ipotesi di base L! À 1"3 œ 1#3 œ á œ 153 œ 13 ß 3 œ "ß #ß á ß < contro l'ipotesi alternativa L" À 143 œ 163 ß b4 Á 6 œ "ß #ß á ß 5ß 3 œ "ß #ß á ß <. Mediante questo sistema di ipotesi si vuole dunque verificare l'omogeneità delle distribuzioni delle \4 (4 œ "ß #ß á ß 5 ). Dal momento che le probabilità 143 (3 œ "ß #ß á ß <ß 4 œ "ß #ß á ß 5 ) specificano completamente le funzioni di ripartizione delle \4 la precedente ipotesi è a tutti gli effetti una ipotesi funzionale. Una statistica test conveniente in questo caso è la statistica Chi-quadrato per la bontà d'adattamento con 5 campioni data da I test funzionali 135 5 < Uœ 4œ" 3œ" Ð043 84 1 s 3 Ñ# , 84 1 s3 dove 1 s3 œ 03 Î8 (3 œ "ß #ß á ß <). Si noti che la statistica U può essere alternativamente espressa come 5 < Uœ8 4œ" 3œ" 043# 8. 84 03 Ovviamente, se le frequenze osservate si discostano molto dalle frequenze attese stimate si ottengono realizzazioni elevate di U, che conseguentemente portano a respingere l'ipotesi di base. La distribuzione esatta di U è proibitiva da calcolare e quindi è conveniente impiegare il seguente risultato per grandi campioni. Teorema 12.2.1. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti, ognuno dei quali proviene rispettivamente da una variabile casuale discreta \4 con funzione di probabilità :ÐB3 Ñ œ 13 , Ð3 œ "ß #ß á ß <ß 4 œ "ß #ß á ß 5 ). Allora, per 8 Ä ∞ 5 < Uœ 4œ" 3œ" Ð043 84 1 s 3 Ñ# . # Ä ;<55<" , 84 1 s3 dove 1 s3 œ 03 Î8 (3 œ "ß #ß á ß <). Dimostrazione. Si veda Serfling (1980). Un'approssimazione per grandi campioni della regione critica del test è quindi data dall'insieme Ö;À ; ;#<55<"ß"α × . Esempio 12.2.1. Quando i dati vengono raccolti spesso il rilevatore arrotonda l'ultima cifra del dato a certe cifre convenienti quali ad esempio lo 0 e il 5. Questo fenomeno di “accatastamento” di cifre è stato verificato per la rilevazione dei dati più disparati. Si considerino ad esempio i dati della Tavola 12.2.1 che si riferiscono alle frequenze della cifra finale delle misurazioni delle temperature massime e minime giornaliere ufficiali negli Stati Uniti negli anni 1922-1924. Tavola 12.2.1. Cifra finale delle temperature minime e massime. Cifra ! " # $ % & ' ( ) * max "*% "%) "!) (# #* &" $# &% "!# #"! min "(( "%* ""$ (! $& &! #( ') *) #"$ Fonte: Preece (1981) 136 I test funzionali Si vuole determinare se i dati provengono dalla stessa distribuzione, ovvero si vuole verificare L! À 13 œ 1"3 œ 1#3 (3 œ "ß #ß á ß "!). Si ha dunque ; ¶ $Þ'#(', da cui !Þ*! PrÐ; $Þ'#('Ñ ¶ PrÐ;#* $Þ'#('Ñ !Þ*& , quindi la significatività osservata risulta !Þ*! α9== !Þ*&. Quindi, si deve accettare che i dati provengono dalla stessa distribuzione, in quanto si può accettare L! ad ogni livello di significatività α Ÿ !Þ*!. – Esempio 12.2.2. Nel 1861 il periodico New Orleans Crescent pubblicò 10 lettere a firma Quinto Curzio Snodgrass. Sebbene gli eventi discussi in queste lettere sembrano essere accaduti realmente, non esiste alcuna traccia di uno scrittore con questo nome. E' stato supposto che il vero autore delle lettere sia Mark Twain. Un modo per verificare statisticamente la paternità degli scritti è quella di comparare le distribuzioni delle lunghezze delle parole. I dati della Tavola 12.2.2 si riferiscono alle distribuzioni del numero di lettere delle parole di due brani scelti casualmente dagli scritti di Mark Twain e Quinto Curzio Snodgrass. Tavola 12.2.2. Lunghezza delle parole di due brani. Lunghezza " # $ % & ' ( ) * "! "" "# "$ Twain $"# ""%' "$*% ""(( ''" %%# $'( #$" ")" "!* &! #% "# Q.C.S. %#% #')& #(&# #$!# "%$" **# )*' '$) %'& #(' "&# "!" '" Fonte: Brinegar (1963) Si vuole determinare se i due brani sono stati scritti dalla medesima persona, ovvero si vuole verificare L! À 13 œ 1"3 œ 1#3 (3 œ "ß #ß á ß "$). Si ha dunque ; ¶ "!"Þ%*$), da cui PrÐU "!"Þ%*$)Ñ ¶ PrÐ;#"# "!"Þ%*$)Ñ !Þ!!" , e quindi la significatività osservata risulta α9== !Þ!!". Dunque, si deve respingere l'ipotesi che Twain e Snodgrass siano la stessa persona, in quanto si può respingere L! ad ogni livello di significatività α !Þ!!". – Quando i 13 (3 œ "ß #ß á ß <) sono noti il test si basa sulla statistica 5 < Uœ 4œ" 3œ" Ð043 84 13 Ñ# . 84 1 3 La distribuzione esatta di U è proibitiva da calcolare e quindi è conveniente impiegare il seguente risultato per grandi campioni. I test funzionali 137 Teorema 12.2.2. Siano Ð\4" ß \4# ß á ß \484 Ñ (4 œ "ß #ß á ß 5 ) 5 campioni casuali indipendenti, ognuno dei quali proviene rispettivamente da una variabile casuale discreta \4 con funzione di probabilità :ÐB3 Ñ œ 13 , (3 œ "ß #ß á ß <, 4 œ "ß #ß á ß 5 ). Allora, per 8 Ä ∞ 5 < Uœ 4œ" 3œ" Ð043 84 13 Ñ# . # Ä ;<55 . 84 1 3 Dimostrazione. Si veda Serfling (1980). Un'approssimazione per grandi campioni della regione critica del test è quindi data dall'insieme Ö;À ; ;#<55ß"α × . Esempio 12.2.3. Mediante un elaborazione con un sistema di calcolo simbolico sono state determinate le prime 10000 cifre nell'espansione decimale dei numeri trascendenti 1 ed e. Per ognuno di queste numeri è stata contata la frequenza di ogni cifra !ß "ß á ß * e si sono ottenuti i dati di Tavola 12.2.3. Tavola 12.2.3. Cifre dei numeri trascendenti 1 ed e. Cifra ! " # $ % & ' ( ) * 1 *') "!#' "!#" *(% "!"# "!%' "!#" *(! *%) "!"% e *(% *)* "!!% "!!) *)# **# "!(* "!!) **' *') Dalla teoria dei numeri è noto che 1 ed e sono normali con probabilità " (un numero è detto normale se ogni cifra si presenta con la medesima frequenza nella sua espansione decimale). Si vuole ottenere una conferma statistica dell'uniformità della distribuzione delle cifre di 1 ed e, ovvero si vuole verificare L! À 13 œ "Î"! (3 œ "ß #ß á ß "!). Si ha ; ¶ "(Þ*#), da cui !Þ#& PrÐU "(Þ*#)Ñ ¶ PrÐ;#") "(Þ*#)Ñ !Þ&! , quindi la significatività osservata risulta !Þ#& α9== !Þ&!. Si può dunque accettare l'ipotesi di uniformità della distribuzione delle cifre dell'espansione decimale di 1 e di e ad ogni livello di significatività α Ÿ !Þ#&. – 12.3. La statistica di Kolmogorov. In questo paragrafo viene considerata la principale statistica per costruire test per la verifica di ipotesi funzionali quando la variabile casuale d'interesse è continua. Definizione 12.3.1. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , allora si definisce come funzione di ripartizione empirica 138 I test funzionali 8 s ÐBÑ œ " J 8 IÐ∞ßBÓ Ð\3 Ñ , B − ‘ . ˜ 3œ" Se Ð\Ð"Ñ ß \Ð#Ñ ß á ß \Ð8Ñ Ñ è la statistica ordinata relativa a Ð\" ß \# ß á ß \8 Ñ, allora è immediato verificare che una rappresentazione alternativa della funzione di ripartizione empirica è data da s ÐBÑ œ " J 8 8 3 IÒ\Ð3Ñ ß\Ð3"Ñ Ñ ÐBÑ , 3œ" dove con abuso di notazione si è assunto che \Ð!Ñ œ ∞ e \Ð8"Ñ œ ∞. Definizione 12.3.2. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , allora la statistica di Kolmogorov è data da s ÐBÑ J ÐBÑ ± . H œ sup ± J ˜ B Si noti che la statistica di Kolmogorov è una misura della discrepanza fra la funzione di ripartizione e la funzione di ripartizione empirica. Questa statistica è “distribution-free”, nel senso che non dipende dalla struttura funzionale di J , come viene dimostrato nel seguente teorema. Teorema 12.3.3. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , allora la statistica H di Kolmogorov è “distribution-free” su VJ . Dimostrazione. Si noti che s ÐBÑ œ " J 8 8 3œ" " IÐ∞ßBÓ Ð\3 Ñ œ 8 8 IÐ!ßJ ÐBÑÓ ÒJ Ð\3 Ñ] , B − ‘ , 3œ" essendo J una funzione monotona crescente. Inoltre, tenendo presente la trasformata . dell'Integrale di Probabilità si ha J Ð\3 Ñ œ ]3 , dove ]3 è una Y Ð!ß "Ñ (3 œ "ß #ß á ß 8). Se s LÐCÑ œ CIÐ!ß"Ó ÐCÑ IÐ"ß∞Ñ ÐCÑ rappresenta la funzione di ripartizione di una Y Ð!ß "Ñ e se LÐCÑ rappresenta la funzione di ripartizione empirica relativa al campione casuale trasformato Ð]" ß ]# ß á ß ]8 Ñ, allora tenendo presente il Teorema 1.1.2, si ha s ÐBÑ J ÐBÑ ± œ sup ± H œ sup ± J B B . œ sup !ŸCŸ" ± " 8 " 8 8 . IÐ!ßJ ÐBÑÓ ÒJ Ð\3 Ñ] J ÐBÑ ± œ 3œ" 8 s IÐ!ßCÓ Ð]3 Ñ C ± œ sup ± LÐCÑ LÐCÑ ± , 3œ" C ovvero H è distribuito come una variabile casuale che non dipende da J . – : Si noti che il Teorema di Glivenko-Cantelli (vedi Serfling, 1980) implica H Ä ! per 8 Ä ∞. Per quanto riguarda la distribuzione di H si ha il seguente teorema. Teorema 12.3.4. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , la funzione di ripartizione della statistica H di Kolmogorov è data da I test funzionali 139 KÐ.Ñ œ 8xÒ( . "Î8. ( "Î8. #Î8. á( Ð8"ÑÎ8. IE .B" .B# á .B8 Ó IÐ"ÎÐ#8Ñß"Ñ Ð.Ñ IÒ"ß∞Ñ Ð.Ñ , ". dove IE œ IE ÐB" ß B# ß á ß B8 Ñ e E œ ÖÐB" ß B# ß á ß B8 ÑÀ ! B" B# á B8 "×. Dimostrazione. In conseguenza del Teorema 12.3.3 si può assumere senza perdita di s ÐBÑ è la funzione generalità che J è la funzione di ripartizione di una Y Ð!ß "Ñ e che dunque J di ripartizione empirica relativa a un campione casuale proveniente da una Y Ð!ß "Ñ. In questo s ÐBÑ J ÐBÑ ± œ ! per B  Ð!ß "Ñ, per cui sup ± J s ÐBÑ J ÐBÑ ± deve essere caso, si ha ± J B ottenuto per qualche B − Ð!ß "Ñ, ovvero la statistica di Kolmogorov può essere espressa come s ÐBÑ B ± . H œ sup ± J !B" E' evidente che il supporto di H risulta Ð!ß "Ñ, ovvero si deve determinare PrÐH Ÿ .Ñ solo per ! . ". Tenendo presente le precedenti considerazioni si ha s ÐBÑ B ± Ÿ .Ó œ KÐ.Ñ œ PrÐH Ÿ .Ñ œ PrÒ sup ± J !B" s ÐBÑ B ± Ÿ .ß aB − Ð!ß "ÑÓ , ! . " . œ PrÒ ± J s ÐBÑ in termini della statistica ordinata, dall'espressione Considerando la rappresentazione di J precedente si ha KÐ.Ñ œ PrÒ ± 3Î8 B ± Ÿ .ß aB − [\Ð3Ñ ß \Ð3"Ñ Ñß a3 œ !ß "ß á ß 8Ó œ œ PrÒ3Î8 . Ÿ B Ÿ 3Î8 .ß aB − [\Ð3Ñ ß \Ð3"Ñ Ñß a3 œ !ß "ß á ß 8Ó œ œ PrÐ, I3 Ñ , ! . " , 8 3œ! dove con abuso di notazione si definisce \Ð!Ñ œ ! e \Ð8"Ñ œ " ed inoltre I3 œ Ö3Î8 . Ÿ B Ÿ 3Î8 .ß aB − [\Ð3Ñ ß \Ð3"Ñ Ñ× , ! . " . Si noti che l'insieme di valori di B comune agli eventi I3 e I3" (3 œ !ß "ß á ß 8 ") è dato da Ö3Î8 . Ÿ B Ÿ 3Î8 .× ∩ ÖÐ3 "ÑÎ8 . Ÿ B Ÿ Ð3 "ÑÎ8 .× œ œ ÖÐ3 "ÑÎ8 . Ÿ B Ÿ 3Î8 .× , 3 œ !ß "ß á ß 8 " , "ÎÐ#8Ñ Ÿ . " , dove il vincolo . "ÎÐ#8Ñ deriva dalla condizione 3Î8 . Ð3 "ÑÎ8 . . Inoltre si noti che la \Ð3"Ñ è comune solo agli eventi I3 e I3" , per cui I3 ∩ I3" œ ÖÐ3 "ÑÎ8 . Ÿ \Ð3"Ñ Ÿ 3Î8 .× , 3 œ !ß "ß á ß 8 " , "ÎÐ#8Ñ Ÿ . " . Di conseguenza, si ha 140 I test funzionali , I3 œ , ÐI3 ∩ I3" Ñ œ , ÖÐ3 "ÑÎ8 . Ÿ \Ð3"Ñ Ÿ 3Î8 .× , "ÎÐ#8Ñ Ÿ . " , 8 8" 8" 3œ! 3œ! 3œ! ovvero, KÐ.Ñ œ PrÖ , [Ð3 "ÑÎ8 . Ÿ \Ð3"Ñ Ÿ 3Î8 . ]× œ 8" 3œ! œ 8x ( . "Î8. ( "Î8. #Î8. á( Ð8"ÑÎ8. IE .B" .B# á .B8 , "ÎÐ#8Ñ Ÿ . " . ". Si noti inoltre che per . Ÿ "ÎÐ#8Ñ si ha PrÐH Ÿ .Ñ œ !, dal momento che in questo caso +83œ! I3 œ g. Inoltre è immediato verificare che per . " si ha PrÐH Ÿ .Ñ œ ". Esempio 12.3.1. Dal Teorema 12.3.4, per 8 œ # si ha KÐ.Ñ œ #Ò( . ( "Î#. IE .B" .B# Ó IÐ"Î%ß"Ñ Ð.Ñ IÒ"ß∞Ñ Ð.Ñ , "Î#. ". dove E œ ÖÐB" ß B# ÑÀ ! B" B# 1×. Per quanto riguarda il precedente integrale si deve distinguere due casi. Per "Î% . "Î# si ha #( . ( "Î#. "Î#. ". IE .B" .B# œ # ( ( . "Î#. .B" .B# œ ). # %. "Î#. ". " , # mentre per "Î# . " si ha #( . ( "Î#. IE .B" .B# œ "Î#. ". œ#( ! ". ( " ". .B" .B# # ( . ". # ( .B" .B# œ #. %. " . " B" Dunque, si ha KÐ.Ñ œ Ð). # %. "Î#ÑIÐ"Î%ß"Î#Ñ Ð.Ñ Ð #. # 4. "ÑIÐ"Î#ß"Ñ Ð.Ñ IÒ"ß∞Ñ Ð.Ñ. – Per quanto riguarda la distribuzione per grandi campioni di H œ H8 si ha il seguente teorema. Teorema 12.3.5. Se Ð\" ß \# ß á ß \8 Ñ è un campione casuale con funzione di ripartizione congiunta J8 − VJ , per 8 Ä ∞ si ha lim PrÐÈ8H Ÿ .Ñ œ " # 8Ä∞ ∞ Ð "Ñ3" expÐ #3# . # Ñ , . ! . 3œ" Dimostrazione. Si veda Billingsley (1968). I test funzionali 141 Esempio 12.3.2. Nella Tavola 12.3.1 sono riportati i quantili di ordine !Þ*& della distribuzione di H e le relative approssimazioni ottenute mediante il Teorema 12.3.5 per alcuni valori di 8. Tavola 12.3.1. Quantili .8ß!Þ*& di H e relative approssimazioni. 8 # & "! #! $! %! &! .!Þ*& !Þ)%"* !Þ&'$$ !Þ%!)( !Þ#*$* !Þ#%"( !Þ#"!" !Þ"))% approssimazione !Þ*'"# !Þ'')& !Þ%)'% !Þ$&#% !Þ#)*) !Þ#&#" !Þ##'! Si noti che H converge abbastanza lentamente alla relativa distribuzione per grandi campioni. – 12.4. Il test di Kolmogorov. Sia Ð\" ß \# ß á ß \8 Ñ un campione casuale da una variabile casuale continua \ con funzione di ripartizione congiunta J8 − VJ . Un sistema di ipotesi interessante da verificare risulta L! À J ÐBÑ œ J! ÐBÑß aB − ‘, contro L" À J ÐBÑ Á J! ÐBÑß bB − ‘, dove J! ÐBÑ è una funzione di ripartizione completamente specificata. Il test si basa sulla statistica s ÐBÑ J! ÐBÑ ± , H œ sup ± J B ovvero sulla statistica di Kolmogorov. Si noti che la statistica H può essere convenientemente espressa come H œ max Ömax[ ± 3Î8 J! Ð\Ð3Ñ Ñ ± ß ± Ð3 "ÑÎ8 J! Ð\Ð3Ñ Ñ ± ]× . "Ÿ3Ÿ8 Se la funzione di ripartizione empirica si discosta molto da quella ipotizzata, allora si hanno valori elevati di H che conseguentemente portano a respingere l'ipotesi di base in favore dell'ipotesi alternativa. Se dunque .8ßα rappresenta il quantile di ordine α della distribuzione di H, la regione critica del test risulta dunque g" œ Ö.À . .8ß"α × . Esempio 12.4.1. Su un campione di dieci ragnatele è stato misurato l'angolo fra l'asse della ragnatela e la perpendicolare alla superficie terrestre, e si sono ottenuti i dati della Tavola 12.4.1. Tavola 12.4.1. Angoli fra ragnatele e asse terrestre (in radianti). 3 " # $ % & ' ( ) * "! BÐ3Ñ !Þ"(%& !Þ#!*% !Þ##'* !Þ#'") !Þ#(*$ !Þ#*'( !Þ%")* !Þ%$'$ !Þ%&$) !Þ&%"" KÐBÐ3Ñ Ñ !Þ##*( !Þ$!&( !Þ$%'% !Þ%$!( !Þ%($& !Þ&"&* !Þ((!# !Þ(*') !Þ)#!* !Þ*!## ± 3Î"! KÐBÐ3Ñ Ñ ± !Þ"#*( !Þ"!&( !Þ!%'% !Þ!$!( !Þ!#'& !Þ!)%" !Þ!(!# !Þ!!$# !Þ!(*" !Þ!*() ± Ð3 "ÑÎ"! KÐBÐ3Ñ Ñ ± !Þ##*( !Þ#!&( !Þ"%'% !Þ"$!( !Þ!($& !Þ!"&* !Þ"(!# !Þ!*') !Þ!#!* !Þ!!## Fonte: Gadsen e Kanji (1981) 142 I test funzionali Si vuole verificare se i dati provengono da una distribuzione di tipo von Mises, una distribuzione circolare adatta a modellare questi dati. La funzione di densità di una variabile casuale di vonMises è data da 1ÐBà .ß ,Ñ œ " expÖ, cosÐB .Ñ× IÐ!ß#1Ó ÐBÑ , ! Ÿ . #1 , , ! , #1M! Ð,Ñ dove M! Ð,Ñ rappresenta la funzione di Bessel del primo tipo e ordine !, per cui la relativa funzione di ripartizione è data da IÐ!ß#1Ó ÐBÑ B KÐBà .ß , Ñ œ ( expÖ, cosÐ> .Ñ× .> IÐ#1ß∞Ñ ÐBÑ . #1M! Ð,Ñ ! Dal momento che si sospetta che le ragnatele siano state costruite da ragni della specie Araneus rufipalpus è noto da molte osservazioni precedenti che i parametri della distribuzione di von Mises sono in questo caso . œ !Þ#( per quanto riguarda la direzione media e , œ $(Þ*% per quanto riguarda il parametro di concentrazione. Si vuole dunque verificare l'ipotesi di base L! À J ÐBÑ œ KÐBà !Þ#(ß $(Þ*%Ñß aB − ‘, contro l'ipotesi alternativa L" À J ÐBÑ Á KÐBà !Þ#(ß $(Þ*%Ñß bB − ‘. Dalla Tavola 12.4.1 si ricava che . œ !Þ##*(, per cui PrÐH !Þ##*(Ñ !.#! e quindi la significatività osservata risulta α9== !Þ#!. L'evidenza empirica porta dunque ad accettare che i dati provengono da una distribuzione di tipo von Mises, dal momento che si può accettare L! ad ogni livello di significatività α Ÿ !Þ#!. – Esempio 12.4.2. E' stato fatto un esperimento al fine di verificare la resistenza alla rottura di alcune fibre di poliestere. Più esattamente sono stati determinati i carichi da applicare a un campione di queste fibre al fine di provocarne il cedimento. Si sospetta che la distribuzione dei carichi segua una distribuzione log-normale. I dati della Tavola 12.4.2 sono stati ottenuti trasformando quelli originali mediante la trasformazione dell'integrale di probabilità, ovvero se l'ipotesi di log-normalità è valida allora il campione trasformato dovrebbe provenire da una Y Ð!ß 1Ñ. Dal momento che in questo caso J! ÐBÑ œ BIÐ!ß"Ñ ÐBÑ IÒ"ß∞Ñ ÐBÑ , allora si vuole dunque verificare l'ipotesi di base L! À J ÐBÑ œ J! ÐBÑß aB − ‘, contro l'ipotesi alternativa L" À J ÐBÑ Á J! ÐBÑß bB − ‘. Dalla Tavola 12.4.2 si ricava . œ !Þ#$), per cui !Þ!& PrÐH !.#$)Ñ !Þ"! e quindi la significatività osservata risulta !Þ!& α9== !Þ"!. In questo caso vi è qualche dubbio ad accettare L! , ovvero che il campione trasformato proviene da una Y Ð!ß 1Ñ e che quindi il campione originale proviene da una variabile casuale log-normale, in quanto si potrebbe respingere questa ipotesi ad ogni livello di significatività α !Þ"!. – I test funzionali 143 Tavola 12.4.2. Carichi di rottura delle fibre di poliestere. fibra " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* #! #" ## #$ #% #& #' #( #) #* $! BÐ3Ñ Þ!#$ Þ!$# Þ!&% Þ!'* Þ!)" Þ!*% Þ"!& Þ"#( Þ"%) Þ"'* Þ")) Þ#"' Þ#&& Þ#(( Þ$"" Þ$'" Þ$(' Þ$*& Þ%$# Þ%'$ Þ%)" Þ&"* Þ&#* Þ&'( Þ'%# Þ'(% Þ(&# Þ)$# Þ))( Þ*#' J! ÐBÐ3Ñ Ñ Þ!#$ Þ!$# Þ!&% Þ!'* Þ!)" Þ!*% Þ"!& Þ"#( Þ"%) Þ"'* Þ")) Þ#"' Þ#&& Þ#(( Þ$"" Þ$'" Þ$(' Þ$*& Þ%$# Þ%'$ Þ%)" Þ&"* Þ&#* Þ&'( Þ'%# Þ'(% Þ(&# Þ)$# Þ))( Þ*#' ± 3Î$! J! ÐBÐ3Ñ Ñ ± Þ!"! Þ!$& Þ!%' Þ!'% Þ!)' Þ"!' Þ"#) Þ"%! Þ"&# Þ"'% Þ"() Þ")% Þ"() Þ"*! Þ")* Þ"(# Þ"*" Þ#!& Þ#!" Þ#!% Þ#"* Þ#"% Þ#$) Þ#$$ Þ"*" Þ"*$ Þ"%) Þ""! Þ!)! Þ!(% ± Ð3 "ÑÎ$! J! ÐBÐ3Ñ Ñ ± Þ!#$ Þ!!" Þ!"$ Þ!$" Þ!&# Þ!($ Þ!*& Þ"!' Þ""* Þ"$" Þ"%& Þ"&" Þ"%& Þ"&' Þ"&' Þ"$* Þ"(! Þ"(# Þ"') Þ"(! Þ")' Þ")" Þ#!% Þ#!! Þ"&) Þ"&* Þ""& Þ!(( Þ!%' Þ!%" Fonte: Quesenberry e Hales (1980) 12.5. La statistica di Kolmogorov-Smirnov. In questo paragrafo viene considerata una modifica della statistica di Kolmogorov che permette di costruire test per la verifica di ipotesi funzionali quando la variabile casuale d'interesse è continua e si dispone di due campioni. Definizione 12.5.1. Siano Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ due campioni casuali indipendenti, tali che il campione misto abbia funzione di ripartizione congiunta J8 − VJ , s " ÐBÑ e J s # ÐBÑ le funzione di ripartizione empiriche relative dove 8 œ 8" 8# . Siano inoltre J a ciascuno dei due campioni. La statistica di Kolmogorov-Smirnov è data da s " ÐBÑ J s # ÐBÑ ± . H œ sup ± J B – Evidentemente la statistica di Kolmogorov-Smirnov è una misura della discrepanza fra le due funzione di ripartizione empiriche. Si può dimostrare in modo del tutto analogo a quanto fatto nel Teorema 12.3.3 per la statistica di Kolmogorov, che anche la statistica di KolmogorovSmirnov è “distribution-free” su VJ . Se ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ8Ñ Ñ è la statistica ordinata relativa al campione misto Ð\" ß \# ß á ß \8" ß ]" ß ]# ß á ß ]8# Ñ, allora si noti che la statistica H può essere espressa come H œ max "Ÿ3Ÿ8 s " ÐZÐ3Ñ Ñ J s # ÐZÐ3Ñ Ñ ± . ±J 144 I test funzionali : Anche in questo caso il Teorema di Glivenko-Cantelli (vedi Serfling, 1980) implica H Ä ! per 8" ß 8# Ä ∞. La distribuzione di H può essere determinata in modo semplice per 8" œ 8# œ 8 mediante alcune proprietà delle passeggiate aleatorie. Teorema 12.5.2. Siano Ð\" ß \# ß á ß \8 Ñ e Ð]" ß ]# ß á ß ]8 Ñ due campioni casuali indipendenti, tali che il campione misto abbia funzione di ripartizione congiunta J#8 − VJ . La distribuzione della statistica H di Kolmogorov-Smirnov risulta #8 KÐ.Ñ œ " # Œ 8 " < 3œ" Ð "Ñ3 Œ #8 8 3Ð8. "Ñ , dove . œ !ß "Î8ß #Î8ß á ß " e < œ Ú8ÎÐ8. "ÑÛ. Dimostrazione. Sia ÐZÐ"Ñ ß ZÐ#Ñ ß á ß ZÐ#8Ñ Ñ la statistica ordinata relativa al campione misto Ð\" ß \# ß á ß \8 ß ]" ß ]# ß á ß ]8 Ñ. Sia inoltre X3 una variabile casuale tale che vale "Î8 se ZÐ3Ñ appartiene al primo campione e vale "Î8 se ZÐ3Ñ appartiene al secondo campione (3 œ "ß #ß á ß #8). Si consideri inoltre l'ulteriore variabile casuale W3 œ X" X# á X3 (3 œ "ß #ß á ß #8). Evidentemente, l'insieme delle variabili casuali ÖW3 ß 3 œ "ß #ß á ß #8× costituisce una passeggiata aleatoria in #8 passi i cui percorsi Ð3ß W3 Ñ (3 œ "ß #ß á ß #8) sono ‰ di questi percorsi, tali che iniziano in Ð!ß !Ñ e finiscono in Ð#8ß !Ñ. Si noti che vi sono ˆ #8 8 ognuno dei quali corrisponde ad una possibile sequenza di \3 e di ]3 nel campione misto ordinato. Inoltre, dal momento che i due campioni provengono dalla stessa distribuzione ogni percorso è ugualmente probabile. E' fondamentale notare che dalla definizione di H si ha H œ maxÖ ± max W3 ± ß ± " Ÿ 3 Ÿ #8 min W3 ± × , " Ÿ 3 Ÿ #8 per cui il problema di determinare KÐ.Ñ è equivalente al problema di determinare il numero di percorsi compresi fra la retta P , data da = œ . "Î8, e la retta P , data da = œ . "Î8. Si determini innanzitutto il numero di percorsi che intersecano la retta P . Si noti che esiste un punto E in cui il percorso interseca per la prima volta la retta P . Per la parte di percorso che va da E a Ð#8ß !Ñ esiste un percorso simmetrico rispetto alla retta P che va da E a Ð#8ß #. #Î8Ñ. Quindi il numero di percorsi da Ð!ß !Ñ che intersecano la retta P in E e finiscono in Ð#8ß !Ñ è uguale al numero di percorsi da Ð!ß !Ñ che intersecano la retta P in E e procedono specularmente rispetto ai percorsi originari fino a Ð#8ß #. #Î8Ñ. #8 ‰, ovvero il numero in cui Ð8 8. "Ñ salti positivi e Questo numero è dato da ˆ 88." Ð8 8. "Ñ salti negativi possono essere permutati. Si denoti con T! l'insieme di percorsi che intersecano P e con T! l'insieme dei percorsi che intersecano P . Sia inoltre #ÐIÑ il numero di percorsi in un insieme I di percorsi. Si ha dunque #ÐT! ∪ T! Ñ œ #ÐT! Ñ #ÐT! Ñ #ÐT! ∩ T! Ñ . Per quanto affermato in precedenza si ha #ÐT! Ñ œ #ÐT! Ñ œ Œ #8 8 8. " . Si noti che ÐT! ∩ T! Ñ œ ÐT" ∪ T" Ñ, dove T" è l'insieme di tutti i percorsi che contengono almeno una parte di percorso che va da P a P e in maniera simile T" è l'insieme di tutti i percorsi che contengono almeno una parte di percorso che va da P a P . Dunque si ha #ÐT! ∩ T! Ñ œ #ÐT" Ñ #ÐT" Ñ #ÐT" ∩ T" Ñ . I test funzionali 145 dove, in maniera analoga a quanto visto in precedenza, si ha #ÐT" Ñ œ #ÐT" Ñ œ Œ #8 8 #Ð8. "Ñ . Definendo quindi con T3 l'insieme di tutti i percorsi che contengono almeno 3 parti di percorso che vanno da P a P e con T3 l'insieme di tutti i percorsi che contengono 3 parti di percorso che vanno da P a P e procedendo in maniera iterativa si ha dunque #ÐT3" ∩ T3" Ñ œ #ÐT3 Ñ #ÐT3 Ñ #ÐT3 ∩ T3 Ñ , 3 œ !ß "ß á ß < " , e #ÐT3 Ñ œ #ÐT3 Ñ œ Œ #8 8 Ð3 "ÑÐ8. "Ñ , 3 œ !ß "ß á ß < " , dove < œ Ú8ÎÐ8. "ÑÛ. Ovviamente, si ha #ÐT<" ∩ T<" Ñ œ !. Dunque, si ottiene <" #ÐT! ∪ T! Ñ œ < Ð "Ñ 3 Ò#ÐT3 Ñ #ÐT3 ÑÓ œ# 3œ! 3œ" Ð "Ñ3" Œ #8 8 3Ð8. "Ñ , per cui il numero di percorsi che non intersecano mai le rette P e P è dato da #8 Œ 8 #ÐT! ∪ T! Ñ œ Œ < #8 8 # 3œ" Ð "Ñ3" Œ #8 8 3Ð8. "Ñ . Tenendo presente questo risultato si ha dunque #8 KÐ.Ñ œ Œ 8 " #8 ÒŒ 8 œ"#Œ #8 8 < # 3œ" " < 3œ" Ð "Ñ3" Œ Ð "Ñ3 Œ #8 Óœ 8 3Ð8. "Ñ #8 8 3Ð8. "Ñ che è quanto si voleva dimostrare. Esempio 12.5.1. Dal Teorema 12.5.2, per 8 œ 4 si ha KÐ!Ñ œ " " $& " KÐ"Î%Ñ œ " $& KÐ#Î%Ñ œ " , " $& % 3œ" # 3œ" " 3œ" Ð "Ñ3 Œ ) %3 œ!, Ð "Ñ3 Œ ) % #3 œ ) , $& œ #( , $& Ð "Ñ3 Œ ) % $3 146 I test funzionali KÐ$Î%Ñ œ " " $& " KÐ"Ñ œ " $& " 3œ" ! 3œ" Ð "Ñ3 Œ Ð "Ñ3 Œ ) % %3 œ $% , $& ) % &3 œ". – Per quanto riguarda infine la distribuzione per grandi campioni di H œ H8" ß8# si ha il seguente risultato. Teorema 12.5.3. Per 8ß 8# Ä ∞ si ha lim PrÐÈ8" 8# ÎÐ8" 8# ÑH Ÿ .Ñ œ " # 8" ß 8 # Ä ∞ ∞ Ð "Ñ3" expÐ #3# . # Ñ , . ! . 3œ" Dimostrazione. Si veda Billingsley (1968). 12.6. Il test di Kolmogorov-Smirnov. Siano Ð\" ß \# ß á ß \8" Ñ e Ð]" ß ]# ß á ß ]8# Ñ due campioni casuali indipendenti, tali che il campione misto abbia funzione di ripartizione congiunta J8 − VJ , dove 8 œ 8" 8# . Un sistema di ipotesi interessante da verificare risulta L! À J" ÐBÑ œ J# ÐBÑ œ J ÐBÑß aB − ‘, contro L" À J" ÐBÑ Á J# ÐBÑß bB − ‘. Il test si basa sulla statistica s " ÐBÑ J s # ÐBÑ ± , H œ sup ± J B ovvero sulla statistica di Kolmogorov-Smirnov. Si noti che se le due funzione di ripartizione empiriche si discostano molto fra di loro, allora si hanno realizzazioni elevate di H che conseguentemente portano a respingere l'ipotesi di base in favore dell'ipotesi alternativa. Se dunque .8" ß8# ßα rappresenta il quantile di ordine α della distribuzione di H, la regione critica del test risulta dunque g" œ Ö.À . .8" ß8# ß"α × . Esempio 12.6.1. In un esperimento per la verifica delle capacità percettive sono stati bendati 24 soggetti. I soggetti hanno poi percorso un tracciato irregolare di forma approssimativamente circolare. Ad un certo punto del tracciato ad ognuno dei soggetti è stato chiesto di stimare l'angolo formato dalla loro attuale posizione rispetto alla posizione di partenza. Dodici di questi soggetti hanno percorso il tracciato in senso orario, mentre gli altri lo hanno percorso in senso anti-orario. I dati della Tavola 12.6.1 riportano gli errori commessi (in gradi) nelle stime degli angoli dai due gruppi. Si vuole verificare se i dati provengono dalla stessa distribuzione. Il procedimento per il calcolo della realizzazione campionaria di H per questi dati è riportato nella Tavola 12.6.2. Si ha dunque . œ %Î"#, per cui PrÐH %Î"#Ñ !Þ#! e quindi la significatività osservata risulta α9== !Þ#!. Si è quindi portati ad accettare che le due distribuzioni sono identiche, in quanto si può accettare L! ad ogni livello di significatività α Ÿ !Þ#!. – I test funzionali 147 Tavola 12.6.1. Errori nelle stime degli angoli (in gradi). soggetto " # $ % & ' ( ) * "! "" "# gruppo percorso senso orario &! ## "' "! ) "% ") # $ "" "# $" gruppo percorso senso anti-orario #$ ! * ( % #% "( "$ $# #$ %( &$ Fonte: Lederman, Klatsky e Barber (1985) Tavola 12.6.2. soggetto " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* #! #" ## #$ #% DÐ3Ñ &$ %( $# $" #$ ") "( "$ "# "" % $ # ! ( ) * "! "% "' ## #$ #% &! s " ÐDÐ3Ñ Ñ J ! ! ! "Î"# "Î"# #Î"# #Î"# #Î"# $Î"# %Î"# %Î"# &Î"# 'Î"# 'Î"# 'Î"# (Î"# (Î"# )Î"# *Î"# "!Î"# ""Î"# ""Î"# ""Î"# " s # ÐDÐ3Ñ Ñ J "Î"# #Î"# $Î"# $Î"# %Î"# %Î"# &Î"# 'Î"# 'Î"# 'Î"# (Î"# (Î"# (Î"# )Î"# *Î"# *Î"# "!Î"# "!Î"# "!Î"# "!Î"# "!Î"# ""Î"# "#Î"# " s " ÐDÐ3Ñ Ñ J s # ÐDÐ3Ñ Ñ ± ±J "Î"# #Î"# $Î"# #Î"# $Î"# #Î"# $Î"# %Î"# $Î"# #Î"# $Î"# #Î"# "Î"# #Î"# $Î"# #Î"# $Î"# #Î"# "Î"# ! "Î"# ! "Î"# ! Appendice A.1. Alcune distribuzioni e relative caratteristiche. In questa sezione vengono considerate alcune variabili casuali di frequente uso insieme con alcune loro caratteristiche. Una generica variabile casuale ^ è considerata nella sua forma standard e si indica con J ed 0 le relative funzioni di ripartizione e densità. Se si considera la variabile casuale non standard \ œ $ ^ -, dove - è un parametro di posizione e $ è un parametro di scala, allora si tenga presente che la relativa funzione di ripartizione è data da KÐBÑ œ J ÒÐB -ÑÎ$ Ó, mentre la relativa funzione di densità risulta 1ÐBÑ œ 0 ÒÐB -ÑÎ$ ÓÎ$ . Ovviamente, si ha che EÐ\Ñ œ . œ $ EÐ^Ñ - e VarÐ\Ñ œ 5# œ $ # VarÐ^Ñ. In particolare, se EÐ^Ñ œ ! e VarÐ^Ñ œ ", allora - œ . e $ œ 5. A.1.1. Distribuzione uniforme. Una variabile casulae uniforme ^ ha la seguente funzione di densità 0 ÐDÑ œ IÐ!ß"Ñ ÐDÑ . Per questa distribuzione risulta EÐ^Ñ œ VarÐ^Ñ œ " , # " , "# α$ œ ! , α% œ * . & La mediana è data D!.& œ "Î#. Inoltre, risulta 0 Ð!Ñ œ " , # ( 0 ÐDÑ .D œ " , " ! # ( D [J ÐDÑ "Î#]0 ÐDÑ .D œ " ! ( " "Î# D0 ÐDÑ# .D ( "Î# ! " , "# D0 ÐDÑ# .D œ " . % Una variabile casuale uniforme non standard viene indicata con la notazione Y Ð-ß $ Ñ. Appendice 149 A.1.2. Distribuzione normale. Una variabile casuale normale ^ ha la seguente funzione di densità 0 ÐDÑ œ Ð#1Ñ"Î# expÐ D # Î#Ñ . La funzione di ripartizione di questa variabile casuale viene indicata con FÐDÑ. Inoltre il quantile di ordine α viene indicato con Dα . Per questa distribuzione risulta EÐ^Ñ œ ! , VarÐ^Ñ œ " , α$ œ ! , α% œ $ . La mediana è data D!.& œ !. Inoltre, risulta 0 Ð!Ñ œ ( ∞ " , È#1 0 ÐDÑ# .D œ ∞ ( ∞ ( ∞ " , #È1 D [FÐDÑ "Î#]0 ÐDÑ# .D œ ∞ ! D0 ÐDÑ# .D ( ! " , %1È$ D0 ÐDÑ# .D œ ∞ " . #1 Una variabile casuale normale non standard viene indicata con la notazione R Ð.ß 5# Ñ. A.1.3. Distribuzione logistica. Una variabile casuale logistica ^ ha la seguente funzione di densità 0 ÐDÑ œ expÐ DÑ . [" expÐ DÑ]# Per questa distribuzione risulta EÐ^Ñ œ ! , VarÐ^Ñ œ 1# , $ α$ œ ! , 150 Appendice α% œ #" . & La mediana è data D!.& œ !. Inoltre, risulta 0 Ð!Ñ œ ( ∞ " , % 0 ÐDÑ# .D œ ∞ ( ( ∞ ! ∞ " , ' " , #% D [J ÐDÑ "Î#]0 ÐDÑ# .D œ ∞ D0 ÐDÑ# .D ( ! D0 ÐDÑ# .D œ ∞ %ln# " . "# Una variabile casuale logistica non standard viene indicata con P9Ð.ß $ Ñ. A.1.4. Distribuzione esponenziale. Una variabile casuale esponenziale ^ ha la seguente funzione di densità 0 ÐDÑ œ expÐ DÑIÐ!ß∞Ñ ÐDÑ . Per questa distribuzione risulta EÐ^Ñ œ " , VarÐ^Ñ œ " , α$ œ # , α% œ * . La mediana è data D!.& œ ln#. Inoltre, risulta 0 Ðln#Ñ œ ( ∞ 0 ÐDÑ# .D œ ! ( ∞ " , # " , # D [J ÐDÑ "Î#]0 ÐDÑ# .D œ ! ( ∞ ln# D0 ÐDÑ# .D ( ln# ! D0 ÐDÑ# .D œ " . (# #ln# " . ) Una variabile casuale esponenziale non standard viene indicata con la notazione IÐ-ß 5Ñ. Appendice 151 A.1.5. Distribuzione esponenziale doppia. Una variabile casuale esponenziale doppia ^ ha la seguente funzione di densità " expÐ ± D ± Ñ . # 0 ÐDÑ œ Per questa distribuzione risulta EÐ^Ñ œ ! , VarÐ^Ñ œ # , α$ œ ! , α% œ ' . La mediana è data D!.& œ !. Inoltre, risulta " , # 0 Ð!Ñ œ ( ∞ 0 ÐDÑ# .D œ ∞ ( ∞ " , % D [J ÐDÑ "Î#]0 ÐDÑ# .D œ ∞ ( ∞ ! D0 ÐDÑ# .D ( ! & , "%% D0 ÐDÑ# .D œ ∞ " . ) Una variabile casuale esponenziale doppia non standard è denotata con I.Ð.ß $ Ñ. A.1.6. Distribuzione di Cauchy. Una variabile casuale di Cauchy ^ ha la seguente funzione di densità 0 ÐDÑ œ " . 1Ð" D # Ñ Questa distribuzione non possiede momenti e la mediana è data D!.& œ !. Inoltre, risulta 0 Ð!Ñ œ ( ∞ ∞ ( ∞ ∞ " , 1 0 ÐDÑ# .D œ " , #1 D [J ÐDÑ "Î#]0 ÐDÑ# .D œ " , 41# 152 Appendice ( ∞ ! D0 ÐDÑ .D ( # ! D0 ÐDÑ# .D œ ∞ " . 1# Una variabile casuale di Cauchy non standard è denotata con GÐ-ß $ Ñ. A.2. Alcuni risultati matematici. Il seguente teorema consente di determinare la somma di alcune potenze dei primi 8 interi. Teorema A.2.1. Si ha 8 3œ 3œ" 8 3# œ 3œ" " 8Ð8 "ÑÐ#8 "Ñ , ' 8 3$ œ 3œ" 8 3% œ 3œ" " 8Ð8 "Ñ , # " # 8 Ð8 "Ñ# , % " 8Ð8 "ÑÐ#8 "ÑÐ$8# $8 "Ñ . $! Dimostrazione. Si veda Randles e Wolfe (1979). A.3. Alcuni risultati di teoria delle probabilità. In questo paragrafo vengono richiamati alcuni risultati sulla convergenza di successioni di variabili casuali. Una completa trattazione di questo argomento è dato in Serfling (1980). Teorema A.3.1. (Legge Debole dei Grandi Numeri di Khintchine) Si consideri una successione Ö\8 × di variabili casuali indipendenti ed ugualmente distribuite con EÐ\" Ñ œ — . ∞. Allora se \ 8 œ Ð"Î8Ñ 83œ" \3 (8 ") si ha — : \8 Ä . . Dimostrazione. Vedi Serfling (1980). Esempio A.3.1. Sia Ö\8 × una successione di variabili casuali indipendenti ed ugualmente distribuite con EÐ\" Ñ œ . ∞ e VarÐ\" Ñ œ 5# ∞. Si consideri dunque la successione di variabili casuali Ö^8 ×, dove ^8 œ Ð\8 .Ñ# , 8 ". Si noti che Ö^8 × è ancora una successione di variabili casuali indipendenti ed ugualmente distribuite con EÐ^" Ñ œ 5# ∞. Di conseguenza dalla Legge Debole dei Grandi Numeri di Khintchine (Teorema A.3.1) si ha " – ^8 œ 8 8 : Ð\3 .Ñ# Ä 5# . – 3œ" Teorema A.3.2. (Legge Debole dei Grandi Numeri di Markov) Per ogni 8 sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\38 Ñ œ .38 ∞ Appendice 153 (3 œ "ß #ß á ß 8). Si supponga inoltre che esista un $ (! $ Ÿ ") per cui si ha EÐ ± \38 .38 ± "$ Ñ ∞ e lim 8Ä∞ — Allora se \ 8 œ Ð"Î8Ñ 8 " EÐ ± \38 .38 ± "$ Ñ œ ! . 8"$ 8 3œ" \38 3œ" (8 ") si ha — — : \ 8 EÐ\ 8 Ñ Ä ! . Dimostrazione. Vedi Serfling (1980). Esempio A.3.2. Sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\38 Ñ œ -ÎÈ8 e VarÐ\38 Ñ œ 5# , dove - è costante (3 œ "ß #ß á ß 8). Dal momento che per $ œ " si ha EÐ ± \38 .38 ± # Ñ œ 5# ∞ e lim 8Ä∞ 8 " 8# 5# œ 8lim Ä∞ 3œ" 5# œ!, 8 allora dalla Legge Debole dei Grandi Numeri di Markov (Teorema A.3.2) si ottiene : — \ 8 -ÎÈ8 Ä ! . – Teorema A.3.3. (Legge Forte dei Grandi Numeri di Khintchine) Per ogni 8 sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\"8 Ñ œ . ∞ — (3 œ "ß #ß á ß 8). Allora se \ 8 œ Ð"Î8Ñ 83œ" \38 (8 "Ñ si ha — ;\8 Ä . . Dimostrazione. Vedi Serfling (1980). Esempio A.3.3. Sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\38 Ñ œ -ÎÈ8 e VarÐ\38 Ñ œ 5# ∞, dove - è costante (3 œ "ß #ß á ß 8). Si consideri dunque il vettore trasformato Ð^"8 ß ^#8 ß á ß ^88 Ñ, dove ^38 œ Ð\38 -ÎÈ8Ñ# (3 œ "ß #ß á ß 8), che risulta ancora un vettore di variabili casuali indipendenti con EÐ^38 Ñ œ 5# ∞. Di conseguenza, dalla Legge Forte dei Grandi Numeri di Khintchine (Teorema A.3.3) si ha 8 " – ^8 œ 8 3œ" Ð\38 -ÎÈ8Ñ# Ä 5# , ;- che implica 8 " – ^8 œ 8 3œ" Ð\38 -ÎÈ8Ñ# Ä 5# . : – Teorema A.3.4. (Teorema di Sverdrup) Se Ö\8 × è una successione di variabili casuali e 1À ‘ Ä ‘ è una funzione continua, allora : : \8 Ä ) Ê 1Ð\8 Ñ Ä 1Ð)Ñ , 154 Appendice ;- ;- \8 Ä ) Ê 1Ð\8 Ñ Ä 1Ð)Ñ , . . \8 Ä \ Ê 1Ð\8 Ñ Ä 1Ð\Ñ . Dimostrazione. Vedi Serfling (1980). Esempio A.3.4. Sia Ö\8 × una successione di variabili casuali indipendenti ed ugualmente distribuite con EÐ\" Ñ œ . ∞ e VarÐ\" Ñ œ 5# ∞. Sia inoltre W8# — dove \ 8 œ Ð"Î8Ñ espresso come W8# 8 3œ" \3 . 8 " œ Ò 8" 8 " œ 8" 8 — Ð\3 \ 8 Ñ# , 3œ" Con la notazione dell'Esempio A.3.1, si noti che W8# può essere 8 — Ð\3 .Ñ# Ð\ 8 .Ñ# Ó œ 3œ" 8 – — Ò^ 8 Ð\ 8 .Ñ# Ó . 8" — : Inoltre dalla Legge Debole dei Grandi Numeri di Khintchine (Teorema A.3.1) si ha \ 8 Ä ., – : mentre dall'Esempio A.3.1 si ha ^ 8 Ä 5# . Si noti inoltre che 1ÐBß DÑ œ D ÐB .Ñ# è una funzione continua. Tenendo dunque presente che lim8Ä∞ 8ÎÐ8 "Ñ œ ", per la generalizzazione al caso multivariato del Teorema di Sverdrup (Teorema A.3.4) si ha : W8# Ä 5# . – Esempio A.3.5. Sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\38 Ñ œ -ÎÈ8 e VarÐ\38 Ñ œ 5# ∞, dove - è costante (3 œ "ß #ß á ß 8). Sia inoltre W8# — dove \ 8 œ Ð"Î8Ñ espresso come W8# 8 " œ Ò 8" 8 8 3œ" \38 . 8 3œ" " œ 8" 8 — Ð\38 \ 8 Ñ# , 3œ" Con la notazione dell'Esempio A.3.3, si noti che W8# può essere — Ð\38 -ÎÈ8Ñ# Ð\ 8 -ÎÈ8Ñ# Ó œ 8 – — Ò^ 8 Ð\ 8 -ÎÈ8Ñ# Ó . 8" : — Inoltre dall'Esempio A.3.2 si ha \ 8 -ÎÈ8 Ä !, mentre dall'Esempio A.3.3 si ha – : ^ 8 Ä 5# . Tenendo presente che 1ÐBß DÑ œ D B# è una funzione continua e che lim8Ä∞ 8ÎÐ8 "Ñ œ ", per la generalizzazione al caso multivariato del Teorema A.3.4 si ha : infine W8# Ä 5# . – Teorema A.3.5. (Teorema di Slutsky) Se Ö\8 × e Ö]8 × sono due successioni di variabili : . casuali tali che \8 Ä \ e ]8 Ä ) con ) costante, allora . \ 8 ]8 Ä \ ) , . ]8 \ 8 Ä ) \ , Appendice 155 . \8 Î]8 Ä \Î) , ) Á ! . Dimostrazione. Vedi Serfling (1980). Teorema A.3.6. (Teorema Fondamentale Classico del Limite) Sia Ö\8 × una successione di variabili casuali indipendenti ed ugualmente distribuite con EÐ\" Ñ œ . ∞ e — VarÐ\" Ñ œ 5# ∞. Allora se \ 8 œ Ð"Î8Ñ 83œ" \3 (8 ") si ha È8 — . Ð\ 8 .Ñ Ä R Ð!ß "Ñ . 5 Dimostrazione. Vedi Serfling (1980). Esempio A.3.6. Sia Ö\8 × una successione di variabili casuali indipendenti ed ugualmente distribuite con EÐ\" Ñ œ . e VarÐ\" Ñ œ 5# . Si assuma inoltre che EÐ\"% Ñ ∞ e EÒÐ\" .Ñ% Ó œ .% , da cui VarÒÐ\" .Ñ# Ó œ .% 5 % œ # # . Tenendo presente la notazione e i risultati dell'Esempio A.3.4 si ha È8 # ÐW8# 5# Ñ œ È8 # Ò " 8" 8 Ð\3 .Ñ# 3œ" 8 85 # 5# — Ð\ 8 .Ñ# Óœ 8" 8" 8" 8 È8 – 8 " È — Ð^ 8 5# Ñ [ 8Ð\ 8 .Ñ# 5# ÎÈ8] . 8" # 8" # — Dal momento che E[Ð\ 8 .Ñ# ] œ 5# Î8, allora — lim ÖÈ8E[Ð\ 8 .Ñ# ] 5# ÎÈ8× œ 8lim #5 # ÎÈ 8 œ ! , 8Ä∞ Ä∞ œ — ovvero [È8Ð\ 8 .Ñ# 5# ÎÈ8] converge in media a !, che implica : — # # È8Ð\ 8 .Ñ 5 Î È 8 Ä ! . Inoltre dal Teorema Fondamentale Classico del Limite (Teorema A.3.6) si ha È8 – . Ð^ 8 5# Ñ Ä R Ð!ß "Ñ . # Quindi per il Teorema di Slutsky (Teorema A.3.5) si può concludere che È8 # . ÐW8# 5# Ñ Ä R Ð!ß "Ñ . – Teorema A.3.7. (Teorema Fondamentale di Lindberg del Limite) Per ogni 8 sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\38 Ñ œ .38 ∞ e # # VarÐ\38 Ñ œ 538 ∞ (3 œ "ß #ß á ß 8) e sia inoltre .8 œ 83œ" .38 e 58# œ 83œ" 538 . Se per ogni % ! si ha lim 8Ä∞ " 58# — allora se \ 8 œ Ð"Î8Ñ 8 E[Ð\38 .38 Ñ# IÐ∞ß.38 %58 Ó∪Ò.38 %58 ß∞Ñ Ð\38 Ñ] œ ! , 3œ" 8 3œ" \38 156 Appendice " — . Ð8\ 8 .8 Ñ Ä R Ð!ß "Ñ . 58 Dimostrazione. Vedi Serfling (1980). Corollario A.3.8. Per ogni 8 sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\38 Ñ œ .8 ∞ e VarÐ\38 Ñ œ 58# ∞ (3 œ "ß #ß á ß 8). Allora se — \ 8 œ Ð"Î8Ñ 83œ" \38 È8 — . Ð\ 8 .8 Ñ Ä R Ð!ß "Ñ . 58 Dimostrazione. Vedi Serfling (1980). Teorema A.3.9. (Teorema Fondamentale di Lyapunov del Limite) Per ogni 8 sia Ð\"8 ß \#8 ß á ß \88 Ñ un vettore di variabili casuali indipendenti con EÐ\38 Ñ œ .38 ∞ e # # VarÐ\38 Ñ œ 538 ∞ (3 œ "ß #ß á ß 8) e sia inoltre .8 œ 83œ" .38 e 58# œ 83œ" 538 . Se esiste un $ ! tale che lim 8Ä∞ — allora se \ 8 œ Ð"Î8Ñ " 8 58#$ 3œ" EÐ ± \38 .38 ± #$ Ñ œ ! , 8 3œ" \38 " — . Ð8\ 8 .8 Ñ Ä R Ð!ß "Ñ . 58 Dimostrazione. Vedi Serfling (1980). Teorema A.3.10. (Metodo Delta) Se \8 è una variabili casuali tale che . È8Ð\8 .ÑÎ5 Ä R Ð!ß "Ñ e se 1À ‘ Ä ‘ una funzione continua tale che 1w Ð.Ñ esiste e 1w Ð.Ñ Á !, allora . È8 1Ð\8 Ñ 1Ð.Ñ Ä R Ð!ß "Ñ . w 5 1 Ð.Ñ Analogamente se X8 è un vettore di variabili casuali tale cheÈ8ÐX8 .Ñ Ä R5 Ð!ß DÑ e se gÀ ‘5 Ä ‘6 è un vettore di funzioni continue tale che D œ `g`ÐxxÑ º esiste e D Á !. Allora . . È8 ÒgÐX8 Ñ gÐ.ÑÓ Ä R6 Ð!ß DT DDÑ . xœ. Dimostrazione. Vedi Serfling (1980). Esempio A.3.7. Sia Ö\8 × una successione di variabili casuali indipendenti ed ugualmente distribuite per cui si ha EÐ\" Ñ œ ., VarÐ\" Ñ œ 5# e EÒÐ\" .Ñ% Ó œ .% ∞. Nell'Esempio . A.3.3 è stato provato che 8"Î# ÐW8# 5# ÑÎ# Ä R Ð!ß "Ñ. Se si considera la trasformata W8 œ 1ÐW8# Ñ œ ÈW8# si ha 1w Ð5# Ñ œ Ð#È5# Ñ" , per cui applicando il Metodo Delta si ha . È 8 W8 5 Ä R Ð!ß "Ñ . # Ð#5Ñ" – Appendice 157 Teorema A.3.11. (Teorema di Cochran) Sia ÖX8 × una successione di vettori casuali 5 . dimensionati tali che È8ÐX8 .Ñ Ä R5 Ð!ß DÑ. Sia inoltre C una matrice quadrata simmetrica di ordine 5 . In questo caso . 8ÐX8 .ÑT CÐX8 .Ñ Ä ;#; se e solo se DCDCD œ DCD, dove trÐCDÑ œ ; . Dimostrazione. Vedi Serfling (1980). Teorema A.3.12. Sia ÖJ8 × una successione di funzioni di ripartizione di variabili casuali continue che converge uniformemente alla funzione di ripartizione K. Se Ö-8 × è una successione in ‘, allora lim J Ð- Ñ 8Ä∞ 8 8 œα,!α", se e solo se lim 8Ä∞ 8 dove Bα è tale che KÐBα Ñ œ α. Dimostrazione. Vedi Serfling (1980). œ Bα , Bibliografia Bibliografia di base Billingsley, P. (1968) Convergence of probability measures, Wiley, New York. Conover, W.J. (1980) Practical nonparametric statistics, Wiley, New York. Daniel, W.W. (1978) Applied nonparametric statistics, Houghton Mifflin Company, Boston. Feller W. (1971) An introduction to probability theory and its applications, vol. I-II, Wiley, New York. Fraser, D.A.S. (1957) Nonparametric methods in statistics, Wiley, New York. Gibbons, J.D. (1985) Nonparametric methods for quantitative analysis, American Sciences Press, Syracuse, New York. Gibbons, J.D. e Chakraborti, S. (1992) Nonparametric statistical inference, Dekker, New York. Hettmansperger, T.P. (1991) Statistical inference based on ranks, Krieger Publishing Company, Malabar, Florida. Hettmansperger, T.P. e McKean, J.W. (1998) Robust nonparametric statistical methods, Arnold, London. Hollander, M. e Wolfe, D.A. (1973) Nonparametric statistical methods, Wiley, New York. ´ Hajek, J. (1969) Nonparametric statistics, Holden Day, San Francisco. ´ ´ Z. (1967) Theory of rank tests, Academic Press, New York. Hajek, J. e Šidak, Kendall, M.G. (1962) Rank correlation methods, Hafner, New York. Kendall, M.G. e Gibbons J.D. (1976) Rank correlation methods, Edward Arnold, London. Lehmann, E.L. (1975) Nonparametrics: statistical methods based on ranks, Holden-Day, San Francisco. Maritz, J.S. (1981) Distribution-free statisitical methods, Chapman and Hall, London. Noether, G.E. (1967) Elements of nonparametric statistics, Wiley, New York. Puri, M.L. e Sen, P.K. (1971) Nonparametric methods in multivariate analysis, Wiley, New York. Randles, R.H. e Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York. Siegel, S. (1956) Nonparametric statistics for behavioral sciences, McGraw Hill, New York. Siegel, S. e Castellan, N.J. (1988) Nonparametric statistics for behavioral sciences, McGraw Hill, New York. Serfling, R.J. (1980) Approximation theorems of mathematical statistics, Wiley, New York. Riferimenti bibliografici Batschelet, E. (1981) Circular Statistics in biology, Academic Press, London. Benford, F. (1938) The law of anomalous numbers, Proceedings of the American Philosophical Society 78, 551-572. 182 Bibliografia Bhatia, M.L., Manchanda, S.C. e Roy, S.B. (1969) Coronary Haemodinamic studies in chronic severe anaemia, British Heart Journal 31, 365-374. Brinegar, C.S. (1963) Mark Twain and the Q.C.S. letters - a statistical test of authorship, Journal of the Royal Statistical Association 58, 85-96. Brook, C.G.D. (1971) Determination of body composition of children from skinfold measuraments, Archivia Disease Childhood 46, 182-184. Bryson, M.C. e Siddiqui, M.M. (1969) Survival time: some criteria for aging, Journal of the American Statistical Association 64, 1472-1483. Cameron, E. e Pauling, L. (1974) Supplemental ascorbate in the supportive treatment of cancer: re-evaluation of prolongation of survival times in terminal human cancer, Proceedings of the National Academy of Science USA 75, 4538-4542. Clarke, R.D. (1946) An application of the Poisson distribution, Journal of the Institute of the Actuaries 72, 48. Darwin, C. (1876) The effects of cross- and self-fertilization in the vegetable kingdom, John Murray, London. Dubois, C. (1970) Lowie's selected papers in antrophology, University of California Press, California. Edwards A.W. e Fraccaro M. (1960) Distribution and sequences of sexes in a selected sample of Swedish families, Annals Human Genetics 24, 245-252. Gadsen, R.J. e Kanji, G.K. (1981) Sequential analysis for angular data, The Statistician 30, 119-129. Johnson, T.E. e Graybill, F.A. (1972) An analysis of two-way model with interaction and no replication, Journal of the American Statistical Association 67, 862-868. Kendall, D.G. (1951) Some problems in the theory of queues, Journal of the Royal Statistical Society B13, 151-185. Lederman, S.J., Klatsky, R.L. e Barber, B.P.O. (1985) Spatial and movement-based heuristics for encoding pattern information through touch, Journal of Experimental Psycology: General 114, 33-49. Lunn, A.D. e McNeil, D.R. (1991) Computer-interactive data analysis, Wiley, New York. Nanji, A.A. e French, S.W. (1985) Relationship between pork consumption and cirrhosis, The Lancet 1, 681-683. Preece, D.A. (1981) Distributions of final digits in the data, The Statistician 30, 31-60. Quesenberry, C.P. e Hales, C. (1980) Concentration bands for uniformity plots, Journal of Statistical Computation and Simulation 11, 41-53. Romano, A. (1977) Applied Statistics for Science and Industry, Allyn and Bacon, Boston. Rutheford, E. e Geiger, M. (1910) The probability of variations in the distributions of alphaparticles, Philosophical Magazine 20, 698-704. Selvin, S. (1991) Statistical analysis of epidemiological data, Oxford University Press, New York. Snedecor, G.W. e Cochran, G.C. (1967) Statistical methods, Iowa State University Press, Ames. Till, R. (1974) Statistical methods for the earth scientist, McMillan, London. Van Oost, B.A., Veldhayzen, B., Timmermans, A.P.M. e Sixma, J.J. (1983) Increased urinary "-thromboglobulin excretion in diabets assayed with a modified RIA kit-technique, Thrombosis and Haemostasis 9, 18-20. Tavole Tavola 1. Gli elementi della tavola danno le probabilità di coda sinistra di una variabile casuale R Ð!ß "Ñ. D .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 3.0 3.1 3.2 .9987 .9990 .9993 .9987 .9991 .9993 .9987 .9991 .9994 .9988 .9991 .9994 .9988 .9992 .9994 .9989 .9992 .9994 .9989 .9992 .9994 .9989 .9992 .9995 .9990 .9993 .9995 .9990 .9993 .9995 Tavole 159 Tavola 2. Gli elementi della tavola danno i quantili di una variabile casuale ;#8 per alcune probabilità di coda sinistra T e gradi di libertà 8 œ "ß #ß á ß $!. 8\T 0.05 0.10 0.50 0.75 0.90 0.95 0.975 0.99 .995 .999 1 2 3 4 5 6 7 8 9 10 0.004 0.10 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 0.016 0.21 0.58 1.06 1.61 2.20 2.83 3.49 4.17 4.87 0.45 1.39 2.37 3.36 4.35 5.35 6.35 7.34 8.34 9.34 1.32 2.77 4.11 5.39 6.63 7.84 9.04 10.22 11.39 12.55 2.71 4.61 6.25 7.78 9.24 10.64 12.02 12.36 14.68 15.99 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.54 19.02 20.48 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.96 23.59 25.19 10.83 13.82 16.27 18.47 20.52 22.46 24.32 26.12 27.88 29.59 11 12 13 14 15 16 17 18 19 20 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 10.34 11.34 12.34 13.34 14.34 15.34 16.34 17.34 18.34 19.34 13.70 14.85 15.98 17.12 18.25 19.37 20.49 21.60 22.72 23.83 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 21.92 23.34 24.74 26.12 27.49 28.84 30.19 31.53 32.85 34.17 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 31.26 32.91 34.53 36.12 37.70 39.25 40.79 43.31 43.82 45.32 21 22 23 24 25 26 27 28 29 30 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60 20.34 21.34 22.34 23.34 24.34 25.34 26.34 27.34 28.34 29.34 24.93 26.04 27.14 28.24 29.34 30.43 31.53 32.62 33.71 34.80 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70 Per 8 $! le probabilità di coda sinistra possono essere ottenute tenendo presente che ^ œ È#;#8 È#8 " converge in probabilità ad una variabile casuale R Ð!ß "Ñ. 160 Tavole Tavola 3. Gli elementi della tavola danno le probabilità T di coda sinistra o destra della statistica F del test dei segni (a secondo che nella tavola , sia a sinistra o a destra di T ), 8 œ #ß $ß á ß #!. 8 2 , 0 1 3 0 1 4 0 1 2 5 0 1 2 6 0 1 2 3 7 0 1 2 3 8 0 1 2 3 4 9 0 1 2 3 4 10 0 1 T , 8 , T , 8 , T .2500 .7500 .1250 .5000 .0625 .3125 .6875 .0313 .1875 .5000 .0156 .1094 .3438 .6563 .0078 .0625 .2266 .5000 .0039 .0352 .1445 .3633 .6367 .0020 .0195 .0898 .2539 .5000 .0010 .0107 2 1 3 2 4 3 2 5 4 3 6 5 4 3 7 6 5 4 8 7 6 5 4 9 8 7 6 5 10 9 10 2 3 4 5 11 0 1 2 3 4 5 12 0 1 2 3 4 5 6 13 0 1 2 3 4 5 6 14 0 1 2 3 4 5 .0547 .1719 .3770 .6230 .0005 .0059 .0327 .1133 .2744 .5000 .0002 .0032 .0193 .0730 .1938 .3872 .6128 .0001 .0017 .0112 .0461 .1334 .2905 .5000 .0001 .0009 .0065 .0287 .0898 .2120 8 7 6 5 11 10 9 8 7 6 12 11 10 9 8 7 6 13 12 11 10 9 8 7 14 13 12 11 10 9 14 6 7 15 0 1 2 3 4 5 6 7 16 0 1 2 3 4 5 6 7 8 17 0 1 2 3 4 5 6 7 8 18 0 1 .3953 .6047 .0000 .0005 .0037 .0176 .0592 .1509 .3036 .5000 .0000 .0003 .0021 .0106 .0384 .1051 .2272 .4018 .5982 .0000 .0001 .0012 .0064 .0245 .0717 .1662 .3145 .5000 .0000 .0001 , 8 , 8 18 2 7 3 15 4 14 5 13 6 12 7 11 8 10 9 9 19 0 8 1 16 2 15 3 14 4 13 5 12 6 11 7 10 8 9 9 8 20 0 17 1 16 2 15 3 14 4 13 5 12 6 11 7 10 8 9 9 18 10 17 T , .0007 .0038 .0154 .0481 .1189 .2403 .4073 .5927 .0000 .0000 .0004 .0022 .0096 .0318 .0835 .1796 .3238 .5000 .0000 .0000 .0002 .0013 .0059 .0207 .0577 .1316 .2517 .4119 .5881 16 15 14 13 12 11 10 9 19 18 17 16 15 14 13 12 11 10 20 19 18 17 16 15 14 13 12 11 10 Tavole 161 Tavola 4. Gli elementi della tavola danno le probabilità T di coda sinistra o destra della statistica [ di Wilcoxon (a secondo che nella tavola A sia a sinistra o a destra di T ), 8 œ #ß $ß á ß "&. 8 2 3 4 5 6 7 A 0 1 0 1 2 3 0 1 2 3 4 5 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 T A 8 A .2500 .5000 .1250 .2500 .3750 .6250 .0625 .1250 .1875 .3125 .4375 .5625 .0313 .0625 .0938 .1563 .2188 .3125 .4063 .5000 .0156 .0313 .0469 .0781 .1094 .1563 .2188 .2813 .3438 .4219 .5000 .0078 .0156 .0234 .0391 3 7 4 2 5 6 6 5 7 4 8 3 9 10 10 9 11 8 12 7 13 6 14 5 8 0 15 1 14 2 13 3 12 4 11 5 10 6 9 7 8 8 21 9 20 10 19 11 18 12 17 13 16 14 15 15 14 16 13 17 12 18 11 9 0 28 1 27 2 26 3 25 4 T A 8 A .0547 .0781 .1094 .1484 .1875 .2344 .2891 .3438 .4063 .4688 .5313 .0039 .0078 .0117 .0195 .0273 .0391 .0547 .0742 .0977 .1250 .1563 .1914 .2305 .2734 .3203 .3711 .4219 .4727 .5273 .0020 .0039 .0059 .0098 .0137 24 9 5 23 6 22 7 21 8 20 9 19 10 18 11 17 12 16 13 15 14 14 15 36 16 35 17 34 18 33 19 32 20 31 21 30 22 29 10 0 28 1 27 2 26 3 25 4 24 5 23 6 22 7 21 8 20 9 19 10 18 11 45 12 44 13 43 14 42 15 41 16 T A 8 A .0195 .0273 .0371 .0488 .0645 .0820 .1016 .1250 .1504 .1797 .2129 .2480 .2852 .3262 .3672 .4102 .4551 .5000 .0010 .0020 .0029 .0049 .0068 .0098 .0137 .0186 .0244 .0322 .0420 .0527 .0654 .0801 .0967 .1162 .1377 T A 8 A 40 10 17 .1611 38 11 24 39 18 .1875 37 25 38 19 .2158 36 26 37 20 .2461 35 27 36 21 .2783 34 28 35 22 .3125 33 29 34 23 .3477 32 30 33 24 .3848 31 31 32 25 .4229 30 32 31 26 .4609 29 33 30 27 .5000 28 12 0 29 11 0 .0005 66 1 28 1 .0010 65 2 27 2 .0015 64 3 26 3 .0024 63 4 25 4 .0034 62 5 24 5 .0049 61 6 23 6 .0068 60 7 55 7 .0093 59 8 54 8 .0122 58 9 53 9 .0161 57 10 52 10 .0210 56 11 51 11 .0269 55 12 50 12 .0337 54 13 49 13 .0415 53 14 48 14 .0508 52 15 47 15 .0615 51 16 46 16 .0737 50 17 45 17 .0874 49 18 44 18 .1030 48 19 43 19 .1201 47 20 42 20 .1392 46 21 41 21 .1602 45 22 40 22 .1826 44 23 39 23 .2065 43 24 T A .2324 .2598 .2886 .3188 .3501 .3823 .4155 .4492 .4829 .5171 .0002 .0005 .0007 .0012 .0017 .0024 .0034 .0046 .0061 .0081 .0105 .0134 .0171 .0212 .0261 .0320 .0386 .0461 .0549 .0647 .0757 .0881 .1018 .1167 .1331 42 41 40 39 38 37 36 35 34 33 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 162 Tavole Tavola 4. (continuazione) 8 12 13 A 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 T A 8 A .1506 .1697 .1902 .2119 .2349 .2593 .2847 .3110 .3386 .3667 .3955 .4250 .4548 .4849 .5151 .0001 .0002 .0004 .0006 .0009 .0012 .0017 .0023 .0031 .0040 .0052 .0067 .0085 .0107 .0133 .0164 .0199 .0239 .0287 .0341 T A 8 A 53 13 20 .0402 71 14 9 52 21 .0471 70 10 51 22 .0549 69 11 50 23 .0636 68 12 49 24 .0732 67 13 48 25 .0839 66 14 47 26 .0955 65 15 46 27 .1082 64 16 45 28 .1219 63 17 44 29 .1367 62 18 43 30 .1527 61 19 42 31 .1698 60 20 41 32 .1879 59 21 40 33 .2072 58 22 39 34 .2274 57 23 91 35 .2487 56 24 90 36 .2709 55 25 89 37 .2939 54 26 88 38 .3177 53 27 87 39 .3424 52 28 86 40 .3677 51 29 85 41 .3934 50 30 84 42 .4197 49 31 83 43 .4463 48 32 82 44 .4730 47 33 81 45 .5000 46 34 80 14 0 .0001 105 35 79 1 .0001 104 36 78 2 .0002 103 37 77 3 .0003 102 38 76 4 .0004 101 39 75 5 .0006 100 40 74 6 .0009 99 41 73 7 .0012 98 42 72 8 .0015 97 43 T A 8 A .0020 .0026 .0034 .0043 .0054 .0067 .0083 .0101 .0123 .0148 .0176 .0209 .0247 .0290 .0338 .0392 .0453 .0520 .0594 .0676 .0765 .0863 .0969 .1083 .1206 .1338 .1479 .1629 .1788 .1955 .2131 .2316 .2508 .2708 .2915 T A 8 A 96 14 44 .3129 61 15 26 95 45 .3349 60 27 94 46 .3574 59 28 93 47 .3804 58 29 92 48 .4039 57 30 91 49 .4276 56 31 90 50 .4516 55 32 89 51 .4758 54 33 88 52 .5000 53 34 87 15 0 .0000 120 35 86 1 .0001 119 36 85 2 .0001 118 37 84 3 .0002 117 38 83 4 .0002 116 39 82 5 .0003 115 40 81 6 .0004 114 41 80 7 .0006 113 42 79 8 .0008 112 43 78 9 .0010 111 44 77 10 .0013 110 45 76 11 .0017 109 46 75 12 .0021 108 47 74 13 .0027 107 48 73 14 .0034 106 49 72 15 .0042 105 50 71 16 .0051 104 51 70 17 .0062 103 52 69 18 .0075 102 53 68 19 .0090 101 54 67 20 .0108 100 55 66 21 .0128 99 56 65 22 .0151 98 57 64 23 .0177 97 58 63 24 .0206 96 59 62 25 .0240 95 60 T A .0277 .0319 .0365 .0416 .0473 .0535 .0603 .0677 .0757 .0844 .0938 .1039 .1147 .1262 .1384 .1514 .1651 .1796 .1947 .2106 .2271 .2444 .2622 .2807 .2997 .3193 .3394 .3599 .3808 .4020 .4235 .4452 .4670 .4890 .5110 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 Tavole 163 Tavola 5. Gli elementi della tavola danno le probabilità T di coda sinistra o destra della statistica [ di MannWhitney-Wilcoxon (a secondo che nella tavola A sia a sinistra o a destra di T ), 8" Ÿ 8# œ "ß #ß á ß "!. 8" 8# A 1 1 1 1 .5000 2 1 .3333 2 .6667 3 1 .2500 2 .5000 4 1 .2000 2 .4000 3 .6000 5 1 .1667 2 .3333 3 .5000 6 1 .1429 2 .2857 3 .4286 4 .5714 7 1 .1250 2 .2500 3 .3750 4 .5000 8 1 .1111 2 .2222 3 .3333 4 .4444 5 .5556 9 1 .1000 2 .2000 3 .3000 4 .4000 5 .5000 10 1 .0909 1 1 1 1 1 1 1 1 T A 2 3 2 4 3 5 4 3 6 5 4 7 6 5 4 8 7 6 5 9 8 7 6 5 10 9 8 7 6 11 8" 8# A 1 10 2 3 4 5 6 2 2 3 4 5 2 3 3 4 5 6 2 4 3 4 5 6 7 2 5 3 4 5 6 7 8 2 6 3 4 5 6 7 8 9 T A .1818 .2727 .3636 .4545 .5455 .1667 .3333 .6667 .1000 .2000 .4000 .6000 .0667 .1333 .2667 .4000 .6000 .0476 .0952 .1905 .2857 .4286 .5714 .0357 .0714 .1429 .2143 .3214 .4286 .5714 10 9 8 7 6 7 6 5 9 8 7 6 11 10 9 8 7 13 12 11 10 9 8 15 14 13 12 11 10 9 8" 8# A T A 2 7 3 .0278 4 .0556 5 .1111 6 .1667 7 .2500 8 .3333 9 .4444 10 .5556 2 8 3 .0222 4 .0444 5 .0889 6 .1333 7 .2000 8 .2667 9 .3556 10 .4444 11 .5556 2 9 3 .0182 4 .0364 5 .0727 6 .1091 7 .1636 8 .2182 9 .2909 10 .3636 11 .4545 12 .5455 2 10 3 .0152 4 .0303 5 .0606 17 16 15 14 13 12 11 10 19 18 17 16 15 14 13 12 11 21 20 19 18 17 16 15 14 13 12 23 22 21 8" 8# A T A 2 10 6 .0909 7 .1364 8 .1818 9 .2424 10 .3030 11 .3788 12 .4545 13 .5455 3 3 6 .0500 7 .1000 8 .2000 9 .3500 10 .5000 3 4 6 .0286 7 .0571 8 .1143 9 .2000 10 .3143 11 .4286 12 .5714 3 5 6 .0179 7 .0357 8 .0714 9 .1250 10 .1964 11 .2857 12 .3929 13 .5000 3 6 6 .0119 7 .0238 8" 8# A T A 20 3 6 8 .0476 22 19 9 .0833 21 18 10 .1310 20 17 11 .1905 19 16 12 .2738 18 15 13 .3571 17 14 14 .4524 16 13 15 .5476 15 15 3 7 6 .0083 27 14 7 .0167 26 13 8 .0333 25 12 9 .0583 24 11 10 .0917 23 18 11 .1333 22 17 12 .1917 21 16 13 .2583 20 15 14 .3333 19 14 15 .4167 18 13 16 .5000 17 12 3 8 6 .0061 30 21 7 .0121 29 20 8 .0242 28 19 9 .0424 27 18 10 .0667 26 17 11 .0970 25 16 12 .1394 24 15 13 .1879 23 14 14 .2485 22 24 15 .3152 21 23 16 .3879 20 164 Tavole Tavola 5. (continuazione) 8" 8# A 3 8 17 .4606 18 .5394 9 6 .0045 7 .0091 8 .0182 9 .0318 10 .0500 11 .0727 12 .1045 13 .1409 14 .1864 15 .2409 16 .3000 17 .3636 18 .4318 19 .5000 10 6 .0035 7 .0070 8 .0140 9 .0245 10 .0385 11 .0559 12 .0804 13 .1084 14 .1434 15 .1853 16 .2343 17 .2867 18 .3462 19 .4056 3 3 T A 19 18 33 32 31 30 29 28 27 26 25 24 23 22 21 20 36 35 34 33 32 31 30 29 28 27 26 25 24 23 8" 8# A T A 3 10 20 .4685 21 .5315 4 4 10 .0143 11 .0286 12 .0571 13 .1000 14 .1714 15 .2429 16 .3429 17 .4429 18 .5571 4 5 10 .0079 11 .0159 12 .0317 13 .0556 14 .0952 15 .1429 16 .2063 17 .2778 18 .3651 19 .4524 20 .5476 4 6 10 .0048 11 .0095 12 .0190 13 .0333 14 .0571 15 .0857 16 .1286 17 .1762 8" 8# A T A 8" 8# A T A 8" 8# A T A 22 4 6 18 .2381 26 4 8 20 .1838 32 4 10 14 .0120 46 21 19 .3048 25 21 .2303 31 15 .0180 45 26 20 .3810 24 22 .2848 30 16 .0270 44 25 21 .4571 23 23 .3414 29 17 .0380 43 24 22 .5429 22 24 .4040 28 18 .0529 42 23 4 7 10 .0030 38 25 .4667 27 19 .0709 41 22 11 .0061 37 26 .5333 26 20 .0939 40 21 12 .0121 36 4 9 10 .0014 46 21 .1199 39 20 13 .0212 35 11 .0028 45 22 .1518 38 19 14 .0364 34 12 .0056 44 23 .1868 37 18 15 .0545 33 13 .0098 43 24 .2268 36 30 16 .0818 32 14 .0168 42 25 .2697 35 29 17 .1152 31 15 .0252 41 26 .3177 34 28 18 .1576 30 16 .0378 40 27 .3666 33 27 19 .2061 29 17 .0531 39 28 .4196 32 26 20 .2636 28 18 .0741 38 29 .4725 31 25 21 .3242 27 19 .0993 37 30 .5275 30 24 22 .3939 26 20 .1301 36 5 5 15 .0040 40 23 23 .4636 25 21 .1650 35 16 .0079 39 22 24 .5364 24 22 .2070 34 17 .0159 38 21 4 8 10 .0020 42 23 .2517 33 18 .0278 37 20 11 .0040 41 24 .3021 32 19 .0476 36 34 12 .0081 40 25 .3552 31 20 .0754 35 33 13 .0141 39 26 .4126 30 21 .1111 34 32 14 .0242 38 27 .4699 29 22 .1548 33 31 15 .0364 37 28 .5301 28 23 .2103 32 30 16 .0545 36 4 10 10 .0010 50 24 .2738 31 29 17 .0768 35 11 .0020 49 25 .3452 30 28 18 .1071 34 12 .0040 48 26 .4206 29 27 19 .1414 33 13 .0070 47 27 .5000 28 Tavole 165 Tavola 5. (continuazione) 8" 8# A 5 6 15 .0022 16 .0043 17 .0087 18 .0152 19 .0260 20 .0411 21 .0628 22 .0887 23 .1234 24 .1645 25 .2143 26 .2684 27 .3312 28 .3961 29 .4654 30 .5346 7 15 .0013 16 .0025 17 .0051 18 .0088 19 .0152 20 .0240 21 .0366 22 .0530 23 .0745 24 .1010 25 .1338 26 .1717 27 .2159 28 .2652 5 T A 8" 8# A T A 8" 8# A T A 8" 8# A T A 8" 8# A T A 45 5 7 29 .3194 36 5 9 20 .0095 55 5 10 27 .0646 53 6 6 37 .4091 41 44 30 .3775 35 21 .0145 54 28 .0823 52 38 .4686 40 43 31 .4381 34 22 .0210 53 29 .1032 51 39 .5314 39 42 32 .5000 33 23 .0300 52 30 .1272 50 6 7 21 .0006 63 41 5 8 15 .0008 55 24 .0415 51 31 .1548 49 22 .0012 62 40 16 .0016 54 25 .0559 50 32 .1855 48 23 .0023 61 39 17 .0031 53 26 .0734 49 33 .2198 47 24 .0041 60 38 18 .0054 52 27 .0949 48 34 .2567 46 25 .0070 59 37 19 .0093 51 28 .1199 47 35 .2970 45 26 .0111 58 36 20 .0148 50 29 .1489 46 36 .3393 44 27 .0175 57 35 21 .0225 49 30 .1818 45 37 .3839 43 28 .0256 56 34 22 .0326 48 31 .2188 44 38 .4296 42 29 .0367 55 33 23 .0466 47 32 .2592 43 39 .4765 41 30 .0507 54 32 24 .0637 46 33 .3032 42 40 .5235 40 31 .0688 53 31 25 .0855 45 34 .3497 41 6 6 21 .0011 57 32 .0903 52 30 26 .1111 44 35 .3986 40 22 .0022 56 33 .1171 51 50 27 .1422 43 36 .4491 39 23 .0043 55 34 .1474 50 49 28 .1772 42 37 .5000 38 24 .0076 54 35 .1830 49 48 29 .2176 41 5 10 15 .0003 65 25 .0130 53 36 .2226 48 47 30 .2618 40 16 .0007 64 26 .0206 52 37 .2669 47 46 31 .3108 39 17 .0013 63 27 .0325 51 38 .3141 46 45 32 .3621 38 18 .0023 62 28 .0465 50 39 .3654 45 44 33 .4165 37 19 .0040 61 29 .0660 49 40 .4178 44 43 34 .4716 36 20 .0063 60 30 .0898 48 41 .4726 43 42 35 .5284 35 21 .0097 59 31 .1201 47 42 .5274 42 41 5 9 15 .0005 60 22 .0140 58 32 .1548 46 6 8 21 .0003 69 40 16 .0010 59 23 .0200 57 33 .1970 45 22 .0007 68 39 17 .0020 58 24 .0276 56 34 .2424 44 23 .0013 67 38 18 .0035 57 25 .0376 55 35 .2944 43 24 .0023 66 37 19 .0060 56 26 .0496 54 36 .3496 42 25 .0040 65 166 Tavole Tavola 5. (continuazione) 8" 8# A 6 8 26 .0063 27 .0100 28 .0147 29 .0213 30 .0296 31 .0406 32 .0539 33 .0709 34 .0906 35 .1142 36 .1412 37 .1725 38 .2068 39 .2454 40 .2864 41 .3310 42 .3773 43 .4259 44 .4749 45 .5251 9 21 .0002 22 .0004 23 .0008 24 .0014 25 .0024 26 .0038 27 .0060 28 .0088 29 .0128 30 .0180 6 T A 8" 8# A T A 8" 8# A T A 8" 8# A T A 8" 8# A T A 64 6 9 31 .0248 65 6 10 33 .0280 69 7 7 39 .0487 66 7 8 44 .0946 68 63 32 .0332 64 34 .0363 68 40 .0641 65 45 .1159 67 62 33 .0440 63 35 .0467 67 41 .0825 64 46 .1405 66 61 34 .0567 62 36 .0589 66 42 .1043 63 47 .1678 65 60 35 .0723 61 37 .0736 65 43 .1297 62 48 .1984 64 59 36 .0905 60 38 .0903 64 44 .1588 61 49 .2317 63 58 37 .1119 59 39 .1099 63 45 .1914 60 50 .2679 62 57 38 .1361 58 40 .1317 62 46 .2279 59 51 .3063 61 56 39 .1638 57 41 .1566 61 47 .2675 58 52 .3472 60 55 40 .1942 56 42 .1838 60 48 .3100 57 53 .3894 59 54 41 .2280 55 43 .2139 59 49 .3552 56 54 .4333 58 53 42 .2643 54 44 .2461 58 50 .4024 55 55 .4775 57 52 43 .3035 53 45 .2811 57 51 .4508 54 56 .5225 56 51 44 .3445 52 46 .3177 56 52 .5000 53 7 9 28 .0001 91 50 45 .3878 51 47 .3564 55 7 8 28 .0002 84 29 .0002 90 49 46 .4320 50 48 .3962 54 29 .0003 83 30 .0003 89 48 47 .4773 49 49 .4374 53 30 .0006 82 31 .0006 88 47 48 .5227 48 50 .4789 52 31 .0011 81 32 .0010 87 46 6 10 21 .0001 81 51 .5211 51 32 .0019 80 33 .0017 86 45 22 .0002 80 7 7 28 .0003 77 33 .0030 79 34 .0026 85 75 23 .0005 79 29 .0006 76 34 .0047 78 35 .0039 84 74 24 .0009 78 30 .0012 75 35 .0070 77 36 .0058 83 73 25 .0015 77 31 .0020 74 36 .0103 76 37 .0082 82 72 26 .0024 76 32 .0035 73 37 .0145 75 38 .0115 81 71 27 .0037 75 33 .0055 72 38 .0200 74 39 .0156 80 70 28 .0055 74 34 .0087 71 39 .0270 73 40 .0209 79 69 29 .0080 73 35 .0131 70 40 .0361 72 41 .0274 78 68 30 .0112 72 36 .0189 69 41 .0469 71 42 .0356 77 67 31 .0156 71 37 .0265 68 42 .0603 70 43 .0454 76 66 32 .0210 70 38 .0364 67 43 .0760 69 44 .0571 75 Tavole 167 Tavola 5. (continuazione) 8" 8# A 7 9 45 .0708 46 .0869 47 .1052 48 .1261 49 .1496 50 .1755 51 .2039 52 .2349 53 .2680 54 .3032 55 .3403 56 .3788 57 .4185 58 .4591 59 .5000 10 28 .0001 29 .0001 30 .0002 31 .0004 32 .0006 33 .0010 34 .0015 35 .0023 36 .0034 37 .0048 38 .0068 39 .0093 40 .0125 41 .0165 42 .0215 7 T A 8" 8# A T A 8" 8# A T A 8" 8# A T A 8" 8# A T A 74 7 10 43 .0277 83 8 8 45 .0074 91 8 9 42 .0012 102 8 9 72 .5187 72 73 44 .0351 82 46 .0103 90 43 .0019 101 8 10 36 .0000 116 72 45 .0439 81 47 .0141 89 44 .0028 100 37 .0000 115 71 46 .0544 80 48 .0190 88 45 .0039 99 38 .0001 114 70 47 .0665 79 49 .0249 87 46 .0056 98 39 .0002 113 69 48 .0806 78 50 .0325 86 47 .0076 97 40 .0003 112 68 49 .0966 77 51 .0415 85 48 .0103 96 41 .0004 111 67 50 .1148 76 52 .0524 84 49 .0137 95 42 .0007 110 66 51 .1349 75 53 .0652 83 50 .0180 94 43 .0010 109 65 52 .1574 74 54 .0803 82 51 .0232 93 44 .0015 108 64 53 .1819 73 55 .0974 81 52 .0296 92 45 .0022 107 63 54 .2087 72 56 .1172 80 53 .0372 91 46 .0031 106 62 55 .2374 71 57 .1393 79 54 .0464 90 47 .0043 105 61 56 .2681 70 58 .1641 78 55 .0570 89 48 .0058 104 60 57 .3004 69 59 .1911 77 56 .0694 88 49 .0078 103 98 58 .3345 68 60 .2209 76 57 .0836 87 50 .0103 102 97 59 .3698 67 61 .2527 75 58 .0998 86 51 .0133 101 96 60 .4063 66 62 .2869 74 59 .1179 85 52 .0171 100 95 61 .4434 65 63 .3227 73 60 .1383 84 53 .0217 99 94 62 .4811 64 64 .3605 72 61 .1606 83 54 .0273 98 93 63 .5189 63 65 .3992 71 62 .1852 82 55 .0338 97 92 8 8 36 .0001 100 66 .4392 70 63 .2117 81 56 .0416 96 91 37 .0002 99 67 .4796 69 64 .2404 80 57 .0506 95 90 38 .0003 98 68 .5204 68 65 .2707 79 58 .0610 94 89 39 .0005 97 8 9 36 .0000 108 66 .3029 78 59 .0729 93 88 40 .0009 96 37 .0001 107 67 .3365 77 60 .0864 92 87 41 .0015 95 38 .0002 106 68 .3715 76 61 .1015 91 86 42 .0023 94 39 .0003 105 69 .4074 75 62 .1185 90 85 43 .0035 93 40 .0005 104 70 .4442 74 63 .1371 89 84 44 .0052 92 41 .0008 103 71 .4813 73 64 .1577 88 168 Tavole Tavola 5. (continuazione) 8" 8# A 8 10 65 .1800 66 .2041 67 .2299 68 .2574 69 .2863 70 .3167 71 .3482 72 .3809 73 .4143 74 .4484 75 .4827 76 .5173 9 45 .0000 46 .0000 47 .0001 48 .0001 49 .0002 50 .0004 51 .0006 52 .0009 53 .0014 54 .0020 55 .0028 56 .0039 57 .0053 58 .0071 59 .0094 60 .0122 61 .0157 62 .0200 9 T A 8" 8# A T A 8" 8# A T A 8" 8# A T A 87 9 9 63 .0252 108 9 10 52 .0005 128 9 10 82 .2745 86 64 .0313 107 53 .0007 127 83 .3019 85 65 .0385 106 54 .0011 126 84 .3304 84 66 .0470 105 55 .0015 125 85 .3598 83 67 .0567 104 56 .0021 124 86 .3901 82 68 .0680 103 57 .0028 123 87 .4211 81 69 .0807 102 58 .0038 122 88 .4524 80 70 .0951 101 59 .0051 121 89 .4841 79 71 .1112 100 60 .0066 120 90 .5159 78 72 .1290 99 61 .0086 119 10 10 55 .0000 77 73 .1487 98 62 .0110 118 56 .0000 76 74 .1701 97 63 .0140 117 57 .0000 126 75 .1933 96 64 .0175 116 58 .0000 125 76 .2181 95 65 .0217 115 59 .0001 124 77 .2447 94 66 .0267 114 60 .0001 123 78 .2729 93 67 .0326 113 61 .0002 122 79 .3024 92 68 .0394 112 62 .0002 121 80 .3332 91 69 .0474 111 63 .0004 120 81 .3652 90 70 .0564 110 64 .0005 119 82 .3981 89 71 .0667 109 65 .0008 118 83 .4317 88 72 .0782 108 66 .0010 117 84 .4657 87 73 .0912 107 67 .0014 116 85 .5000 86 74 .1055 106 68 .0019 115 9 10 45 .0000 135 75 .1214 105 69 .0026 114 46 .0000 134 76 .1388 104 70 .0034 113 47 .0000 133 77 .1577 103 71 .0045 112 48 .0001 132 78 .1781 102 72 .0057 111 49 .0001 131 79 .2001 101 73 .0073 110 50 .0002 130 80 .2235 100 74 .0093 109 51 .0003 129 81 .2483 99 75 .0116 8" 8# A T A 98 10 10 76 .0144 134 97 77 .0177 133 96 78 .0216 132 95 79 .0262 131 94 80 .0315 130 93 81 .0376 129 92 82 .0446 128 91 83 .0526 127 90 84 .0615 126 155 85 .0716 125 154 86 .0827 124 153 87 .0952 123 152 88 .1088 122 151 89 .1237 121 150 90 .1399 120 149 91 .1575 119 148 92 .1763 118 147 93 .1965 117 146 94 .2179 116 145 95 .2406 115 144 96 .2644 114 143 97 .2894 113 142 98 .3153 112 141 99 .3421 111 140 100 .3697 110 139 101 .3980 109 138 102 .4267 108 137 103 .4559 107 136 104 .4853 106 135 105 .5147 105 Tavole 169 Tavola 6. Gli elementi della tavola danno le probabilità T di coda destra della statistica E di Ansari-Bradley, 8" Ÿ 8# œ #ß $ß á ß "!. 8" 8# + T 2 2 2 3 4 3 2 3 4 5 4 2 3 4 5 6 5 2 3 4 5 6 7 6 2 3 4 5 6 7 8 7 2 3 4 5 6 1.0000 .8333 .1667 1.0000 .9000 .5000 .2000 1.0000 .9333 .6667 .3333 .0667 1.0000 .9524 .7619 .5238 .2381 .0952 1.0000 .9643 .8214 .6429 .3571 .1786 .0357 1.0000 .9722 .8611 .7222 .5000 2 2 2 2 2 8" 8# + T 2 7 7 .3056 8 .1389 9 .0556 2 8 2 1.0000 3 .9778 4 .8889 5 .7778 6 .6000 7 .4000 8 .2222 9 .1111 10 .0222 2 9 2 1.0000 3 .9818 4 .9091 5 .8182 6 .6727 7 .5091 8 .3273 9 .2000 10 .0909 11 .0364 2 10 2 1.0000 3 .9848 4 .9242 5 .8485 6 .7273 7 .5909 8 .4091 9 .2727 8" 8# + 2 10 10 11 12 3 3 4 5 6 7 8 3 4 4 5 6 7 8 9 10 3 5 4 5 6 7 8 9 10 11 3 6 4 5 6 7 8 9 10 T .1515 .0758 .0152 1.0000 .9000 .7000 .3000 .1000 1.0000 .9429 .8286 .5714 .3429 .1429 .0286 1.0000 .9643 .8929 .7143 .5000 .2857 .1071 .0357 1.0000 .9762 .9286 .8095 .6548 .4643 .2857 8" 8# + 3 6 11 12 13 3 7 4 5 6 7 8 9 10 11 12 13 14 3 8 4 5 6 7 8 9 10 11 12 13 14 15 16 3 9 4 5 6 T .1429 .0595 .0119 1.0000 .9833 .9500 .8667 .7500 .5833 .4167 .2500 .1333 .0500 .0167 1.0000 .9879 .9636 .9030 .8182 .6909 .5455 .3939 .2606 .1455 .0727 .0303 .0061 1.0000 .9909 .9727 8" 8# + T 3 9 7 .9273 8 .8636 9 .7636 10 .6364 11 .5000 12 .3636 13 .2364 14 .1364 15 .0727 16 .0273 17 .0091 3 10 4 1.0000 5 .9930 6 .9790 7 .9441 8 .8951 9 .8182 10 .7168 11 .5979 12 .4755 13 .3497 14 .2413 15 .1503 16 .0839 17 .0420 18 .0175 19 .0035 4 4 6 1.0000 7 .9857 8 .9286 170 Tavole Tavola 6. (continuazione) 8" 8# + 4 4 9 .8000 10 .6286 11 .3714 12 .2000 13 .0714 14 .0143 5 6 1.0000 7 .9921 8 .9603 9 .8889 10 .7778 11 .6032 12 .4286 13 .2619 14 .1349 15 .0476 16 .0159 6 6 1.0000 7 .9952 8 .9762 9 .9333 10 .8571 11 .7333 12 .5810 13 .4190 14 .2667 15 .1429 16 .0667 17 .0238 18 .0048 4 4 T 8" 8# + T 4 7 6 1.0000 7 .9970 8 .9848 9 .9576 10 .9091 11 .8242 12 .7152 13 .5818 14 .4424 15 .3030 16 .1939 17 .1061 18 .0515 19 .0182 20 .0061 4 8 6 1.0000 7 .9980 8 .9899 9 .9717 10 .9394 11 .8788 12 .7980 13 .6889 14 .5677 15 .4323 16 .3111 17 .2020 18 .1212 19 .0606 20 .0283 8" 8# + T 4 8 21 .0101 22 .0020 4 9 6 1.0000 7 .9986 8 .9930 9 .9804 10 .9580 11 .9161 12 .8573 13 .7762 14 .6783 15 .5650 16 .4503 17 .3357 18 .2378 19 .1538 20 .0923 21 .0490 22 .0238 23 .0084 24 .0028 4 10 6 1.0000 7 .9990 8 .9950 9 .9860 10 .9700 11 .9401 12 .8961 13 .8342 14 .7542 8" 8# + T 4 10 15 .6593 16 .5554 17 .4446 18 .3407 19 .2458 20 .1658 21 .1039 22 .0599 23 .0300 24 .0140 25 .0050 26 .0010 5 5 9 1.0000 10 .9921 11 .9762 12 .9286 13 .8492 14 .7302 15 .5873 16 .4127 17 .2698 18 .1508 19 .0714 20 .0238 21 .0079 5 6 9 1.0000 10 .9957 11 .9870 12 .9610 13 .9156 8" 8# + T 5 6 14 .8420 15 .7446 16 .6147 17 .4805 18 .3463 19 .2294 20 .1342 21 .0693 22 .0303 23 .0108 24 .0022 5 7 9 1.0000 10 .9975 11 .9924 12 .9773 13 .9495 14 .9015 15 .8333 16 .7374 17 .6237 18 .5000 19 .3763 20 .2626 21 .1667 22 .0985 23 .0505 24 .0227 25 .0076 26 .0025 Tavole 171 Tavola 6. (continuazione) 8" 8# + 5 8 9 1.0000 10 .9984 11 .9953 12 .9860 13 .9689 14 .9386 15 .8936 16 .8275 17 .7451 18 .6457 19 .5385 20 .4266 21 .3209 22 .2269 23 .1507 24 .0917 25 .0513 26 .0249 27 .0109 28 .0039 29 .0008 9 9 1.0000 10 .9990 11 .9970 12 .9910 13 .9800 14 .9600 15 .9291 16 .8821 5 T 8" 8# + T 5 9 17 .8212 18 .7423 19 .6523 20 .5514 21 .4486 22 .3477 23 .2577 24 .1788 25 .1179 26 .0709 27 .0400 28 .0200 29 .0090 30 .0030 31 .0010 5 10 9 1.0000 10 .9993 11 .9980 12 .9940 13 .9867 14 .9734 15 .9524 16 .9197 17 .8761 18 .8182 19 .7483 20 .6663 21 .5771 22 .4832 23 .3916 8" 8# + T 5 10 24 .3044 25 .2268 26 .1608 27 .1086 28 .0686 29 .0406 30 .0220 31 .0107 32 .0047 33 .0017 34 .0003 6 6 12 1.0000 13 .9989 14 .9946 15 .9848 16 .9632 17 .9264 18 .8658 19 .7846 20 .6807 21 .5649 22 .4351 23 .3193 24 .2154 25 .1342 26 .0736 27 .0368 28 .0152 29 .0054 30 .0011 8" 8# + T 6 7 12 1.0000 13 .9994 14 .9971 15 .9918 16 .9802 17 .9592 18 .9242 19 .8735 20 .8048 21 .7203 22 .6189 23 .5122 24 .4038 25 .3030 26 .2133 27 .1410 28 .0851 29 .0484 30 .0239 31 .0105 32 .0035 33 .0012 6 8 12 1.0000 13 .9997 14 .9983 15 .9953 16 .9887 17 .9760 18 .9547 19 .9217 8" 8# + T 6 8 20 .8751 21 .8139 22 .7366 23 .6474 24 .5501 25 .4499 26 .3526 27 .2634 28 .1861 29 .1249 30 .0783 31 .0453 32 .0240 33 .0113 34 .0047 35 .0017 36 .0003 6 9 12 1.0000 13 .9998 14 .9990 15 .9972 16 .9932 17 .9856 18 .9724 19 .9518 20 .9215 21 .8803 22 .8260 23 .7600 24 .6829 172 Tavole Tavola 6. (continuazione) 8" 8# + 6 9 25 .5984 26 .5085 27 .4190 28 .3323 29 .2543 30 .1860 31 .1303 32 .0859 33 .0539 34 .0312 35 .0170 36 .0082 37 .0036 38 .0012 39 .0004 10 12 1.0000 13 .9999 14 .9994 15 .9983 16 .9958 17 .9910 18 .9825 19 .9692 20 .9487 21 .9202 22 .8812 23 .8322 24 .7717 25 .7025 26 .6246 6 T 8" 8# + T 6 10 27 .5425 28 .4575 29 .3754 30 .2975 31 .2283 32 .1678 33 .1188 34 .0798 35 .0513 36 .0308 37 .0175 38 .0090 39 .0042 40 .0017 41 .0006 7 7 16 1.0000 17 .9994 18 .9983 19 .9948 20 .9878 21 .9744 22 .9534 23 .9196 24 .8730 25 .8106 26 .7348 27 .6463 28 .5507 29 .4493 30 .3537 8" 8# + T 7 7 31 .2652 32 .1894 33 .1770 34 .0804 35 .0466 36 .0256 37 .0122 38 .0052 39 .0017 40 .0006 7 8 16 1.0000 17 .9997 18 .9991 19 .9972 20 .9935 21 .9862 22 .9744 23 .9549 24 .9270 25 .8878 26 .8375 27 .7748 28 .7021 29 .6194 30 .5324 31 .4435 32 .3577 33 .2777 34 .2075 35 .1478 8" 8# + 7 8 36 37 38 39 40 41 42 43 44 7 9 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 T .1005 .0648 .0393 .0221 .0115 .0053 .0022 .0008 .0002 1.0000 .9998 .9995 .9984 .9963 .9921 .9851 .9734 .9559 .9306 .8965 .8523 .7981 .7336 .6608 .5820 .5000 .4180 .3392 .2664 .2019 8" 8# + T 7 9 37 .1477 38 .1035 39 .0694 40 .0441 41 .0266 42 .0149 43 .0079 44 .0037 45 .0016 46 .0005 47 .0002 7 10 16 1.0000 17 .9999 18 .9997 19 .9991 20 .9978 21 .9954 22 .9912 23 .9841 24 .9734 25 .9574 26 .9354 27 .9059 28 .8685 29 .8221 30 .7676 31 .7052 32 .6368 33 .5637 34 .4888 Tavole 173 Tavola 6. (continuazione) 8" 8# + 7 10 35 .4139 36 .3421 37 .2753 38 .2154 39 .1633 40 .1199 41 .0847 42 .0576 43 .0375 44 .0233 45 .0136 46 .0075 47 .0038 48 .0017 49 .0007 50 .0003 51 .0001 8 20 1.0000 21 .9999 22 .9996 23 .9989 24 .9974 25 .9941 26 .9885 27 .9789 28 .9643 29 .9428 30 .9133 31 .8737 32 .8246 8 T 8" 8# + T 8 8 33 .7650 34 .6970 35 .6212 36 .5413 37 .4587 38 .3788 39 .3030 40 .2350 41 .1754 42 .1263 43 .0867 44 .0572 45 .0357 46 .0211 47 .0115 48 .0059 49 .0026 50 .0011 51 .0004 52 .0001 8 9 20 1.0000 21 1.0000 22 .9998 23 .9994 24 .9986 25 .9969 26 .9938 27 .9886 28 .9804 29 .9680 8" 8# + T 8 9 30 .9504 31 .9262 32 .8947 33 .8549 34 .8069 35 .7508 36 .6877 37 .6184 38 .5457 39 .4714 40 .3983 41 .3281 42 .2636 43 .2055 44 .1557 45 .1139 46 .0807 47 .0548 48 .0358 49 .0221 50 .0131 51 .0072 52 .0037 53 .0017 54 .0007 55 .0002 56 .0001 8 10 20 1.0000 21 1.0000 22 .9999 8" 8# + T 8" 8# + 8 10 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 .9997 .9992 .9983 .9965 .9935 .9887 .9813 .9704 .9551 .9344 .9075 .8738 .8328 .7847 .7296 .6686 .6031 .5347 .4653 .3969 .3314 .2704 .2153 .1672 .1262 .0925 .0656 .0449 .0296 .0187 8 10 53 54 55 56 57 58 59 60 9 9 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 T .0113 .0065 .0035 .0017 .0008 .0003 .0001 .0000 1.0000 1.0000 .9999 .9996 .9991 .9981 .9963 .9932 .9882 .9805 .9695 .9540 .9332 .9062 .8724 .8313 .7833 .7283 .6677 .6025 .5346 .4654 174 Tavole Tavola 6. (continuazione) 8" 8# + 9 9 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 10 25 26 27 28 29 30 31 32 33 34 35 9 T .3975 .3323 .2717 .2167 .1687 .1276 .0938 .0668 .0460 .0305 .0195 .0118 .0068 .0037 .0019 .0009 .0004 .0001 .0000 1.0000 1.0000 .9999 .9998 .9995 .9990 .9980 .9964 .9937 .9894 .9831 8" 8# + T 9 10 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 .9741 .9618 .9453 .9240 .8972 .8646 .8259 .7813 .7310 .6759 .6166 .5548 .4916 .4287 .3673 .3092 .2552 .2064 .1632 .1262 .0952 .0700 .0500 .0347 .0232 .0150 .0093 .0056 .0031 .0017 8" 8# + T 9 10 66 .0008 67 .0004 68 .0002 69 .0001 70 .0000 10 10 30 1.0000 31 1.0000 32 1.0000 33 .9999 34 .9998 35 .9996 36 .9992 37 .9984 38 .9971 39 .9951 40 .9920 41 .9874 42 .9808 43 .9718 44 .9597 45 .9440 46 .9239 47 .8993 48 .8694 49 .8344 50 .7940 51 .7486 52 .6986 53 .6449 54 .5881 8" 8# + T 10 10 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 .5296 .4704 .4119 .3551 .3014 .2514 .2060 .1656 .1306 .1007 .0761 .0560 .0403 .0282 .0192 .0126 .0080 .0049 .0029 .0016 .0008 .0004 .0002 .0001 .0000 .0000 8" 8# + T Tavole 175 Tavola 7. Gli elementi della tavola danno le probabilità T di coda sinistra o destra della statistica W di Spearman (a secondo che nella tavola = sia a sinistra o a destra di T ), 8 œ $ß %ß á ß "!. 8 = T = 8 = 3 10 11 4 20 21 22 23 24 25 5 35 36 37 38 39 40 41 42 43 44 45 6 56 57 58 59 60 61 62 63 64 65 66 67 68 .167 .500 .042 .167 .208 .375 .458 .542 .008 .042 .067 .117 .175 .225 .258 .342 .392 .475 .525 .001 .008 .017 .029 .051 .068 .088 .121 .149 .178 .210 .249 .282 14 13 30 29 28 27 26 25 55 54 53 52 51 50 49 48 47 46 45 91 90 89 88 87 86 85 84 83 82 81 80 79 6 69 70 71 72 73 7 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 T .329 .357 .401 .460 .500 .000 .001 .003 .006 .012 .017 .024 .033 .044 .055 .069 .083 .100 .118 .133 .151 .177 .198 .222 .249 .278 .297 .331 .357 .391 .420 .453 = 8 = 78 77 76 75 74 140 139 138 137 136 135 134 133 132 131 130 129 128 127 126 125 124 123 122 121 120 119 118 117 116 115 114 7 111 112 8 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 T .482 .518 .000 .000 .001 .001 .002 .004 .005 .008 .011 .014 .018 .023 .029 .035 .042 .048 .057 .066 .076 .085 .098 .108 .122 .134 .150 .163 .180 .195 .214 .231 = 8 = 113 112 204 203 202 201 200 199 198 197 196 195 194 193 192 191 190 189 188 187 186 185 184 183 182 181 180 179 178 177 176 175 8 150 151 152 153 154 155 156 157 158 159 160 161 162 9 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 T .250 .268 .291 .310 .332 .352 .376 .397 .420 .441 .467 .488 .512 .000 .000 .000 .000 .000 .001 .001 .002 .002 .003 .004 .005 .007 .009 .011 .013 .016 .018 .022 = 174 173 172 171 170 169 168 167 166 165 164 163 162 285 284 283 282 281 280 279 278 277 276 275 274 273 272 271 270 269 268 267 176 Tavole Tavola 7. (continuazione) 8 = 9 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 T .025 .029 .033 .038 .043 .048 .054 .060 .066 .074 .081 .089 .097 .106 .115 .125 .135 .146 .156 .168 .179 .193 .205 .218 .231 .247 .260 .276 .290 .307 .322 .339 = 8 = T 266 9 216 .354 265 217 .372 264 218 .388 263 219 .405 262 220 .422 261 221 .440 260 222 .456 259 223 .474 258 224 .491 257 225 .509 256 10 220 .000 255 221 .000 254 222 .000 253 223 .000 252 224 .000 251 225 .000 250 226 .000 249 227 .000 248 228 .000 247 229 .001 246 230 .001 245 231 .001 244 232 .001 243 233 .002 242 234 .002 241 235 .003 240 236 .004 239 237 .004 238 238 .005 237 239 .007 236 240 .008 235 241 .009 = 8 = T 234 10 242 .010 233 243 .012 232 244 .013 231 245 .015 230 246 .017 229 247 .019 228 248 .022 227 249 .025 226 250 .027 225 251 .030 385 252 .033 384 253 .037 383 254 .040 382 255 .044 381 256 .048 380 257 .052 379 258 .057 378 259 .062 377 260 .067 376 261 .072 375 262 .077 374 263 .083 373 264 .089 372 265 .096 371 266 .102 370 267 .109 369 268 .116 368 269 .124 367 270 .132 366 271 .139 365 272 .148 364 273 .156 = 8 = T 363 10 274 .165 362 275 .174 361 276 .184 360 277 .193 359 278 .203 358 279 .214 357 280 .224 356 281 .235 355 282 .246 354 283 .257 353 284 .268 352 285 .280 351 286 .292 350 287 .304 349 288 .316 348 289 .328 347 290 .341 346 291 .354 345 292 .367 344 293 .379 343 294 .393 342 295 .406 341 296 .419 340 297 .433 339 298 .446 338 399 .459 337 300 .473 336 301 .486 335 302 .500 334 333 332 = 331 330 329 328 327 326 325 324 323 322 321 320 319 318 317 316 315 314 313 312 311 310 309 308 307 306 305 304 303 Tavole 177 Tavola 8. Gli elementi della tavola danno le probabilità T di coda sinistra o destra della statistica G di Kendall (a secondo che nella tavola - sia a sinistra o a destra di T ), 8 œ $ß %ß á ß "&. 8 - T - 8 - T - 8 - T - 8 - T - 3 0 1 4 0 1 2 3 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 7 0 1 2 3 4 5 6 7 8 9 10 8 0 1 2 3 4 .167 .500 .042 .167 .375 .625 .008 .042 .117 .242 .408 .592 .001 .008 .028 .068 .136 .235 .360 .500 .000 .001 .005 .015 .035 .068 .119 .191 .281 .386 .500 .000 .000 .001 .002 .007 3 2 6 5 4 3 10 9 8 7 6 5 15 14 13 12 11 10 9 8 21 20 19 18 17 16 15 14 13 12 11 28 27 26 25 24 8 5 6 7 8 9 10 11 12 13 14 9 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 10 0 1 2 3 4 5 6 .016 .031 .054 .089 .138 .199 .274 .360 .452 .548 .000 .000 .000 .000 .001 .003 .006 .012 .022 .038 .060 .090 .130 .179 .238 .306 .381 .460 .540 .000 .000 .000 .000 .000 .000 .001 23 22 21 20 19 18 17 16 15 14 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 45 44 43 42 41 40 39 10 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 11 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 .002 .005 .008 .014 .023 .036 .054 .078 .108 .146 .190 .242 .300 .364 .431 .500 .000 .000 .000 .000 .000 .000 .000 .000 .001 .002 .003 .005 .008 .013 .020 .030 .043 .060 .082 .109 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 11 20 21 22 23 24 25 26 27 12 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 .141 .179 .232 .271 .324 .381 .440 .500 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .001 .002 .003 .004 .007 .010 .016 .022 .031 .043 .058 .076 .098 .125 .155 .190 .230 35 34 33 32 31 30 29 28 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 178 Tavole Tavola 8. (continuazione) 8 - T - 8 - T - 8 - T 12 28 29 30 31 32 33 13 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 .273 .319 .369 .420 .473 .527 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .001 .001 .002 .003 .005 .007 .011 .015 .021 .029 .038 .050 .064 .082 .102 .126 38 37 36 35 34 33 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 13 30 31 32 33 34 35 36 37 38 39 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 .153 .184 .218 .255 .295 .338 .383 .429 .476 .524 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .001 .001 .002 .002 .003 .005 .007 .010 .013 48 47 46 45 44 43 42 41 40 39 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 14 26 27 28 29 30 31 32 33 34 35 36 37 58 39 40 41 42 43 44 45 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 .018 .024 .031 .040 .050 .063 .079 .096 .117 .140 .165 .194 .225 .259 .295 .334 .374 .415 .457 .500 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 - 8 - T 65 15 16 .000 64 17 .000 63 18 .000 62 19 .000 61 20 .000 60 21 .001 59 22 .001 58 23 .001 57 24 .002 56 25 .003 55 26 .004 54 27 .006 53 28 .008 52 29 .010 51 30 .014 50 31 .018 49 32 .023 48 33 .029 47 34 .037 46 35 .046 105 36 .057 104 37 .070 103 38 .084 102 39 .101 101 40 .120 100 41 .141 99 42 .164 98 43 .190 97 44 .218 96 45 .248 95 46 .279 94 47 .313 93 48 .349 92 49 .385 91 50 .423 90 51 .461 52 .500 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 Tavole 179 Tavola 9. Gli elementi della tavola danno i quantili della statistica di Kolmogorov per alcune probabilità di coda sinistra T e 8 œ "ß #ß á ß %!. 8\T 0.80 0.90 0.95 0.98 0.99 8\T 0.80 0.90 0.95 0.98 0.99 1 2 3 4 5 .900 .684 .565 .493 .447 .950 .776 .636 .565 .509 .975 .842 .780 .624 .563 .990 .900 .785 .689 .627 .995 .929 .829 .734 .669 21 22 23 24 25 .226 .221 .216 .212 .208 .259 .253 .247 .242 .238 .287 .281 .275 .269 .264 .321 .314 .307 .301 .295 .344 .337 .330 .323 .317 6 7 8 9 10 .410 .381 .358 .339 .323 .468 .436 .410 .387 .369 .519 .483 .454 .430 .409 .577 .538 .507 .480 .457 .617 .576 .542 .513 .489 26 27 28 29 30 .204 .200 .197 .193 .190 .233 .229 .225 .221 .218 .259 .254 .250 .246 .242 .290 .284 .279 .275 .270 .311 .305 .300 .295 .290 11 12 13 14 15 .308 .296 .285 .275 .266 .352 .338 .325 .314 .304 .391 .375 .361 .349 .338 .437 .419 .404 .390 .377 .468 .449 .432 .418 .404 31 32 33 34 35 .187 .184 .182 .179 .177 .214 .211 .208 .205 .202 .238 .234 .231 .227 .224 .266 .262 .258 .254 .251 .285 .281 .277 .273 .269 16 17 18 19 20 .258 .250 .244 .237 .232 .295 .286 .279 .271 .265 .327 .318 .309 .301 .294 .366 .355 .346 .337 .329 .392 .381 .371 .361 .352 36 37 38 39 40 .174 .172 .170 .168 .165 .199 .196 .194 .191 .189 .221 .218 .215 .213 .210 .247 .244 .241 .238 .235 .265 .262 .258 .255 .252 180 Tavole Tavola 10. Gli elementi della tavola danno i quantili della statistica di Kolmogorov-Smirnov per uguali campioni di numerosità 8 per alcune probabilità di coda sinistra T e 8 œ "ß #ß á ß %!. 8 \ T 0.80 0.90 0.95 0.98 0.99 8 \ T 0.80 0.90 0.95 0.98 0.99 6/21 7/22 7/23 7/24 7/25 7/21 8/22 8/23 8/24 8/25 8/21 8/22 9/23 9/24 9/25 9/21 10/22 10/23 10/24 10/25 10/21 10/22 10/23 11/24 11/25 1 2 3 4 5 2/3 3/4 3/5 2/3 3/4 3/5 3/4 4/5 4/5 4/5 21 22 23 24 25 6 7 8 9 10 3/6 4/7 4/8 4/9 4/10 4/6 4/7 4/8 5/9 5/10 4/6 5/7 5/8 5/9 6/10 5/6 5/7 5/8 6/9 6/10 5/6 5/7 6/8 6/9 7/10 26 27 28 29 30 7/26 7/27 8/28 8/29 8/30 8/26 8/27 9/28 9/29 9/30 9/26 9/27 10/28 10/29 10/30 10/26 11/27 11/28 11/29 11/30 11/26 11/27 12/28 12/29 12/30 11 12 13 14 15 5/11 5/12 5/13 5/14 5/15 5/11 5/12 6/13 6/14 6/15 6/11 6/12 6/13 7/14 7/15 7/11 7/12 7/13 7/14 8/15 7/11 7/12 8/13 8/14 8/15 31 32 33 34 35 8/31 8/32 8/33 8/34 8/35 9/31 9/32 9/33 10/34 10/35 10/31 10/32 11/33 11/34 11/35 11/31 12/32 12/33 12/34 12/35 12/31 12/32 13/33 13/34 13/35 16 17 18 19 20 6/16 6/17 6/18 6/19 6/20 6/16 7/17 7/18 7/19 7/20 7/16 7/17 8/18 8/19 8/20 8/16 8/17 9/18 9/19 9/20 9/16 9/17 9/18 9/19 10/20 36 37 38 39 40 9/36 9/37 9/38 9/39 9/40 10/36 10/37 10/38 10/39 10/40 11/36 11/37 11/38 11/39 12/40 12/36 13/37 13/38 13/39 13/40 13/36 13/37 14/38 14/39 14/40