Introduzione alla statistica non parametrica

Introduzione alla statistica non parametrica
Introduzione alla statistica non parametrica
Statistica parametrica e non parametrica
Premessa
Esempio
Metodi non parametrici
Mediana e rango
Metodi parametrici e non parametrici (1)
I metodi parametrici utilizzati per la soluzione di problemi di
carattere univariato e multivariato hanno, come limitazione, la
necessità di dover ricorrere all’introduzione di ipotesi molto
restrittive, spesso ingiustificate se non impossibili da giustificare,
irrealistiche, non sempre chiare, difficilmente interpretabili,
formulate ad hoc per poter fare inferenza. A questo si deve
aggiungere che le assunzioni che rendono valida l’applicazione di
tali metodi (normalità, omoschedasticità, indipendenza e identica
distribuzione della componente stocastica erratica) sono di norma
raramente soddisfatte e, quand’anche soddisfatte, i risultati sono
spesso ottenuti tramite approssimazione.
Introduzione alla statistica non parametrica
Statistica parametrica e non parametrica
Premessa
Esempio
Metodi non parametrici
Mediana e rango
Metodi parametrici e non parametrici (2)
Sempre più spesso, per problemi multivariati complessi studiati in
ambito biomedico, ingegneristico, psicologico, farmacologico, negli
esperimenti clinici, nel controllo della qualità, quando
non è noto il modello distributivo,
non si può invocare la normalità,
l’inferenza riguarda variabili di tipo qualitativo,
la numerosità del campione è inferiore al numero di variabili,
ci sono dati mancanti non a caso,
si passa da un approccio parametrico ad uno non parametrico,
ovviando così, senza perdita sostanziale di efficienza, le limitazioni
sopra accennate.
Introduzione alla statistica non parametrica
Statistica parametrica e non parametrica
Premessa
Esempio
Metodi non parametrici
Mediana e rango
Test parametrici
Presentano la caratteristica comune di avere per oggetto ipotesi
parametriche, cioè ipotesi riguardanti ad esempio il valore del
parametro di una o più popolazioni come, per esempio la media e la
varianza. La determinazione della zona di rifiuto è basata sulla
distribuzione che la statistica test segue sotto l’ipotesi nulla,
distribuzione che dipende da un modello distributivo della
popolazione (in generale la normale); solo per ampiezze campionarie
elevate è svincolata da tale modello distributivo. Nella pratica, la
natura della distribuzione non è verificata, mentre sarebbe bene
sottoporre sempre i dati ad un test di normalità, controllando il
valore assunto da parametri come simmetria e curtosi o verificando
l’adattamento dell’istogramma alla curva di distribuzione.
Introduzione alla statistica non parametrica
Statistica parametrica e non parametrica
Premessa
Esempio
Metodi non parametrici
Mediana e rango
Passaggio alla statistica non parametrica
Tra i dati che non si adattano alla distribuzione normale vi sono i
punteggi (score) e le votazioni utilizzati da osservatori, come
medici, psicologi, insegnanti, giudici di gara, ecc., per valutare
fenomeni come l’intelligenza, la capacità di memoria, il rendimento
a scuola, la produttività nel lavoro, la prestazione atletica, ecc.
In tutti questi casi la scala non è riferita a grandezze fisiche, bensì a
diversi livelli qualitativi di espressione del fenomeno, trasformati
numericamente solo in base a convenzione. Ad esempio, nei licei si
attribuisce 6 per indicare la sufficienza, mentre all’università si
attribuisce 18.
Introduzione alla statistica non parametrica
Statistica parametrica e non parametrica
Premessa
Esempio
Metodi non parametrici
Mediana e rango
Parametri d’interesse
In ambito non parametrico, indicatore rappresentativo di una
distribuzione è la mediana che, diversamente dalla media, è uno
stimatore robusto. Sfruttando l’informazione che, per una qualsiasi
v.c. continua,
Pr(X > M e) = Pr(X 6 M e) =
1
,
2
diventa più agevole derivare la distribuzione delle statistiche test. In
alternativa, si possono utilizzare le v.c. rango (rank), definite come
l’intero corrispondente al posto che la v.c. occupa quando si passa
dal campione casuale (X1 , X2 , . . . , Xn ) al campione casuale
ordinato in senso crescente (X(1) , X(2) , . . . , X(n) ). La v.c. rango
per un campione di dimensione n costituisce una permutazione
casuale degli interi (1, 2, . . . , n).
Introduzione alla statistica non parametrica
Test non parametrici
Introduzione
Regione critica
Conclusioni
Test sui segni (1)
Sia M e la mediana della v.c. continua X e si costruisca un test per
verificare H0 : M e = M e0 contro H1 : M e 6= M e0 . Se è vera H0
circa metà delle osservazioni dovrebbe essere superiore (inferiore) a
M e0 , per cui la regola di decisione dovrà essere costruita in modo
che si rifiuti H0 se nel campione tale requisito non è soddisfatto.
Per un campione casuale (X1 , X2 , . . . , Xn ), il numero delle
osservazioni Tn superiori a M e0 è una v.c. binomiale tale che
Tn ∼ Bi(n, θ).
Quindi verificare l’ipotesi nulla H0 : M e = M e0 ,
verificare
1
vs.
H1 : θ 6=
H0 : θ =
2
equivale a
1
.
2
Introduzione alla statistica non parametrica
Test non parametrici
Introduzione
Regione critica
Conclusioni
Test sui segni (2)
Sotto H0 , Tn ∼ Bi(n, θ), per cui in media, il campione conterrà n2
osservazioni al di sopra (di sotto) di M e0 . Pertanto, si può definire
la seguente RC(α):
|Tn − n/2| > cα/2
ove il valore critico cα/2 è determinato in modo che
α = Pr(|Tn − n/2| > c α2 )
= 1 − Pr(n/2 − cα/2 < Tn < n/2 + cα/2 )
2cα/2 + 1
√
' 2 1−Φ
n
utilizzando l’approssimazione alla normale della v.c. binomiale con
la correzione per la continuità.
Introduzione alla statistica non parametrica
Test non parametrici
Introduzione
Regione critica
Conclusioni
Test sui segni (3)
Essendo Φ(zα/2) = 1 − α/2, si ha che
cα/2
√
zα/2 n − 1
'
.
2
Se Tn è la statistica test definita come il numero di unità superiori
alla mediana M e0 , la regione critica RC(α) diventa:
√
(
zα/2 n
−
Tn 6 n+1
2
2√
Tn >
n+1
2
+
zα/2 n
2
Tale procedura è detta test dei segni perchè per il calcolo della
statistica test si è soliti contrassegnare con + (−) i valori superiori
(non superiori) a M e0 e poi contare il numero di segni positivi
presenti nella sequenza.
Introduzione alla statistica non parametrica
Test non parametrici
Introduzione
Regione critica
Conclusioni
Test sui segni (4)
Questo test può essere utilizzato nel caso di dati appaiati.
Supponiamo di voler verificare l’effetto di un’azione nota
(medicinale, messaggio pubblicitario, ecc.) sulla stessa unità
statistica: Xi è la variabile rilevata prima dell’esperimento e Yi è il
risultato dell’esperimento sullo stesso individuo. Supponendo che le
variabili oggetto dell’esperimento siano continue, possiamo indicare
con
+ l’evento {Xi > Yi };
− l’evento {Xi < Yi };
θ = Pr(Xi > Yi ).
Se è vera H0 : Xi = Yi , ovvero non vi è alcun effetto, si avrà
θ = 1/2. Il numero dei segni + è equivalente al numero di successi
in una successione di n prove indipendenti con probabilità costante
pari a θ; quindi, è una v.c. Bi(n, θ).
Introduzione alla statistica non parametrica
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Test sui ranghi
Calcolo dei ranghi (1)
Si consideri il seguente vettore di dati:
41
9
84
1
67
123
81
Si ordinino le osservazioni in una graduatoria crescente e si
sostituisca poi ad ogni valore il posto occupato nella graduatoria,
cioè 1 al valore più piccolo, 2 al successivo, e così via. Questi nuovi
numeri sono i ranghi. Il vettore contenente i ranghi associato al
vettore di dati sopra considerato sarà:
3
2
6
1
4
7
5
Introduzione alla statistica non parametrica
Test sui ranghi
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Calcolo dei ranghi (2)
Consideriamo ora alcune varianti:
a) sostituiamo il valore 123 con il valore 1230 e i ranghi non
cambiano, infatti si ha
41 9 84 1 67 1230 81
3 2 6 1 4 7 5
b) sostituiamo il valore 123 con il valore 12.3 e alcuni ranghi
cambiano di una posizione, infatti
41 9 84 1 67 12.3 81
4 2 7 1 5 3 6
c) sostituiamo infine il valore 123 con il valore 0 e si ottiene
41 9 84 1 67 0 81
4
3
7
2
5
1
6
Introduzione alla statistica non parametrica
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Test sui ranghi
Calcolo dei ranghi (3)
Questi esempi dimostrano come i ranghi siano molto robusti anche
in presenza di variazioni notevoli nei dati. Nel caso in cui tutti i dati
vengano trasformati in modo lineare (additivo o moltiplicativo) o
non lineare (esponenziale o logaritimico), i ranghi non cambiano in
quanto i dati mantengono la stessa posizione. In generale, qualsiasi
trasformazione, purchè monotona, non altera i ranghi. Come ultimo
esempio si consideri il caso in cui i dati sopra considerati sono tutti
elevati al quadrato. I ranghi non cambiano e in particolare si ha:
412
1681
92
81
842
7056
3
2
12
1
6
672
4489
1
4
1232
15129
7
812
6561
5
Introduzione alla statistica non parametrica
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Test sui ranghi
Calcolo dei ranghi (4)
Con riferimento all’ultimo esempio, bisogna prestare attenzione
quando ci sono dei numeri negativi. Infatti in tal caso i quadrati dei
valori negativi si rifletterebbero sulla scala dei valori positivi
sconvolgendo completamente l’ordine originario. Infine, quando
esistono valori uguali, a ciascuno di essi si attribuisce la media dei
ranghi che spetterebbero agli stessi valori se questi fossero diversi.
per esempio, per il vettore di dati
32
63
41
85
32
51
85
79
85
27
68
il vettore contentente i ranghi ad esso associato sarà:
2.5
6
4
10
2.5
5
10
8
10
1
7
Introduzione alla statistica non parametrica
Test sui ranghi
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Test dei ranghi con segno di Wilcoxon (1)
Questo test può essere utilizzato per verificare se un campione
casuale possiede una certa mediana o se le differenze appaiate
hanno mediana pari a 0. E’ l’equivalente non parametrico del test t
di Student per campioni appaiati (dipendenti). Se si considera il
campione casuale (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) delle
osservazioni appaiate, indichiamo con Di = (Yi − Xi ) le
corrispondenti differenze, mentre se si tratta di un solo campione
indichiamo con Di = (Xi − M e0 ) le differenze rispetto ad un
valore prefissato M e0 per la mediana. Si assuma che le v.c. Di
siano continue, simmetriche, indipendenti e tutte con la stessa
mediana. Supponiamo che |Di |, i = 1, 2, . . . , n siano le differenze
in valore assoluto non nulle a cui si attribuiscono i ranghi da 1 (per
min |Di | ad n (per max |Di |). Nel caso di ranghi coincidenti si
provvede a sostituirle con la loro media artitmetica.
Introduzione alla statistica non parametrica
Test sui ranghi
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Test dei ranghi con segno di Wilcoxon (2)
Le ipotesi da verificare sono:
1
H0 : M e(Di ) = 0 vs. H1 : M e(Di ) > 0,
2
H0 : M e(Di ) = 0 vs. H1 : M e(Di ) < 0,
3
H0 : M e(Di ) = 0 vs. H1 : M e(Di ) 6= 0,
e le corrispondenti RC sono:
1
Tn > cα ,
2
Tn 6 c∗α ,
3
cα/2 6 Tn 6 c∗α/2 .
Introduzione alla statistica non parametrica
Test sui ranghi
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Test dei ranghi con segno di Wilcoxon (3)
In tutti i casi, la statistica test è data dalla somma dei ranghi
r(|Di |) corrispondenti alle differenze Di > 0, ovvero
Tn =
n
X
r(|Di |)I(Di > 0),
i=1
dove I(·) è la funzione indicatrice. Si può dimostrare che sotto
l’ipotesi nulla
n(n + 1)(2n + 1)
n(n + 1)
V(Tn ) =
.
E(Tn ) =
4
24
Se n è abbastanza grande (n > 15), si può ricorrere
all’approssimazione normale (modificata per la correzione di
continuità)
T − n(n + 1)/4 − 1/2 d
pn
→ N (0, 1).
n(n + 1)(2n + 1)/24
Introduzione alla statistica non parametrica
Test sui ranghi
Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni
Test sui segni di McNemar
Consideriamo ancora il caso di dati appaiati. Siano
P
U = #(Di > 0) = i I(Di > 0) il numero di differenze
positive,
ν = #(Di 6= 0) il numero di differenze non nulle.
Allora, sotto H0 , la statistica U ha distribuzione binomiale con
parametri ν e 1/2, ovvero U ∼ Bin(ν, 1/2). Sotto l’ipotesi
alternativa H1 , U ha ancora distribuzione binomiale, ma con
parametri ν e θ > 1/2. Per esempio, con ν = 20 e U = 17, si ha
che
X 20 Pr(U > 17|D) =
2−20 = 0.0013,
i
i>17
che è significativo a livello α = 0.005.
Introduzione alla statistica non parametrica
Dati appaiati
Introduzione
Esempio
Ipotesi e modello
Altri modelli
Un problema con dati appaiati nel caso univariato (1)
Consideriamo il caso in cui si vuole verificare l’efficacia del
trattamento nella riduzione dell’ansia in campione di 9 soggetti. Si
presuma che i soggetti siano omogenei rispetto ad altre importanti
condizioni, quali età e stato di salute, che in genere sono le variabili
esplicative in questo tipo di esperimenti. Si assuma poi che la v.c.
risposta Y misuri l’ansia: in particolare rappresenta il punteggio
ottenuto in un test psicologico somministrato ai 9 soggetti.
Ciascuna unità viene osservata prima del trattamento, al tempo A
(baseline observation), e dopo il trattamento, al tempo B. Ci si
aspetta che il trattamento riduca l’ansia.
Introduzione alla statistica non parametrica
Dati appaiati
Introduzione
Esempio
Ipotesi e modello
Altri modelli
Un problema con dati appaiati nel caso univariato(2)
Le risposte bivariate sono dipendenti con rispetto alle unità, dato
che le misurazioni vengono fatte in tempi diversi ma negli stessi
soggetti, mentre le n coppie di osservazioni sono indipendenti, in
quanto relative ad unità diverse. Se si assume che gli individui siano
omogenei in relazione alle condizioni sperimentali, l’insieme dei dati
appaiati {(YAi , YBi ), i = 1, ..., n} può essere visto come un
campione casuale di n coppie i.i.d. di osservazioni estratte da una
variabile bivariata (YA , YB ). Sia Xi = YAi − YBi , i = 1, 2, . . . , 9, la
differenza pre-post trattamento osservata.
Introduzione alla statistica non parametrica
Dati appaiati
Introduzione
Esempio
Ipotesi e modello
Altri modelli
I dati
I valori osservati sono riportati nella tabella sottostante:
i
1
2
3
4
5
6
7
8
9
YA
19
22
18
18
24
30
26
28
15
YB
16
23
13
17
20
22
30
21
11
X
3
-1
5
1
4
8
-4
7
4
Introduzione alla statistica non parametrica
Introduzione
Esempio
Ipotesi e modello
Altri modelli
Dati appaiati
Formalizzazione del problema
Le ipotesi d’interesse sono
d
H0 : YA = YB
vs.
d
H1 : YA > YB .
dove H1 rappresenta l’ipotesi di dominanza stocastica. Uno dei
modelli utilizzati per descrivere la variabile risposta osservata, è il
modello con effetti additivi fissi, in cui
YAi = µ + ZAi e YBi = µ − δ + ZBi , i = 1, . . . , n,
dove µ è la costante di popolazione; δ è l’effetto del trattamento,
assunto sotto H1 finito e strettamente positivo, ZAi e ZBi sono
componenti d’errore casuali identicamente distribuite, indipendenti
tra le unità, ma non necessariamente indipendenti entro le unità.
Introduzione alla statistica non parametrica
Dati appaiati
Introduzione
Esempio
Ipotesi e modello
Altri modelli
Modelli alternativi
Tra i modelli più utilizzati per descrivere la variabile risposta
osservata sono da citare:
i modelli con effetti additivi fissi e unità non omogenee in cui
YAi = µ + ηi + ZAi e YBi = µ + ηi − δ + ZBi ,
i modelli con effetti additivi che variano da individuo a
individuo del tipo
YAi = µ + ηi + ZAi e YBi = µ + ηi − δi + ZBi ,
i modelli con effetti stocastici generalizzati dove
YAi = µ + ηi + ZAi e YBi = µ + ηi + ZBi − ∆Bi .
Introduzione alla statistica non parametrica
Dati appaiati
Introduzione
Esempio
Ipotesi e modello
Altri modelli
Confronto tra modelli
Prendendo come modello di riferimento il modello con effetti
additivi fissi, sotto H0 la variabile differenza X = δ + ZA − ZB è
simmetrica rispetto allo 0, mentre sotto H1 è simmetrica rispetto al
parametro δ, indicatore dell’effetto del trattamento. Quando si usa
come variabile di riferimento la variabile differenza X il modello a
effetti additivi fissi e il modello ad effetti additivi fissi e unita non
omogenee coincidono, infatti si ha che
Xi = YAi − YBi = δ + ZAi − ZBi .
Dunque se non vi è un reale effetto del trattamento ed eventuali
variazioni osservate sono apportate solo da ηi , si dice che X è
covariate-free.
Introduzione alla statistica non parametrica
Soluzioni del problema
Soluzione parametrica
Soluzione non parametrica
Il test t di Student (1)
Una soluzione al problema dei dati appaiati può essere ottenuta in
un contesto parametrico solo se si assume che le variabili siano
normalmente distribuite e abbiano varianza ignota. Il modello con
effetti additivi fissi può essere scritto come
{YAi = µ + σ · ZAi , YBi = µ − σ · δ + ZBi , i = 1, . . . , n}
in cui µ è la costante di popolazione, δ è l’effetto del trattamento,
σ la deviazione standard, ignota, indipendente dalle unità e dal
livello del trattamento e tale che 0 < σ < +∞, Zij ∼ N (0, 1) con
i = 1, ..., n, j = A, B indipendenti tra le unità ma non
necessariamente entro le unità.
Introduzione alla statistica non parametrica
Soluzioni del problema
Soluzione parametrica
Soluzione non parametrica
Il test t di Student (2)
La statistica test più usata è data da
√
X· n
T =
σ
b
P
P
in cui σ̂ 2 = i (Xi − X)2 /(n − 1) e X = i Xij /n con le
2 ). Sotto H la statistica T ha distribuzione t di
Xi ∼ N (δ, σX
0
Student centrale con (n − 1) g.d.l, mentre sotto H1 è distribuita
come una t di Student non centrale con un parametro di non
centralità positivo così che valori grandi diventano significativi. Il
parametro ignoto σX è solo un parametro di disturbo e T è una
statistica invariante rispetto al valore assunto da questa quantità.
Per i dati dell’esempio precedente, il valore della statistica è
T0 = 2.3635 e il p-value è pari a p = 0.0229 (test a una coda).
Introduzione alla statistica non parametrica
Soluzioni del problema
Soluzione parametrica
Soluzione non parametrica
Metodi non parametrici di permutazione
Caratteristica dei test di permutazione è il condizionamento
all’insieme dei dati osservati che è un insieme di statistiche
sufficienti qualunque sia il modello sottostante di riferimento. I test
di permutazioni vengono chiamati distribution free, ossia le
distribuzioni dei test prescindono completamente dalla legge che
governa la variabile aleatoria su cui si vuol fare inferenza e non è
necessario fare assunzioni stringenti sulla distribuzione dei termini
d’errore. I metodi non parametrici di permutazione non sono una
panacea per tutti i problemi inferenziali di interesse. Se, sotto H0 ,
1
non ci si condiziona ad un insieme di statistiche sufficienti,
2
assume l’ipotesi di scambiabilità dei dati,
le soluzioni ottenute sono tutt’altro che esatte.
Introduzione alla statistica non parametrica
Metodi non parametrici di permutazione
Un pò di teoria
Monte Carlo condizionato
Step algoritmo
Definizione dello spazio di permutazione campionario (1)
d
Si osservi innanzitutto che l’ipotesi H0 : {YA = YB } implica la
scambiabilità delle variabili YA e YB entro ciascuna unità rispetto ai
due tempi di rilevazione A e B. Il segno di ciascuna differenza Xi ,
per i = 1, . . . , n, si può pensare sia attribuito
P con probabilità 1/2.
Si consideri inoltre la statistica test T = i Xi . La distribuzione
condizionata FT (t|X) di T , quando i punti osservati
X = {Xi , i = 1, . . . , n} sono fissati, si ottiene sotto l’ipotesi che
H0 sia vera, cioè attribuendo casualmente e in tutti i modi possibili
i segni + e − a ciascuna differenza con uguale probabilità.
P ∗ Per fare
∗
questo, si può considerare la distribuzione di T = i Xi , in cui le
Xi∗ sono ottenute attribuendo casualmente il segno + o − alla
differenza Xi , i = 1, . . . , n, con probabilità 1/2.
Introduzione alla statistica non parametrica
Metodi non parametrici di permutazione
Un pò di teoria
Monte Carlo condizionato
Step algoritmo
Definizione dello spazio di permutazione campionario (2)
La distribuzione di probabilità di X∗ = {Xi∗ , i = 1, . . . , n} ,
condizionatamente a X, è uniforme dentro lo spazio di
permutazione X/X , ovvero tutti i punti sono equiprobabili. In
particolare, per il nostro problema, lo spazio campionario di
permutazione X/X contiene M = 2ν punti, perchè la permutazione
dei segni sulle n − ν differenze nulle non produce effetto. Sia
F (z|X) = Pr{T ∗ ≤ z|X}
la funzione di ripartizione condizionata (c.d.f.) ottenuta via
permutazione, indotta da T dato X. Indicato To = T (X) il valore
osservato di T , se il p-value λ = Pr{T ∗ ≥ To |X} è superiore al
livello di soglia fissato α, H0 viene accettata, secondo le usuali
regole dei test per la verifica d’ipotesi.
Introduzione alla statistica non parametrica
Metodi non parametrici di permutazione
Un pò di teoria
Monte Carlo condizionato
Step algoritmo
Tecniche di ricampionamento condizionato
Vi sono due criteri per permutare i dati: si permutano in modo
sistematico tutti i dati o si prende in considerazione solo un
campione estratto casualmente dallo spazio di permutazione. In
genere, lo spazio di permutazione X/X ha cardinalità così grande
che non si possono esaminare tutti i suoi punti. Quindi, la scelta
del secondo metodo comporta una riduzione dei calcoli, senza
perdita di attendibilità del risultato o potenza del test. Il metodo di
simulazione di Monte Carlo Condizionato (C.M.C.) consente di
effettuare, tramite simulazione, un campionamento di punti
dall’orbita di permutazione condizionale all’insieme dei dati
ossservati. Il campionamento C.M.C. altro non è se non la
replicazione dei campionamenti senza reinserimento.
Introduzione alla statistica non parametrica
Metodi non parametrici di permutazione
Un pò di teoria
Monte Carlo condizionato
Step algoritmo
Descrizione dell’algoritmo
Il metodo C.M.C. opera secondo l’algoritmo sotto riportato:
s.1) calcolo del valore osservato To della statistica T : To = T (X),
sull’insieme X osservato;
s.2) per ciascuna delle n differenze in X, si consideri
un’attribuzione casuale dei segni in modo tale da ottenere X∗ ;
s.3) calcolo di T ∗ = T (X∗ );
s.4) si ripetano B volte, in maniera indipendente, i passi descritti in
s.2) e s.3).
Introduzione alla statistica non parametrica
Metodi non parametrici di permutazione
Un pò di teoria
Monte Carlo condizionato
Step algoritmo
Conclusione dell’algoritmo
Per concludere, i B insiemi X∗ contenenti le permutazioni, sono un
campionamento casuale da X/X . I corrispondenti B valori T ∗
simulano la distribuzione nulla di permutazione di T e consentono
di stimare la c.d.f. di permutazione F (z|X) e la funzione del livello
di significatività L(z|X) = Pr{T ∗ ≥ z|X} tramite la e.d.f.
b ∗ (z) = #(T ∗ ≥ z)/B
FbB∗ (z) = #(T ∗ ≤ z)/B e la funzione L
B
rispettivamente. All’aumentare del numero B di iterazioni Monte
Carlo, migliorano le stime delle funzioni F (·|X) e L(·|X). Il p-value
stimato a partire dal valore osservato To è dato da
b=L
b ∗B (To ) = #(T ∗ ≥ To )/B.
λ
b ≤ α, si rifiuta H0 secondo le usuali regole della verifica
Se λ
d’ipotesi.
Introduzione alla statistica non parametrica