Confronti multipli

Il livello di burnout dipende dal reparto?
Strumenti di indagine
per la valutazione psicologica
Soggetto
Burnout
Reparto
1
22
Rianimaz
2
19
Rianimaz
3
23
Rianimaz
4
20
Rianimaz
5
18
Rianimaz
6
16
Ostetricia
7
12
Ostetricia
8
17
Ostetricia
9
14
Ostetricia
10
13
Ostetricia
11
12
Iperbarica
12
11
Iperbarica
13
18
Iperbarica
14
13
Iperbarica
15
15
Iperbarica
4.2 – Confronti multipli
Davide Massidda
[email protected]
Università di Cagliari, a.a. 2013/2014
H 0 : μ1 =μ 2 =μ 3
H 1 : ∃i , j∣μi ≠μ j
Risultato dell'ANOVA
●
●
Il fattore Reparto risulta statisticamente significativo
(F(2,12) = 12.30, p < 0.01, η2 = 0.67).
Possibili confronti
●
Rn ≠ Os
Rifiutiamo H0: ci sono almeno due reparti che presentano
valori medi significativamente diversi.
●
●
Quali sono le medie che differiscono fra loro? E se ci
fosse più di una differenza?
μ Rn
μ Os
μ Ip
Le ipotesi che si potrebbero fare sono tre, tutte
potenzialmente valide:
●
Rn ≠ Ip
Os ≠ Ip
A meno che il fattore non abbia solo due livelli, si
rendono necessarie ulteriori analisi (confronti multipli)
per capire qual è la “sorgente” della significatività.
Nota bene: è sempre buona prassi eseguire i confronti
multipli solo se l'ANOVA ha evidenziato una significatività
del fattore.
Approcci ai confronti multipli
Contrasti pianificati (a priori)
●
Vengono pianificati prima di eseguire l'ANOVA,
impostando delle specifiche matrici di contrasto che
saranno utilizzate per stimare i parametri del modello.
Approcci ai confronti multipli
Confronti post-hoc (a posteriori)
●
●
●
●
●
Il numero di confronti possibili è limitato dai gradi di
libertà e da alcuni vincoli da rispettare nella costruzione
delle matrici di contrasto.
●
Comunemente, vengono eseguiti a seguito di un risultato
significativo evidenziato dall'ANOVA.
Fondamentalmente, si tratta di eseguire una serie di
confronti fra le medie prese a due a due.
Ce ne sono di tanti tipi, qui ne approfondiremo tre:
I più comuni: confronti dummy, ortogonali, ortogonali
polinomiali.
1. LSD (Least Significant Difference) di Fisher
È il metodo più elegante.
3. HSD (Honestly Significant Difference) di Tukey
2. Test t con correzione di Bonferroni
Il problema dei post-hoc
●
●
●
Inflazione dell'errore di I tipo
L'uso dei post-hoc è abbastanza controverso e fra gli
statistici ci sono opinioni discordi sulle metodologie da
applicare.
H0
Vera
H0
Certo è che i post-hoc si portano dietro alcuni problemi.
Vediamo prima di tutto quali sono questi problemi, e,
successivamente, vediamo come diversi ricercatori li
hanno affrontati.
●
●
●
Non rifiuto
Rifiuto
Falsa
Errore di II tipo
Errore di I tipo
Una ricerca può trovare un risultato significativo per puro
e semplice effetto del caso (errore di I tipo).
All'aumentare del numero di test statistici che vengono
eseguiti, aumenta la probabilità di incappare in questo
problema e quindi di ottenere un p–value significativo
per effetto del caso.
Perché la probabilità di errore aumenta?
Inflazione dell'errore di I tipo
●
Se dovessimo eseguire un unico test, la domanda
sarebbe:
Inflazione dell'errore di I tipo
●
«A è diverso da B?»
●
Ma, con tre test, la domanda diventa:
«A è diverso da B e contemporaneamente A è diverso da
C e contemporaneamente B è diverso da C?»
●
L'errore di I tipo ora diventa la probabilità di rifiutare
l'ipotesi nulla quando sarebbe da accettare sia nel primo
confronto che nel secondo che nel terzo.
●
Nella prassi scientifica, la probabilità che le significatività
individuate non siano effetto del caso deve essere pari
almeno al 95%, ovvero 0.95.
H0
H1
Probabilità di rigettare
correttamente H0
A=B
A=C
B=C
A≠B
A≠C
B≠C
0.95
0.95
0.95
Probabilità di rigettare correttamente tutte e tre le
ipotesi:
0.95⋅0.95⋅0.95=0.8574
Inflazione dell'errore di I tipo
●
●
Dato che 0.8574 < 0.95, c'è qualcosa che non va.
Ora, se 0.95 è la probabilità che il rifiuto di H0 non sia
dovuto a un errore, la probabilità che invece un risultato
emerga come significativo per effetto del caso (errore di I
tipo) sarà:
α=1−0.95=0.05
●
Inflazione dell'errore di I tipo
Eseguendo un numero n di test, questa probabilità
diventa:
α=1−0.95
n
Come i ricercatori hanno affrontato questo problema?
Il metodo LSD di Fisher
●
●
●
Si tratta del primo metodo di confronto multiplo,
sviluppato dallo stesso inventore dell'ANOVA.
Il metodo LSD di Fisher
●
Consiste nel calcolare una differenza minima (LSD) che
deve essere oltrepassata perché una differenza tra
medie possa essere considerata significativa.
√
LSD=t MS Error (
Date le tre differenze tra medie (in valore assoluto)
dell'esempio del burnout:
●
̄ ̄x ∣
Δ 1=∣̄x Rn−
Os
̄̄
Δ 2=∣̄x Rn−
x Ip∣
̄ ̄x ∣
Δ 3=∣̄x Os −
Ip
possiamo calcolare una soglia che, se superata, sancirà la
significatività del confronto.
Il metodo LSD di Fisher
●
Si noti che, se ni = nj (com'è tra l'altro nell'esempio del
burnout), la formula può essere semplificata:
√
LSD=t MS Error
2
n
Dati due gruppi i e j, la differenza minima richiesta perché
lo scarto tra le loro medie possa essere considerato
significativo è data da:
1 1
+ )
ni n j
Dove t è il valore critico della distribuzione t di Student
per α/2 (il test è bidirezionale), solitamente 0.05/2 =
0.025, con g.d.l. pari ai g.d.l. della varianza d'errore come
da analisi della varianza.
La distribuzione t di Student
●
●
●
La distribuzione t di Student è simile alla normale, tanto
simile che, per n > 30, le due diventano praticamente
indistinguibili (la differenza, quindi, è sostanziale solo per
piccoli campioni).
Ha un unico parametro: i gradi di libertà ν.
È la distribuzione di riferimento per il test di confronto
tra due medie.
La distribuzione t di Student
Il metodo LSD di Fisher
●
ν=3
●
ν=2
ν=1
Si può utilizzare anche un approccio un po' diverso (ma
complementare).
Invece di calcolare una soglia LSD, per ogni confronto si
esegue un test t utilizzando un denominatore comune
per tutti i confronti.
t=
●
Quale esito dovremmo aspettarci? È sempre una buona
idea guardare i dati prima di analizzarli (e non il
contrario).
√
1 1
MS Error ( + )
ni n j
Vogliamo provare con i nostri dati?
Prima di partire
●
x̄ i− x̄ j
Confronti multipli con LSD
●
Rianimazione vs Ostetricia
H 0 : μ Rn=μ Os
H 1 : μ Rn≠μOs
t=4.07
-4.07
df =12
p=0.0016
→ Rifiuto H0
+4.07
Confronti multipli con LSD
●
Rianimazione vs Iperbarica
Confronti multipli con LSD
●
H 0 : μ Rn =μ Ip
H 0 :μOs =μ Ip
H 1 :μ Rn≠μ Ip
H 1 :μ Os≠μ Ip
t =4.48
-4.48
p=0.0008
-0.41
+0.41
t =0.41
+4.48
df =12
df =12
p=0.6912
→ Rifiuto H0
Tabella riassuntiva
●
Ostetricia vs Iperbarica
Diff
LSD
t(12) p value
Rn vs Os
6.0
3.21
4.07
0.0016
Rn vs Ip
6.6
3.21
4.48
0.0008
Os vs Ip
0.6
3.21
0.41
0.6912
Si osserva una differenza significativa tra rianimazione e
ostetricia (t(12) = 4.07, p < 0.01) e tra rianimazione e
camera iperbarica (t(12) = 4.48, p < 0.001), mentre non si
riscontra alcuna differenza tra ostetrica e camera
iperbarica (t(12) = 0.41, p = 0.69).
→ Non rifiuto H0
I problemi del metodo LSD
Cosa fa il metodo LSD per contrastare l'errore di I tipo?
●
●
●
●
Il metodo LSD “protetto” prevede di effettuare confronti
solo se il risultato del test ANOVA è significativo.
Ciò che è “buona prassi” per gli altri post-hoc, per LSD
diventa una condizione imprescindibile.
La logica è che, se il valore F è significativo, allora il
rischio di incappare in un errore di I tipo è più bassa del
normale, perché sappiamo già che H0 non è valida.
Questa logica è molto controversa. Oggi, il metodo LSD è
ormai poco utilizzato.
La correzione di Bonferroni
α=0.05
α adjusted = α
nc
●
0.05
α adjusted =
=0.0167
3
●
●
La correzione di Bonferroni
Dove nc è il numero di confronti da eseguire.
●
●
Risultati dei confronti
t(12) p value
Rn vs Os
6.0
3.21
4.07
0.0016
Rn vs Ip
6.6
3.21
4.48
0.0008
Os vs Ip
0.6
3.21
0.41
0.6912
Anche con una soglia più bassa, comunque i primi due
confronti restano significativi.
Il prodotto tra p e nc viene chiamato padjusted.
Le conseguenze di Bonferroni
●
●
α adjusted =0.0167
●
Ma se moltiplico entrambi i membri per nc ottengo:
p nc <α
●
LSD
Infatti, un risultato è significativo se:
p< α
nc
Ora il nostro termine di confronto per il p-value non sarà
più α bensì αadjusted e solo se p < αadjusted potrò rifiutare H0.
Diff
In alternativa, invece di correggere il valore α, possiamo
correggere il p-value: basta moltiplicare p per il numero
di confronti nc.
●
Non dobbiamo dimenticarci dell'errore di II tipo, cioè la
probabilità di non rigettare H0 quando invece sarebbe
corretto rigettarla.
La correzione di Bonferroni fa calare il valore α di
riferimento; se i confronti sono tanti, α scende troppo,
tanto da rischiare di prendere per non significativi dei
risultati che invece dovrebbero esserlo (il test perde
potenza).
Insomma... non è che questa correzione sia esagerata?
α adjusted =
0.05
=0.0014
36
Le conseguenze di Bonferroni
●
●
Se ci sono più di tre/quattro confronti da eseguire,
l'approccio di Bonferroni rischia di diventare troppo
conservativo: per proteggerci dall'errore di I tipo, rischia
di farci cadere nell'errore di II tipo.
Il metodo HSD di Tukey
●
Quando i confronti sono più di tre, ci sono metodi
migliori di correzione del p-value come per es. il False
Discovery Rate (Benjamini e Hochberg, 1995; Benjamini e
Yekutieli, 2001).
Il test HSD di Tukey è simile a quello LSD di Fisher ma
fornisce una protezione maggiore dall'errore di I tipo.
HSD=q
●
√
MS Error 1 1
( + )
2
ni n j
Dove q è il valore critico per un certo valore α della
distribuzione studentized range, che dipende dal numero
k di medie messe a confronto e dai g.d.l., che sono pari ai
g.d.l. della varianza d'errore dell'ANOVA.
La distribuzione studentized range
●
●
●
●
●
Descrive la densità di probabilità dello “studentized
range” di una variabile distribuita normalmente.
Lo “studentized range” di una variabile è la differenza tra
il valore massimo e il valore minimo diviso per la
deviazione standard.
(“Studentizzare” significa trasformare una variabile
dividendola per la stima della deviazione standard).
I valori critici per q sono riportati nella tavola C in Conte
(2010) a pag. 230.
(Le distribuzioni q e t sono strettamente legate.)
Il metodo HSD di Tukey
●
Si noti che, se ni = nj , anche in questo caso la formula può
essere semplificata:
HSD=q
√
MS Error
n
Il metodo HSD di Tukey
●
Applicazione all'esempio del burnout
Invece di calcolare una soglia HSD, per ogni confronto si
può eseguire un test statistico utilizzando un
denominatore comune per tutti i confronti, facendo
riferimento alla distribuzione q:
q=
̄x i −̄x
√
Diff
HSD q(k=3, df=12)
Rn vs Os
6.0
3.93
5.76
0.0041
Rn vs Ip
6.6
3.93
6.33
0.0020
Os vs Ip
0.6
3.93
0.58
0.9134
j
MS Error 1 1
( + )
2
ni n j
●
●
Si noti come HSD > LSD, per cui risulta più difficile
rigettare l'ipotesi nulla.
Anche i p-value sono già di base più elevati, infatti non
hanno bisogno di correzione (non abbiamo più bisogno
della correzione di Bonferroni).
Alcune considerazioni
●
●
p value
In generale, i post-hoc che utilizzano una componente
d'errore comune e che tengono in considerazione l'errore
di I tipo, come quello di Tukey, sono considerati più
potenti.
La maggior parte dei post-hoc richiede gruppi con
osservazioni indipendenti (leggi: fattori between).
Alcune considerazioni
●
Nel calcolo dei test t, piuttosto che utilizzare la varianza
residua complessiva ottenuta dall'ANOVA (formula 1), c'è
chi preferisce l'approccio classico al test t (formula 2), che
considera unicamente le varianze dei due gruppi in
questione.
t=
t=
x̄ i− x̄ j
√
̄x i −̄x
√
[1]
1 1
MS error ( + )
ni n j
2
2
j
si (ni −1)+ s j (n j −1) ni +n j
⋅
ni + n j −2
ni n j
[2]