Analisi della varianza

Università degli Studi di Padova
Facoltà di Medicina e Chirurgia
Facoltà di Medicina e Chirurgia - A.A. 2009-10
Scuole di specializzazione
Lezioni comuni Disciplina:
Statistica
Docente: dott.ssa Egle PERISSINOTTO
Giovedì 3 giugno 2010
Analisi della varianza
1
PROBLEMA
QUESITO
SCIENTIFICO
DISEGNO DELLO
STUDIO
VARIABILE ESITO (OUTCOME)
VARIABILE PREDITTORE
Variabile dipendente
Variabile indipendente
SCELTA DEL TEST STATISTICO
2
COMPLESSITÀ DELL’ANALISI (2)
Univariata – Media, Mediana, moda, range, percentili, deviazione standard
Bivariata - t-test, chi-quadrato, correlazione, Kaplan-Meier
Multivariabile – Regressione logistica multipla, regressione lineare multipla,
regressione con modelli a rischio proporzionale
Multivariata – Correlazioni canoniche, analisi fattoriale, componenti principali
3
Variabile indipendente Variabile dipendente
Tipo di test
Dicotomica
Dicotomica
Chi-quadrato, z-test, test
esatto di Fisher, test di
McNemar
Politomica
Politomica
Chi-quadrato
Ordinale
Dicotomica
Chi-quadrato,Test per il
trend
Dicotomica
Continua
T-test
Politomica
Continua
Analisi della varianza,
confronti multipli
Continua
Continua
Correlazione, Regressione
4
CONFRONTI TRA GRUPPI – VARIABILI CONTINUE
Per scegliere l’appropriato metodo d’analisi si devono considerare più fattori:
Numero di gruppi di osservazioni:
o1
o2
o più di 2
gruppi di osservazioni
o indipendenti – gruppi di unità statistiche non associati tra loro (i gruppi
possono aver differenti numerosità)
o dipendenti – ogni gruppo di osservazioni è eseguito sullo stesso set di
individui (i gruppi hanno la stessa numerosità). Tipicamente si tratta di
rilevazioni effettuate sugli stessi soggetti prima e dopo un certo evento.
Caso particolare è l’appaiamento.
5
Distribuzioni dei dati – per gruppi indipendenti, i test parametrici
richiedono che la variabile sia distribuita
normalmente all’interno dei gruppi e che la
deviazione standard dei vari gruppi sia simile
(omoscedastica). Nel caso la variabile non fosse
distribuita normalmente si può porvare ad
operare una trasformazione dei dati. Se la
trasformazione non fosse efficace, bisogna
ricorrere a metodi di analisi non parametrici.
L’oggetto del quesito – può trattarsi di un quesito di stima o di
verifica d’ipotesi
6
Assunti per i test parametrici
Le variabili osservate devono essere misurabili su una
scala per intervallo
Le osservazioni campionarie devono essere indipendenti,
ovvero il campione deve essere casuale
Le osservazioni devono appartenere a popolazioni distribuite
normalmente
Molti test parametrici sono abbastanza robusti
da sopportare lievi deviazioni da alcune di questi postulati,
soprattutto quando la numerosità campionaria è sufficientemente
elevata.
7
Test non parametrici
Un test non parametrico è un test il cui modello non precisa condizioni
circa i parametri della popolazione da cui proviene il campione studiato
Vantaggi dei test non parametrici
• Assunti meno restrittivi
• Possibilità di impiego anche con piccoli campioni
• Analisi di ranghi
Svantaggi dei test non parametrici
• Meno potenti a parità di informazione
8
TEST PARAMETRICI
TEST NON PARAMETRICI
T di Student
Mann-Whitney
(2 campioni indipendenti)
(2 campioni indipendenti)
T di Student
Wilcoxon
(2 campioni dipendenti- dati appaiati)
(2 campioni dipendenti- dati appaiati)
Analisi della Varianza ad 1 criterio
Kruskal-Wallis
(+ di 2 campioni indipendenti)
(+ di 2 campioni indipendenti)
Analisi della Varianza a 2 criteri
Friedman
9
Gittata cardiaca in L/min in soggetti alimentati secondo diversi tipi
di dieta
Dieta
Standard
Dieta con
elevato
introito di
Carboidrati
1
4.6
4.6
2
4.7
5.0
3
4.7
5.2
4
4.9
5.2
5
5.1
5.5
6
5.3
5.5
7
5.4
5.6
6
5
4
L/min
seq
3
2
1
0
Standard
Carboidrati
Esiste associazione tra il tipo di dieta e la gittata cardiaca?
La differenza tra la gittata cardiaca media di soggetti alimentati con
dieta standard e quella di soggetti con elevato apporto di carboidrati è
significativa?
10
11
Verifica d’ipotesi su una variabile di tipo
quantitativo su scala rapporto usando 2
campioni indipendenti
seq
ASSUNZIONI
Dieta
Standard
Dieta con
elevato
introito di
Carboidrati
1. Campioni casuali
1
4.6
4.6
2. Variabile distribuita
normalmente
2
4.7
5.0
3
4.7
5.2
4
4.9
5.2
5
5.1
5.5
6
5.3
5.5
7
5.4
5.6
Media
5.0
5.2
DS
0.32
0.35
0.099524
0.122381
3. Varianze omogenee
(stessa varianza)
Varianza
12
Si vuole verificare se il la gittata cardiaca media dei soggetti
con dieta standard sia diversa da quella dei soggetti con dieta
basata su carboidrati ad un livello di significatività α=0,05.
H 0 : µ MS = µOC
H 1: µ MS ≠ µOC
M x −M y
t nx + n y −2 =
s
1
1
+
nx n y
dove : s 2 =
( n x −1)× s x2 + ( n y −1)× s 2y
nx + n y −2
13
5.0 − 5.2
t 20 =
= −1.51 ( p = 0,15)
1 1
0.33 +
7 7
Al livello di significatività del 5% la gittata
cardiaca media dei soggetti con dieta standard
non è diversa da quella dei soggetti con dieta
basata su carboidrati
14
15
CONFRONTO TRA PIU’ DI DUE GRUPPI DI OSSERVAZIONI
– VARIABILE QUANTITATIVA
Nonostante questa analisi si proponga di confrontare valori
medi delle distribuzioni di più di due gruppi di osservazioni, il
suo nome fa riferimento alla varianza
ANOVA: ANalysis Of VAriance. Se i gruppi sono individuati
sulla base di una sola variabile
indipendente, essa prende il nome di
Analisi della Varianza ad un
criterio di classificazione
16
Esiste associazione tra il tipo di dieta e la gittata cardiaca?
La gittata cardiaca media di soggetti alimentati con differenti tipi di
dieta è significativamente differente?
seq
Dieta
Standard
Dieta con
elevato
introito di
Carboidrati
Dieta con
elevato
introito di
Proteine
Dieta con
elevato
introito di
Fibre
1
4.6
4.6
4.3
4.3
2
4.7
5.0
4.4
4.4
3
4.7
5.2
4.9
4.5
4
4.9
5.2
4.9
4.9
5
5.1
5.5
5.1
4.9
6
5.3
5.5
5.3
5.0
7
5.4
5.6
5.6
5.6
Media
5.0
5.2
4.9
4.8
DS
0.32
0.35
0.46
0.45
0.099524
0.122381
0.215714
0.2
Varianza
17
• Campioni sono indipendenti
18
6
5
L/min
4
3
2
1
0
Standard
Carboidrati
Proteine
Fibre
19
20
21
22
23
24
25
26
N
k
N-k
27
28
29
Il test è basato sul confronto tra la varianza tra
trattamenti e la varianza d’errore.
-Se l’ipotesi nulla è vera, le due varianze dovrebbero essere
molto simili tra loro, mentre
-se l’ipotesi nulla è falsa, la varianza tra trattamenti
dovrebbe essere molto più grande della varianza d’errore.
30
31
Se le medie sono tutte uguali, la varianza tra i gruppi e
la varianza entro gruppi dipendono esclusivamente
dalla variabilità esistente tra i dati, esse quindi sono la
stima della stessa varianza vera e dovrebbero
assumere lo stesso valore.
32
33
Esempio Gittata cardiaca
H0: µ1=µ2=µ3=µ4
H1: le µi non sono tutte uguali
Sorgente di
variazione
GdL
Stima della
varianza
F
p
SS Tra gruppi =
0.6814
K-1=4-1=3
0.2271
3.8257
N-K=28-4=24
0.1594
4.5071
N-K=27
1.4 0.26
SS Entro gruppi =
SS Totale
=
34
Se si volessero evidenziare tutte le possibili differenze tra le
medie, non è corretto ricorrere al test t di Student per
ripetere l’analisi tante volte quanti sono i possibili confronti a
coppie [K.(K-1)/2] tra i gruppi.
Per ogni applicazione del test t si userebbe solo una parte dei
dati, e se i confronti sono numerosi, la probabilità complessiva
che almeno uno di essi si dimostri significativo solo per effetto
del caso è maggiore.
Se α è la probabilità che una differenza risulti significativa
quando nella realtà non lo è, (1- α) è la probabilità è la
probabilità che una differenza risulti non significativa quando
nella realtà non lo è.
Per n confronti, la probabilità che nessun confronto risulti
significativo è (1- α)n.
35
Es.
α=0,05
0,9510 =0,60
1-0,60 =0,40
1-α =0,95
10 confronti
probabilità che nessun confronto
risulti casualmente significativo
probabilità che casualmente
almeno un confronto risulti
significativo
36
I confronti specifici tra medie di gruppi differenti
possono essere:
• a priori (pianificati od ortogonali). I confronti
sono pianificati in fase di programmazione
• confronti multipli a posteriori (post hoc)
eseguono tutti i possibili confronti tra le medie alla
ricerca di una qualche differenza significativa (da
eseguirsi solo dopo che l’analisi della varianza ha
permesso di respingere l’ipotesi di uguaglianza tra
le medie)
37
Tecniche per i confronti multipli:
•
Bonferroni (la probabilità di ogni confronto
deve essere minore di α/k)
•
test di Tukey
•
test di Scheffé
•
test di Dunnett
•
test di Duncan
•
………
38