L 10 analisi della varianza a 1 criterio di classificazione

Università del Piemonte Orientale
Corso di laurea in biotecnologia
Corso di Statistica Medica
Analisi dei dati quantitativi :
Analisi della varianza
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
analisi della varianza ad un criterio di classificazione
Analisi di una variabile quantitativa con il confronto tra diversi gruppi di
soggetti:
A.
Confronto tra una media campionaria ed una popolazione i cui parametri
sono noti
B.
Confronto tra una media campionaria ed una popolazione di cui è nota
la media ma non la deviazione standard
C.
Confronto tra 2 campioni appaiati
D.
Confronto tra due campioni indipendenti
E.
Confronto tra n campioni indipendenti
F.
Confronto tra misure ripetute sugli stessi soggetti
Il caso E corrisponde all'analisi della varianza
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
analisi della varianza ad un criterio di classificazione
L'analisi della varianza serve a confrontare tra loro le medie di 3 o più gruppi di
soggetti.
Var.
quantitativa
Università del Piemonte Orientale Corso di laurea in biotecnologia
Var.
Categorica
Corso di Statistica Medica
analisi della varianza ad un criterio di classificazione
Obiettivo dell'analisi è misurare se la differenza tra le medie (variabilità tra
gruppi) è superiore alla variabilità interna a ciascun gruppo (variabilità entro
gruppi).
Si tratta di un metodo che si presta anche ad analisi molto complesse.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
analisi della varianza ad un criterio di classificazione
Parliamo di analisi della varianza ad 1 criterio di classificazione quando
consideriamo una sola variabile di ordinamento.
Il livello minimo della variabile di ordinamento è nominale.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
analisi della varianza ad un criterio di classificazione
Partiamo da un esempio con dati sulla resa di una coltura agricola in relazione
al tipo di trattamento fertilizzante.
La resa è espressa in q.li / ha.
Il tipo di trattamento è una variabile nominale con 3 valori: 1, 2, 3.
Incominciamo con alcune esplorazioni grafiche dei dati.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica
Confronto tra due medie
6
trattam.
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
Confronto tra due medie
re s a
resa
6,27
5,36
6,39
4,85
5,99
7,14
5,08
4,07
4,35
4,95
3,07
3,29
4,04
4,19
3,41
3,75
4,87
3,94
6,28
3,15
4,04
3,79
4,56
4,55
4,55
4,53
3,53
3,71
7,00
4,61
7
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica
Plot dei dati
8
7
6
5
4
3
2
1
0
8
Analisi della varianza ad 1 criterio di classificazione
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
35
30
25
20
15
10
5
0
Case Number
re s a
8
7
6
5
4
3
2
1
0
0
5
10
15
20
25
30
35
Case Number
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
9
Analisi della varianza ad 1 criterio di classificazione
X
Medie +- 2 DS , separatamente per i tre gruppi
7
6
5
4
3
2
1
0
a
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
b
Group
Analisi della varianza ad 1 criterio di classificazione
c
10
Box plot
8
7
6
X
5
4
3
2
1
0
a
b
c
Group
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
11
Analisi della varianza ad 1 criterio di classificazione
12
Diagramma a punti
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
I grafici suggeriscono una differenza tra i tre gruppi.
Vediamo dal grafico seguente che i tre gruppi sono in posizione diversa rispetto
alla media generale, calcolata su tutte le osservazioni.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
2
1
13
Analisi della varianza ad 1 criterio di classificazione
3
8
7
6
5
4
3
2
1
0
re s a
Media
0
5
10
15
20
25
30
35
Case Number
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
14
Com'è distribuita la variabilità in queste osservazioni?
Esaminiamo prima la variabilità totale, poi quella all'interno di ciascun gruppo ed
in ultimo la variabilità delle medie dei diversi gruppi.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
15
Analisi della varianza ad 1 criterio di classificazione
16
La variabilità totale
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
La variabilità entro gruppi o within groups
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
17
La variabilità tra gruppi (la differenza tra le medie dei diversi gruppi e la media
generale) o between groups
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
18
L'equazione fondamentale dell'analisi della varianza
Devianza totale = Devianza tra gruppi + Devianza entro gruppi
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
19
Ipotesi di lavoro :
H1: non tutti i tre gruppi hanno media uguale (sono possibili diverse
combinazioni) =
= diverso da (µ1= µ2= µ3 )
H0: µ1= µ2= µ3 =µ
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
20
Assunzione fondamentale:
σ 1 =σ 2 =σ 3 =σ
2
2
2
2
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
21
Se l'assunzione della stessa varianza per i diversi gruppi è vera, la variabilità
'entro gruppi' (within groups) sarà uguale nei tre gruppi. La stima migliore di
questa variabilità è la stima pooled (analoga a quella già vista per il test t di
student per gruppi appaiati).
∑ (n − 1)S
k
S
2
w
=
1
k
2
k
n−k
k= numero dei gruppi
n= numero osservazioni
S
2
k
= varianza nel gruppo k-esimo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
22
La variabilità 'tra gruppi' (between groups) sarà stimata dalla somma degli
scostamenti tra le medie dei diversi gruppi e la media generale pesati per il
numero di osservazioni nel gruppo ( nk ), divisa per il numero di gruppi -1 (k - 1) .
∑ n (x
k
Sb2 =
k
k
−x
)
2
1
k −1
k= numero dei gruppi ; nk = numero osservazioni nel gruppo k
x
x
k
= media nel gruppo k-esimo
= media generale
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
23
Se H0 è vera allora la variabilità tra gruppi sarà dovuta solo all'effetto degli
errori casuali e quindi le variabilità tra ed entro gruppi saranno uguali
Sb2 = S w2
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
24
Un test in grado di misurare la probabilità di osservare una differenza tra le due
varianze è il test F
Sb2
F= 2
Sw
Il valore del test F viene letto su apposite tavole (es tav. A5 del testo di Pagano
e Gavreau).
Il numero di gradi di libertà a numeratore è: numero di gruppi-1
Il numero di gradi di libertà a denominatore è:
numero di soggetti -numero di gruppi
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
25
6,27
5,36
6,39
4,85
5,99
7,14
5,08
4,07
4,35
4,95
3,07
3,29
4,04
4,19
3,41
3,75
4,87
3,94
6,28
3,15
4,04
3,79
4,56
4,55
4,55
4,53
3,53
3,71
7,00
4,61
resa
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
trattam.
n
10
10
10
varianza
gruppo
Analisi della varianza ad 1 criterio di
media
gruppo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
classificazione
26
Conviene calcolare separatamente le varianze dei diversi gruppi e quindi
inserirle nella formula.
Per convenienza calcolo separatamente i seguenti valori:
Media generale (del totale delle osservazioni)
Media in ciascun gruppo
Scostamento tra la media del gruppo e la media generale
Varianza in ciascun gruppo
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
27
Analisi della varianza ad 1 criterio di classificazione
n
media gruppo
varianza nel
gruppo
10
5,445
0,9525
10
3,999
0,9443
10
4,487
0,9501
media generale
4,6434
Numero totale
30
numero gruppi
3
Occorre prestare attenzione al valore della varianza in ciascun gruppo: se le
varianze sono diverse cade un requisito essenziale per la validità dell'ANOVA
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
28
Posso quindi calcolare gli addendi alle sommatorie per il calcolo della varianza
tra gruppi ed entro gruppi. Questi addendi corrispondono alle devianze.
∑ n (x
k
S b2 =
k
Sw =
−x
)
1
k −1
∑ (n
k
2
k
2
1
− 1)S k
k
2
n−k
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
n
media gruppo
10
10
10
5,445
3,999
4,487
mediagruppo mediagenerale
0,8013
-0,6447
- 0,1567
media totale
4,6434
∑ n (x
k
S b2 =
k
k
−x
Analisi della varianza ad 1 criterio di classificazione
29
Devianza tra
6,4214
4,1560
0,2454
Numero gruppi
3
)
2
1
k −1
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
30
n
varianza nel
gruppo
Devianza
entro
10
10
10
numero
totale
30
0,9525
0,9443
0,9501
Numero
gruppi
3
8,5729
8,4987
8,5506
∑ (n
k
S
2
w
=
1
− 1)S k
k
2
n−k
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
31
Analisi della varianza ad 1 criterio di classificazione
Calcolo quindi la varianza tra gruppi, sommando gli addendi e dividendo per i
rispettivi gradi di libertà.
g.l.
numero
totale
30
n
media gruppo
10
10
10
5,445
3,999
4,487
mediagruppo - varianza nel
mediagenerale
gruppo
0,8013
-0,6447
- 0,1567
Devianza tra
Devianza
entro
6,4214
4,1560
0,2454
8,5729
8,4987
8,5506
0,9525
0,9443
0,9501
2
media totale
4,6434
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Numero
gruppi
3
Varianza tra
Analisi della varianza ad 1 criterio di classificazione
5,4114
32
Analogamente per la varianza entro gruppi
n
media gruppo
10
10
10
5,445
3,999
4,487
g.l.
numero
totale
30
mediagruppo - varianza nel
mediagenerale
gruppo
0,8013
-0,6447
- 0,1567
4,6434
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Devianza
entro
6,4214
4,1560
0,2454
8,5729
8,4987
8,5506
Varianza tra
27
Varianza
entro
0,9490
0,9525
0,9443
0,9501
Numero
gruppi
3
media totale
Devianza tra
5,4114
33
Analisi della varianza ad 1 criterio di classificazione
e la statistica F
numero
totale
30
media totale
4,6434
Numero
gruppi
3
F=
5,4114
Varianza
entro
0,9490
5,4114 / 0,9490 =
5,7024
Varianza tra
Il numero di gradi di libertà a numeratore è: numero di gruppi-1 (in questo caso:2)
Il numero di gradi di libertà a denominatore è: num. soggetti - num. gruppi (in questo caso:27)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
34
34 2,47
33 2,47
32 2,48
31 2,48
30 2,49
29 2,50
28 2,50
27 2,51
26 2,52
25 2,53
24 2,54
23 2,55
22 2,56
21 2,57
20 2,59
19 2,61
18 2,62
17 2,64
16 2,67
15 2,70
14 2,73
13 2,76
12 2,81
11 2,86
10 2,92
9 3,01
8 3,11
7 3,26
6 3,46
5 3,78
4 4,32
3 5,46
2 9,00
3,26
3,27
3,28
3,28
3,29
3,30
3,32
3,33
3,34
3,35
3,37
3,39
3,40
3,42
3,44
3,47
3,49
3,52
3,55
3,59
3,63
3,68
3,74
3,81
3,89
3,98
4,10
4,26
4,46
4,74
5,14
5,79
6,94
9,55
5,23
5,25
5,27
5,29
5,31
5,34
5,36
5,39
5,42
5,45
5,49
5,53
5,57
5,61
5,66
5,72
5,78
5,85
5,93
6,01
6,11
6,23
6,36
6,51
6,70
6,93
7,21
7,56
8,02
8,65
9,55
10,92
13,27
18,00
30,82
19,00 99,00
0,05
5,21
2,23
2,23
2,23
2,24
2,24
2,25
2,25
2,26
2,26
2,27
2,28
2,28
2,29
2,30
2,31
2,32
2,33
2,34
2,35
2,36
2,38
2,40
2,42
2,44
2,46
2,49
2,52
2,56
2,61
2,66
2,73
2,81
2,92
3,07
3,29
3,62
4,19
5,39
9,16
0,1
2,79
2,81
2,84
2,85
2,85
2,86
2,87
2,87
2,88
2,89
2,90
2,91
2,92
2,93
2,95
2,96
2,98
2,99
3,01
3,03
3,05
3,07
3,10
3,13
3,16
3,20
3,24
3,29
3,34
3,41
3,49
3,59
3,71
3,86
4,07
4,35
4,76
5,41
6,59
9,28
4,13
4,20
4,25
4,31
4,33
4,34
4,36
4,38
4,40
4,42
4,44
4,46
4,48
4,51
4,54
4,57
4,60
4,64
4,68
4,72
4,76
4,82
4,87
4,94
5,01
5,09
5,19
5,29
5,42
5,56
5,74
5,95
6,22
6,55
6,99
7,59
8,45
9,78
12,06
16,69
29,46
19,16 99,16
0,05
4,07
2,01
2,02
2,03
2,04
2,06
2,07
2,09
2,09
2,10
2,10
2,11
2,11
2,12
2,12
2,13
2,14
2,14
2,15
2,16
2,17
2,17
2,18
2,19
2,21
2,22
2,23
2,25
2,27
2,29
2,31
2,33
2,36
2,39
2,43
2,48
2,54
2,61
2,69
2,81
2,96
3,18
3,52
4,11
5,34
9,24
0,1
2,45
2,46
2,47
2,49
2,50
2,53
2,56
2,58
2,61
2,61
2,62
2,63
2,63
2,64
2,65
2,66
2,67
2,68
2,69
2,70
2,71
2,73
2,74
2,76
2,78
2,80
2,82
2,84
2,87
2,90
2,93
2,96
3,01
3,06
3,11
3,18
3,26
3,36
3,48
3,63
3,84
4,12
4,53
5,19
6,39
9,12
3,49
3,51
3,53
3,56
3,60
3,65
3,72
3,77
3,83
3,84
3,86
3,87
3,89
3,91
3,93
3,95
3,97
3,99
4,02
4,04
4,07
4,11
4,14
4,18
4,22
4,26
4,31
4,37
4,43
4,50
4,58
4,67
4,77
4,89
5,04
5,21
5,41
5,67
5,99
6,42
7,01
7,85
9,15
11,39
15,98
28,71
19,25 99,25
0,05
3,48
1,90
1,90
1,91
1,91
1,92
1,93
1,95
1,97
1,98
2,00
2,00
2,01
2,01
2,01
2,02
2,02
2,03
2,04
2,04
2,05
2,06
2,06
2,07
2,08
2,09
2,10
2,11
2,13
2,14
2,16
2,18
2,20
2,22
2,24
2,27
2,31
2,35
2,39
2,45
2,52
2,61
2,73
2,88
3,11
3,45
4,05
5,31
9,29
0,1
2,29
2,30
2,31
2,32
2,33
2,35
2,37
2,40
2,42
2,45
2,46
2,46
2,47
2,48
2,49
2,49
2,50
2,51
2,52
2,53
2,55
2,56
2,57
2,59
2,60
2,62
2,64
2,66
2,68
2,71
2,74
2,77
2,81
2,85
2,90
2,96
3,03
3,11
3,20
3,33
3,48
3,69
3,97
4,39
5,05
6,26
9,01
3,19
3,21
3,23
3,26
3,29
3,34
3,41
3,45
3,51
3,53
3,54
3,56
3,57
3,59
3,61
3,63
3,65
3,67
3,70
3,73
3,75
3,78
3,82
3,85
3,90
3,94
3,99
4,04
4,10
4,17
4,25
4,34
4,44
4,56
4,69
4,86
5,06
5,32
5,64
6,06
6,63
7,46
8,75
10,97
15,52
28,24
19,30 99,30
0,05
3,17
1,82
1,83
1,83
1,84
1,85
1,86
1,87
1,90
1,91
1,93
1,93
1,94
1,94
1,94
1,95
1,96
1,96
1,97
1,97
1,98
1,99
2,00
2,00
2,01
2,02
2,04
2,05
2,06
2,08
2,09
2,11
2,13
2,15
2,18
2,21
2,24
2,28
2,33
2,39
2,46
2,55
2,67
2,83
3,05
3,40
4,01
5,28
9,33
0,1
2,18
2,18
2,19
2,20
2,21
2,23
2,25
2,29
2,31
2,34
2,34
2,35
2,36
2,36
2,37
2,38
2,39
2,40
2,41
2,42
2,43
2,45
2,46
2,47
2,49
2,51
2,53
2,55
2,57
2,60
2,63
2,66
2,70
2,74
2,79
2,85
2,92
3,00
3,09
3,22
3,37
3,58
3,87
4,28
4,95
6,16
8,94
2,97
2,99
3,01
3,04
3,07
3,12
3,19
3,23
3,29
3,30
3,32
3,33
3,35
3,37
3,39
3,41
3,43
3,45
3,47
3,50
3,53
3,56
3,59
3,63
3,67
3,71
3,76
3,81
3,87
3,94
4,01
4,10
4,20
4,32
4,46
4,62
4,82
5,07
5,39
5,80
6,37
7,19
8,47
10,67
15,21
27,91
19,33 99,33
0,05
2,96
Il valore della statistica F (2; 27 gl) corrisponde ad una probabilità < 0,01
(il valore di F (2; 27) corrispondente a p= 0,01 è: 5,49)
Conclusione?
gradi libertà (g.l.) per il numeratore
35 2,46
3,25
5,19
2,21
2,76
4,04
2,00
2,45
Il numero di gradi di libertà a denominatore è: num. soggetti - num. gruppi
Distribuzione F (valore della statistica F per definiti livelli di probabilità da F a ∞)
36 2,46
3,24
5,18
2,20
2,74
4,01
2,00
0,01
37 2,45
3,24
5,11
2,18
2,72
3,98
1,99
6
38 2,45
3,23
5,06
2,16
2,71
3,96
0,01
39 2,44
3,20
4,98
2,15
2,70
3,95
5
40 2,44
3,18
4,92
2,15
2,69
0,01
45 2,42
3,15
4,88
2,14
2,68
4
50 2,41
3,13
4,85
2,13
0,01
60 2,39
3,11
4,82
2,13
3
70 2,38
3,10
4,80
0,01
80 2,37
3,09
4,79
2
90 2,36
3,08
0,1
100 2,36
3,07
36
Analisi della varianza ad 1 criterio di classificazione
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
g.l.
denomi
natore
110 2,35
Analisi della varianza ad 1 criterio di
120 2,35
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
classificazione
35
Il numero di gradi di libertà a numeratore è: numero di gruppi-1
Trattam
4,19
4,04
3,29
3,07
4,95
4,35
2
2
2
2
2
2
1
1
n
mediagruppo media
mediagenerale
gruppo
8,5729
Contributo del
varianza nel Contributo del gruppo
gruppo alla
gruppo
alla varianza tra
varianza entro
8,4987
6,4214
4,1560
0,9525
0,9443
8,5506
0,8013
-0,6447
0,2454
5,445
3,999
0,9501
10
10
- 0,1567
0,9490
Varianza entro
4,487
5,4114
Varianza tra
10
media
totale
4,6434
5,7024
I valori di probabilità corrispondenti alla distribuzione F si leggono tra F e ∞
Riepilogo dei calcoli
Resa
3,41
2
1
3,75
2
1
4,87
2
6,27
3,94
2
1
6,28
3
5,36
3,15
3
1
4,04
3
6,39
3,79
3
1
4,56
3
4,85
4,55
3
1
4,55
3
5,99
4,53
3
1
3,53
3
7,14
3,71
3
1
7
5,08
4,61
numero
totale
30
F=
Analisi della varianza ad 1 criterio di
38
Analisi della varianza ad 1 criterio di classificazione
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
4,07
numero
gruppi
3
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
classificazione
37
0,05
Un'avvertenza per chi usa programmi statistici
La varianza entro gruppi è spesso indicata come:
MS (Mean Sum Squares o Scarto Quadratico Medio) within groups
oppure
Error MS
La varianza tra gruppi è spesso indicata come:
MS between groups
oppure
Effect MS
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
39
Questo è l'output di XLstats, per i dati usati nell'esempio
H0: All population means (of resa) are equal
H1: Not all population means (of resa) are equal
p-value = 0,008594
ANOVA Table
Source
trattam.
Error
Total
DF
SS
MS
F
2 10,82275 5,411373 5,702374
27 25,62215 0,948969
29 36,4449
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
40
La devianza entro gruppi è spesso indicata come:
SS (Sum of Squares o Somma degli Scarti Quadratici) within groups
oppure
Error SS
La devianza tra gruppi è spesso indicata come:
SS between groups
oppure
Effect SS
La devianza totale è spesso indicata come:
SS Total
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
41
H0: All population means (of resa) are equal
H1: Not all population means (of resa) are equal
p-value = 0,008594
ANOVA Table
Source
trattam.
Error
Total
DF
SS
MS
F
2 10,82275 5,411373 5,702374
27 25,62215 0,948969
29 36,4449
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
42
MS = SS / DF
Varianza = Devianza / Gradi_libertà
H0: All population means (of resa) are equal
H1: Not all population means (of resa) are equal
p-value = 0,008594
ANOVA Table
Source
trattam.
Error
Total
DF
SS
MS
F
2 10,82275 5,411373 5,702374
27 25,62215 0,948969
29 36,4449
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
43
Altri testi suggeriscono di calcolare la devianza totale e la devianza entro gruppi,
ricavando quindi la devianza tra gruppi. Viene utilizzata l'equazione
fondamentale dell'analisi della varianza.
Devianza totale - devianza entro gruppi = devianza tra gruppi
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
44
Giunti a questo punto, vogliamo sapere quali sono i gruppi diversi tra loro.
Sono possibili diversi confronti;
gruppo 1 vs. gruppo 2
gruppo 2 vs. gruppo 3
gruppo 1 vs. gruppo 3
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
45
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
46
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
47
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
48
Se conduciamo tutti questi confronti la probabilità che almeno uno diventi
significativo solo per effetto del caso è
1- p(1-α)numero confronti
nel caso di un errore di primo tipo al 5% abbiamo
= 1 - (0,95) numero confronti
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
49
nel caso di 5 confronti otteniamo:
= 1 - (0,95)5
= 1- 0,774 = 0,226
L'errore di primo tipo complessivo (che almeno uno dei confronti dia risultato
significativo solo per effetto del caso) è 22,6%
Per ovviare questo inconveniente Bonferroni ha proposto la seguente
correzione:
α ' = α /numero_confronti
La soglia di rifiuto dell'ipotesi nulla viene quindi fissata a α / numero_confronti
Il numero di confronti è il numero di confronti che si intende effettuare, come
pianificato nel disegno dell'analisi statistica
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
50
I confronti sono condotti usando il test t per il confronto tra le medie di due
campioni indipendenti. Nella lettura del valore di p viene applicata la correzione
di Bonferroni.
Riportiamo i risultati dei calcoli eseguiti con il programma XLstats.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
51
Tests for comparing two categories
Cat. 1: 1
Categories
Cat. 2: 2
Two-Sample t-tests (Differences Between Means, µ)
Sample Data
n1 10
x 1 5,445
s1 0,975981
Assume equal standard deviations
Hypothesis Tests
H0: µ1 - µ2 = 0
Alternative
>
≠
<
H1: µ1 - µ2 ≠
T
DF
p-value =
Residuals
Analysis
0
3,320116
18
0,003808
n2 10
x 2 3,999
s2 0,97175
x 1 − x 2 1,446
SE Difference 0,435527
Mann-Whitney Test
(Differences
Between
Medians)
F-Test for
Variance
Randomised
2-Group Test
Confidence Intervals
for µ1 - µ2
Type (2,U,L) 2
Level 0,95
Upper
ME
Lower
0,915008 0,530992 2,361008
Power Analysis
Sample Size
Determination
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
52
Tests for comparing two categories
Cat. 1: 1
Categories
Cat. 2: 3
Two-Sample t-tests (Differences Between Means, µ)
Sample Data
n1 10
x 1 5,445
s1 0,975981
n2 10
x 2 4,487
s2 0,974714
x 1 − x 2 0,958
SE Difference 0,436189
Assume equal standard deviations
Hypothesis Tests
H0 : µ1 - µ2 = 0
Alternative
>
≠
<
H1 : µ1 - µ2 ≠
T
DF
p-value =
0
2,196297
18
0,041413
Man
(Diff
Betw
Med
F-Te
Varia
Rand
2-Gr
Confidence Intervals
for µ1 - µ2
Type (2,U,L) 2
Level 0,95
Upper
ME
Lower
0,916399 0,041601 1,874399
Power Analysis
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
53
Analisi della varianza ad 1 criterio di classificazione
Tests for comparing two categories
Cat. 1: 2
Categories
Cat. 2: 3
Two-Sample t-tests (Differences Between Means, µ)
Sample Data
n1 10
x 1 3,999
s1 0,97175
n2 10
x 2 4,487
s2 0,974714
x 1 − x 2 -0,488
SE Difference 0,435243
Assume equal standard deviations
Hypothesis Tests
H0 : µ1 - µ 2 = 0
Alternative
>
≠
<
H1 : µ1 - µ 2 ≠
T
DF
p-value =
0
-1,12121
18
0,276934
Man
(Diff
Betw
Med
F-Te
Varia
Rand
2-Gr
Confidence Intervals
for µ1 - µ2
Type (2,U,L) 2
Level 0,95
ME
Lower
Upper
0,914412 -1,40241 0,426412
Power Analysis
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
54
Conclusioni? Quali dei tre confronti sono significativi?
Se siamo interessati ad un errore α complessivo < 0,05
ed applichiamo la correzione di Bonferroni
dovremo considerare solo in confronti il cui valore di p è < 0,05 / 3
p < 0,05 / 3
p < 0,0167
a vs. b -> rifiuto H0
a vs. c -> non rifiuto H0
b vs. c -> non rifiuto H0
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
55
Approfondimento sugli errori conseguenti all'uso dell'ANOVA quando i tre gruppi
hanno diverse varianze
In questo esempio la varianza è uguale nei tre gruppi. In simili situazioni la probabilità di
rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è simile al valore
nominale (alpha o probabilità dell'errore di primo tipo).
Results of 1000 Replication Experiment
alpha = .05
Reject Null Hypothesis
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
5,6%
alpha = .01
0,8%
Analisi della varianza ad 1 criterio di classificazione
56
In questo esempio la varianza è diversa nei tre gruppi. In simili situazioni la probabilità di
rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è
sistematicamente diversa dal valore nominale.
Results of 1000 Replication Experiment
alpha = .05
Reject Null Hypothesis
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
8,2%
alpha = .01
2,0%
Analisi della varianza ad 1 criterio di classificazione
57
In questo esempio i tre gruppi hanno la stessa varianza e tre medie diverse.
Qui l'analisi della varianza è appropriata
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
58
Approfondimento sulla simulazione di analisi della varianza
Immaginiamo di condurre un esperimento ripetuto 1000 volte con campioni tratti
dalla stessa popolazione: la distribuzione delle medie campionarie.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
59
Analisi della varianza ad 1 criterio di classificazione
60
la distribuzione della statistica F.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Il numero di campioni che avrebbe portato al rifiuto dell'ipotesi nulla.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
61
Le corrispondenti immagini nel caso di campioni da tre diverse popolazioni
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
62
Esercizi dal testo
p 226 n 2
p 226 n 4
p 226 n 6
p 226 n 7
p 226 n 8
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Analisi della varianza ad 1 criterio di classificazione
63