Università del Piemonte Orientale
Corso di laurea in biotecnologia
Corso di Statistica Medica
Analisi dei dati quantitativi :
Confronto tra due medie
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
1
Consideriamo diverse situazioni, tutte riconducibili all’analisi di una
variabile quantitativa con il confronto tra diversi gruppi di soggetti:
A.
Confronto tra una media campionaria ed una popolazione i cui parametri
sono noti
B.
Confronto tra una media campionaria ed una popolazione di cui è nota
la media ma non la deviazione standard
C.
Confronto tra 2 campioni appaiati
D.
Confronto tra due campioni indipendenti
E.
Confronto tra n campioni indipendenti
F.
Confronto tra misure ripetute sugli stessi soggetti
I casi A e B sono già stati esaminati nella lezione sulle statistiche campionarie
Il caso E corrisponde all'analisi della varianza
Il caso F non sarà considerato in questo corso.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
2
Riepilogo del caso A: Confronto tra una media campionaria ed una
popolazione i cui parametri sono noti
Siamo interessati al confronto tra la media campionaria e la media della
popolazione. I parametri della distribuzione di probabilità della variabile nella
popolazione (µ e σ) sono noti.
Il processo di verifica dell’ipotesi si svolge secondo quanto visto in
precedenza:
L’ipotesi di lavoro: il campione non è parte dalla popolazione considerata ma
di un’altra popolazione, con media differente.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
3
L’ipotesi nulla: il campione estratto ha media uguale a quella della
popolazione (corrisponde cioè ad un campione tratto da tale popolazione).
L' errore di primo tipo è fissato al 5% (α=0,05)
L' errore di secondo tipo viene fissato al 20% e la dimensione del campione è
definita di conseguenza usando apposite tavole (l'argomento non è ancora
stato trattato).
L’esperimento consiste nell’estrazione di un campione e nel calcolo della
media campionaria.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
4
Il test statistico consiste nel calcolo della deviata normale standardizzata:
Z = ( X - µ)/ (σ/√n).
Dove
X : media campionaria
µ: media della popolazione
(σ/√n): errore standard della media (cioè deviazione standard della media
campionaria)
σ: deviazione standard della popolazione
n: numerosità del campione
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
5
Il test è di tipo parametrico, cioè è valido a condizione che siano validi i
presupposti relativi alla distribuzione di probabilità (gaussiana).
L’assunzione è generalmente vera dato il teorema del limite centrale (sempre
che n sia sufficientemente grande e la forma della distribuzione della
popolazione non sia troppo asimmetrica). Nel calcolo della dimensione del
campione occorre quindi anche considerare che la distribuzione di frequenza di
campioni piccoli si differenzia dalla distribuzione gaussiana maggiormente che la
distribuzione di frequenza di campioni grandi.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
6
Il valore di probabilità corrispondente al valore |Z| (valore assoluto di Z) così
ottenuto si legge dalla tabella della distribuzione normale standard.
Se Z>0 viene letto il valore di probabilità compreso tra Z e ∞.
Se Z<0 viene letto il valore di probabilità compreso tra Z e -∞.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
7
Esempio 1
Confronto della pressione sistolica di un gruppo di pazienti affetti da una forma
di arteriopatia di Burger con la popolazione generale.
H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno
pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è
nata osservando che i primi casi avevano valori pressori molto elevati.
H0= i pazienti appartengono ad una popolazione con media della pressione
sistolica 145 mmHg
La deviazione standard della misura della pressione della popolazione è nota da
precedenti studi ed è pari a 2,53 mmHg;
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
8
test bilaterale ('a due code'; sebbene l’ipotesi di lavoro sia indirizzata
maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente
forti da scegliere un test ad una coda).
errore 1°tipo =0.05
numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti
disponibili. Non è stata calcolata la potenza statistica
Test statistico: test Z (confronto tra una media campionaria e la media della
popolazione). Il valore del test si legge sulle tabelle della distribuzione di
probabilità normale standard (es. Tabella A3 del testo consigliato).
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
Confronto tra due medie
9
10
Requisiti del test scelto:
La deviazione standard della misura della pressione della popolazione è nota da
precedenti studi ed è pari a 2,53 mmHg;
La distribuzione della variabile nella popolazione è gaussiana, pertanto anche
piccoli campioni saranno distribuiti secondo tale distribuzione.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
11
Confronto tra due medie
12
I dati:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
pressure (mmHg)
155
145
165
134
154
130
161
139
140
143
157
148
165
152
149
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Le statistiche campionarie necessarie per il test
N (dimensione campionaria)
Media campionaria
15
149.14 mmHg (calcolo omesso)
I parametri necessari per il test
µ=145 mmHg
σ=2,53 mmHg
Memo: Il valore della statistica Z corrispondente al limite per il rifiuto
dell’ipotesi nulla (dati errore 1° tipo <= 0,05 e test a due code) è
1,960.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
13
Il calcolo del test
Z = ( X - µ)/ (σ/√n).
Z = (149.14 - 145) / (2,53/√15) =
= 6,34
Conclusione = ?
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
14
Il calcolo del test
Z = ( X - µ)/ (σ/√n).
Z = (149.14 - 145) / (2,53/√15) =
= 6,34
Conclusione = rifiuto l’ipotesi nulla.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
15
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
16
Esempio 2
Una compagnia di assicurazioni intende controllare quali agenzie sono
troppo severe oppure troppo disponibili nella valutazione dei danni. Viene
effettuato un campione delle pratiche seguite da ciascuna agenzia. Per
rendere omogenea la popolazione di provenienza vengono esclusi gli
incidenti con feriti e quelli in autostrada.
Il costo medio nella popolazione (tutte le pratiche della compagnia di
assicurazione) (in migliaia di euro) = 1,6.
Deviazione standard della popolazione (in migliaia di euro) = 3,4
H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla base della
popolazione di tutti gli incidenti dell'anno in corso.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
17
H0: l'agenzia non si discosta.
test a due code (interessano entrambi gli scostamenti)
errore 1°tipo =0.10 (dato il piano di lavoro di controllo)
numerosità campionaria 22 pratiche.
Test statistico: test Z (confronto tra una media campionaria e la media
della popolazione)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
18
Requisiti del test scelto:
La deviazione standard del costo medio è nota, poichè il centro di calcolo
della compagnia ha tutte le pratiche.
La distribuzione della variabile nella popolazione è asimmetrica con coda
a destra (valori elevati), come indicato dal centro di calcolo. Viene
effettuata una trasformazione logaritmica per renderla simile alla
gaussiana: dopo la trasformazione anche piccoli campioni si
distribuiscono secondo la distribuzione gaussiana.
Il centro di calcolo fornisce µ e σ della popolazione
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
19
I dati
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
costo
1.6
1.3
0.2
3.0
2.0
0.3
1.3
0.6
2.7
0.9
5.0
1.8
1.3
1.2
0.8
2.5
2.0
1.2
7.4
0.3
0.5
1.1
20
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
Variable:
costo
Stem Leaf
7 4
6
5 0
4
3
2
1
0
0
0057
12233368
2335689
----+----+----+----+
21
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
1
4
8
7
1
#
1
|
+-----+
*--+--*
+-----+
0
Boxplot
*
Confronto tra due medie
Obs
1.6
1.3
0.2
3.0
2.0
0.3
1.3
0.6
2.7
0.9
5.0
1.8
1.3
1.2
0.8
2.5
2.0
1.2
7.4
0.3
0.5
1.1
costo
0.47000
0.26236
-1.60944
1.09861
0.69315
-1.20397
0.26236
-0.51083
0.99325
-0.10536
1.60944
0.58779
0.26236
0.18232
-0.22314
0.91629
0.69315
0.18232
2.00148
-1.20397
-0.69315
0.09531
lcosto
Dati trasformati su scala logaritmica.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
22
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
Variable:
Stem
2
1
1
0
0
-0
-0
-1
-1
lcosto
Leaf
0
6
01
56779
122333
21
75
22
6
----+----+----+----+
#
1
1
2
5
6
2
2
2
1
Boxplot
|
|
|
+-----+
*--+--*
+-----+
|
|
0
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Variable:
Confronto tra due medie
23
Confronto tra due medie
24
lcosto (loge del costo)
Moments
N
Mean
22
0.216379
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Il calcolo del test
Media e deviazione standard della popolazione calcolati dai logaritmi dei
dati originali.
µ’ = 0,262364
σ’ = 0,875469
X = 0,216
Z = ( X - µ’)/ (σ’/√n).
Z = (0,216 - 0,262364) / (0,875469/√22) =
= - 0,2484
p=0,401
Conclusione = non rifiuto l’ipotesi nulla.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
25
Riepilogo del caso B: Confronto tra una media campionaria ed una
popolazione di cui non si conosce la deviazione standard.
Se non abbiamo informazioni sul parametro (il valore nella popolazione), usiamo
la statistica campionaria, che è stata calcolata proprio per avere informazioni
relative al valore (ignoto) del parametro nella popolazione.
Si ricorda che l’Atteso della varianza campionaria calcolata con il denominatore
è (n-1) è una stima non distorta della varianza della popolazione.
La varianza del campione però è affetta da variabilità casuale rispetto alla
varianza della popolazione, a causa del campionamento. Pertanto non potremo
usare statistiche basate sulla distribuzione normale standardizzata, che
risulterebbe troppo poco conservativa ma dovremo usare la distribuzione t di
Student.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
26
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
27
La probabilità corrispondente all’intervallo tra un dato t e ∞ si legge su apposite
tabelle (es. tabella A4 del testo consigliato).
Si noti che i valori di probabilità cumulativa esterni ad un dato valore di t sono
maggiori man mano che si riduce il numero di gradi di libertà.
La distribuzione t per 30 gradi di libertà è praticamente una distribuzione
normale standardizzata.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
28
Confronto tra un campione e la media della popolazione
La formula del test è simile a quella già vista per il calcolo del test Z, con l'errore
standard calcolato dalla deviazione standard del campione:
tgl = ( X - µ)/ (s/√n).
X : media campionaria
µ: media della popolazione
s: deviazione standard del campione
(s/√n): errore standard della media (cioè dev. standard della media campionaria)
n: numerosità del campione
il numero di gradi di libertà è gl= n-1
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
29
Il test è di tipo parametrico, cioè è valido a condizione che:
- nella popolazione la variabile sia distribuita secondo la distribuzione di
probabilità gaussiana;
- il campione abbia la stessa varianza della popolazione.
La prima assunzione è generalmente vera dato il teorema del limite centrale
(sempre che n sia sufficientemente grande e la forma della distribuzione della
popolazione non sia troppo asimmetrica).
La seconda è vera se vale H0 (il campione appartiene alla popolazione), mentre
non è valutabile altrimenti.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
30
Esempio
Confronto della pressione sistolica tra un gruppo di pazienti affetti da una forma
di arteriopatia con la popolazione generale (è l’esempio precedente, sviluppato
senza fare uso della informazione sulla deviazione standard della popolazione).
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
31
H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno
pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è
nata osservando che i primi casi diagnosticati avevano valori pressori molto
elevati
H0= media della popolazione: pressione sistolica 145 mmHg
test a due code (sebbene l’ipotesi di lavoro sia indirizzata maggiormente verso
un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un
test ad una coda)
errore 1°tipo =0.05
errore 2°tipo =0.20
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
32
Test statistico: test t
(confronto tra una media campionaria e la media della popolazione, senza dati
sulla deviazione standard della popolazione).
Verifica dei Requisiti del test scelto:
La deviazione standard della misura della pressione della popolazione non è
nota.
La distribuzione della variabile nella popolazione è gaussiana, pertanto anche
piccoli campioni saranno distribuiti secondo tale distribuzione.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
33
Confronto tra due medie
34
I dati individuali:
Obs
pressure (mmHg)
1
151
2
146
3
147
4
141
5
154
6
145
7
158
8
143
9
144
10
143
11
156
12
148
13
160
14
152
15
149
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Le statistiche campionarie
N
Mean
Std Deviation
Variance
15
149.13
5,8538
34,2667
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
35
Confronto tra due medie
36
I dati necessari per il test
µ=145 mmHg
media campione= 149.13
Std Deviation
5,8538
dimensione del campione = 15
numero di gradi di libertà= 14
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Il calcolo del test
t14 = (X - µ)/ (s/√n).
t14 = (149,13 - 145) / (5,8538/√15) =
= 2,7325
Conclusione = rifiuto l’ipotesi nulla.
Memo: Il valore della statistica t corrispondente al limite per il rifiuto dell’ipotesi
nulla (errore 1° tipo <= 0,05 e test a due code, 14 g.l.) = 2,145
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
37
t
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
38
Confronto tra due campioni appaiati
Parliamo di campioni appaiati quando ad ogni osservazione del primo gruppo
corrisponde un'osservazione del secondo gruppo.
E' una tecnica per ridurre l'influenza sui risultati da parte di variabili estranee
Due possibilità:
- misure ripetute nello stesso soggetto
-
soggetti diversi ma appaiati perchè simili per caratteristiche importanti (es
della stessa età, sesso, luogo di nascita e professione)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
39
Confronto tra due medie
40
L'ipotesi alternativa (di lavoro) è di solito:
H1: µ1 # µ2
e la corrispondente ipotesi nulla è:
Ho: µ1 = µ2
quindi Ho: µ1- µ2=0
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
In questo caso conviene costruire il test sulle differenze dei valori tra le coppie di
misure appaiate. Conviene quindi riformulare H1 ed H0
indichiamo la media delle differenze nella popolazione con δ
- L'ipotesi alternativa (di lavoro) è:
H1: δ # 0
e l'ipotesi nulla è:
Ho: δ = 0
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
41
Calcolo le differenze per le coppie di misure
di= xi1 - xi2
calcolo quindi media e deviazione standard di d nel campione, usando le
formule consuete.
n
Media = d =
∑d
i =1
i
n
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
42
n
Deviazione _ st. = s =
(
∑ di −d
i =1
)
2
(n − 1)
Calcolo infine l'errore standard
E .S . =
s
n
e la statistica t con g.l.= n.osservazioni – 1.
d −0
t=
s
n
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
43
Esempio: in uno studio viene valutato l'accrescimento in peso in coppie
di topi nati dalla stessa nidiata e sottoposti a due diverse diete.
H1: tra i topi alimentati con le due diete si osserva una differenza di
crescita in peso
H0: le due diete sono equivalenti e quindi tra i ratti alimentati con le due
diete non si osserva una differenza di crescita in peso.
errore di 1° tipo = 0,05
viene condotto un esperimento con coppie di topi.
La distribuzione della variazione del peso è gaussiana.
Userò il test t di student.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
44
1
2
3
4
5
6
7
8
9
10
dieta A
dieta B
19
11
14
17
23
11
15
14
11
8
23
18
18
19
24
15
14
11
19
13
differenza
di1
4
7
4
2
1
4
-1
-3
8
5
(di– d )2
di– d
0,9
3,9
0,9
-1,1
-2,1
0,9
-4,1
-6,1
4,9
1,9
Σ = 0,0
0,81
15,21
0,81
1,21
4,41
0,81
16,81
37,21
24,01
3,61
Σ =104,9
d =3,1
s2 = Σ(di– d )2 / (n-1) =
= 104,9 / 9 = 11,66
s=√11,66 = 3,41
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
ES(d)
Confronto tra due medie
45
= s/√ n
= 3,41 / √10
= 1,08
t9
= 3,1 / 1,08 = 2,87
il valore di t con 9 gl corrisponde ad una probabilità < 0,02 (nelle due code della
distribuzione t)
Dato che stiamo conducendo un test bilaterale dobbiamo sommare l'area
della coda superiore e della coda inferiore della distribuzione di probabilità t.
Se usiamo la tavola A4, si tenga conto la tavola riporta solo la coda
superiore ma l'area nelle due code è = 2 * area nella coda superiore.
Ad es. la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è
0,01 sulla coda superiore.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
46
quindi la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è
2 * 0,01 = 0,02 sulle due code.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
47
Confronto tra due medie
48
Conclusione ?
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Possiamo anche calcolare un intervallo di confidenza della differenza media.
Calcoliamo l'intervallo di confidenza al 95%:
Limite fiduciale superiore = d + t9gl;0,025 *(s/√n) = 3,1 + 2,262 * 1,08 =5,54
Limite fiduciale inferiore = d - t9gl; 0,025 *(s/√n) = 3,1 - 2,262 * 1,08 = 0,66
tα/2 deve essere scelto tenendo conto del numero di gradi di libertà ( in questo
caso 9)
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
49
Confronto tra la media di due campioni indipendenti
Nel caso del confronto tra due campioni indipendenti il test è costruito per
valutare la probabilità (data H0) della differenza osservata tra le medie dei due
campioni, correggendo per l’errore standard.
-
L'ipotesi alternativa (di lavoro) è di solito:
H1: µ1 # µ2
e la corrispondente ipotesi nulla è:
Ho: µ1 = µ2
quindi Ho: µ1- µ2=0
Non ho informazioni sulla popolazione ma solo sui campioni pertanto dovrò
usare il test t e la distribuzione t
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
50
La differenza tra le due medie:
∆x = ( X 1– X 2);
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
51
Il calcolo dell’errore standard richiede l’individuazione di un valore comune della
varianza.
Questo valore può essere stimato sia se i due campioni appartengono alla
stessa popolazione (H0) sia se appartengono a due popolazioni diverse
(H_lavoro), purchè abbiano la stessa varianza (omoscedasticità).
Si potrà quindi calcolare uno stimatore comune dell’errore standard.
Il caso di due campioni con varianze diverse si può affrontare con i test non
parametrici, considerati nelle prossime lezioni.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
52
Nel caso di due campioni con varianza comune, lo stimatore migliore della
varianza comune (indicata come s(pool)2) è la media delle due varianze
campionarie, pesata per il numero di gradi di libertà di ciascun campione.
(
n1 − 1)s12 + (n2 − 1)s22
s pool = (n1 − 1) + (n2 − 1)
2
(
)
2
(
Σ x1 − x1 + Σ x2 − x2
=
(n1 + n2 − 2 )
)
2
= somma delle devianze / gradi di libertà
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
53
Per il calcolo dell’Errore Standard pooled si consideri che:
 = σ + σ
var  x − x
2 
 1
n
2
2
1
2
1
n
2
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
54
ES( X 1– X 2)
= √(s(pool)2/n1 + spool2/n2)
= √[s(pool)2 * (1/n1 + 1/n2)]
= s(pool) * √ (1/n1 + 1/n2)
tgl =
(x − x )− (0)
1
2

1 1
 spool ∗
+ 

n
n2 
1

Il numero di gradi di libertà è n1 + n2 -2
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
55
La verifica dei requisiti di normalità sarà considerata in una delle
prossime lezioni.
In modo approssimato si può:
1. tenere conto che la distribuzione di campionamento è sempre normale
quando i campioni sono grandi. n> 30 garantisce la normalità della
distribuzione dei campioni anche se la distribuzione di base è
asimmetrica.
2. Disegnare un istogramma, che deve essere simmetrico
3. Utilizzare una procedura (grafici QQ o PP in SPSS) che effettua il test
di normalità.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
56
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
57
Esempio: In un laboratorio si intende confrontare l’effetto di due differenti diete
sulla crescita di ratti. La tabella indica l’incremento di peso conseguito tra 7 e 60
giorni dalla nascita.
H lavoro: Le due diete sono diverse (in particolare ritengo che la dieta 1
consenta una più veloce aumento di peso ma non ho evidenze per rifiutare a
priori altre possibilità).
H0: le due diete sono uguali per quanto riguarda l’aumento di peso.
Test a 2 code
Errore di primo tipo= 0,05
Lo studio riguarda animali già trattati, pertanto la numerosità campionaria è
definita in base al numero di animali già trattati con le due diete
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
58
Test t-Student (confronto tra medie di 2 campioni indipendenti).
Valutazione dei requisiti per il test:
La distribuzione del peso degli animali è gaussiana.
Gli animali sono dello stesso ceppo, si suppone quindi che la varianza del peso
sia la stessa e che le due diete non modifichino la varianza comune.
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
59
I dati: incremento tra peso a 7 gg e peso a 60 gg
Dieta 1
134
146
104
119
124
161
107
83
113
129
97
123
X 1 = 120,0
n1 = 12
Dieta 2
70
118
101
85
107
132
94
X 2 = 101,0
n2 = 7
∆x = ( X 1– X 2) = 120-101= 19,0
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
60
La stima della varianza nei due gruppi viene effettuata con una media
pesate delle due varianze (nel primo e nel secondo gruppo). Viene indicata
come varianza pooled.
S2 = {Σ(xi1– X 1)2 + Σ(xi2– X 2)2} / [(n1 + n2 -2)]
Σ(xi1– X 1)2 = 5032,00
Σ(xi2– X 2)2 = 2552,00
S2 = {5032 + 2552} / 17 = 446,12
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
61
L'errore standard viene quindi calcolato usando la deviazione standard pooled.
ES( X 1– X 2)
= √[s2 * (1/n1 + 1/n2)]
ES( X 1– X 2)
= √[446.12 * (1/12 + 1/7) ]
= √100,90
= 10,04
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
62
t17 = (120,0–101,0) / 10,04
= 1,89
Le due aree verdi corrispondono a p=0.05, su due code
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
63
Il valore di t con 17 gl corrispondente alla probabilità del 5% sulle due code
è 2,110
Conclusione?
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
64
Calcoliamo l'intervallo di confidenza della differenza osservata tra i due gruppi.
Calcoliamo l'intervallo di confidenza al 95%:
Limite fiduciale superiore =
x − x + tgl;0,025 *√[s2 * (1/n1 + 1/n2)] =
1
2
(19,0) + 2,110 * 10,04= 40,18
Limite fiduciale inferiore = x1 − x2 + tgl;0,025 *√[s2 * (1/n1 + 1/n2)]=
(19,0) - 2,110 * 10,04= -2,18
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
65
Esercizi dal testo
p 212 n 1
p 212 n 2
p 212 n 4
p 212 n 5 + intervallo di confidenza al 95% della differenza
p 213 n 8 + intervallo di confidenza al 95% della differenza
p 213 n 9
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica
Confronto tra due medie
66