confronto tra 2 gruppi con test parametrici

Università del Piemonte Orientale
Corso di dottorato in medicina molecolare
a.a. 2002 – 2003
Corso di Statistica Medica
Inferenza sulle medie
Statistica U
Test z
Test t campioni indipendenti con uguale varianza
Test t campioni indipendenti con varianza disuguale
Test t campioni appaiati
Dottorato di medicina molecolare 2002-2003 -
1
Popolazione:
- ‘insieme di tutti i valori realizzati o possibili di una variabile’ ; insieme che raccoglie
tutte le osservazioni possibili, di una data variabile o un dato fenomeno.
- può essere finita (comunque molto grande) o infinita
Campione:
- Raccolta finita di elementi estratti da una popolazione
- Lo scopo dell’estrazione è quello di ottenere informazioni sulla popolazione
- Pertanto il campione deve essere rappresentativo della popolazione da cui viene
estratto (‘non viziato’, cioè non affetto da errore sistematico)
- Per corrispondere a queste esigenze il campione viene individuato con un
campionamento casuale.
- In un campionamento casuale semplice tutti gli individui nella popolazione hanno
uguale probabilità di essere inclusi nel campione. Data una popolazione con N individui
(N molto grande rispetto alla dimensione del campione) la probabilità per l’i-esimo
individuo è 1/N.
Dottorato di medicina molecolare 2002-2003 -
2
Come misuriamo la probabilità di osservare un dato valore, assumendo una data
distribuzione?
Se la distribuzione dei valori nella popolazione segue una forma ‘Normale’ (Gaussiana)
possiamo stimare la probabilità di osservare un valore compreso in un dato intervallo
usando la statistica U.
Distribuzione gaussiana:
 1 
f (x ) = 
e
 σ 2π 
Dottorato di medicina molecolare 2002-2003 -
3
 1
2
2
 − 2 ( x−µ ) / σ 


u=
x−µ
σ
dove:
x: valore cui siamo interessati
σ: deviazione standard nella popolazione
µ: media nella popolazione
u: deviata normale standardizzata corrispondente ai valori dati per (x, σ, µ).
Il valore U, letto sulle apposite tabelle indica la probabilità di osservare un valore
compreso tra x e ∞ (oppure tra 0 ed x, prestate attenzione alle spiegazioni fornite insieme
alle tavole), data una distribuzione normale con media µ e deviazione standard σ.
In alternativa usate la funzione distrib.norm.st di EXCEL (o analoghi).
Dottorato di medicina molecolare 2002-2003 -
4
Dottorato di medicina molecolare 2002-2003 -
5
Dottorato di medicina molecolare 2002-2003 -
6
Probabilità cumulativa per la Distribuzione Normale Standard. La tavola indica il valore di Q(z), dato il valore di z
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
Second digit of Z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
---------------------------------------------------------------------------------0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
Dottorato di medicina molecolare 2002-2003 -
7
Esercizio.
Si consideri una popolazione con altezza distribuita come una Gaussiana con media (µ)
= 172,5 cm e deviazione standard (σ) =6,25 cm.
Qual è la probabilità di incontrare un individuo estratto da tale popolazione e di altezza
superiore a cm 190?
U = (190 – 172,5) / 6,25 = 2,8
Da cui p= 0,00256
Dottorato di medicina molecolare 2002-2003 -
8
Se la distribuzione non è gaussiana?
1. Applicare una trasformazione matematica (logaritmo, radice quadrata) ai dati
originali in modo da ottenere una distribuzione simile alla gaussiana (i tests per
valutare l’adattamento alla distribuzione gaussiana saranno visti in una prossima
lezione).
2. Calcolare una distribuzione cumulativa empirica e riferirsi a quella (operazione molto
pericolosa, da tentare solo se si dispone di un grande numero di osservazioni).
Dottorato di medicina molecolare 2002-2003 -
9
Il campione corrisponde alla popolazione?
Con questo problema passiamo dall’uso della distribuzione gaussiana a scopo descrittivo
all’uso a scopo inferenziale.
Per procedere dobbiamo esaminare la relazione tra la distribuzione di una variabile in
una popolazione ed i valori della variabile nei campioni (statistici) estratti da tale
popolazione.
Dottorato di medicina molecolare 2002-2003 -
10
Cosa ci aspettiamo da un singolo campione estratto da una popolazione?
- Il valore atteso della media campionaria1 è la media della popolazione, in altre parole
la media campionaria è una stima non distorta della media della popolazione.
- Il valore atteso della varianza campionaria2 (calcolata con n-1) è la varianza della
popolazione, in altre parole la varianza campionaria (calcolata con n-1) è una stima
non distorta della varianza della popolazione.
1
2
media dei valori della variabile tra i soggetti che compongono il campione
varianza dei valori della variabile tra i soggetti che compongono il campione
Dottorato di medicina molecolare 2002-2003 -
11
La distribuzione di frequenza dei campioni. Cioè costruiamo una popolazione di
campioni (ripetendo infinite volte il campionamento dalla stessa popolazione)
Consideriamo una popolazione di individui (unità statistiche); per ciascuno sia noto il
valore di una data variabile numerica. La distribuzione della variabile nella popolazione è
normale (Gaussiana) con media µ e deviazione standard δ.
Si estraggano ripetuti campioni di dimensione n da tale popolazione. Definiamo media
campionaria la media calcolata per le osservazioni che compongono il campione.
osserviamo che:
la distribuzione delle medie campionarie sarà normale (Gaussiana), con media µ e
deviazione standard δ/√
√n.
Dottorato di medicina molecolare 2002-2003 -
12
- La forma della distribuzione di frequenza delle medie campionarie è normale. Questo
accade anche se la distribuzione nella popolazione non è normale (Teorema del limite
centrale’).
-
La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella
popolazione. Campioni più grandi avranno variabilità inferiore. La deviazione standard
delle medie campionarie viene indicata anche come ‘Errore Standard della Media’
(spesso abbreviato in Errore standard).
Errore standard = deviazione standard della popolazione / √(numerosità campionaria)
=δ
δ/√
√n
Dottorato di medicina molecolare 2002-2003 -
13
Dottorato di medicina molecolare 2002-2003 -
14
Dottorato di medicina molecolare 2002-2003 -
15
Dottorato di medicina molecolare 2002-2003 -
16
La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella
popolazione. Campioni più grandi avranno variabilità inferiore. La deviazione standard
delle medie campionarie viene indicata anche come ‘Errore Standard della Media’
(spesso abbreviato in Errore standard).
Errore standard = deviazione standard della popolazione / √(numerosità campionaria)
=δ
δ/√
√n
Dottorato di medicina molecolare 2002-2003 -
17
Dottorato di medicina molecolare 2002-2003 -
18
Dottorato di medicina molecolare 2002-2003 -
19
Verifichiamo queste assunzioni su un ulteriore esempio:
L’istogramma presenta la distribuzione di frequenza di 100000 osservazioni distribuite in
modo uniforme. La variabile considerata (indicata come I) assume i soli valori interi tra 0
e 9. L’esempio è analogo a quello presentato nel testo di P.Armitage e G.Berry Statistical
Methods in Medical Researchs (ed.Italiana McGraw-Hill).
Alcune statistiche descrittive della Variabile I nella popolazione
N
Mean
Std Deviation
Skewness
100000
4.5
2.87229568
0
La distribuzione è Uniforme
Dottorato di medicina molecolare 2002-2003 -
20
Variance
Kurtosis
8.2500825
-1.2242436
FREQ
UENCY
10000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0 0 0 00 1 1 1 1 1 2 2 22 2 3 3 3 3 3 4 44 4 4 5 5 5 5 5 66 6 6 6 7 7 7 7 7 88 8 8 8 9 9 9 9 91
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0
0 2 4 68 0 2 4 6 8 0 2 46 8 0 2 4 6 8 0 24 6 8 0 2 4 6 8 02 4 6 8 0 2 4 6 8 02 4 6 8 0 2 4 6 8.
0
popol azi one
Dottorato di medicina molecolare 2002-2003 -
21
Estraiamo da questa distribuzione campioni ripetuti di diversa numerosità (n=5, n=10,
n=20, ciascuno ripetuto 5000 volte).
Esaminiamo le caratteristiche delle distribuzioni di frequenza delle medie campionarie.
Dottorato di medicina molecolare 2002-2003 -
22
Distribuzione e variabilità dei Campioni con n=5
Variable: md (media campionaria)
N
Mean
Std Deviation
Skewness
Coeff Variation
Median
Mode
5000
4.5
1.27931459
0.00568912
28.4292132
4.500000
4.400000
Dottorato di medicina molecolare 2002-2003 -
Variance
Kurtosis
Range
Interquartile Range
23
1.63664583
-0.2798886
8.40000
1.80000
Distribuzione e variabilità dei Campioni con n=10
Variable: md (media campionaria)
N
Mean
Std Deviation
Skewness
Coeff Variation
Median
Mode
5000
4.5
0.90271673
0.04276851
20.0603717
4.500000
4.200000
Dottorato di medicina molecolare 2002-2003 -
Variance
Kurtosis
Range
Interquartile Range
24
0.81489749
-0.1405713
6.40000
1.20000
Distribuzione e variabilità dei Campioni con n=20
Variable: md (media campionaria)
N
Mean
Std Deviation
Skewness
Coeff Variation
Median
Mode
5000
4.5
0.63476814
0.08519074
14.1059586
4.500000
4.400000
Dottorato di medicina molecolare 2002-2003 -
Variance
Kurtosis
Range
Interquartile Range
25
0.40293059
-0.0090377
4.70000
0.90000
da distribuzione uniforme (interi da 0 a 9) µ=4,5 δ=2,872
0.6
n=5 /10 /20
0.4
0.2
0.0
1
Dottorato di medicina molecolare 2002-2003 -
3
5
7
26
9
Conclusione / ripasso
La distribuzione di probabilità rilevante per condurre inferenze sulle medie è la
distribuzione gaussiana perché:
- la distribuzione gaussiana è la forma limite delle distribuzioni di frequenza campionarie,
quale che sia la distribuzione originale delle osservazioni, purché i campioni siano di
numerosità sufficiente. Inoltre, se la distribuzione di frequenza della popolazione è
gaussiana, la distribuzione delle medie campionarie è gaussiana anche per n piccoli.
Inoltre:
- la distribuzione di frequenza di molte variabili biologiche è Gaussiana;
- la distribuzione degli errori casuali è Gaussiana;
Dottorato di medicina molecolare 2002-2003 -
27
Rivediamo le caratteristiche principali della distribuzione gaussiana.
Formula:
f(x) = (1/σ
σ√2π
π)*exp[-1/2(x-µ
µ)2/σ
σ2]
µ (media) e σ (deviazione standard) sono i parametri che definiscono la distribuzione
- il dominio della funzione è
-∞
∞ <= x <= ∞
- L’area compresa tra -∞ e ∞ ha valore unitario,
- f(x) è un valore di probabilità e viene anche indicato con la lettera p
- La distribuzione è simmetrica, media = mediana = moda.
La distribuzione gaussiana con µ=0 e δ = 1 viene definita Deviazione Normale Standard.
Dottorato di medicina molecolare 2002-2003 -
28
Il grafico seguente mostra due curve normali con DS=1 (curva nera) e DS=2 (curva
rossa). Entrambe hanno media=0.
y
0. 40
0. 38
0. 36
0. 34
0. 32
0. 30
0. 28
0. 26
0. 24
0. 22
0. 20
0. 18
0. 16
0. 14
0. 12
0. 10
0. 08
0. 06
0. 04
0. 02
0. 00
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
x0
Dottorato di medicina molecolare 2002-2003 -
29
2
3
4
5
6
7
8
9
10
In questo grafico si mostra la relazione tra funzione di densità di probabilità gaussiana
(curva a campana, corrisponde ad una distribuzione normale standard) e la
corrispondente funzione cumulativa (curva sigmoide).
GS2
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
-4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0
X
Dottorato di medicina molecolare 2002-2003 -
30
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Il processo di verifica dell’ipotesi:
Il processo serve a valutare la probabilità di ottenere / estrarre un campione con media
campionaria x, data una popolazione con media µ e varianza σ2
Procediamo in modo analogo a quanto avevamo visto per la statistica U (probabilità di
ottenere un singolo risultato)
ma
Utilizziamo le caratteristiche della distribuzione dei campioni invece che quelle delle
osservazioni nella popolazione.
Statistiche
Singole osservazioni nella
Campioni estratti dalla
popolazione
popolazione
Tendenza centrale µ: Media dei valori nella popolazione Media delle medie campionarie
Variabilità
σ: Deviazione standard dei valori
Deviazione standard delle medie
nella popolazione
campionarie -> Errore standard
Dottorato di medicina molecolare 2002-2003 -
31
L’ipotesi di lavoro: il campione non proviene dalla popolazione considerata ma di un’altra
popolazione, con media differente.
Siamo interessati al confronto tra la media campionaria e la media della popolazione. I
parametri della distribuzione di probabilità della variabile nella popolazione (µ e σ) sono
noti.
L’ipotesi nulla: il campione estratto ha media uguale a quella della popolazione
(corrisponde cioè ad un campione tratto dalla popolazione).
Dottorato di medicina molecolare 2002-2003 -
32
Gli errori di primo e di secondo tipo e la dimensione del campione vengono definiti.
Nel calcolo della dimensione del campione occorre anche considerare che la
distribuzione di frequenza di campioni piccoli si differenzia dalla distribuzione gaussiana
maggiormente che la distribuzione di frequenza di campioni grandi.
L’esperimento consiste nell’estrazione di un campione e nel calcolo della media
campionaria.
Dottorato di medicina molecolare 2002-2003 -
33
Il test statistico consiste nel calcolo della deviata normale standardizzata:
Z = (X - µ)/ (σ/√n) = (X - µ)/ ES..
Dove
X: media campionaria
µ: media della popolazione
(σ/√n): errore standard della media (cioè deviazione standard della media campionaria)
σ: deviazione standard della popolazione
n: numerosità del campione
Il test è di tipo parametrico, cioè è valido a condizione che siano validi i presupposti
relativi alla distribuzione di probabilità (gaussiana).
L’assunzione è generalmente vera dato il teorema del limite centrale (sempre che n sia
sufficientemente grande e la forma della distribuzione della popolazione non sia troppo
asimmetrica).
Dottorato di medicina molecolare 2002-2003 -
34
Il valore di probabilità corrispondente al valore |Z| (valore assoluto di Z) così ottenuto si
legge dalla tabella della distribuzione normale standard.
Se Z>0 viene letto il valore di probabilità compreso tra Z e ∞.
Se Z<0 viene letto il valore di probabilità compreso tra Z e -∞.
Dottorato di medicina molecolare 2002-2003 -
35
Esempio 1
Confronto della pressione sistolica tra un gruppo di pazienti affetti da una nuova forma di
arteriopatia con la popolazione generale.
H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione
arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è nata osservando che i
primi casi avevano valori pressori molto elevati
H0= media della popolazione: pressione sistolica 145 mmHg
test a due code (sebbene l’ipotesi di lavoro sia indirizzata maggiormente verso un rialzo
pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda)
errore 1°tipo =0.05
numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti disponibili.
Non è stata calcolata la potenza statistica
Test statistico: test Z (confronto tra una media campionaria e la media della popolazione)
Dottorato di medicina molecolare 2002-2003 -
36
Requisiti del test scelto:
La deviazione standard della misura della pressione della popolazione è nota da
precedenti studi ed è pari a 2,53 mmHg;
La distribuzione della variabile nella popolazione è gaussiana, pertanto anche piccoli
campioni saranno distribuiti secondo tale distribuzione.
Dottorato di medicina molecolare 2002-2003 -
37
I dati:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
pressure (mmHg)
155
145
165
134
154
130
161
139
140
143
157
148
165
152
149
Dottorato di medicina molecolare 2002-2003 -
38
Le statistiche campionarie necessarie per il test
N
Media
15
149.133 mmHg (calcolo omesso)
I parametri necessari per il test
µ=145 mmHg
δ=2,53 mmHg
Il valore della statistica Z (errore 1° tipo <= 0,05 e test a due code)
= 1,960
Dottorato di medicina molecolare 2002-2003 -
39
Il calcolo del test
Z = (X - µ)/ (σ/√n).
Z = (149.133 - 145) / (2,53/√15) =
= 6,326893
Conclusione = rifiuto l’ipotesi nulla.
Dottorato di medicina molecolare 2002-2003 -
40
Esempio 2
In questo esercizio si fa ricorso alla trasformazione logaritmica
Una compagnia di assicurazioni intende controllare quali agenzie sono
troppo severe oppure troppo disponibili nella valutazione dei danni. Viene
effettuato un campione delle pratiche seguite da ciascuna agenzia. Per
rendere omogenea la popolazione di provenienza vengono esclusi gli
incidenti con feriti e quelli in autostrada.
Il costo medio nella popolazione (tutte le pratiche della compagnia di
assicurazione) (in migliaia di euro) = 1,6.
Deviazione standard della popolazione (in migliaia di euro) = 3,4
H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla base
della popolazione di tutti gli incidenti dell'anno in corso.
H0: l'agenzia non si discosta.
Dottorato di medicina molecolare 2002-2003 -
41
test a due code (interessano entrambi gli scostamenti)
errore 1°tipo =0.10 (dato il piano di lavoro di controllo)
numerosità campionaria 20 pratiche. Non è stata calcolata la potenza
statistica
Test statistico: test Z (confronto tra una media campionaria e la media
della popolazione)
Dottorato di medicina molecolare 2002-2003 -
42
Requisiti del test scelto:
La deviazione standard del costo medio è nota, poichè il centro di calcolo
della compagnia ha tutte le pratiche.
La distribuzione della variabile nella popolazione è asimmetrica con coda
a destra (valori elevati), come indicato dal centro di calcolo. Viene
effettuata una trasformazione logaritmica per renderla simile alla
gaussiana: dopo la trasformazione anche piccoli campioni si distribuiscono
secondo la distribuzione gaussiana.
Il centro di calcolo fornisce µ e σ della popolazione, con i dati
trasformati su scala logaritmica.
Dottorato di medicina molecolare 2002-2003 -
43
I dati
Obs
costo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
1.6
1.3
0.2
3.0
2.0
0.3
1.3
0.6
2.7
0.9
5.0
1.8
1.3
1.2
0.8
2.5
2.0
1.2
7.4
0.3
0.5
1.1
lcosto
0.47000
0.26236
-1.60944
1.09861
0.69315
-1.20397
0.26236
-0.51083
0.99325
-0.10536
1.60944
0.58779
0.26236
0.18232
-0.22314
0.91629
0.69315
0.18232
2.00148
-1.20397
-0.69315
0.09531
Dottorato di medicina molecolare 2002-2003 -
44
The UNIVARIATE Procedure
Variable: costo
Stem
7
6
5
4
3
2
1
0
Leaf
4
#
1
Boxplot
*
0
1
0
0
0057
12233368
2335689
----+----+----+----+
1
4
8
7
|
+-----+
*--+--*
+-----+
Dottorato di medicina molecolare 2002-2003 -
45
The UNIVARIATE Procedure
Variable: lcosto
Stem
2
1
1
0
0
-0
-0
-1
-1
Leaf
0
6
01
56779
122333
21
75
22
6
----+----+----+----+
Dottorato di medicina molecolare 2002-2003 -
46
#
1
1
2
5
6
2
2
2
1
Boxplot
|
|
|
+-----+
*--+--*
+-----+
|
|
0
Variable:
lcosto (loge del costo)
Moments
N
Mean
22
0.216379
Dottorato di medicina molecolare 2002-2003 -
47
Il calcolo del test
Indico media e Ds della popolazione calcolati dai logaritmi dei dati originali.
µ’ = 0,262364
σ’ = 0,875469
x’ = 0,216
Z = (X‘ - µ’)/ (σ’/√n).
Z = (0,216 - 0,262364) / (0,875469/√22) =
= - 0,2484
Conclusione = non rifiuto l’ipotesi nulla.
Dottorato di medicina molecolare 2002-2003 -
48
Intervalli di confidenza
Abbiamo visto che la media campionaria costituisce la stima migliore della media della
popolazione ma questo non significa che la media campionaria sia priva di errore
campionario: si osserva facilmente che campioni ripetuti danno medie campionarie
diverse.
L’intervallo di confidenza fornisce una indicazione della precisione della stima.
‘L’intervallo di confidenza fornisce un’espressione formale dell’incertezza che deve
essere aggiunta alla media campionaria a causa del semplice errore di campionamento.’
(Armitage).
Dottorato di medicina molecolare 2002-2003 -
49
L’intervallo di confidenza della media campionaria è un intervallo di valori intorno alla
media campionaria;
tale intervallo ha una probabilità definita di includere il parametro (valore della statistica
nella popolazione).
Dottorato di medicina molecolare 2002-2003 -
50
Estrazione di 50 campioni di numerosità 20 da distribuzione gaussiana con µ=0 e δ=1.
Le barre rappresentano l’intervallo di confidenza al 95%
1 .0
0 .5
M
D
0 .0
-0 .5
-1 .0
0
10
20
30
ID
Dottorato di medicina molecolare 2002-2003 -
51
40
50
L’intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione:
[X - Zα/2 *(σ/√n)] < µ < [X + Zα/2 *(σ/√n)].
Dove:
X: media campionaria
µ: media della popolazione
(σ/√n): errore standard della media (cioè deviazione standard della media campionaria)
Zα/2= valore della deviata normale standardizzata corrispondente all’errore di 1° tipo
scelto.
Limite fiduciale superiore = X + Zα/2 *(σ/√n).
Limite fiduciale inferiore = X - Zα/2 *(σ/√n).
Di solito l’intervallo di confidenza intorno alla media viene indicato come: X ± Zα/2 *(σ/√n)
Dottorato di medicina molecolare 2002-2003 -
52
Un’altra definizione dell’intervallo di confidenza è ‘l’intervallo di valori della media
campionaria che non avrebbe portato al rifiuto dell’ipotesi nulla’.
Ripetendo un campionamento dalla stessa popolazione ci aspettiamo che, se vale
l’ipotesi nulla, la proporzione di campioni il cui intervallo di confidenza non comprende il
valore della media corrispondente all’ipotesi nulla sia pari al valore dell’errore di 1° tipo.
Dati i 50 campioni dell’esercizio precedente, osserviamo che in tre casi l’intervallo di
confidenza non comprende la media.
Dottorato di medicina molecolare 2002-2003 -
53
Esempio: calcolo dell’intervallo di confidenza nel caso del primo esempio:
N
15
Media campionaria
149.133 mmHg (calcolo omesso)
µ=145 mmHg
δ=2,53 mmHg
Limite superiore = 149.133 + 1.960 *(2,53/√15) = 147,85
Limite inferiore = 149.133 – 1.960 *(2,53/√15) = 150,41
147,85 <= µ <=150,41
Dottorato di medicina molecolare 2002-2003 -
54
Il test t di Student
Spesso non abbiamo informazioni sul parametro e la statistica campionaria è calcolata
proprio per avere informazioni relative al valore (ignoto) del parametro.
In questo caso la soluzione adottata è quella di stimare la varianza della popolazione in
base alla varianza del campione.
Si dimostra infatti che l’Atteso della varianza campionaria è la varianza della popolazione,
se il denominatore è (n-1).
La varianza del campione però è affetta da variabilità casuale rispetto alla varianza della
popolazione, a causa del campionamento. Pertanto non potremo usare statistiche basate
sulla distribuzione normale standardizzata, che risulterebbe troppo poco conservativa.
Gosset (che pubblicava con lo pseudonimo di Student) propose di utilizzare una famiglia
di distribuzioni, con forma simmetrica e con ampiezza dipendente dal numero di
osservazioni del campione: le funzioni di distribuzione t (o t di Student).
Dottorato di medicina molecolare 2002-2003 -
55
Dottorato di medicina molecolare 2002-2003 -
56
La distribuzione t per 30 gradi di libertà è praticamente una distribuzione normale
standardizzata. Si noti che i valori di probabilità cumulativa esterni ad un dato valore di X
sono maggiori man mano che si riduce il numero di gradi di libertà.
La probabilità corrispondente all’intervallo tra un dato X e
∞ si legge su apposite tabelle.
Si noti che i valori di probabilità corrispondenti ad un dato valore di t cambiano con il
numero di gradi di libertà.
Dottorato di medicina molecolare 2002-2003 -
57
Dottorato di medicina molecolare 2002-2003 -
58
Dottorato di medicina molecolare 2002-2003 -
59
Dottorato di medicina molecolare 2002-2003 -
60
Possiamo anche utilizzare la funzione distrib.t di EXCEL (o analoghi), che fornisce il
valore di probabilità corrispondente.
Dottorato di medicina molecolare 2002-2003 -
61
Inferenza sulle medie basata sull’uso della distribuzione t
Nell’inferenza sulle medie basata sull’uso della distribuzione t dobbiamo distinguere tre
diversi casi:
- Confronto tra un campione e la media della popolazione
- Confronto tra due campioni indipendenti
- Confronto tra due campioni appaiati
Dottorato di medicina molecolare 2002-2003 -
62
Confronto tra un campione e la media della popolazione – test t
Il test è analogo al test Z ma tiene conto del fatto che la varianza è stimata dal campione:
tgl = (X - µ)/ (s/√n).
X: media campionaria
µ: media della popolazione
s: deviazione standard del campione
(s/√n): errore standard della media (cioè deviazione standard della media campionaria)
n: numerosità del campione
il numero di gradi di libertà è gl= n-1
Il test è di tipo parametrico, cioè è valido a condizione che:
Dottorato di medicina molecolare 2002-2003 -
63
- nella popolazione la variabile sia distribuita secondo la distribuzione di probabilità
gaussiana;
- il campione abbia la stessa varianza della popolazione.
La prima assunzione è generalmente vera dato il teorema del limite centrale (sempre che
n sia sufficientemente grande e la forma della distribuzione della popolazione sia
simmetrica o almeno non sia troppo asimmetrica).
La seconda è vera se vale H0 (il campione appartiene alla popolazione), mentre non è
valutabile altrimenti.
Dottorato di medicina molecolare 2002-2003 -
64
Esempio
Confronto della pressione sistolica tra un gruppo di pazienti affetti da una nuova forma di
arteriopatia con la popolazione generale (è l’esempio precedente, sviluppato senza fare
uso della informazione sulla deviazione standard della popolazione).
H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione
arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è nata osservando che i
primi casi diagnosticati avevano valori pressori molto elevati
H0= media della popolazione: pressione sistolica 145 mmHg
test a due code (sebbene l’ipotesi di lavoro sia indirizzata maggiormente verso un rialzo
pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda)
errore 1°tipo =0.05
numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti disponibili.
Non è stata calcolata la potenza statistica
Dottorato di medicina molecolare 2002-2003 -
65
Test statistico: test t(confronto tra una media campionaria e la media della popolazione,
senza dati sulla deviazione standard della popolazione).
Requisiti del test scelto:
La deviazione standard della misura della pressione della popolazione non è nota
La distribuzione della variabile nella popolazione è gaussiana, pertanto anche piccoli
campioni saranno distribuiti secondo tale distribuzione.
Dottorato di medicina molecolare 2002-2003 -
66
I dati individuali:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
pressure (mmHg)
155
145
165
134
154
130
161
139
140
143
157
148
165
152
149
Dottorato di medicina molecolare 2002-2003 -
67
Le statistiche campionarie
N
Mean
Std Deviation
15
149.133333
10.7229172
Variance
114.980952
I parametri necessari per il test
µ=145 mmHg
s= Std Deviation
10.7229172
Il valore della statistica t (errore 1° tipo <= 0,05 e test a due code, 14 gl) = 2,145
Dottorato di medicina molecolare 2002-2003 -
68
Il calcolo del test
t14 = (X - µ)/ (s/√n).
t14 = (149.133 - 145) / (10.7/√15) =
= 1,496
Conclusione = non rifiuto l’ipotesi nulla.
Dottorato di medicina molecolare 2002-2003 -
69
Intervallo di confidenza basato sul test t
Possiamo anche definire un intervallo di confidenza della media campionaria basandoci
sul test e sulla distribuzione t
L’intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione:
[X - tgl,α/2 *(s/√n)] < µ < [X + tgl,α/2 *(s/√n)].
Dove:
tgl,α/2= valore della funzione t con il numero dato di gradi di libertà corrispondente all’errore
di 1° tipo scelto.
Limite fiduciale superiore = X + tgl,α/2 *(s/√n).
Limite fiduciale inferiore = X - tgl,α/2 *(s/√n).
Dottorato di medicina molecolare 2002-2003 -
70
Esempio: calcolo dell’intervallo di confidenza
Risultati:
N
15
Media campionaria
149.1 mmHg (calcolo omesso)
µ=145 mmHg
s= 10.72 mmHg
Il valore della statistica t (errore 1° tipo <= 0,05 e test a due code, 14 gl) = 2,145
Limite superiore = 149.1 + 2,145 *( 10.72/√15) = 154,56 mmHg
Limite inferiore = 149.1 – 2,145 *( 10.72/√15) = 143,71 mmHg
Dottorato di medicina molecolare 2002-2003 -
71
Estrazione di 50 campioni di numerosità 20 da una distribuzione gaussiana con µ=0 e δ ignota. L’errore standard è
stato calcolato in base alla distribuzione t.
Le barre rappresentano l’intervallo di confidenza al 95%. Si noti che le barre sono di ampiezza diversa tra loro.
1 .0
0 .5
0 .0
µ
-0 .5
-1 .0
-1 .5
ID
Dottorato di medicina molecolare 2002-2003 -
72
Confronto tra due campioni indipendenti – test t
Il caso dei campioni con la stessa varianza
Nel caso del confronto tra due campioni indipendenti il test è costruito per valutare la
probabilità (data H0) della differenza osservata tra le medie dei due campioni,
correggendo per l’errore standard.
Il calcolo della differenza tra le due medie non pone difficoltà
∆x = (X1–X2);
Il calcolo dell’errore standard richiede l’individuazione di un valore comune della varianza.
Questo valore può essere stimato se i due campioni appartengono alla stessa
popolazione (H0) oppure a due popolazioni diverse (H1) ma con varianza uguale.
In tal caso si potrà calcolare uno stimatore comune dell’errore standard.
Dottorato di medicina molecolare 2002-2003 -
73
Nel caso di due campioni con varianza comune, lo stimatore migliore della varianza
comune è la media delle due varianze campionarie, pesata per il numero di gradi di
libertà di ciascun campione.
2
2
(
)
(
)
n1 − 1 s1 + n2 − 1 s2
2
S =
(n1 − 1) + (n2 − 1)
Σ (x
=
2
1
− x ) + Σ (x
1
(n1 + n2 − 2 )
= somma delle devianze / gradi di libertà
σ σ
var  x − x  = 1 + 2
2 
 1
n1 n2
2
Si consideri che:
Quindi ES(X1–X2)
2
= √(s2/n1 + s2/n2) = √s2 * (1/n1 + 1/n2)
tgl = (X1–X2) / ES(X1–X2). = (X1–X2) / [√s2 * (1/n1 + 1/n2)]
Dottorato di medicina molecolare 2002-2003 -
74
2
2
− x2
)
Esempio:
In un laboratorio si intende confrontare l’effetto di due differenti diete sulla crescita di ratti.
La tabella indica l’incremento di peso conseguito in 60 giorni.
H lavoro: la dieta 1 consente una più veloce aumento di peso.
H0: le due diete sono uguali per quanto riguarda l’aumento di peso.
Test a 2 code
Errore di primo tipo= 0.05
Numerosità campionaria definita in base al numero di animali già trattati con le due diete
Errore di 2° tipo non misurato
Test t-Student (confronto tra medie di 2 campioni indipendenti)
requisiti
La distribuzione del peso degli animali è gaussiana.
Gli animali sono dello stesso ceppo, si suppone quindi che la varianza del peso sia la
stessa e che le due diete non modifichino la varianza comune.
Dottorato di medicina molecolare 2002-2003 -
75
I dati:
Dieta 1
134
146
104
119
124
161
107
83
113
129
97
123
Dieta 2
70
118
101
85
107
132
94
X1 = 120.0
X2 = 101.0
n1 = 12
n2 = 7
Dottorato di medicina molecolare 2002-2003 -
76
S2 = {Σ(x1–X1)2 + Σ(x2–X2)2} / [(n1 + n2 -2)]
Σ(x1–X1)2 = 5032,00
Σ(x2–X2)2 = 2552,00
S2 = {5032 + 2552} / 17 = 446.12
ES(X1–X2)
= √s2 * (1/n1 + 1/n2)
ES(X1–X2)
= √446.12 * (1/12 + 1/7)
= √100.90
= 10.04
t17 = (120.0–101.0) / 10.04.
= 1.89
p=0.076
Dottorato di medicina molecolare 2002-2003 -
77
Il test t può essere agevolmente calcolato utilizzando la funzione test.t di Excel (o
analoghi). La stessa funzione effettua il test t nelle tre diverse condizioni, assegnando i
codici appropriati al campo ‘Tipo’ (1= appaiato; 2 non appaiato omoscedastico; 3: non
appaiato eteroscedastico).
Dottorato di medicina molecolare 2002-2003 -
78
Calcolo dell’intervallo di confidenza sulla differenza tra le medie – test t.
L’intervallo di confidenza viene calcolato rispetto alla differenza delle medie campionarie.
Indichiamo tale differenza come ∆X
[∆X - tgl,α/2 *(s/√n)] < (x1 – x2) < [∆X + tgl,α/2 *(s/√n)].
Dove:
tgl,α/2= valore della funzione t (con il numero dato di gradi di libertà) corrispondente
all’errore di 1° tipo scelto.
s: deviazione standard comune
n: (1/n1 + 1/n2)
Limite fiduciale superiore = X + tgl,α/2 *(s/√n).
Limite fiduciale inferiore = X - tgl,α/2 *(s/√n).
Dottorato di medicina molecolare 2002-2003 -
79
Calcolo dell’intervallo di confidenza (continua dall’esempio precedente)
[∆X - tgl,α/2 *(s/√n)] < (x1 – x2) < [∆X + tgl,α/2 *(s/√n)].
∆X = (x1 – x2) = 19.0
t17,0.05/2 = 2.110
ES(X1–X2) = ES(∆X) = 10.04
Limiti di confidenza= 19.0 ± 2.110 *10.04 = -2.2; 40.2
Dottorato di medicina molecolare 2002-2003 -
80
Confronto tra due campioni appaiati
E (X1–X2) = µ1 - µ2
Ma
s12 + s22 < δ12 + δ22
Calcolo differenze d tra le osservazioni appaiate
d1= x1 - x2
calcolo quindi media e varianza di d, usando le formule consuete.
Calcolo quindi la statistica t con gl= (n.osservazioni – 1).
Dottorato di medicina molecolare 2002-2003 -
81
I dati
trattamento
placebo
1
19
22
2
11
18
3
14
17
4
17
19
5
23
22
6
11
12
7
15
14
8
19
11
9
11
19
10
8
7
Differenza media = - 1,30
diff
-3
-7
-3
-2
1
-1
1
8
-8
1
n = 10
S2 = Σ(d1–D)2 / (n)
= 186,1 / 9 = 20,68
ES(d)
= √s2/ 1/n
= √20,68 / 10 = √2,068 = 1,438
t9 = -1,30 / 1,438
= - 0,90
p=0.39
Dottorato di medicina molecolare 2002-2003 -
82
Calcolo dell’intervallo di confidenza sulla differenza tra le medie.
L’intervallo di confidenza viene calcolato rispetto alla differenza media.
[D - tgl,α/2 *(s/√n)] < (x1 – x2) < [D + tgl,α/2 *(s/√n)].
Dove:
tgl,α/2= valore della funzione t (con il numero dato di gradi di libertà) corrispondente
all’errore di 1° tipo scelto.
s: deviazione standard della differenza
n = numero di osservazioni
Limite fiduciale superiore = D + tgl,α/2 *(s/√n).
Limite fiduciale inferiore = D - tgl,α/2 *(s/√n).
Dottorato di medicina molecolare 2002-2003 -
83
Calcolo dell’intervallo di confidenza (continua dall’esempio precedente)
D = - 1,30
T9,0.05/2 = 2.262
ES(D) = 1,438
Limiti di confidenza= -1,30 ± 2.262*1,438 = -4,55; 1,95
Dottorato di medicina molecolare 2002-2003 -
84
La verifica dei requisiti di normalità sarà considerata in una delle prossime lezioni.
In modo approssimato si può:
1. tenere conto che la distribuzione di campionamento è sempre normale
quando i campioni sono grandi. n> 30 garantisce la anormalità della
distribuzione dei campioni anche se la distribuzione di base è
asimmetrica.
2. Disegnare un istogramma, che deve essere simmetrico
3. Utolizzare una procedura (grafici QQ o PP in SPSS) che effettua il test
di normalità.
Dottorato di medicina molecolare 2002-2003 -
85
Dottorato di medicina molecolare 2002-2003 -
86
Il caso di due campioni con varianze diverse esula da questo programma (si può
comunque affrontare con i test non parametrici , considerati nelle prossime lezioni.
Dottorato di medicina molecolare 2002-2003 -
87