Lezione 4 - distribuzione gaussiana e inferenza

Statistica Inferenziale
• Generalizzare i risultati ottenuti da un
insieme campione alla popolazione dal
quale esso è stato estratto
Modello
Struttura idealizzata che si adatta alla
realtà e serve per descriverla, interpretarla,
comprenderla
Non è VERO o FALSO
ma può essere UTILE o INUTILE
È una semplificazione:
…il più semplice possibile, …ma non di più
Distribuzione Normale o Gaussiana
 1  x − µ  2 
1
f(x) =
exp − 
 
σ 2π
 2  σ  
Sembra complicato, ma…
µ è la media
σ è Var, ovvero la deviazione standard
forma simmetrica a campana
area sotto la curva pari a 1
Conoscendo solo due parametri, media e varianza
varianza,
possiamo sapere come è fatta la variabile di interesse
Caratteristiche della distribuzione gaussiana
X~N(µ,σ)
µ determina la
posizione della
curva sull’asse
delle ascisse.
σ determina la
maggiore o minore
concentrazione della
curva attorno a µ
Caratteristiche della distribuzione gaussiana
Per qualsiasi distribuzione gaussiana lo scarto σ contrassegna
intervalli tipici:
• il
• il
• il
• il
68.27% delle oss. è compreso nell’intervallo [µ-σ; µ+σ]
95% nell’intervallo [µ-1.96σ; µ+1.96σ]
95.45% nell’intervallo [µ-2σ; µ+2σ]
99.73% nell’intervallo [µ-3σ; µ+3σ]
Distribuzione Normale standard (µ
(µ=0,
=0,σ
σ=1)
I valori di probabilità della Normale con µ=0 e σ=1 sono già stati calcolati e
riportati in una tavola:
Z~N(0,1)
Come si usano le tavole?
0.8944
ad es. P(Z<1.25)=
0.8944
Come si usano le tavole?
f(z)
0.4
Detto p (0<p<1) il valore
dell'area a destra di +z*,
l'area a sinistra di +z* vale
(1-p).
0.3
1-p
0.2
p
0.1
0
-3
-2
-1
0
z* 2
1
3
deviata gaussiana standard z
f(z)
0.4
0.3
1-2p
0.2
p
p
0.1
0
-3
-2 -z* -1
0
1 +z*2
3
L'area a sinistra di -z* è
uguale all'area a destra di +z*.
Detto p (0<p<1) il valore di tale
area, l'area esterna a ±z* vale
2p, e l'area interna vale (1-2p).
deviata gaussiana standard z
f(z)
0.4
0.3
1-p 1 -p 2
0.2
0.1
p1
0
-3
-2
p2
z-1
1
0
z21
2
deviata gaussiana standard z
3
L'area compresa tra due valori
z1* < z2*
si
ricava
per
differenza (1 - p1 - p2), dove p1 è
il valore dell'area a sinistra di
z1*, e p2 quello dell'area a
destra di z2*.
Distribuzione Normale (µ
(µ≠0,
≠0,σ
σ≠1)
E’ possibile trasformare una qualsiasi funzione gaussiana
f(x) con media µ e varianza σ2 in una funzione gaussiana
standard, f(z) con media 0 varianza 1, se si pone:
standard
Z=
X −µ
σ
Z è una trasformata di X, centrata rispetto a µ e scalata
rispetto a σ.
Il modello si semplifica…
 1  x − µ 2 
1
f(x) =
exp− 
 
2
σ
σ 2π
 
 
E diventa…
 (z) 2 
1
f(x) =
exp−

2
2π


Spostare il valore medio: xx-µ
0
µ
x
Modificare la larghezza
−σ -1
0
+1 +σ
xz
Gaussiana (µ σ²)
Gaussiana standardizzata (0 1)
Utilizzo gaussiana standard
I caso:
I parametri µ e σ sono noti, si vuole conoscere la
probabilità che la variabile x assuma valori compresi
all’interno dell’intervallo a,b con a<b.
II caso:
I parametri µ e σ sono noti, si vogliono conoscere gli
estremi a,b dell’intervallo, centrato su µ, il quale comprende
un livello di probabilita’ fissato p.
Esercizio 1
Data la distribuzione normale standardizzata, si trovi:
1.
2.
3.
4.
5.
6.
7.
8.
9.
L’area sottesa alla curva fra z=0 e z=1.43
P(z<1.43)-P(z<0)=0.9236-0.5000
P(z≥0.55)
1-P(z<0.55)=1-0.7088
P(z≥-0.55)
P(z<0.55)=
P(z<2.33)
0.4236
=_____
0.2912
=_____
0.7088
=_____
0.9901
=_____
P(z<-2.33)
0.0099
P(z>2.33)=1-P(z<2.33)=1-0.9901
=_____
P(-1.96<z<1.96)
0.95
1-2*P(z>1.96)=1-2*(1-P(z<1.96))=1-2*(1-0.9750)=1-2*0.025 =_____
P(-2.58<z<2.58)
0.9902
1-2*P(z>2.58)=1-2*(1-P(z<2.58))=1-2*(1-0.9951)=1-0.0098 =_____
P(-1.65<z<1.65)
0.901
1-2*P(z>1.65)=1-2*(1-P(z<1.65))=1-2*(1-0.9505)=1-0.099 =_____
P(0.49<z<1.74)
0.2712
P(z<1.74)-P(z<0.49)=0.9591-0.6879=
=_____
Esercizio 2
Date le seguenti relazioni, si trovi z1:
10. P(z≤z1)=0.7703
0.74
z1 =_____
11. P(z≤z1)=0.6103
0.28
z1 =_____
12. P(z≤z1)=0.9664
1.83
z1 =_____
13. P(z≤z1)=0.8051
0.86
z1 =_____
Esercizio 3
Qual è la probabilità per un soggetto “sano” di avere
un valore di albumina (x) ≥42.0 g/l?
P(x ≥42.0) = ?
Se si dispone della distribuzione dei valori
della concentrazione sierica di albumina
in soggetti “sani”…
Albumina (g/l)
Freq.
%
% cum.
20|-22
2
0.95
0.95
22|-24
7
3.32
4.27
24|-26
8
3.79
8.06
26|-28
10
4.74
12.80
28|-30
20
9.48
22.27
30|-32
19
9.00
31.28
32|-34
28
13.27
44.55
34|-36
40
18.96
63.51
36|-38
28
13.27
76.78
38|-40
22
10.43
87.20
40|-42
11
5.21
92.42
42|-44
10
4.74
97.16
44|-46
3
1.42
98.58
46|-48
2
0.95
99.53
48|-50
1
0.47
100.00
Totale
211
100.00
Concentrazione
sierica di albumina
in soggetti “sani”
P(x ≥ 42.0 g/l) = ?
16/211=7.58%
100-92.42=7.58%
Esercizio 3
Se si conosce solo media (=34.21 g/l)
e deviazione standard (=5.39 g/l)
se la distribuzione dei valori è approssimativamente gaussiana
posso trasformare la variabile un una gaussiana standard ~N(0,1)
z=
(x− µ)
σ
z=
(42 − 34 .21)
= 1 .45
5 .39
P(X≥42)=P(Z≥1.45)=1-P(Z<1.45)
=1-0.9265=0.0735=7.35%
X
Z
Freq.
%
% cum.
21
-2.45
2
0.95
0.95
23
-2.08
7
3.32
4.27
25
-1.71
8
3.79
8.06
27
-1.34
10
4.74
12.80
29
-0.97
20
9.48
22.27
31
-0.60
19
9.00
31.28
33
-0.22
28
13.27
44.55
35
0.15
40
18.96
63.51
37
0.52
28
13.27
76.78
39
0.89
22
10.43
87.20
41
1.26
11
5.21
92.42
43
1.63
10
4.74
97.16
45
2.00
3
1.42
98.58
47
2.37
2
0.95
99.53
49
2.74
1
0.47
100.00
211
100.00
Tot
CON LA
TRASFORMAZIONE
z=
(x − µ )
σ
Valori
standardizzati
m=0
s=1
Gli ZZ-score
… indicano esattamente quanto un singolo dato è lontano
dalla media descrivendo la sua posizione in unità di
deviazione standard.
Quando trasformiamo un valore grezzo in questa maniera,
chiameremo il risultato della trasformazione
valore della distribuzione gaussiana standardizzata
o punteggio standard o z-score
Un punteggio standard,
standard abbreviato con z
è un modo per esprimere ogni valore grezzo
in termini di unita di d.s.
Esercizio 4
Dalla letteratura scientifica risulta che in una popolazione
apparentemente sana il valore dell’HDL (high density
lipoprotein) colesterolo ha
µ = 57 mg/100ml e σ = 10 mg/100ml
Sapendo che i valori dell’HDL si distribuiscono in modo
approssimativamente gaussiano, si vuole stimare la
probabilità che un soggetto “sano” abbia
valori di HDL < 45 mg/100ml
z = (45-57)/10 = -1.2
P(x≤45) = P(Z ≤ -1.2) = 1-P(Z≤1.2)=1-0.8849 = 0.1151 (11.51%)
-1.2
z
0
P(Z ≤ -1.2) =
P(Z ≥ 1.2) =
1-P(Z ≤ 1.2)
z
0
1.2
Si vuole stimare ora la probabilità che un soggetto abbia
valori di HDL compresi tra 45 mg/100 ml e 60 mg/100ml.
z1 = (45-57)/10 = -1.2
z2 = (60-57)/10 = 0.3
P(45 ≤X≤ 60) = P(-1.2 ≤Z≤ 0.3) = P (0.3)- P(z≤-1.2)=
0.6179-0.1151=0.5028 = 50.28%
media
0.1151
0.6179
50.3%
45 60
|
|
-1.2 +0.3
Esercizio 5
Dopo diversi sondaggi un fabbricante di calze da donna arriva alla
conclusione che la lunghezza del piede di una donna adulta
segue una legge normale con parametri µ=24 e σ=3 cm. Decide
di utilizzare tale distribuzione per determinare le taglie e le
quantità corrispondenti da mettere in produzione. Si chiede:
In quale percentuale di casi si osserva una lunghezza di piedi:
Superiore rispettivamente a 25, 30, 36 cm.
Inferiore rispettivamente a 15, 20, 21 cm.
Esercizio 5
µ = 24 σ = 3
P(X>25)=P(Z>(25-24)/3)=P(Z>0.33)=1-P(Z<0.33)=1-0.6293=0.3707
P(X>30)=P(Z>(30-24)/3)=P(Z>2)=1-P(Z<2)=1-0.9772=0.0228
P(X>36)=P(Z>(36-24)/3)=P(Z>4)=1-P(Z<4)=1-1.0000=0.0000
P(X<15)=P(Z<(15-24)/3)=P(Z<-3)=1-P(Z<3)=1-0.9987=0.0013
P(X<20)=P(Z<(20-24)/3)=P(Z<-1.33)=1-P(Z<1.33)=1-0.9082=0.0918
P(X<21)=P(Z<(21-24)/3)=P(Z<-1)=1-P(Z<1)=1-0.8413=0.1587
Esercizio 6
Il signor W.P. è tenuto sotto controllo e la sua pressione
sanguigna media in molte occasioni è 85 mmHg. Si supponga che
la sua vera deviazione standard per misure singole sia 6 mmHg.
Quante volte vi aspettereste una lettura di 95 mmHg o
superiore?
µ= 85
σ=6
Supponendo ragionevolmente che la pressione sanguigna
sia normalmente distribuita:
P(X≥95)=P(Z≥(95-85)/6)=P(Z≥1.67)=1-P(Z<1.67)=
1-0.9525=0.0475
cioè, circa il 5% delle volte.
Statistica Inferenziale
Generalizzare i risultati ottenuti da un insieme
campione alla popolazione dal quale esso è stato
estratto
Stima dei parametri
• stima puntuale
• stima intervallare
Verifica d’ipotesi (test)
Stima puntuale: la media campionaria
Dato un campione che si ritiene rappresentativo
della popolazione, possiamo ritenere che la media
calcolata su questo campione fornisca una buona
stima della media ignota della popolazione da cui
il campione è stato tratto?
Stima puntuale: la media campionaria
Si supponga di aver individuato una popolazione I di interesse
composta da N unità. Da questa popolazione estraiamo tutti i
possibili campioni di una determinata ampiezza n
IN=4={1, 3, 5, 7}
N=4
n=2
x
fi
(x-µ)
(x-µ)2
1
1
-3
9
3
1
-1
1
5
1
1
1
7
1
3
9
4
0
20
µ=
1 + 3 + 5 + 7 16
=
=4
4
4
20
σ =
=5
4
2
Quali sono tutti i possibili campioni di ampiezza n=2 che possono
venire estratti da tale popolazione? (42=16)
1 1; 1 3; 1 5; 1 7; 3 1; 3 3; 3 5; 3 7;
5 1; 5 3; 5 5; 5 7; 7 1; 7 3; 7 5; 7 7.
Stima puntuale: la media campionaria
Si calcoli poi la media per tutti i campioni ottenuti di
dimensione n=2.
Possibili campioni
1 1
1 3; 3 1
1 5; 3 3; 5 1
1 7; 3 5; 5 3; 7 1
3 7; 5 5; 7 3
5 7; 7 5
7 7
fi
xi
1
2
3
4
3
2
1
16
1
2
3
4
5
6
7
Medie campionarie
Distribuzione delle
medie campionarie
Cosa osserviamo?
Stima puntuale: la media campionaria
Solo 4 dei possibili 16 campioni hanno una media
campionaria che coincide con la vera media della
popolazione. I restanti campioni hanno una media che si
discosta da 4 per più o meno 3 unità (da 1 a 7).
Le medie dei diversi campioni variano perché estraiamo
dei singoli componenti da una popolazione che è a sua
volta distribuita in un campo più o meno vasto di valori.
Stima puntuale: la media campionaria
Dalla distribuzione di campionamento relativa alle medie
campionarie, si possono ora calcolare le due misure di posizione e
dispersione principali, e cioè la media e la varianza.
xi
fi
x i × fi
(x i − x )2 × fi
1
2
3
4
5
6
7
1
2
3
4
3
2
1
16
1
4
9
16
15
12
7
64
9
8
3
0
3
8
9
40
E( x )= x =64/16=4
E( x )=µ
2
Var(
x
)=σ
/n
(
)
Var x = 40 / 16 = 2.5
n=2 in questo
esempio
Stima puntuale: la media campionaria
ATTENZIONE!
Per evitare confusione di terminologia…
σ della media campionaria viene chiamato
errore standard
E’ una misura che indica la dispersione delle
medie calcolate nei singoli campioni, rispetto
alla media delle medie.
Errore standard
Per inciso…
Si calcola in modo diverso a seconda della stima
campionaria che stiamo considerando
Media campionaria
ES(m) =
σ
oppure: ES(m) =
n
s
n
Differenza tra due medie
ES(m1– m2) =
σ 12
n1
+
σ
2
2
n2
oppure: ES(m1– m2) =
Proporzione
ES(p) =
p (1 − p )
n
sp =
sp
1
1
+
n1
n2
s12 ( n1 − 1) + s 22 ( n 2 − 1)
n1 + n 2 − 2
Stima puntuale
Finora abbiamo considerato cosa succede in una
situazione ipotetica in cui estraiamo n campioni da una
popolazione nota
Nella realtà, in genere, disponiamo di un solo campione e
la popolazione da cui è stato estratto non è nota
Stima puntuale
Il principio che ha consentito di ottenere la distribuzione
della media campionaria può essere applicato a qualsiasi
altra statistica calcolata sul campione:
ad es.
varianza campionaria,
mediana campionaria,
prevalenza,
proporzione,
ecc...
La precisione di una stima
dipende:
- dalla numerosità (n) del campione
- dalla variabilità (d.s.) del fenomeno
Se il fenomeno è “poco variabile” è sufficiente un
campione di ridotte dimensioni per ottenere una stima
attendibile dei parametri della popolazione.
Se invece la variabilità è elevata, per ottenere una stima
attendibile occorre un campione di elevata numerosità.
La precisione di una stima
Se il fenomeno è “poco variabile” è sufficiente un
campione di ridotte dimensioni per ottenere una stima
attendibile dei parametri della popolazione;
Media della popolazione
Ho una probabilità elevata di
estrarre valori vicino alla media µ
indipendentemente da n, ho
stime piuttosto precise
La precisione di una stima
Se la variabilità è elevata, per ottenere una stima
attendibile occorre un campione di elevata numerosità.
Media della popolazione
Se n è piccolo ho una probabilità
bassa di estrarre valori vicino alla
media µ
Se n è grande ho una probabilità
elevata di estrarre valori vicino
alla media µ
Per ottenere stime precise
devo avere un campione
molto numeroso
Stima puntuale e stima intervallare
Con la stima puntuale non si è certi di individuare in modo
esatto il vero valore del parametro che si vuole stimare
Da diversi campioni si otteranno stime diverse
Per tener conto di questa incertezza è opportuno
presentare, accanto alla stima puntuale, un intervallo di
valori plausibili
plausibili:
Intervallo di Confidenza
Intervallo di confide
confidenza
nza al (1(1-α)%
IC(1-α)(µ) = m ± zα/2 × e.s.(m)
Livello di confidenza
Stima Valore soglia
puntuale
Determinato in base al modello (z)
che interpola i dati e al livello
di confidenza (1-α)
Errore standard
del parametro
L'intervallo di confidenza varia casualmente attorno al parametro µ,
ed ha probabilità pari a (1-α) di includere il parametro µ della variabile x
_
f(x)
0.4
0.3
0.2
(1−α)
α/2
α/2
0.1
0
l
µ− zσ/√ n
INTERVALLO DI
PROBABILITA'
|
_
µ
|
_
l
|
µ+ zσ/√ n
_
x+z σ/√n
x-z σ/√ n
x
UN INTERVALLO DI CONFIDENZA
Ciò significa che, benché sia impossibile risalire da una stima campionaria
al vero valore del parametro µ di un universo, è però possibile
determinare attorno a tale stima un intervallo che ha una prefissata
probabilità (1-α) di includere il parametro µ di quell'universo.
Esercizio 1
Se la media della pressione sistolica in un campione di uomini tra 45 e
65 anni è 126.4 mmHg (stima campionaria), allora si può ritenere che la
media della pressione sistolica di tutti gli uomini della popolazione di
riferimento sia anch’essa «più o meno» 126.4 mmHg?
«Più o meno»?
Sapendo che l’errore standard è pari a 7.4
e avendo scelto un livello di confidenza del 95%
α=0.05 zα/2= z0.025=1.96
IC95%(µ) = 126.4 ± 1.96×7.4 = (111.896 – 140.904)
INTERPRETAZIONE non conosco il vero valore della pressione
INTERPRETAZIONE:
sistolica media nella popolazione, ma, data la stima campionaria che ho
osservato (126.4 mmHg), sono confidente al 95% che l’intervallo
111.894 e 140.904 contenga la vera media
Esercizio 2
In una popolazione di soggetti sani il livello medio di protrombina è
distribuito in modo approssimativamente gaussiano, con media µ=20
mg/dl e deviazione standard σ=4 mg/dl.
In un campione di 40 pazienti con deficit di vitamina K si è riscontrato
un livello medio di protrombina di 18.8 mg/dl.
Nonostante la differenza osservata (18.8 vs 20.0) si può ritenere che
il vero valore medio (µ) di protrombina dei pazienti con deficit di
vitamina K sia pari a quello della popolazione dei sani?
IC95%(µ) = 18.8 ± 1.96×4/√40 = 18.8 ± 1.96×0.63 = (17.57 – 20.03)
σ
E.S .(x ) =
n
Esercizio 2
INTERPRETAZIONE
IC95%(µ) = 18.8 ± 1.96×4/√40 = 18.8 ± 1.96×0.63 = (17.57 – 20.03)
In base ai risultati ottenuti posso affermare che il valore medio di
protrombina dei pazienti con deficit di vitamina K è un valore
compreso tra 17.57 e 20.03.
Ho la quasi certezza (con la confidenza del 95%) che la protrombina
media dei pazienti con deficit di vitamina K sia uguale a quella della
popolazione sana.
Questa affermazione potrebbe anche essere falsa, perché c’è una
probabilità del 5% che l’intervallo di confidenza non contenga il vero
valore di µ.
Esercizio 2
E se volessi una maggiore certezza?
Calcolo l’intervallo di confidenza al 99%
IC99%(µ) = 18.8 ± 2.58×4/√40 = 18.8 ± 2.58×0.63 = (17.17 – 20.43)
IC(95
95%):
(17.57 - 20.03)
99%):
IC(99
(17.17 - 20.43)
“confidenza” maggiore
intervallo più ampio
Esercizio 3
Si vuole stimare il vero valore medio dell'uricemia in una
popolazione maschile: è noto che in tale popolazione la
dispersione dell'uricemia è = 1.1 mg/dl.
Si richiede che la confidenza sia del 95%.
Esercizio 3
Si supponga ora di estrarre un campione casuale di 40
soggetti dalla popolazione, di determinare il valore di
uricemia di ognuno dei 40 soggetti, e di calcolare la media
di tali valori (x =5.55 mg/dl). Si ricava che l'intervallo di
confidenza della media al 95% vale:
I.C.95% = 5.55 ± 1.96×
1.1
= 5.55 ± 0.34 = (5.21, 5.89)
40
E.S .(x ) =
σ
n
Posso affermare con una confidenza del 95% che l’ignoto
parametro µ è compreso tra 5.21 e 5.89 mg/dl
Come si decide con l’intervallo di confidenza?
L’intervallo di confidenza può essere utilizzato come “test” per
determinare se una stima sia significativamente diversa da un valore
fissato, oppure se le stime osservate in due gruppi siano diverse tra
loro
Se l’intervallo di confidenza della media
contiene il valore fissato
allora ritengo che le medie non siano significativamente diverse.
Se l’intervallo di confidenza della differenza tra le medie
contiene 0
allora ritengo che le medie non siano significativamente diverse.
Se l’intervallo di confidenza di un odds ratio o rischio relativo o
contiene 1
allora ritengo che non vi sia associazione tra fattore di rischio e malattia.
Esempio
Verifica d’ipotesi
Oltre all’intervallo di confidenza, per valutare la significatività di una
stima (media, differenza tra medie, proporzioni…) posso costruire un
sistema di ipotesi ed effettuare un test
Prima si definisce una
ipotesi nulla
H0: non c’è differenza/associazione
Poi una
ipotesi alternativa
H1: c’è differenza/associazione
Verifica d’ipotesi
Ad es. se si vogliono confrontare le medie di due campioni…
Ipotesi nulla
H0: µ1 = µ2
Ipotesi alternativa
H1: µ1 ≠ µ2
oppure H1: µ1 < µ2
oppure H1: µ1 > µ2
ipotesi bilaterale: α/2
ipotesi unilaterale: α
Verifica d’ipotesi: come si decide?
Se la differenza (o associazione) osservata tra i gruppi
è abbastanza forte in confronto alla variabilità delle
misure presente all’interno dei gruppi allora è
ragionevole concludere che esiste il segnale.
(si rifiuta H0)
Se la differenza non è abbastanza forte rispetto alla
variabilità allora è ragionevole concludere che, in base
a quanto esaminato, non si ha evidenza che esista una
differenza.
(si accetta H0)
Verifica d’ipotesi: criterio di decisione
Si costruisce una statistica test,
test in base all’ipotesi nulla H0 che stiamo
testando e che dipende dalla distribuzione della variabile di interesse.
Si identifica una soglia di rifiuto e si calcola la probabilità ad essa
associata:
se la probabilità “p” è piccola si rifiuta H0
se “p” è grande non si rifiuta H0
Nella letteratura medica generalmente si usano
due valori di probabilità (o livelli di significatività)
quali soglie per costruire una regola di decisione relativa al rifiuto di H0
altamente significativo: p<0.01
significativo: 0.01<p<0.05
non significativo: p>0.05
il risultato osservato
potrebbe essere
frutto del caso
Verifica d’ipotesi: criterio di decisione
Stabilire il criterio di decisione significa stabilire, per i valori
*
della media campionaria, una soglia x oltre la quale il risultato
sperimentale viene ritenuto incompatibile con l'ipotesi
H0 : µ = ϑ
_
f(x)
0.5
H1
H0
0.4
0.3
_______
σ/√ n
0.2
0.1
0
_______
α/2
σ/√ n
α/2
(1−α)
|
µ=ϑ
β
|
x*
(1−β)
|
µ=ϑ+δ
_
x
Verifica d’ipotesi: possibili risultati
S E È V ERA H 0
SE È VERA H 1
... e in base al
campione
decido che
è vera H 0
decisione
giusta
protezione:
(1-α)
decisione
sbagliata
errore di 2° tipo:
β
... e in base al
campione
decido che
è vera H 1
decisione
sbagliata
errore di 1°
tipo:
α
decisione
giusta
potenza:
(1-β )
Analogia con i test di screening
0.5
0.4
Sani=H0
Malati=H1
Specificità
Sensibilità
0.3
% FP
% FN
0.2
σ√
σ√(2/n)
(2/n)
σ√
σ√(2/n)
(2/n)
0.1
β
(1-α)
α (1-β)
0
0
d*
δ
Valore soglia
Verifica d’ipotesi: possibili risultati
1. Abbiamo creduto di osservare un effetto che
non c’era (errore di 1° tipo).
2. Abbiamo osservato un effetto che c’era
veramente (potenza).
3. Abbiamo ritenuto che non ci fosse alcun effetto
quando invece c’era (errore di 2° tipo).
4. Non abbiamo osservato alcun effetto ed
effettivamente non c’era (protezione).
Intervalli di confidenza e test d’ipotesi
Gli intervalli di confidenza e la verifica di ipotesi
svolgono una funzione simile.
Se l’intervallo di confidenza al 95% include il valore sottoposto ad
ipotesi nulla (0 o 1), allora il valore di p sarà maggiore di 0.05.
Se l’intervallo di confidenza al 95% non include il valore sottoposto ad
ipotesi nulla (0 o 1), allora il valore di p sarà minore di 0.05.
Gli intervalli di confidenza sono generalmente da preferire perché
forniscono anche un range di valori plausibili rispetto al valore del
parametro cercato, mentre il test di ipotesi dice solo se rifiutare o non
rifiutare l’ipotesi nulla H0.
Esempio 1
Il valor medio di un parametro fisiologico (distribuito
in modo gaussiano) misurato nel corso di una vasta
indagine sulla popolazione italiana è risutato µ=50 con
σ=26.3.
In un campione di 25 individui residenti in una zona
sospetta di inquinamento da prodotti tossici si è
osservato un valore medio pari a 60.
Esiste una differenza significativa tra la media
campionaria e quella della popolazione?
Esempio 1
µ=50
z=
(60 − 50 )
26.3 25
σ=26.3
n=25
x = 60
α=0.05
H 0 : µ = 50

 H1 : µ ≠ 50
= 1.90
P(Z>1.90)=0.0287
Il valore di z calcolato è inferiore di zα 2 = 1.96 o,
equivalentemente, P(z > 1.90 )=0.028 > P(zα 2 > 1.96)=0.025.
Pertanto non si rifiuta l'ipotesi nulla.
Non esistono ragioni sufficienti per asserire che esiste
una differenza significativa tra la media campionaria e
quella della popolazione.
Esempio 2
In un campione di 24 pazienti affetti da malattia
parodontale, la media del fosforo inorganico titolato
nel plasma è stata x = 3.62 mg% . Il valore normale
fornito in bibiografia per il fosforo inorganico
plasmatico è µ=3.36 mg% con una deviazione
standard di 0.40 mg%.
Si può affermare che la patologia da cui sono affetti
i pazienti altera il valore del fosforo inorganico
plasmatico?
µ=3.36
σ=0.40
n=24
x = 3.62
α=0.01
Esempio 2
H0 : µ = 3.36

H1 : µ ≠ 3.36
z=
Con α=0.01,
(3.62 − 3.36)
0.40
24
=
0.26
= 3.186
0.0816
z α 2 = 2.58
Il valore di z calcolato è maggiore di zα 2 , si rifiuta
l’ipotesi nulla. La patologia da cui sono affetti i
pazienti altera il valore del fosforo inorganico
plasmatico.
Esempio 3
Esempio 3
INTERPRETAZIONE
Nel campione la densità minerale ossea a livello lombare
differisce in media di 0.08 g/cm2 (1.07 meno 1.00 con
arrotondamento).
Cioè, nel campione la densità minerale ossea media a livello
lombare è di 0.08 g/cm2 maggiore nelle donne normali
rispetto alle donne depresse.
L’intervallo di confidenza al 95% relativo alla
differenza tra le medie (da 0.02 a 0.14) fornisce un
range plausibile per la differenza vera.
L’intervallo di confidenza non contiene lo 0, la
differenza è statisticamente significativa.
Potenza del test (1(1-β)
Probabilità che un particolare studio sia in grado di
individuare una prefissata differenza dall’ipotesi nulla
nel caso in cui tale differenza esista.
La potenza deve essere calcolata
dopo aver stabilito
una definita differenza (δ) di interesse
clinico (µ1 = µ0 + δ)
Potenza del test
Visto che gli esperimenti generalmente si fanno
per dimostrare l’esistenza di differenze,
correndo spesso il rischio di non trovarle,
la probabilità di trovare una differenza quando esiste
è una cosa che interessa molto lo sperimentatore.
La potenza è la probabilità di concludere
che c’è una differenza
quando di fatto la differenza c’è davvero.
Potenza del test
Per vedere bene…
una formica
è sufficiente una
lente di ingrandimento
i batteri
ci vuole un microscopio
i virus
è necessario
un microscopio elettronico ...
Potenza del test
Quanto più piccolo è “l’oggetto” (la differenza
differenza)
che voglio “vedere”,
tanto maggiore deve essere
la capacità di ingrandire della lente
(la potenza del test)
Potenza (1
(1-β) vs differenza minima
osservabile (δ
(δ)
n = 40
σ = 4 mg/dl
1-β
α = 5%
δ
Numerosità campionaria (n) vs potenza (1(1-β)
δ = 2 mg/dl
σ = 4 mg/dl
n
α = 5%
1-β
Dimensione del campione
Tutto parte da un’indicazione dei clinici su:
Minima differenza che si ritiene rilevante
da un punto di vista clinico
Probabilità di commettere un errore di 1°tipo
che si ritiene accettabile
Probabilità di commettere un errore di 2°tipo
che si ritiene accettabile
Variabilità del fenomeno oggetto di studio
Prossima lezione
Merc 25 novembre
9:30-12:30