LEZIONI DI
STATISTICA MEDICA
A.A. 2010/2011
- Distribuzione binomiale
- Distribuzione Normale
Sezione di Epidemiologia & Statistica Medica
Università degli Studi di Verona
DISTRIBUZIONI TEORICHE DI PROBABILITA’
DISTRIBUZIONE DI PROBABILITA’: insieme delle probabilità
associate a tutti i possibili eventi casuali di uno spazio campionario
La somma delle singole probabilità deve dare 1.
Esempio
• Il lancio di 3 monete può casualmente portare a ottenere
da 0 a 3 teste.
S = {CCC , CCT , CTC , TCC , CTT , TCT , TTC , TTT }
La probabilità associata all’evento testa
per una moneta è 0.5.
L’evento composto dei 3 lanci porta ad una probabilità
specifica per ogni possibile esito.
Regola probabilità indipendenti:
P(0_T)=P(1°lancio sia C)*P(2°lancio sia C)*P(3°lancio sia C)=
=(1-0.5)*(1-0.5)*(1-0.5)=0.125
P(1_T)=P(1°lancio sia T)*P(2°lancio sia C)*P(3°lancio sia C) +
+ P(1°lancio sia C)*P(2°lancio sia T)*P(3°lancio sia C) +
+ P(1°lancio sia C)*P(2°lancio sia C)*P(3°lancio sia T) =
=(0.5)*(1-0.5)*(1-0.5)+
+(1-0.5)*(0.5)*(1-0.5)+
+(1-0.5)*(1-0.5)*(0.5) =0.375
P(2_T)=…………………=0.375
P(3_T)=…………………=0.125
OTTENIAMO:
N. TESTA
EVENTI
FAVOREVOLI
PROBABILITA’
0
1
0.125
1
3
0.375
2
3
0.375
3
1
0.125
• Esempi:
• Numero di figli maschi in una famiglia di 3 figli
• Numero di aborti su 4 gravidanze
• Numero di interventi di bypass coronarico riusciti su 10
interventi effettuati
• Numero di soggetti con ictus in un reparto di
cardiologia con 23 soggetti
VARIABILI CASUALI DISCRETE
La distribuzione di probabilità di una variabile casuale discreta
prevede che ad ogni possibile determinazione della variabile
casuale sia associata la probabilità del verificarsi di tale
determinazione.
Se le possibile determinazioni della variabile casuale sono k e se la
probabilità della determinazione i-esima (i=1,…,k) è indicata con
pi , allora:
1)
pi ≥0
2) Σi pi =1
ESPERIMENTO BERNOULLIANO
Solo 2 possibili esiti in ogni
prova:
Successo
Insuccesso
(S)
(I)
Pr(S)=π
Esempi:
Pr(I)=1-Pr(S)=1-π
1. Stato di vita
2. Lancio di una moneta
Prove
indipendenti
VARIABILE CASUALE BERNOULLIANA
Variabile che assume solo due valori con definite probabilità
X
f(X)
0
1-π
1
π
Esempio: Consideriamo la variabile casuale bernoulliana X= “Avere gruppo
sanguigno B”; sappiamo che la probabilità di appartenere a tale gruppo sanguigno vale
0.08. La sua distribuzione di probabilità sarà:
X= 1 avere gruppo sanguigno B
Pr(X=1)=0.08= π
X= 0 non avere gruppo sanguigno B
Distribuzione di
probabilità di X:
Pr(X=0)=1-0.08=0.92=1-
X
1
0
f(X)
0.08
0.92
π
Esempio (N=2): Calcoliamo la distribuzione di probabilità della
variabile casuale X= avere il gruppo B, su 2 soggetti presi a caso
dalla popolazione (prove indipendenti9.
no B, no B
B, not B
not B, B
B, B
X
0
1
1
2
f(X)
0.85
0.07
0.07
0.01
Pr(X=0)=(1- π)(1- π)=0.92*0.92=0.8464
Pr(X=1)=2*π(1- π)=2*0.08*0.92=0.1472
Pr(X=2)=π* π=0.08*0.08=0.0064
1.0
Esperimento bernoulliano ripetuto
0.5
0.0
0
1
2
DISTRIBUZIONE BINOMIALE
La distribuzione binomiale ‘modellizza’ la probabilità di n successi
su N esperimenti
ESEMPIO:
Numero di maschi in una famiglia di 3 figli ( la probabilità che un neonato
sia maschio è 0.52):
N u m e ro d i m a sc h i
P ro b a b ilità
0
1
2
3
0 .1 1
0 .3 6
0 .3 9
0 .1 4
DISTRIBUZIONE BINOMIALE
{
n!
x
(n− x)
P( X = x) =
p (1 − p )
x!(n − x)!
}
dove:
n!= n*(n-1)+(n-2)*…*2*1
Esempi:
•Numero di aborti su 4 gravidanze
•Numero di interventi di bypass coronarico riusciti su 10
interventi
Esempio:
La probabilità per un bambino tra 0 e 3 anni di subire una lussazione della
spalla è 0.3. In una famiglia con 3 gemellini di 3 anni, qual è la probabilità
che 0, 1 , 2 o tutti e 3 abbiano subito una lussazione della spalla?
1°
2°
3°
NO
NO
NO
NO
NO
SI
NO
SI
NO
SI
NO
NO
NO
SI
SI
SI
NO
SI
SI
SI
NO
SI
SI
SI
0
1
2
3
DISTRIBUZIONE BINOMIALE
{p
n!
x ! ( n − x )!
P (X = x) =
{
(1 − p ) ( n − x )
x
}
{
}
}
P ( X = 0) =
3!
0.30 (1 − 0.3) (3−0 ) = 1 * 1 * (0.7) 3 = 0.343
0!(3 − 0)!
P ( X = 1) =
3!
0.31 (1 − 0.3) ( 3−1) = 3 * 0.3 * (0.7) 2 = 0.441
1!(3 − 1)!
P ( X = 2) =
3!
0.3 2 (1 − 0.3) (3− 2 ) = 3 * 0.3 2 * (0.7)1 = 0.189
2!(3 − 2)!
P ( X = 3) =
3
{
}
{
}
{
}
{
}
{
}
{
}
3!
0.33 (1 − 0.3) ( 3−3) = 1* 0.33 *1 = 0.027
3!(3 − 3)!
∑ P( X = i) = 0.343 + 0.441 + 0.189 + 0.027 = 1
i =0
Visualizzazione grafica
della distribuzione binomiale di probabilità
0,5
P(X=i)
0,4
0,3
0,2
0,1
0
0
1
2
3
Se in una scuola ci sono 16 famiglie con 3 gemellini ciascuna, quante famiglie mi
aspetto aver avuto 0, 1, 2, 3 lussazioni?
E = P(A) • N
E(0) = 0.343*16 = 5.49
E(1) = 0.441*16 = 7.06
E(2) = 0.189*16 = 3.02
E(3) = 0.027*16 = 0.43
N 8
7
6
5
4
3
2
1
0
0
1
2
3
ESERCIZIO
In un ambulatorio di analisi arrivano successivamente due provette
dal reparto di endocrinologia. Se la probabilità, per un paziente
ricoverato, di avere diabete è di 0.2, qual è la probabilità che i
risultati delle analisi di glicemia risultino alterati?
P ( X = 0) =
P ( X = 1) =
P ( X = 2) =
{
}
{
}
{
}
2!
0.20 * 0.8( 2−0) = 0.64
0!(2 − 0)!
2!
0.21 * 0.8( 2−1) = 0.32
1!(2 − 1)!
2!
0.2 0 (0.8) ( 2− 2) = 0.04
2!(2 − 2)!
Se arrivano allo stesso laboratorio 20 coppie di provette da reparti di
endocrinologia differenti, in quanti reparti mio aspetto avere
risultati della glicemia alterati per un solo valore?
E(1) = 0.32*20= 6.4
VARIABILI CASUALI CONTINUE
DISTRIBUZIONE NORMALE (o di Gauss)
La distribuzione normale è particolarmente adatta a ‘modellizzare’
e descrivere molte variabili sia fisiche che biologiche
Si può immaginare come una distribuzione binomiale che,
per un numero infinito di prove diventa continua
ESEMPI
•Altezza di un campione di 10000 soggetti
•Livello di emoglobina nel sangue in 1000 soggetti
ESEMPI
30
Pressione arteriosa diastolica (mmHg) di 121 scolari
25
20
15
10
5
0
25-30
30-35
35-40
40-45
45-50
50-55
55-60
60-65
65-70
70-75
75-80
80-85
ESEMPI
14000
Distribuzione della frequenza assoluta dell'Altezza (cm) in un campione di 71800 maschi adulti
12000
10000
8000
6000
4000
2000
15
015
2
15
215
4
15
415
6
15
615
8
15
816
0
16
016
2
16
216
4
16
416
6
16
616
8
16
817
0
17
017
2
17
217
4
17
417
6
17
617
8
17
818
0
18
018
2
18
218
4
0
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE
• e’ univocamente determinata dai due parametri µ e σ,
rispettivamente media e deviazione standard;
•e’ unimodale, simmetrica attorno alla media;
•media, moda, mediana coincidono;
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’
NORMALE (continua)
•sono rappresentati tutti i valori compresi tra -∞ e +∞, al
tendere di x a -∞ e +∞ la curva tende asintoticamente a 0;
•l’area sottesa dalla curva, come tutte le distribuzioni di
probabilita’ continue e’ 1;
•la distanza dei punti di flesso dalla media e’ pari alla
deviazione standard σ;
CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’
NORMALE (continua)
• La frazione di area compresa tra due valori della
variabile e’ assimilabile alla probabilità di riscontrare
casualmente una misura entro tale intervallo;
• La probabilità di un singolo punto e’ praticamente
nulla.
 ( x − µ )2 
1
f (X ) =
exp−

2
2σ 
σ 2π

MA COME CALCOLARE
L’AREA?
DEVIATA NORMALE STANDARDIZZATA
•La forma specifica di ogni distribuzione normale dipende dai parametri µ e σ
•E’ possibile ricondurre qualsiasi distribuzione normale a un’unica distribuzione
che prende il nome di DEVIATA NORMALE STANDARDIZZATA
DEVIATA NORMALE STANDARDIZZATA
TEOREMA
Sia X una variabile aleatoria continua distribuita normalmente:
N (µ, σ),
allora la nuova variabile Z avrà una distribuzione normale con
µ = 0 e σ = 1: N(0, 1)
Z
=
x − µ
σ
ESEMPIO
Tra i non diabetici il livello ematico di glucosio a digiuno è distribuito
normalmente con media 105 mg/100 ml e deviazione standard 9 mg/100
ml.
a) Calcolare la probabilità che un soggetto non diabetico abbia un livello
di glicemia compreso tra 90 e 125 mg/100 ml.
z2
-1.67
2.22
x1 − µ
90 − 105
= − 1 . 67
σ
9
x − µ
125 − 105
= 2
=
= 2 . 22
σ
9
z1 =
=
Dalle tabelle della curva Gussiana:
-1.67
2.22
P(-1.67<X<=0)=0.4525
P(0<=X<2.22)=0.4868
P(-1.67<X<2.22)=
=0.4525+0.4868=0.9393
b) Qual è il livello di glicemia al di sotto del quale cade il 10% della
popolazione dei non diabetici.
x−µ
x − 105
,
σ
9
x = − 1 .28 ∗ 9 + 105 = 93 .5 mg / 100 ml
− 1 .28 =
=
c) Determinare i livelli di glicemia entro i quali cadono il 95% dei
non diabetici
x−µ
x − 105
,
σ
9
x = − 1 . 96 ∗ 9 + 105 = 87 . 36 mg / 100 ml
− 1 . 96 =
=
x−µ
x − 105
,
σ
9
x = 1 . 96 ∗ 9 + 105 = 122 . 64 mg / 100 ml
1 . 96 =
=
Livelli al 95% : (87.36, 122.64)
NB: 95%
p=0.95
0.475 a sx e 0.475 a dx di µ.
ESERCIZIO
Il livello di colesterolo totale di una determinata popolazione sono
approssimativamente distribuiti in modo normale con media 200 mg/100ml
e d.s. 20 mg/100ml.
1) Qual è la probabilità che una persona presa a caso da tale popolazione
abbia un valore di colesterolo compreso tra 160 e 175 mg/100ml
cc
ESERCIZIO
La durata della gestazione per donne sane e’ mediamente pari a 280 gg, con
una deviazione standard di 10 gg.
Supponendo che la durata della gestazione sia distribuita normalmente,
determinate la proporzione di donne sane con durata superiore a 1 settimana
e la proporzione con durata superiore a 2 settimane.
ESERCIZIO
La durata della gestazione per donne sane e’ mediamente pari a 280 gg, con
una deviazione standard di 10 gg.
Supponendo che la durata della gestazione sia distribuita normalmente,
determinate la proporzione di donne sane con durata superiore a 1 settimana
e la proporzione con durata superiore a 2 settimane.
P(x>287)=P(Z>(287-280)/10)=P(Z>0.7)=0.242
P(x>294)=P(Z>(294-280)/10)=P(Z>0.1.4)=0.0.81
Densità di probabilità
µ = 55 K g
σ = 4 Kg
50
60
70
80
90
100
P e s o (K g )
densità di probabilità
40
µ = 85 K g
σ = 10 K g
-3
-2
-1
0
+1
+2
deviata normale standardizzata (z)
+3
110
Esistono delle tavole (tavole della z) che danno la probabilità che
Z sia maggiore di un valore qualsiasi.
P(Z≥z)
z
0,0
0,1
0,2
0,3
0,4
0,00
0,5000
0,4602
0,4207
0,3821
0,3446
0,01
0,4960
0,4562
0,4168
0,3783
0,3409
0,02
0,4920
0,4522
0,4129
0,3745
0,3372
0,03
0,4880
0,4483
0,4090
0,3707
0,3336
0,04
0,4840
0,4443
0,4052
0,3669
0,3300
0,05
0,4801
0,4404
0,4013
0,3632
0,3264
0,06
0,4761
0,4364
0,3974
0,3594
0,3228
0,07
0,4721
0,4325
0,3936
0,3557
0,3192
0,08
0,4681
0,4286
0,3897
0,3520
0,3156
0,09
0,4641
0,4247
0,3859
0,3483
0,3121
0,5
0,6
0,7
0,8
0,9
0,3085
0,2743
0,2420
0,2119
0,1841
0,3050
0,2709
0,2389
0,2090
0,1814
0,3015
0,2676
0,2358
0,2061
0,1788
0,2981
0,2643
0,2327
0,2033
0,1762
0,2946
0,2611
0,2296
0,2005
0,1736
0,2912
0,2578
0,2266
0,1977
0,1711
0,2877
0,2546
0,2236
0,1949
0,1685
0,2843
0,2514
0,2206
0,1922
0,1660
0,2810
0,2483
0,2177
0,1894
0,1635
0,2776
0,2451
0,2148
0,1867
0,1611
1,0
1,1
1,2
1,3
1,4
0,1587
0,1357
0,1151
0,0968
0,0808
0,1562
0,1335
0,1131
0,0951
0,0793
0,1539
0,1314
0,1112
0,0934
0,0778
0,1515
0,1292
0,1093
0,0918
0,0764
0,1492
0,1271
0,1075
0,0901
0,0749
0,1469
0,1251
0,1056
0,0885
0,0735
0,1446
0,1230
0,1038
0,0869
0,0721
0,1423
0,1210
0,1020
0,0853
0,0708
0,1401
0,1190
0,1003
0,0838
0,0694
0,1379
0,1170
0,0985
0,0823
0,0681
1,5
1,6
1,7
1,8
1,9
0,0668
0,0548
0,0446
0,0359
0,0287
0,0655
0,0537
0,0436
0,0351
0,0281
0,06430
0,0526
0,0427
0,0344
0,0274
0,0630
0,0516
0,0418
0,0336
0,0268
0,0618
0,0505
0,0409
0,0329
0,0262
0,0606
0,0495
0,0401
0,0322
0,0256
0,0594
0,0485
0,0392
0,0314
0,0250
0,0582
0,0475
0,0384
0,0307
0,0244
0,0571
0,0465
0,0375
0,0301
0,0239
0,0559
0,0455
0,0367
0,0294
0,0233
Qual è la probabilità che Z sia maggiore o uguale a 1,87?
P(Z≥z)
0,0307 = 3,07%
z
0,0
0,1
0,2
0,3
0,4
0,00
0,5000
0,4602
0,4207
0,3821
0,3446
0,01
0,4960
0,4562
0,4168
0,3783
0,3409
0,02
0,4920
0,4522
0,4129
0,3745
0,3372
0,03
0,4880
0,4483
0,4090
0,3707
0,3336
0,04
0,4840
0,4443
0,4052
0,3669
0,3300
0,05
0,4801
0,4404
0,4013
0,3632
0,3264
0,06
0,4761
0,4364
0,3974
0,3594
0,3228
0,07
0,4721
0,4325
0,3936
0,3557
0,3192
0,08
0,4681
0,4286
0,3897
0,3520
0,3156
0,09
0,4641
0,4247
0,3859
0,3483
0,3121
0,5
0,6
0,7
0,8
0,9
0,3085
0,2743
0,2420
0,2119
0,1841
0,3050
0,2709
0,2389
0,2090
0,1814
0,3015
0,2676
0,2358
0,2061
0,1788
0,2981
0,2643
0,2327
0,2033
0,1762
0,2946
0,2611
0,2296
0,2005
0,1736
0,2912
0,2578
0,2266
0,1977
0,1711
0,2877
0,2546
0,2236
0,1949
0,1685
0,2843
0,2514
0,2206
0,1922
0,1660
0,2810
0,2483
0,2177
0,1894
0,1635
0,2776
0,2451
0,2148
0,1867
0,1611
1,0
1,1
1,2
1,3
1,4
0,1587
0,1357
0,1151
0,0968
0,0808
0,1562
0,1335
0,1131
0,0951
0,0793
0,1539
0,1314
0,1112
0,0934
0,0778
0,1515
0,1292
0,1093
0,0918
0,0764
0,1492
0,1271
0,1075
0,0901
0,0749
0,1469
0,1251
0,1056
0,0885
0,0735
0,1446
0,1230
0,1038
0,0869
0,0721
0,1423
0,1210
0,1020
0,0853
0,0708
0,1401
0,1190
0,1003
0,0838
0,0694
0,1379
0,1170
0,0985
0,0823
0,0681
1,5
1,6
1,7
1,8
1,9
0,0668
0,0548
0,0446
0,0359
0,0287
0,0655
0,0537
0,0436
0,0351
0,0281
0,06430
0,0526
0,0427
0,0344
0,0274
0,0630
0,0516
0,0418
0,0336
0,0268
0,0618
0,0505
0,0409
0,0329
0,0262
0,0606
0,0495
0,0401
0,0322
0,0256
0,0594
0,0485
0,0392
0,0314
0,0250
0,0582
0,0475
0,0384
0,0307
0,0244
0,0571
0,0465
0,0375
0,0301
0,0239
0,0559
0,0455
0,0367
0,0294
0,0233
Qual è la probabilità che Z sia maggiore o uguale a 0,75?
P(Z≥z)
0,2266 = 22,66%
z
0,0
0,1
0,2
0,3
0,4
0,00
0,5000
0,4602
0,4207
0,3821
0,3446
0,01
0,4960
0,4562
0,4168
0,3783
0,3409
0,02
0,4920
0,4522
0,4129
0,3745
0,3372
0,03
0,4880
0,4483
0,4090
0,3707
0,3336
0,04
0,4840
0,4443
0,4052
0,3669
0,3300
0,05
0,4801
0,4404
0,4013
0,3632
0,3264
0,06
0,4761
0,4364
0,3974
0,3594
0,3228
0,07
0,4721
0,4325
0,3936
0,3557
0,3192
0,08
0,4681
0,4286
0,3897
0,3520
0,3156
0,09
0,4641
0,4247
0,3859
0,3483
0,3121
0,5
0,6
0,7
0,8
0,9
0,3085
0,2743
0,2420
0,2119
0,1841
0,3050
0,2709
0,2389
0,2090
0,1814
0,3015
0,2676
0,2358
0,2061
0,1788
0,2981
0,2643
0,2327
0,2033
0,1762
0,2946
0,2611
0,2296
0,2005
0,1736
0,2912
0,2578
0,2266
0,1977
0,1711
0,2877
0,2546
0,2236
0,1949
0,1685
0,2843
0,2514
0,2206
0,1922
0,1660
0,2810
0,2483
0,2177
0,1894
0,1635
0,2776
0,2451
0,2148
0,1867
0,1611
1,0
1,1
1,2
1,3
1,4
0,1587
0,1357
0,1151
0,0968
0,0808
0,1562
0,1335
0,1131
0,0951
0,0793
0,1539
0,1314
0,1112
0,0934
0,0778
0,1515
0,1292
0,1093
0,0918
0,0764
0,1492
0,1271
0,1075
0,0901
0,0749
0,1469
0,1251
0,1056
0,0885
0,0735
0,1446
0,1230
0,1038
0,0869
0,0721
0,1423
0,1210
0,1020
0,0853
0,0708
0,1401
0,1190
0,1003
0,0838
0,0694
0,1379
0,1170
0,0985
0,0823
0,0681
1,5
1,6
1,7
1,8
1,9
0,0668
0,0548
0,0446
0,0359
0,0287
0,0655
0,0537
0,0436
0,0351
0,0281
0,06430
0,0526
0,0427
0,0344
0,0274
0,0630
0,0516
0,0418
0,0336
0,0268
0,0618
0,0505
0,0409
0,0329
0,0262
0,0606
0,0495
0,0401
0,0322
0,0256
0,0594
0,0485
0,0392
0,0314
0,0250
0,0582
0,0475
0,0384
0,0307
0,0244
0,0571
0,0465
0,0375
0,0301
0,0239
0,0559
0,0455
0,0367
0,0294
0,0233
Esercizio 1:
A. Utilizzando le tavole di Z, calcolare la probabilità che:
1. Z>1.30
2. Z<-0.85
3. 0.50<Z<1.05
B. Utlizzando le tavole di Z, calcolare quel valore che ha una probabilità del 35%
di essere superato.
Esercizio 2: Si supponga che nella popolazione
maschile adulta
italiana la variabile “peso in kg” sia: X~N(75, 8):
A. Utilizzando le tavole di Z, calcolare la probabilità che:
1. Un soggetto preso a caso abbia un peso ≤63 kg
2. Un soggetto abbia un peso compreso tra 69 e 92
B. Qual è il valore del peso tale per cui l’80% ha valori inferiori?
Soluzione:
Esercizio 1:
Si assuma che tra i non diabetici, il livello ematico di glucosio a digiuno sia
distribuito in maniera approssimativamente normale con media=105 mg/ml
ed una deviazione standard= 9 mg/ml.
Calcolare:
1. Quale % di non diabetici ha livelli compresi tra 90 e 125 mg/ml
2. Qual è il valore di glicemia tale per cui il 90% dei soggetti ha valori superiori
3. Quali livelli di glicemia comprendono il 95% dei non diabetici
Soluzione:
X= livello ematico di glucosio
1. Calcoliamo il valore di Z relativo 90:
z = (90-105)/9 =-1.67
e quello relativo a 125: z = (125-105)/9 =2.22
P(-1.67≤Z≤2.22)=1-[P(Z≤-1.67)+P(Z>2.22)]=1-[P(Z>1.67)+P(Z>2.22)]=
=1-(0.049+0.013)=0.938=93.8%
2. Cerco il valore di Z tale per cui:
P(Z≤c)=0.1
C=-1.28
-1.28=(x-105)/9
3. Livelli di glicemia che comprendono il 95% dei non diabetici
Pr(µ
µ -1.96 σ ≤x ≤ µ -1.96 σ)=0.95
Quindi l’intervallo ricercato sarà:
µ ∓1.96 σ= 105 ∓1.96 9
87.4-122.6
X=93.5