P(Z - Univr DI

Esercizi
di Probabilità e Statistica
parte 1
Massimo Guerriero – Ettore Benedetti
Indice Esercizi
• Presentazione dei dati
• Misure di sintesi numerica
• Probabilità
• Distribuzioni teoriche di probabilità
• Distribuzione campionaria della media
Presentazione dei dati
• Esercizio 13 pag. 28
In uno studio sui fattori di rischio per malattie cardiovascolari, sono stati
registrati i livelli di cotinina sierica – un prodotto del metabolismo della
nicotina – in fumatori e in non fumatori.
Di seguito sono riportate le relative distribuzioni di frequenza:
Livello di cotinina (ng/ml)
Fumatori
Non fumatori
0-13
78
3300
14-49
133
72
50-99
142
23
100-149
206
15
150-199
197
7
200-249
220
8
250-299
151
9
>=300
412
11
Totale
1539
3445
Presentazione dei dati – es.13 pag.28
a. E’ corretto confrontare le distribuzioni dei livelli di cotinina nei fumatori
e nei non fumatori in base alle frequenze assolute in ciascun intervallo?
Perché e perché no?
 No perché le due popolazioni hanno una numerosità differente, occorre calcolare le frequenze
relative per effettuare i confronti
b. Calcolare le frequenze relative dei valori
di cotinina sierica in ciascun gruppo
 Dividiamo ciascuna frequenza assoluta
per il totale ed otteniamo le seguenti colonne
che possiamo aggiungere alla tabella precedente:
Fumatori
F relativa
Non fumatori
F relativa
0,051
0,958
0,086
0,021
0,092
0,007
0,134
0,004
0,128
0,002
0,143
0,002
0,098
0,003
0,268
0,003
1
1
Presentazione dei dati – es.13 pag.28
c. Disegnare una coppia di
poligoni di frequenza
 Costruiamo il grafico
mettendo le frequenze
relative in ordinata e il
livello di cotinina in ascisse.
d. Descrivere la forma di
ciascun poligono.
Che cosa si può dire sulla
distribuzione dei livelli di
cotinina in ciascun gruppo?
Poligono di Frequenze relative
1,200
1,000
0,800
0,600
0,400
0,200
0,000
13
49
99
149
F relative Fumatori
199
249
299
F relative Non Fumatori
 La popolazione di non fumatori è concentrata in larghissima parte su bassi livelli di
cotinina. Per i fumatori la popolazione è più distribuita, chi fuma ha valori di
cotinina generalmente molto più alti di chi non fuma.
380
Presentazione dei dati – es.13 pag.28
e. Lo status di fumatore o non fumatore è stato dichiarato direttamente dai
soggetti interessati. E’ possibile che alcuni soggetti siano stati inclusi in
una categoria sbagliata? Perché e perché no
 Sì, è possibile, perché nella tabella si notano numerosi outlier. Difficilmente chi non fuma ha
valori molto alti di cotinina e altrettanto difficilmente chi fuma ha valori bassi di cotinina.
Probabilmente non sono stati inclusi gli ex fumatori (da tanto o da poco tempo).
Misure di sintesi numerica
• Esercizio 10 pag. 50
Sulla base dei dati dell’esercizio 13 pag.28 di cui si sono viste le soluzioni
nelle slide precedenti:
a.
Calcolare la media e la deviazione standard raggruppata per le misurazioni dei livelli
di cotinina sierica nei due gruppi. Per l’ultimo intervallo – >= 300 ng/ml – si assuma che il
punto medio dell’intervallo sia 340 ng/ml.
 La media per dati raggruppati si calcola con formula 𝑥 =
𝑘
𝑖=1 𝑚𝑖 𝑓𝑖
𝑘 𝑓
𝑖=1 𝑖
, ovvero la media
raggruppata è una media ponderata dei punti medi dell’intervallo.
Il risultato è quindi 198,972 per i fumatori e 10,603 per i non fumatori.
La deviazione standard si trova come radice quadrata della varianza.
2
La varianza raggruppata dei dati si calcola con la formula 𝑠 =
𝑘
2
𝑖=1(𝑚𝑖 −𝑥) 𝑓𝑖
𝑘 𝑓 −1
𝑖=1 𝑖
.
Il risultato finale è quindi 107,180 per i fumatori e 140,925 per i non fumatori.
Misure di sintesi numerica – es.10 pag.50
b. In quale intervallo si riduce il livello di cotinina sierica mediano nei
fumatori? E nei non fumatori?
 Dividiamo le popolazioni in due parti:
1539/2 = 769.5
3445/2 = 1722.5
Calcoliamo le frequenze cumulate per le due popolazioni
e riportiamo i risultati in tabella come a fianco.
Il valore 769.5 è maggiore di 756 e minore di 976, per cui
ricade nel range 200-249.
Il valore 1722.5 è minore di 3300 e quindi ricade
nel range 0-13
Livello di
cotinina
(ng/ml)
F cumulate
fumatori
F cumulate
non
fumatori
0-13
78
3300
14-49
211
3372
50-99
353
3395
100-149
559
3410
150-199
756
3417
200-249
976
3425
250-299
1127
3434
>=300
1539
3445
Misure di sintesi numerica – es.10 pag.50
c. Confrontare le distribuzioni dei livelli di cotinina sierica nei fumatori e
nei non fumatori
 Riprendendo le frequenze cumulate, ed osservando nuovamente
il livello mediano notiamo che per i fumatori questo livello
si colloca ad un range elevato, mentre per i non fumatori si
colloca subito al primo range.
Questo ci porta a dedurre che la prima distribuzione si
distribuisce in modo più diversificato su diversi range,
mentre la seconda distribuzione ha un picco iniziale per poi
distribuirsi più raramente a mano a mano che
i range aumentano.
Le nostre deduzioni sono confermate dal grafico che abbiamo
già visto per l’esercizio 13 a pag.28
Livello di
cotinina
(ng/ml)
F cumulate
fumatori
F cumulate
non
fumatori
0-13
78
3300
14-49
211
3372
50-99
353
3395
100-149
559
3410
150-199
756
3417
200-249
976
3425
250-299
1127
3434
>=300
1539
3445
Indice Esercizi
• Presentazione dei dati
• Misure di sintesi numerica
• Probabilità
• Distribuzioni teoriche di probabilità
• Distribuzione campionaria della media
Probabilità
• Esercizio 9 pag. 122
Si considerino le statistiche relative alla natalità per la popolazione degli
Stati Uniti nel 1992. In accordo con questi dati, sono di seguito riportate le
probabilità dell’età al momento del parto nel 1992 di una donna selezionata
casualmente.
Età
Probabilità
<15
0.003
15-19
0.124
20-24
0.263
25-29
0.290
30-34
0.220
35-39
0.085
40-44
0.014
45-49
0.001
Totale
1
Probabilità – es.9 pag.122
a. Qual è la probabilità che una donna che ha partorito nel 1992 avesse
un’età minore o uguale a 24 anni?
 La probabilità che si verifichino due o più eventi mutualmente esclusivi è pari alla somma
delle singole probabilità.
P(età <= 24) = P(età < 15) + P(15 <= età <= 19) + P(20 <= età <= 24)
= 0,003 + 0.124 + 0,263 = 0,39 = 39%
b. Qual è la probabilità che avesse un’età maggiore o uguale a 40 anni?
 Per lo stesso motivo della risposta precedente:
P(età >= 40) = P(40 <= età <= 44) + P(45 <= età <=49)
= 0.014 + 0.001 = 0.015 = 1.5%
Probabilità – es.9 pag.122
c. Dato che la madre di un determinato bambino è al di sotto dei 30 anni,
qual è la probabilità che non abbia ancora 20 anni?
 P(età <= 19) = P(età < 15) + P(15 <= età <= 19)
= 0,003 + 0.124 = 0.127
P(età <= 29) = P(età < 15) + P(15 <= età <= 19) + P(20 <= età <= 24) + P(25 <= età <= 29)
= 0.003 + 0.124 + 0.263 + 0.290 = 0.68
P(età <= 19 ∩ età <= 29) = P(età < 19) = 0,127
P(età <=19 | età <= 29) =
P(età <= 19 ∩ età <= 29) 0.127
=
= 0.19 = 19%
0.68
P(età <= 29)
Probabilità – es.9 pag.122
d. Dato che la madre di un determinato bambino ha 35 anni o più, qual è la
probabilità che non abbia ancora 40 anni?
 P(età <= 39) = P(età < 15) + P(15 <= età <= 19) + P(20 <= età <= 24) + P(25 <= età <= 29)
+ P(30 <= età <= 34) + P(35 <= età <= 39)
= 0.003 + 0.124 + 0.263 + 0.290 + 0.220 + 0.085 = 0.985
P(età >= 35) = P(35 <= età <= 39) + P(40 <= età <= 44) + P(45 <= età <= 49)
= 0.085 + 0.014 + 0.001 = 0.10
P(età <= 39 ∩ età >= 35) = P(35 <= età <= 39) = 0.085
P(età <=39 | età >= 35) =
P(età <= 39 ∩ età >= 35) 0.085
= 0.10 = 0.85 = 85%
P(età >= 35)
Distribuzioni teoriche di probabilità
• Esercizio 19 pag. 149
La distribuzione del peso della popolazione maschile degli Stati Uniti è
approssimativamente normale con media µ = 172,2 libbre e deviazione
standard σ = 29.8 libbre. (1 libbra = 454 grammi).
a. Qual è la probabilità che un soggetto selezionato casualmente pesi
meno di 130 libbre?
 La variabile casuale X che rappresenta la distribuzione di peso è una variabile Gaussiana di
media µ = 172.2 libbre e deviazione standard σ = 29.8 libbre.
La variabile standardizzata è dunque 𝑍 =
𝑋 −172.2
29.8
Quindi:
P(X < 130) = P(Z <
130 −172.2
29.8
) = P(Z < −1.41) = P(Z > 1.41) = 7.9%.
Distribuzioni teoriche di probabilità
- es.19 pag.149 b. Qual è la probabilità che il soggetto pesi più di 210 libbre?
 P(X > 210) = P(Z >
210 −172.2
)
29.8
= P(Z > 1.26) = 0.104 = 10.4%
c. Qual è la probabilità che tra cinque soggetti maschi selezionati
casualmente dalla popolazione, almeno uno abbia un peso non compreso
tra 130 e 210 libbre?
 P(130 < X < 210) = P(−1.41 < Z < 1.26)
= 1 − 0.079 − 0.104 = 81.7%
Distribuzione campionaria della media
• Esercizio 13 pag. 163
Nei Paesi Bassi, la popolazione maschile sana di età compresa fra 65 e
79 anni ha una distribuzione dei livelli di acido urico serico
approssimativamente normale con media µ = 341 µmol/l e deviazione
standard σ = 79 µmol/l.
a. Quale proporzione di soggetti ha un livello di acido urico sierico
compreso tra 300 e 400 µmol/l?
300 −341
79
 P(300 <= 𝑋 <= 400) = P(
<= Z <=
400 −341
)
79
= P(-0.52 <= Z <= 0.75) = 1 - P(Z >= 0.52) - P(Z >= 0.75)
= 1 – 0.302 – 0.227 = 0.471 = 47.1%
Distribuzione campionaria della media
- es.13 pag.163 b. Quale proporzione dei campioni di dimensione uguale a 5 ha un
livello medio di acido urico serico compreso fra 300 e 400 µmol/l?
 P(300 <= 𝑋 <= 400) = P(
300 −341
79
5
<= Z <=
400 −341
79
5
)
= P(-1.16 <= Z <= 1.67) = 1 - P(Z >= 1.16) - P(Z >= 1.67)
= 1 – 0.123 – 0.047 = 0.83 = 83%
c. Quale proporzione dei campioni di dimensione uguale a 10 ha un
livello medio di acido urico serico compreso fra 300 e 400 µmol/l?
 P(300 <= 𝑋 <= 400) = P(
300 −341
79
10
<= Z <=
400 −341
79
10
) = P(-1.64 <= Z <= 2.36)
= 1 - P(Z >= 1.64) - P(Z >= 2.36) = 1 – 0.051 – 0.009 = 0.94 = 94%
Distribuzione campionaria della media
- es.13 pag.163 d. Calcolare un intervallo che comprende il 95% delle medie dei campioni
di dimensione uguale a 10.
Sarebbe più corto un intervallo simmetrico o uno asimmetrico?
 Come abbiamo già visto, la variabile standardizzata è 𝑍 =
𝑋 −341
sappiamo che:
P(-1.96 <= Z <= 1.96) = 95% = 0.95
Quindi deve essere:
-1.96 <= z <= 1.96
-1.96 <=
79
10
𝑋 −341
79
10
−1.96 +
79
10
.
<= 1.96
341
79
10
≤ 𝑋 ≤ 1.96 +
292.04 <= 𝑋 <= 389.96
341
79
10
79
10