Matematica e statistica: dai dati ai modelli alle scelte – www.dima.unige/pls_statistica
Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova)
STATISTICA INFERENZIALE – SCHEDA N. 2
INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA
Nella scheda precedente abbiamo visto come si stima un parametro incognito di una variabile aleatoria
definita su una popolazione; in particolare abbiamo considerato la cosiddetta stima puntuale della media
e della frequenza relativa, dove “stima puntuale” significa fornire un valore per il parametro, usando dati
campionari.
In questa scheda costruiremo un intervallo nel quale ci aspettiamo stia il parametro da stimare con un
elevato grado di fiducia. Questa “fiducia” è assegnata in termini probabilistici e viene detta confidenza (con
una cattiva traduzione dall’inglese confidence).
Un tale intervallo si dice intervallo di confidenza e la probabilità (che indicheremo con 1-α) assegnata
viene detta livello di significatività (o livello di confidenza). Usualmente si sceglie come livello di
significatività il 95% o il 99%.
1. Intervalli di confidenza per il valore atteso
Se si vuole stimare la media μ di una variabile aleatoria X definita su una popolazione tramite un campione
di numerosità fissata, allora si può scegliere come stimatore X n .
Un esempio è la stima del prezzo medio di un litro di latte in Liguria. Qui la popolazione è formata dai prezzi
di tutti i litri di latte venduti in un determinato periodo in Liguria. Per determinare il prezzo medio l’ISTAT
(Istituto Nazionale di Statistica) effettua un campionamento su vari negozi della regione, tenendo conto
della dislocazione geografica, del tipo di distribuzione (supermercato, negozio) e di altri fattori. Nella nostra
indagine sui prezzi di alcuni prodotti delle nostre zone di residenza abbiamo effettuato un campionamento
non molto rappresentativo: comunque utilizzeremo questi dati e poi li confronteremo con quelli ufficiali.
Una stima puntuale del valore atteso μ è data dal valore x n assunto dalla variabile X n nel campione.
Un intervallo di confidenza, a livello di significatività del 95%, è un intervallo aleatorio
X n −δ,Xn + δ
(
con δ scelto in modo tale che
)
(
)
P X n − δ < μ < X n + δ = 0.95,
ossia tale che la probabilità di sbagliare sia pari a α=0.05 e quindi bassa.
La realizzazione campionaria dell’intervallo è:
x n − δ,x n + δ
(
)
Come si calcola δ ?
Il calcolo dell’intervallo di confidenza si basa sulla probabilità che la variabile aleatoria X n sia compresa fra
μ −δ e μ +δ :
(
0.95 = P μ − δ < X n < μ + δ
)
È quindi necessario conoscere la distribuzione di probabilità dello stimatore. Questo è possibile se si conosce
la distribuzione della variabile aleatoria X di partenza.
In particolare, se X ha distribuzione normale, anche X n
ha distribuzione normale con valore atteso μ e sappiamo
calcolare δ in modo che:
(
)
P μ − δ < X n < μ + δ = 0.95
Questo valore di δ ci permette di trovare l’intervallo di
confidenza. Infatti:
P μ −δ < X n < μ +δ = P X n −δ < μ < X n +δ
(
e quindi:
(
)
(
0.95 = P X n − δ < μ < X n + δ
)
)
che è proprio l’intervallo di confidenza per μ a livello di significatività del 95%.
1.1
Caso X distribuzione normale con varianza nota
Vediamo come calcolare effettivamente δ . Consideriamo prima il caso in cui la distribuzione di X sia normale
e la varianza sia nota.
ESEMPIO: Si estrae un campione di numerosità 100 da una popolazione con distribuzione normale con
varianza σ2 = 225 nota e valore atteso incognito μ.
Vogliamo calcolare un intervallo di confidenza del valore atteso a livello di confidenza di 1-α=0.95 sapendo
che la stima della media sul campione è x n = 1450. Abbiamo visto che lo stimatore X n ha valore atteso μ
e varianza
σ 2 225
=
= 2.25 . Sappiamo, inoltre, che X n ha ancora distribuzione normale: X n ∼ N ( μ ,2.25).
n
100
Vogliamo determinare δ tale che
(
)
P μ − δ < X n < μ + δ = 0.95
Per poter utilizzare le tavole della funzione di distribuzione cumulata di una variabile aleatoria Z normale
(0,1), standardizziamo X n :
⎛μ −δ − μ X n − μ μ +δ − μ ⎞
δ ⎞
⎛ δ
0.95 = P μ − δ < X n < μ + δ = P ⎜
<
<
<Z <
⎟ = P ⎜−
⎟
σ
σ
σ
1.5
1.5
⎝
⎠
X
X
X
⎝
⎠
Siccome il grafico della densità di probabilità di Z è simmetrico rispetto all’asse verticale,
(
)
la probabilità che Z sia compresa fra i due valori −
parti esterne (le cosiddette “code”):
⎛
δ ⎞
⎛ δ
<Z <
= 1 − ⎜P
P ⎜−
⎟
1.5 ⎠
⎝ 1.5
⎝
δ
1.5
e
δ
1.5
δ ⎞
⎛
⎜ Z < − 1.5 ⎟ + P
⎝
⎠
è uguale a 1 meno la probabilità delle due
δ ⎞⎞
⎛
⎜ Z > 1.5 ⎟ ⎟ = 1 − 2 P
⎝
⎠⎠
δ ⎞
⎛
⎜ Z < − 1.5 ⎟
⎝
⎠
Quindi:
δ ⎞
⎛
⇔ 0.05 = 2 P
0.95 = 1 − 0.05 = 1 − 2 P ⎜ Z < −
1.5 ⎟⎠
⎝
Dalle tavole si ottiene che
δ
1.5
δ ⎞
⎛
⎜ Z < − 1.5 ⎟ ⇔ 0.025 = P
⎝
⎠
δ ⎞
⎛
⎜ Z < − 1.5 ⎟
⎝
⎠
= 1.96 , ossia δ=2.94, soddisfa le condizioni richieste.
Infine, sostituendo il valore numerico ottenuto sul campione, si ha che
(1450 - 2.94, 1450 + 2.94) = (1447.06, 1452.94)
è la realizzazione dell’intervallo di confidenza del valore atteso a livello 0.95.
Noi non sappiamo se il valore atteso di X nella popolazione apparenga o no effettivamente a questo
intervallo.
Se avessimo avuto un’altra stima puntuale per la media, proveniente da un altro campione, avremmo avuto
anche un diverso intervallo di confidenza.
Fra tutti i possibili intervalli di confidenza costruiti in questo modo sulla base di tutti i possibili
campioni, il 95% contiene la media di X nella popolazione e il 5% non la contiene.
Riassumiamo i conti fatti per determinare un intervallo di confidenza a livello 1-α per la media di una
variabile aleatoria con distribuzione normale di media μ incognita e varianza σ2 nota:
1. Si utilizza come stimatore la media empirica X n di un campione di numerosità n e si ricava la stima
xn .
2. Si cerca sulle tavole della normale standardizzata, il valore z α , tale che
P(Z < -zα )=1-
α
2
.
σ
σ ⎞
⎛
3. Si costruisce l’intervallo aleatorio ⎜ X n − z α
, X n + zα
⎟;
n
n⎠
⎝
questo intervallo, che ha come estremi due variabili aleatorie, ha probabilità 1-α di contenere μ.
4. Si sostituisce il valore campionario x e si ottiene la realizzazione numerica dell’intervallo per il
campione ottenuto. In formule:
σ
σ ⎞
⎛
, x n + zα
I= ⎜ x n − z α
⎟
n
n⎠
⎝
Riportiamo nella seguente tabella i valori di z α per alcuni α:
livello di conf.
α
zα
90%
0.10
1.65
95%
0.05
1.96
99%
0.01
2.58
1.2
Caso X distribuzione normale con varianza sconosciuta
Quando la varianza della variabile aleatoria X è sconosciuta, si stima usando lo stimatore non distorto S 2 .
La formula per calcolare l’intervallo di confidenza per il valore atteso è leggermente differente: non si usa
z α ma un altro valore che però è molto vicino a z α se la numerosità campionaria è molto grande
(maggiore di 100); in queste schede noi useremo l’approssimazione:
s
s ⎞
⎛
I = ⎜ x − zα
, x + zα
⎟
n
n⎠
⎝
dove s è la realizzazione campionaria della standard deviation: s =
1.3
1 n
∑ x −xn
n − 1 i =1 i
(
)
2
Caso X con distribuzione qualsiasi e numerosità del campione grande
Cosa si può fare nel caso in cui la variabile X non abbia densità normale?
In alcuni casi è possibile calcolare in modo esplicito la distribuzione degli stimatori. Nella maggior parte dei
casi, però, si utilizza l’approssimazione normale garantita dal Teorema del Limite Centrale. Abbiamo, infatti,
visto che per n sufficientemente grande la media campionaria X n ha quasi una distribuzione normale di
2
media μ (pari a quella di X) e varianza σ /n. Quindi un intervallo di confidenza a livello 1-α per la media di
2
una variabile aleatoria con distribuzione NON normale di media μ incognita e varianza σ nota sarà ancora
σ
σ ⎞
⎛
I = ⎜ x n − zα
, x n + zα
⎟
n
n⎠
⎝
con n, numerosità del campione, grande.
Resta da stabilire il significato di questa parola grande. Nella maggior parte dei casi una numerosità
campionaria superiore a 30 è considerata accettabile per poter applicare il Teorema del Limite Centrale.
Ricordiamo che i risultati sono approssimati e sono tanto più precisi quanto più alta è la numerosità
campionaria.
Anche in questo caso, se la varianza non è nota si stima utilizzando lo stimatore non distorto S 2 e
l’intervallo di confidenza è circa:
s
s ⎞
⎛
, x n + zα
I = ⎜ x n − zα
⎟
n
n⎠
⎝
ESEMPIO:
Nel caso dei dati raccolti sul prezzo del latte, abbiamo:
• il prezzo medio campionario è x =1.34 euro
• la standar deviation campionaria è: s = 0.25 euro
• la numerosità campionaria è: 57
quindi
s
= 0.0333
n
Tutti questi valori sono forniti direttamente da Minitab; il valore di
(cioè standard error della variabile aleatoria Media campionaria).
Variable
BENE
N
N*
PREZZO
Latte 57 0
Mean
SE Mean
StDev
1.3398
0.0333
0.2512
Minimum
s
è indicato nella colonna SE MEAN
n
Q1
0.6900 1.3000
Median
Q3
Maximum
1.3700 1.3900
2.5900
Non sappiamo se la variabile aleatoria che modella il prezzo di un litro di latte abbia distribuzione normale,
ma essendo la numerosità campionaria maggiore di 30 possiamo usare il Teorema del limite centrale e
trovare un intervallo di confidenza approssimato.
Se scegliamo α = 0.05, la realizzazione campionaria dell’intervallo di confidenza per il prezzo medio di un
litro di latte è:
s
s ⎞
⎛
, x n + zα
⎜ x n − zα
⎟ = (1.3398 – 1.96 x 0.0333 , 1.3398 + 1.96 x 0.0333) = (1.28, 1.41)
n
n⎠
⎝
Se scegliamo α = 0.01, la realizzazione campionaria dell’intervallo di confidenza per il prezzo medio di un
litro di latte è:
s
s ⎞
⎛
, x n + zα
⎜ x n − zα
⎟ = (1.3398 – 2.58 x 0.0333 , 1.3398 + 2.58 x 0.0333) = (1.25, 1.43)
n
n⎠
⎝
È meglio un intervallo di confidenza a livello di significatività del 95% o del 99%?
Sicuramente con un intervallo di confidenza a livello di significatività del 99% la probabilità di errore è più
piccola rispetto a quella con un intervallo al 95%.
Ma nel primo caso l’ampiezza dell’intervallo è più grande: quello che si guadagna in precisione si perde in
ampiezza.
Nell’esempio precedente:
• al 95% si ha δ = 6 centesimi di euro
• al 95% si ha δ = 9 centesimi di euro
ESERCIZIO
Calcolare la realizzazione campionaria di un intervallo di confidenza del prezzo medio degli altri beni raccolti
Variable
PREZZO
BENE
Benzina
CD
DVD
Gasolio
Olio
N
64
35
45
54
46
N*
0
0
0
0
0
Mean
1.2450
1.069
3.257
1.1155
6.410
SE Mean
0.00382
0.108
0.125
0.00557
0.285
StDev
0.0305
0.637
0.837
0.0410
1.932
Minimum
1.1200
0.290
1.290
1.0120
3.650
Q1
1.2363
0.800
2.990
1.0980
4.938
Median
Q3
1.2450 1.2560
0.950 1.000
3.000 4.000
1.1120 1.1308
5.990 7.360
Maximum
1.3000
3.900
5.000
1.2500
13.500
2. Intervalli di confidenza per la frequenza p
Nella scheda precedente abbiamo visto che uno stimatore per la frequenza di una variabile aleatoria
dicotomica è dato da
X + + Xn
Pˆ = 1
n
dove ciascuna delle variabili aleatorie X1,…, Xn vale 1 (con probabilità p) oppure 0 (con probabilità 1-p) a
seconda che si ottenga un successo o un insuccesso.
p (1 - p )
Abbiamo già visto che E( Pˆ )=p e Var( Pˆ )=
.
n
Se abbiamo un campione di numerosità elevato possiamo approssimare la distribuzione di Pˆ con quella
⎛ p (1 - p ) ⎞
normale: P ∼ N ⎜ p ,
⎟ . Anche la varianza è incognita perché dipendente ancora dal parametro p,
n
⎝
⎠
ma si può stimare a partire dalla stima p̂ del parametro p. Uno stimatore non distorto per Var( Pˆ ) è
S P2ˆ =
Pˆ(1 − Pˆ)
n −1
Un intervallo di confidenza per p a livello di significatività 1-α è quindi
⎛
pˆ(1 − pˆ)
pˆ(1 − pˆ) ⎞
I= ⎜ pˆ − z α
, pˆ + z α
⎟.
⎜
n −1
n − 1 ⎟⎠
⎝
ESEMPIO: Una popolazione di animali è composta da una razza con il pelo uniforme e da una con il pelo
striato. Si osservano 100 animali e si nota che 70 di questi hanno il pelo striato. Vogliamo calcolare un
intervallo di confidenza a livello del 99% per la popolazione di animali dal pelo striato. Utilizziamo le formule
precedenti scegliendo
p̂ = 0.70 ,
n=100,
α=0.01,
zα =2.58.
Sostituendo otteniamo che la realizzazione dell’intervallo di confidenza per p è:
⎛
0.7 x 0.3
0.7 x 0.3 ⎞
I = ⎜⎜ 0.70 - 2.58
, 0.70 + 2.58
⎟ = (0.58, 0.82).
99
99 ⎟⎠
⎝
ESERCIZIO SU: Campionamento – Teorema del limite centrale – Intervalli di confidenza
Si vuole stimare la media di una grandezza in una popolazione di 500 unità. Si modella il fenomeno con una
variabile aleatoria X.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
1
70.3
78.4
73.2
68.4
67.4
68.2
66.2
72.1
60.2
69.2
62.7
76.8
72.9
69.9
71.2
71.9
65.8
66.7
65.0
73.1
69.0
75.6
68.2
84.5
61.1
63.6
66.6
71.3
68.7
73.3
73.3
75.0
74.8
70.4
71.4
71.3
67.9
77.8
72.2
73.2
63.1
75.3
70.5
72.6
66.4
67.7
62.7
75.6
67.3
68.1
2
65.8
66.0
70.6
68.2
69.7
66.4
72.5
75.6
74.1
61.8
71.1
80.5
66.6
68.7
68.8
67.4
74.5
71.0
73.6
75.5
68.7
75.7
70.4
73.4
77.2
72.7
68.3
69.7
58.2
62.7
67.8
80.8
75.1
66.4
66.2
73.4
64.2
65.8
72.8
75.2
72.2
69.4
68.0
72.0
73.0
80.9
69.0
68.9
61.9
66.6
3
63.0
69.2
75.2
62.3
68.2
72.4
65.7
76.3
74.8
64.5
77.6
68.6
58.5
75.3
65.9
74.6
62.6
69.5
71.2
76.1
61.2
68.1
69.5
68.2
75.0
76.5
64.8
64.7
69.7
62.3
68.2
66.8
72.7
70.6
78.5
76.8
73.5
69.4
66.2
67.5
75.2
69.2
66.3
75.5
70.4
59.2
66.7
68.8
72.3
75.0
4
62.0
62.1
72.5
76.9
62.7
65.2
69.7
71.7
63.5
61.3
73.5
67.2
73.3
69.6
70.0
65.0
76.6
68.3
70.9
69.7
71.3
73.3
72.5
71.2
73.1
70.7
75.5
64.3
70.0
72.0
80.2
74.5
70.1
75.2
64.0
55.6
71.2
67.8
64.3
73.7
60.9
68.2
76.2
72.2
76.1
62.8
70.6
71.9
71.5
76.0
5
69.0
77.0
70.0
72.2
75.1
67.3
75.4
75.9
66.2
71.0
66.8
63.4
73.7
67.6
65.3
72.1
75.3
72.9
69.4
65.3
65.9
74.5
69.3
73.7
71.6
72.5
75.8
66.1
68.4
72.8
65.2
69.4
77.4
71.7
59.4
74.3
58.7
71.3
68.4
67.3
74.6
76.9
65.4
68.2
76.9
73.2
68.7
66.2
78.7
57.4
6
70.8
70.6
68.6
67.4
63.2
68.6
78.2
78.6
67.8
71.4
72.0
70.5
67.5
66.7
67.0
70.6
78.0
70.6
75.9
72.7
75.3
72.0
72.8
66.2
68.1
63.5
68.6
74.1
69.6
73.4
63.3
67.5
72.8
67.8
60.6
70.9
71.7
67.0
68.2
73.7
69.6
77.1
67.9
73.8
69.4
71.4
67.9
70.2
81.3
61.2
7
73.8
68.9
66.8
71.2
72.9
74.2
73.8
69.5
65.5
72.5
67.5
61.8
64.1
68.5
54.9
72.5
71.6
74.5
83.6
72.4
68.2
80.1
73.2
74.0
69.8
67.4
70.2
72.9
74.8
79.5
70.1
68.8
74.4
58.4
66.6
77.8
68.8
66.5
65.0
62.5
66.0
73.1
63.8
77.0
68.6
58.7
76.7
72.3
62.1
73.3
8
70.5
65.9
69.1
77.0
62.8
66.7
69.2
72.2
68.1
71.7
69.2
68.9
70.1
77.4
71.0
74.3
77.8
71.5
73.5
65.8
67.6
66.5
72.0
75.6
63.5
67.0
68.0
65.6
70.2
65.4
69.3
75.6
61.9
68.8
68.3
69.1
76.2
78.4
65.3
66.8
67.7
68.6
73.5
73.1
68.9
64.7
73.4
66.2
59.1
77.9
9
72.1
76.1
73.8
66.2
69.6
67.9
69.4
63.3
74.0
72.9
69.8
64.4
76.8
75.6
63.1
75.8
64.4
64.4
73.3
69.2
72.6
64.0
70.9
74.1
69.5
74.6
70.0
71.2
72.7
74.6
66.9
62.0
55.6
66.9
70.2
65.7
68.8
66.6
73.7
69.8
61.8
78.3
70.0
63.9
64.5
74.6
70.2
67.5
66.9
64.2
10
75.8
61.3
75.6
72.0
62.1
68.6
78.3
67.4
68.9
69.6
77.9
72.7
77.3
67.5
77.8
62.0
71.7
78.5
68.6
61.1
69.2
70.3
73.6
65.1
84.7
66.7
72.1
64.0
73.6
63.5
71.1
73.5
73.3
64.2
61.1
69.0
67.5
64.9
62.1
69.9
80.2
70.1
70.7
71.5
70.8
67.4
67.1
73.9
72.0
64.8
Si vuole stimare la media μX della variabile X nella popolazione, sapendo che la standard
deviation di X è: std( X ) = 4.93202
Ciascuno studente estragga dalla popolazione
5 campioni casuali semplici di numerosità 20
utilizzando i numeri casuali riportati nella
pagina
seguente.
(Campione
casuale
semplice: estratto con ripetizione da
distribuzione uniforme)
La variabile X nella popolazione ha una distribuzione
“a campana”; quindi per campioni di 20 unità
sperimentali la distribuzione della variabile aleatoria
X 20 può essere approssimata con quella di una
variabile aleatoria normale.
Histogram of X
Normal
70
60
50
Frequency
1)
40
30
20
10
0
58.5
63.0
67.5
72.0
76.5
81.0
(Nota: in genere si effettua tale approssimazione per numerosità maggiori di 30).
Unità sperim.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Campione 1
Campione 2
Campione 3
Campione 4
Campione 5
2)
Scrivere la formula per l’intervallo di confidenza per μX a livello di significatività del 95%, quando la
varianza è nota.
3)
Per ciascun campione estratto calcolare la media campionaria e l’intervallo di confidenza al 95% per
μX . Usare 5 cifre dopo la virgola.
x 20
semiampiezza intervallo
limite sinistro
limite destro
1
2
3
4
5
4)
Quando tutti gli studenti hanno terminato verrà fornito il valore vero di μX e si verificherà quanti
intervalli calcolati con la formula usuale contengono effettivamente μX . Quanti intervalli si prevede
contengano μX ?
Per campionare. Qui sotto, per ciascuno studente, sono fornite 5 colonne con 20 numeri casuali fra 1 e 500 (numerosità della popolazione) estratti con
ripetizione. Come utilizzare questi numeri.
Il primo numero casuale del primo studente 396. Quindi deve considerare il valore di X per la 396-esima unità sperimentale. Quale valore assume la
variabile X per 396-esima unità campionaria? È scritto nella tabella dei dati della popolazione nella riga 39-esima e nella colonna 6: è 73.7
Se il numero è di una sola cifra, ad esempio 4, si cerca il valore presente alla riga 0 e alla colonna 4, cioè 62.0.
Se il numero è di due cifre, del tipo 40, si cerca il valore alla riga 30 e alla colonna 10
1
2
3
4
5
396
52
493
24
214
377
390
170
468
4
425
483
261
469
111
250
308
241
324
441
342
213
282
331
213
329
354
256
136
150
388
485
87
14
463
266
389
313
21
360
433
351
498
424
425
282
367
115
197
418
1
191
107
118
395
480
38
370
497
455
247
193
278
493
479
26
378
120
488
313
350
269
443
162
132
192
203
282
174
379
301
54
164
474
251
330
51
405
169
239
467
386
204
265
186
445
396
82
255
100
6
154
241
362
365
259
183
335
212
474
221
368
9
40
62
352
307
457
304
24
207
133
494
66
254
441
71
240
151
355
19
476
253
383
257
28
133
355
411
90
2
206
200
417
417
217
379
234
225
271
232
50
170
396
164
250
474
147
396
322
402
63
218
468
299
231
94
60
298
214
78
100
202
335
27
112
400
38
145
417
287
145
473
332
435
237
303
427
288
331
60
246
59
341
373
209
286
388
244
354
457
330
307
57
452
453
482
335
67
251
82
403
27
181
82
20
470
240
186
27
391
7
42
345
283
415
180
232
57
198
74
171
329
315
115
67
34
54
38
139
406
74
267
118
68
136
384
347
197
252
186
304
126
439
426
34
335
151
101
46
474
342
93
37
158
438
54
202
239
467
41
15
318
75
493
440
450
132
161
65
406
498
307
255
376
350
483
93
261
388
499
243
20
467
167
69
227
469
480
353
111
213
20
376
257
264
313
134
23
480
471
116
130
183
9
72
30
315
212
104
380
362
57
230
92
210
474
499
490
393
250
80
494
407
385
263
63
112
272
288
393
111
348
395
455
432
286
142
120
176
91
444
166
383
106
119
258
260
239
289
98
315
226
451
385
317
377
214
440
483
131
80
273
339
310
472
383
287
365
171
491
222
315
72
154
119
100
461
482
392
91
458
461
260
221
369
300
28
58
302
399
475
411
337
241
197
315
192
103
59
159
214
390
434
474
360
72
316
258
120
54
295
8
244
319
363
64
248
348
52
376
483
493
434
269
358
324
14
494
96
319
164
451
387
185
81
314
247
168
147
73
454
93
149
10
383
301
305
182
289
338
96
123
12
389
349
478
126
490
77
469
413
91
69
297
434
92
332
219
374
371
65
211
385
242
465
64
84
188
167
36
473
210
344
253
169
49
401
333
135
242
56
100
154
198
406
421
192
82
436
478
328
333
5
94
216
296
126
247
427
260
440
47
195
23
272
304
243
187
88
205
22
487
243
481
234
330
194
388
475
243
79
329
385
365
490
493
359
14
463
301
160
68
225
25
286
279
456
213
98
187
393
432
233
237
456
485
278
397
24
101
292
227
465
220
89
261
21
94
472
397
168
441
29
291
371
233
116
60
114
250
8
158
451
332
457
331
353
53
246
211
5
141
406
117
27
6
282
465
430
237
40
3
479
38
187
290
217
483
320
391
120
403
9
205
320
234
186
105
272
52
284
26
421
333
473
453
199
293
4
294
287
30
493
325
432
454
374
357
226
45
213
316
109
48
296
59
121
48
123
112
350
326
395
489
139
183
97
357
381
478
187
171
491
185
407
120
414
207
221
48
468
116
61
328
210
426
275
463
228
62
307
221
500
461
134
478
486
409
361
476
129
264
330
352
390
308
372
232
134
184
234
470
478
12
109
211
250
289
171
219
8
9
129
110
492
245
234
250
451
402
247
137
103
234
228
6
472
350
105
149
291
409
193
106
377
95
185
235
414
378
150
212
270
173
127
303
355
194
143
402
417
177
489
340
459
410
467
120
102
268
315
106
137
302
405
400
165
62
166
243
138
136
419
50
392
230
237
256
153
81
229
139
107
335
368
223
98
286
187
431
336
494
10
111
59
172
58
315
34
279
46
150
81
291
219
182
252
23
276
369
97
128
24
269
245
217
263
46
215
66
339
448
432
90
236
371
233
260
421
457
112
156
195
447
25
101
184
30
40
142
298
151
118
67
247
24
83
20
262
246
32
273
363
169
190
351
229
247
164
277
488
320
73
253
334
220
235
261
479
6
92
136
76
49
149
176
450
29
273
454
346
365
106
244
11
266
170
286
32
239
85
269
15
10
80
397
149
33
183
47
91
476
465
408
470
300
483
307
376
333
256
58
318
44
131
420
169
327
60
183
90
439
459
209
490
411
158
427
118
29
32
275
469
83
149
188
465
27
27
211
70
116
297
264
499
426
91
357
296
138
334
489
60
325
488
390
239
245
374
410
316
47
436
473
183
374
189
445
477
406
413
442
291
494
84
169
480
62
354
181
451
164
1
58
240
478
134
91
105
267
458
396
32
440
11
453
143
230
278
97
153
244
467
92
102
436
202
7
438
346
59
139
309
14
143
12
477
145
399
138
293
331
377
231
321
500
1
186
386
376
378
421
116
409
132
393
484
152
495
443
301
203
218
66
272
32
175
449
106
421
307
93
145
82
368
296
85
441
230
419
26
424
448
164
127
496
314
146
253
443
225
41
163
388
38
445
191
472
436
42
171
398
318
113
466
399
14
326
279
430
44
193
231
450
218
337
16
396
327
152
197
131
401
454
409
461
36
402
273
72
323
64
269
142
214
215
75
448
421
472
111
56
160
445
313
321
151
401
188
78
436
410
97
496
353
203
163
13
376
333
40
173
80
435
70
330
221
455
428
195
72
261
324
193
277
188
7
187
214
310
379
126
378
279
219
281
475
128
224
281
253
128
226
460
478
369
290
25
332
368
408
448
190
106
344
171
367
394
28
427
160
476
171
33
466
127
83
120
392
329
142
347
209
104
166
322
473
349
415
466
180
346
158
263
177
18
430
164
17
403
384
242
301
258
394
282
416
147
266
34
181
192
85
135
47
461
113
108
251
170
40
153
94
25
334
311
98
456
133
458
336
394
435
116
390
40
103
429
409
344
451
6
376
482
197
155
129
152
162
456
349
380
227
43
173
227
376
466
86
387
124
280
187
298
334
274
448
393
455
275
423
469
493
339
284
236
19
414
409
207
327
495
129
496
269
27
148
142
81
418
27
117
429
63
179
354
134
444
455
330
339
8
64
373
381
242
353
480
389
263
112
87
450
358
333
238
394
273
383
14
213
55
403
362
416
221
425
432
158
369
334
211
414
15
7
37
77
312
411
66
441
404
453
214
54
134
447
483
414
212
253
320
287
76
416
49
96
246
296
93
236
116
132
287
1
62
111
409
211
201
226
399
78
265
186
225
369
458
77
362
489
233
467
202
258
110
486
297
74
39
330
247
481
57
171
464
396
276
44
426
18
484
161
344
101
206
423
168
113
302
169
209
374
317
10
374
358
329
370
488
262
395
489
257
319
235
337
162
393
52
149
194
348
272
181
117
405
412
415
335
369
412
12
185
452
256
313
255
394
395
159
500
420
334
354
428
497
149
384
255
459
179
398
72
395
41
329
95
242
433
195
264
56
67
54
432
186
88
333
57
123
417
99
49
400
24
119
346
29
87
178
354
9
226
443
53
256
414
7
1
66
296
220
419
429
70
127
135
251
456
222
358
163
12
52
444
356
447
47
313
314
15
416
235
295
53
142
492
88
55
295
131
347
313
321
13
383
335
497
119
351
106
3
78
242
304
262
31
283
306
324
216
453
91
26
118
458
58
156
334
362
133
194
11
365
406
246
265
261
240
286
470
357
65
25
396
369
11
128
67
307
229
329
285
490
104
113
276
487
125
177
481
81
447
113
209
300
483
50
162
296
474
19
172
99
133
184
80
203
425
111
498
240
62
386
398
168
451
367
479
76
161
478
185
434
274
130
115
351
339
282
470
27
199
242
486
342
282
16
99
107
423
47
289
189
302
490
187
210
27
166
393
290
149
314
377
437
221
232
82
130
251
444
177
128
18
343
493
245
149
209
150
493
53
246
211
11
469
430
307
322
341
476
50
477
387
59
337
335
449
464
398
334
142
72
299
444
165
374
163
482
277
422
491
264
171
133
330
55
169
222
401
35
326
276
308
96
419
392
177
481
410
244
318
295
351
122
283
148
364
407
340
377
335
182
142
341
363
146
258
131
137
18
80
253
254
94
174
392
428
163
2
344
115
335
55
392
103
384
129
378
399
451
285
120
361
477
344
262
387
202
242
325
114
328
317
342
74
115
84
344
332
446
309
415
383
36
233
2
105
357
453
23
433
5
167
433
107
229
221
415
443
47
139
417
269
366
383
271
470
80
453
350
493
261
134
478
226
409
446
405
429
476
330
172
399
116
412
342
153
492
142
62
435
29
397
40
338
184
137
150
116
12
198
252
16
215
46
151
149
150
91
135
44
132
8
201
126
103
241
272
286
459
329
455
39
352
312
340
429
382
381
112
380
180
186
154
256
490
123
227
172
323
20
179
372
63
150
339
76
1
336
29
428
341
235
376
145
391
255
1
115
341
444
197
352
453
319
437
495
77
1
334
307
85
420
435
268
134
433
375
31
123
477
498
197
396
153
164
373
216
59
471
342
449
481
372
406
271
468
213
182
312
450
80
88
410
393
195
307
2
240
89
495
226
255
418
52
35
41
492
301
304
222
56
159
107
294
498
317
177
307
256
247
34
91
292
315
96
494
312
388
68
143
21
109
41
298
322
311
280
363
209
455
500
173
388
102
97
464
463
232
359
137
464
22
445
407
66
110
334
45
479
459
413
95
398
439
497
121
269
325
316
392
153
26
199
295
474
131
367
124
55
149
116
8
315
208
413
141
335
473
281
424
314
384
110
225
65
129
24
381
223
104
87
373
411
483
368
390
190
70
349
209
227
365
306
460
192
36
438
494
56
462
402
222
397
318
130
409
187
99
327
340
380
399
22
482
19
375
46
325
126
306
475
140
287
243
397
72
358
208
336
480
240
64
23
415
79
400
55
401
51
208
364
358
347
187
225
268
64
432
334
329
244
207
160
244
39
380
311
35
262
388
303
79
52
89
334
85
376
54
377
135
307
314
105
16
161
11
341
70
477
124
454
368
311
469
90
254
303
149
329
237
98
84
57
409
331
337
36
463
32
169
373
301
25
364
49
409
112
439
461
265
143
400
199
309
364
237
416
341
330
87
439
363
114
106
418
260
262
20
66
170
428
336
97
24
285
165
365
366
43
424
457
175
313
379
54
289
252
80
416
9
151
277
170
494
252
413
16
479
254
157
242
106
396
279
486
404
489
122
24
468
347
256
479
451
468
390
181
249
267
149
461
205
479
180
38
460
249
41
390
23
223
258
159
241
345
152
306
118
64
177
489
131
489
128
158
337
12
411
406
269
138
319
390
281
259
109
240
160
228
267
165
174
340
366
278
152
169
494
376
332
156
323
58
68
25
44
452
371
295
388
62
406
261
136
180
220
174
5
184
360
448
345
250
104
67
344
466
212
46
356
343
381
139
238
153
434
377
491
296
455
10
74
487
18
213
126
425
19
463
305
393
51
369
94
457
178
420
461
409
109
115
137
108
302
16
353
7
260
359
176
350
275
380
168
411
40
124
432
254
425
490
450
269
346
223
91
473
415
295
143
97
439
242
115
118
199
184
173
375
403
110
390
42
414
197
344
266
338
185
396
282
118
298
347
44
353
404
109
438
67
39
406
30
479
201
167
477
341
405
322
128
317
236
106
300
14
29
34
130
386
411
229
39
25
352
282
311
303
241
382
472
417
382
60
350
79
277
42
246
355
96
238
399
245
473
403
390
392
249
92
461
150
365
162
127
292
259
155
190
484
77
491
272
29
75
ESERCIZI
1) Da
a)
b)
c)
400 lanci di una moneta sono risultati 175 esiti “testa” e 225 esiti “croce”.
Trovare un intervallo di confidenza al 90% per la probabilità di esito “testa”.
Trovare un intervallo di confidenza al 99% per la probabilità di esito “testa”.
Questa moneta sembra truccata? Giustificare la risposta.
2) Spiegare, eventualmente con un esempio, perché l’intervallo di confidenza di un parametro può non
contenere il parametro che si vuole stimare.
3) Si vogliono effettuare stime per la quantità di sostanza attiva in una unità di un certo farmaco
(espressa in mg). Si può ipotizzare che la variabile casuale X che rappresenta la quantità di sostanza
attiva abbia distribuzione normale. A tal fine si effettua un campionamento casuale di 100 unità del
farmaco. Per questo campione si ottiene:
n
∑ x i = 222.91 e
i =1
n
xi
∑
i
2
= 1154.8
=1
Calcolare una stima puntuale e un intervallo di confidenza a livello di significatività del 99% per la media
di sostanza attiva del farmaco.
4) Dai dati del censimento del 1991 risulta che il numero di abitazioni di una città è 300 000 e che la
media dell’epoca di costruzione delle abitazioni è 1815 e lo scarto quadratico medio è 50 anni.
Uno statistico calcola l’intervallo di confidenza per la media dell’epoca di costruzione al 95%.
Commentare.
5) Si determina l’ampiezza 2δ di un intervallo di confidenza a livello fissato 1- α per la media di una
variabile aleatoria normale di varianza nota, sulla base di un campione di numerosità n. Quanto
numeroso deve essere il campione se si vuole che l’intervallo risultante, con lo allo stesso livello, abbia
ampiezza pari ad un terzo di quello che si ottiene con un campione di numerosità n ?
6) Sia X una variabili aleatorie di Bernoulli di parametro p, siano X 1 ,… , X n le variabili aleatorie
campionarie e sia P lo stimatore di p.
a) Scrivere (in funzione di n , p ) la semiampiezza δ dell’intervallo di confidenza per p a livello di
significatività del 95%.
b) Per quale valore di p la semiampiezza δ è massima?
c) Come deve essere scelto n affinché la semiampiezza δ sia minore o uguale a 0.05?
7) Sia X una variabile aleatoria con distribuzione normale di media μ e varianza σ 2 entrambe
sconosciute. Per stimare il parametro μ si effettua un campionamento di numerosità 16. Si indichi con
I 16α la realizzazione campionaria dell’intervallo di confidenza per μ a livello di significatività fissato 1 − α .
Si amplia il campione percedente di altre 9 unità (ottenendo un campione totale di 25 elementi); si
α
la realizzazione campionaria dell’intervallo di confidenza per μ nel campione totale allo
indichi con I 25
stesso livello di significatività.
Dire se le seguenti relazioni sono vere, false o se non si può affermare né una cosa né l’altra:
α
α
α
α
a) I 16α ⊂ I 25
b) I 16α ⊃ I 25
c) I 16α ∩ I 25
=∅
d) I 16α ∩ I 25
≠∅
8) Sia X una variabile aleatoria con distribuzione normale di media sconosciuta e varianza nota.
Indichiamo con (A, B) l’intervallo di confidenza per la media calcolato su un campione di n elementi. È
vero che A e B sono variabili aleatorie?
9) Sia X una variabile aleatoria con distribuzione normale di media μ e varianza σ 2 entrambe
sconosciute. Sulla base di un campione di numerosità n si calcola un intervallo di confidenza per μ al
livello del 95%. Esite un intervallo di confidenza per μ , allo stesso livello, su un campione di uguale
numerosità con ampiezza minore del precedente?
10) Uno scienziato sostiene che il 9% delle stelle ammette un sistema planetario.
a)
Determinare la probabilità che su 1000 stelle almeno 100 abbiano un sistema planetario, secondo
le ipotesi dello scienziato.
b)
Sulle 80 stelle più vicine alla terra se ne sono trovate 3 con un sistema planetario. Si calcoli un
intervallo di confidenza a livello del 5% per la frequenza relativa delle stelle vicine alla terra con
sistema planetario.
11) A parità di altre condizioni (numerosità campionaria, ....) è vero che l’ampiezza dell’intervallo di
confidenza per il valore atteso è tanto maggiore quanto è minore il livello 1- α ? Giustificare la risposta.
12) Sia X una variabile aleatoria di legge normale. Si effettua un campionamento di numerosità 10 e si
ottengono i seguenti valori campionari:
24.2 22.5 26.7 27.0 28.2 21.3 23.8 24.5 23.2 22.9
a)
Calcolare un intervallo di confidenza per la media a livello di significatività 0.90
Supponendo che la varianza sia nota e pari a 2, indicare la minima numerosità campionaria
b)
affinché l’ampiezza dell’intervallo di confidenza sia minore o uguale a 1, mantenendo lo stesso
livello di significatività.