caricato da common.user4889

Inferenza Statistica: Primi Elementi

Marco Di Marzio
Primi elementi di inferenza statistica
Ringraziamenti
Un sentito ringraziamento a Fabiola Del Greco e Agnese Panzera per la preziosa collaborazione.
Indice
1 Probabilità
1.1 Esperimenti casuali . . . . . . . . . . . .
1.2 Algebra degli eventi . . . . . . . . . . .
1.3 Probabilità e sue concezioni . . . . . . .
1.4 Assiomi della probabilità . . . . . . . . .
1.5 Probabilità condizionata e indipendenza
1.6 Proprietà degli eventi indipendenti . . .
1.7 Formula di Bayes . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Esercizi svolti
12
3 Variabili casuali semplici
3.1 Variabili casuali . . . . . . . . . . . . . . .
3.2 Distribuzioni di probabilità . . . . . . . .
3.3 Famiglie parametriche . . . . . . . . . . .
3.4 Funzioni di ripartizione . . . . . . . . . .
3.5 Variabili casuali identicamente distribuite
3.6 Moda . . . . . . . . . . . . . . . . . . . .
3.7 Quantili . . . . . . . . . . . . . . . . . . .
3.8 Valore atteso . . . . . . . . . . . . . . . .
3.9 Varianza . . . . . . . . . . . . . . . . . . .
3.10 Coeﬃciente di variazione . . . . . . . . . .
3.11 Disuguaglianza di Chebyshev . . . . . . .
3.12 Variabili casuali standardizzate . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Esercizi svolti
5 Principali variabili casuali discrete
5.1 Tre esperimenti casuali fondamentali
5.2 Variabile casuale binomiale . . . . .
5.3 Variabile casuale geometrica . . . . .
5.4 Variabile casuale ipergeometrica . .
5.5 Variabile casuale di Poisson . . . . .
1
1
3
5
6
7
9
10
19
19
21
23
23
25
25
25
26
27
29
30
31
32
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
39
40
41
6 Esercizi svolti
43
7 Principali variabili casuali continue
7.1 Esperimenti casuali descritti da variabili casuali
7.2 Variabile casuale normale . . . . . . . . . . . .
7.3 Variabile casuale normale standard . . . . . . .
7.4 Variabile casuale uniforme . . . . . . . . . . . .
7.5 Variabile casuale esponenziale . . . . . . . . . .
46
46
46
47
49
50
8 Esercizi svolti
M. Di Marzio
continue .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
52
iii
Primi elementi di inferenza statistica (ed. maggio 2012)
Indice
9 Variabili casuali multiple
9.1 Variabili casuali multiple e distribuzioni di
9.2 Funzioni di variabile casuale multipla . . .
9.3 Distribuzioni di probabilità marginali . . .
9.4 Distribuzioni di probabilità condizionate .
9.5 Variabili casuali indipendenti . . . . . . .
9.6 Covarianza . . . . . . . . . . . . . . . . .
9.7 Correlazione . . . . . . . . . . . . . . . . .
9.8 Indipendenza e incorrelazione . . . . . . .
9.9 Distribuzione normale doppia . . . . . . .
probabilità congiunte
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Esercizi svolti
56
56
58
59
60
63
64
65
66
66
69
11 Funzioni di variabili casuali
11.1 Somma di variabili casuali . . . . . . . . . . . . . .
11.2 Distribuzioni del minimo e del massimo di variabili
11.3 Variabili casuali che derivano dalla normale . . . .
11.4 Somme di particolari variabili casuali indipendenti
11.5 Teorema centrale del limite . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
78
78
80
82
83
84
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
campioni casuali gaussiani
. . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
87
88
89
91
93
93
94
95
96
13 Verosimiglianza e suﬃcienza
13.1 Funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.2 Sintesi dell’informazione tramite statistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.3 Statistiche suﬃcienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
97
98
99
. . . .
casuali
. . . .
. . . .
. . . .
12 Popolazione e campionamento
12.1 Popolazione, campione e inferenza . . . . . . . . . . . . .
12.2 Popolazione come pdf parametrica . . . . . . . . . . . . .
12.3 Campione casuale e osservato . . . . . . . . . . . . . . . .
12.4 Statistiche campionarie . . . . . . . . . . . . . . . . . . .
12.5 Media campionaria: valore atteso e varianza . . . . . . . .
12.6 Media campionaria: funzione di densità . . . . . . . . . .
12.7 Valore atteso della varianza campionaria . . . . . . . . . .
12.8 Funzione di densità della varianza campionaria nel caso di
12.9 Altre statistiche calcolate su campioni casuali gaussiani .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14 Esercizi svolti
15 Stima
15.1 Il problema della stima . . . . .
15.2 Proprietà degli stimatori . . . .
15.3 Proprietà per piccoli campioni .
15.4 Proprietà per grandi campioni .
15.5 Costruzione degli stimatori . .
103
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16 Esercizi svolti
117
17 Stima per intervalli
17.1 Il problema della stima per intervalli . . . . . . .
17.2 Deﬁnizione di quantità pivotale . . . . . . . . . .
17.3 Quantità pivotali nel caso di popolazione normale
17.4 Quantità pivotali nel caso di grandi campioni . .
17.5 Costruzione di stimatori per intervalli . . . . . .
17.6 Intervalli di conﬁdenza per la media . . . . . . .
17.7 Numerosità campionaria per la stima della media
17.8 Intervalli di conﬁdenza per la proporzione . . . .
17.9 Intervalli di conﬁdenza per la varianza . . . . . .
17.10Proprietà degli stimatori intervallari . . . . . . .
18 Esercizi svolti
Primi elementi di inferenza statistica (ed. maggio 2012)
107
107
108
109
112
114
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
122
122
123
123
124
125
125
126
127
127
127
129
iv
M. Di Marzio
INDICE
19 Veriﬁca d’ipotesi
19.1 Ipotesi statistiche . . . . . . . . . . . . . . . . . .
19.2 Il test statistico . . . . . . . . . . . . . . . . . . .
19.3 Accuratezza del test statistico . . . . . . . . . . .
19.4 Costruzione del test statistico . . . . . . . . . . .
19.5 Veriﬁca d’ipotesi sulla media . . . . . . . . . . .
19.6 Veriﬁca di ipotesi sulla diﬀerenza tra medie . . .
19.7 Veriﬁca di ipotesi nel caso di grandi campioni . .
19.8 Veriﬁca d’ipotesi sulla proporzione . . . . . . . .
19.9 Veriﬁca d’ipotesi sulla diﬀerenza tra proporzioni
19.10Veriﬁca di ipotesi sulla varianza . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20 Esercizi svolti
21 Test Chi-quadrato
21.1 Formulazione generale
21.2 Test di conformità . .
21.3 Test di indipendenza .
21.4 Test di omogeneità . .
134
134
135
137
139
141
142
143
143
144
144
146
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
155
155
156
158
159
22 Esercizi svolti
162
23 Predizione
23.1 Predittori ottimi non condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23.2 Predittori ottimi condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23.3 Due modelli di media condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
169
169
170
171
24 Inferenza su medie condizionate
24.1 Stima . . . . . . . . . . . . . . .
24.2 Proprietà degli stimatori B0 e B1
24.3 Stime intervallari e test su β1 . .
24.4 Test di linearità . . . . . . . . . .
175
175
179
181
182
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25 Esercizi svolti
184
26 Aﬃdabilità
26.1 Deﬁnizioni . . . . . . . . . . . . . . . . . . . . . . . .
26.2 Andamenti tipici del tasso di guasto . . . . . . . . .
26.3 Tasso di guasto di alcune variabili casuali continue .
26.4 Stima della durata media . . . . . . . . . . . . . . .
26.5 Sistemi complessi . . . . . . . . . . . . . . . . . . . .
26.6 Sistemi in serie . . . . . . . . . . . . . . . . . . . . .
26.7 Sistemi in parallelo . . . . . . . . . . . . . . . . . . .
26.8 Sistemi in serie con parti positivamente correlate . .
26.9 Sistemi in parallelo con parti positivamente correlate
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27 Esercizi svolti
A Analisi matematica
A.1 Insiemi . . . . . . . . . . . . . . . . .
A.2 Estremo superiore, estremo inferiore,
A.3 Intervalli di numeri reali . . . . . . .
A.4 Valore assoluto . . . . . . . . . . . .
A.5 Simboli di sommatoria e produttoria
A.6 Doppia sommatoria . . . . . . . . . .
A.7 Lo spazio Rn . . . . . . . . . . . . .
A.8 Funzioni . . . . . . . . . . . . . . . .
A.9 Funzioni esponenziale e logaritmo . .
A.10 Funzioni limitate . . . . . . . . . . .
A.11 Limiti di funzioni e continuità . . .
A.12 Derivata di una funzione . . . . . . .
M. Di Marzio
194
194
195
196
198
200
200
201
201
202
203
. . . . .
massimo
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
v
.
e
.
.
.
.
.
.
.
.
.
.
. . . . .
minimo
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
209
209
210
211
211
211
212
213
213
214
215
216
217
Primi elementi di inferenza statistica (ed. maggio 2012)
Indice
A.13 Derivate parziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
A.14 Integrali indeﬁniti e integrali deﬁniti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
A.15 Calcolo di integrali doppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
B Calcolo combinatorio
222
B.1 Disposizioni e permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
B.2 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
B.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
C Tavole statistiche
224
D Elenco delle abbreviazioni e dei simboli
231
Primi elementi di inferenza statistica (ed. maggio 2012)
vi
M. Di Marzio
1
Probabilità
Indice
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.1
Esperimenti casuali . . . . . . . . . . . . .
Algebra degli eventi . . . . . . . . . . . . .
Probabilità e sue concezioni . . . . . . . .
Assiomi della probabilità . . . . . . . . . .
Probabilità condizionata e indipendenza
Proprietà degli eventi indipendenti . . . .
Formula di Bayes . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
3
5
6
7
9
10
Esperimenti casuali
Spesso è necessario formulare previsioni su esiti di esperimenti (se prodotti dall’ uomo) o fenomeni (se presenti
in natura). In generale il complesso degli esiti possibili è noto, ma quale esito in particolare si veriﬁcherà
non è dato saperlo con certezza. Di tali situazioni aleatorie si occupa il calcolo delle probabilità. Per esso,
come per ogni altro campo della scienza, esiste uno speciﬁco linguaggio formalizzato. Così l’insieme di tutti
i possibili esiti è detto spazio fondamentale ed è indicato con Ω, mentre il singolo esito è detto evento
elementare e viene indicato con ω:
Ω = {ω1 , ω2 , ...} ,
a seconda dell’esperimento o fenomeno che viene rappresentato, lo spazio fondamentale Ω può contenere un
numero ﬁnito o inﬁnito di eventi elementari. Inﬁne qualunque sottoinsieme di Ω si deﬁnisce evento.
Esempio 1.1. Si osservi il numero risultante dal lancio di un dado. Deﬁnire Ω e gli eventi
E = numero pari ;
F = numero non maggiore di 4 ;
G = numero non minore di 5 ;
H = numero multiplo di 3 .
Si ha:
Ω = {1, 2, 3, 4, 5, 6} ;
E = {2, 4, 6} ;
F = {1, 2, 3, 4} ;
G = {5, 6} ;
H = {3, 6} .
Esempio 1.2. Da un mazzo di 40 carte napoletane se ne estrae una. I semi sono: B, C, D, S. Individuare gli eventi:
I = asso ;
L = carta minore di 3 che non abbia seme C ;
M = carta del seme D .
Si ha:
I = {1B, 1C, 1D, 1S} ;
L = {1B, 1D, 1S, 2B, 2D, 2S} ;
M = {1D, 2D, 3D, 4D, 5D, 6D, 7D, 8D, 9D, 10D} .
I concetti di esperimento o fenomeno prima considerati possono essere descritti da un modello formale detto
esperimento casuale. L’esperimento casuale si deﬁnisce come una procedura di osservazione di uno solo
degli elementi di uno spazio fondamentale Ω tale che:
M. Di Marzio
1
Primi elementi di inferenza statistica (ed. maggio 2012)
1.1. Esperimenti casuali
1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza;
2) l’esperimento casuale è replicabile nelle stesse condizioni anche inﬁnite volte.
L’eperimento è deﬁnito casuale e non deterministico proprio perchè, sebbene ripetuto nelle identiche condizioni, esso fornisce di volta in volta esiti diﬀerenti che sono dettati dal caso. Una singola replica dell’esperimento è detta prova. In statistica il concetto di esperimento casuale serve a formalizzare la rilevazione di un
carattere statistico. In questo caso Ω è l’insieme delle possibili modalità del carattere. La prova dell’esperimento è l’estrazione di una unità dalla popolazione e la rilevazione sulla stessa della modalità del carattere.
Inﬁne la modalità osservata costituisce l’esito.
Esempio 1.3. Rileviamo il contenuto di cellulosa di 100 sacchetti ad alta resistenza estratti dalla massa prodotta
dal nostro impianto durante la mattinata. Il carattere statistico è il contenuto di cellulosa 1 , e le 100 misurazioni sono
altrettante prove di un esperimento casuale.
Aﬃnché in una prova si veriﬁchi un evento è necessario che l’evento elementare che risulterà sia contenuto
nell’ evento stesso. Allora Ω si veriﬁca ad ogni prova poiché è l’insieme di tutti i possibili esiti. In quanto
tale, Ω è anche detto evento certo.
Esempio 1.4. Con riferimento all’esempio 1.1, nella tavola seguente sono riportati gli eventi che si veriﬁcano in
corrispondenza di ogni evento elementare.
ω
Eventi
1
Ω, F
2
Ω, E, F
3
Ω, F , H
4
Ω, E, F
5
Ω, G
6
Ω, E, G, H
Consideriamo due prove di un esperimento casuale con spazio fondamentale Ω1 . L’esito di tale esperimento
ripetuto è dato da una coppia di valori, e lo spazio fondamentale, chiamato spazio prodotto, è costituito
da tutte le possibili coppie di elementi di Ω1 , cioè il prodotto cartesiano (sez. A.7) tra Ω1 e se stesso:
Ω = Ω1 × Ω1 = {(ωi , ωj ) : ωi ∈ Ω1 , ωj ∈ Ω1 }.
Esempio 1.5. Si consideri l’esperimento casuale ‘lancio di due dadi’. Elencare gli elementi dello spazio fondamentale
Ω.
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}
= {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),
(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}.
In generale, per k ripetizioni dell’esperimento abbiamo:
k fattori
z
}|
{
Ω = Ω1 × Ω1 × ... × Ω1 = {(ω1 , ω2 , ..., ωk ) : ωi ∈ Ω1 , ∀ i ∈ {1, 2, ..., k}}.
Esempio 1.6. Dalla fornitura di lampadine appena consegnataci scegliamo a caso un elemento. Si indichi l’evento
‘lampadina difettosa’ con D, e l’evento contrario con N. Elencare gli elementi dello spazio fondamentale Ω relativo
all’esperimento casuale ‘estrazione di 3 lampadine’.
Ω = {D, N } × {D, N } × {D, N }
= {DDD, N DD, DN D, DDN, N N D, DN N, N DN, N N N } .
Si può immaginare anche che i singoli esperimenti siano tra loro diﬀerenti, cioè si possono eseguire consecutivamente n esperimenti casuali ognuno con uno speciﬁco spazio fondamentale Ωi con i = 1, 2, ..., n. La n-upla
di esiti è ancora elemento di uno spazio fondamentale prodotto che si indica come:
Ω = Ω1 × Ω2 × ... × Ωn = {(ω1 , ω2 , ..., ωn ) : ωi ∈ Ωi , ∀ i ∈ {1, 2, ..., n}} .
1 di
cui ovviamente conosciamo l’intervallo delle possibili modalità che in questo caso costituisce lo spazio fondamentale Ω.
Primi elementi di inferenza statistica (ed. maggio 2012)
2
M. Di Marzio
1. PROBABILITÀ
1.2
Algebra degli eventi
Poichè un evento è un insieme di eventi elementari, le relazioni tra eventi possono essere descritte per mezzo
di operazioni logiche tra insiemi. Dato un generico spazio fondamentale Ω e i suoi sottoinsiemi {E1 , E2 , ...},
deﬁniamo le seguenti operazioni (o relazioni) logiche:
1. Inclusione Un evento E1 è incluso in un evento E2 , cioè E1 ⊂ E2 , se tutti gli eventi elementari in E1
sono anche esiti elementari in E2 ; si dice anche che E1 implica E2 .
2. Uguaglianza Gli eventi E1 e E2 sono uguali, cioè E1 = E2 , se E1 ⊂ E2 e E2 ⊂ E1 .
3. Negazione (o complemento) Consiste di eventi elementari non appartenenti all’evento che viene
negato: ω ∈ E1 se e solo se ω ∈
/ E1 . Si dice anche che E1 è il complemento di E1 .
∪k
4. Unione Consiste di eventi elementari che appartengono ad almeno uno dei k eventi uniti: ω ∈ i=1 Ei
se esiste almeno un indice i ∈ {1, 2, ..., k} tale che ω ∈ Ei .
∩k
5. Intersezione Consiste di eventi elementari che appartengono a tutti i k eventi intersecati: ω ∈ i=1 Ei
se ω ∈ Ei ∀ i ∈ {1, 2, ..., k}. Si noti che spesso per l’intersezione vengono usate diﬀerenti notazioni; ad
esempio, E1 ∩ E2 , può trovarsi indicato anche come E1 E2 oppure E1 , E2 .
6. Diﬀerenza La diﬀerenza tra due eventi E1 e E2 consiste di eventi elementari appartenenti a E1 che
non sono in E2 : ω ∈ (E1 − E2 ) se e solo se ω ∈ (E1 ∩ E2 ).
Un evento particolare è il cosiddetto evento impossibile, deﬁnito come la negazione di Ω e indicato con ∅.
Poichè ∅ = Ω, l’evento impossibile non contiene alcun evento elementare, così, qualsiasi esito risulterà, mai
si veriﬁcherà ∅, da cui il nome. Per E ⊂ Ω, si ha
E ∩ ∅ = ∅,
E ∪ ∅ = E,
E = Ω − E,
E ∩ E = ∅,
E ∩ Ω = E,
E ∪ Ω = Ω,
Ω = E ∪ E,
E = E.
Dati gli eventi E1 , E2 e E3 appartenenti a Ω, le operazioni di intersezione, unione e negazione soddisfano le
seguenti leggi.
Leggi commutative:
E1 ∩ E2 = E2 ∩ E1 ,
E1 ∪ E2 = E2 ∪ E1 .
Leggi associative:
E1 ∪ (E2 ∪ E3 ) = (E1 ∪ E2 ) ∪ E3 ,
E1 ∩ (E2 ∩ E3 ) = (E1 ∩ E2 ) ∩ E3 .
Leggi distributive:
E1 ∪ (E2 ∩ E3 ) = (E1 ∪ E2 ) ∩ (E1 ∪ E3 ),
E1 ∩ (E2 ∪ E3 ) = (E1 ∩ E2 ) ∪ (E1 ∩ E3 ).
Prima legge di De Morgan:
E1 ∩ E2 = E1 ∪ E2 .
Seconda legge di De Morgan:
E1 ∪ E2 = E1 ∩ E2 .
Nella ﬁgura 1.2 possiamo osservare una rappresentazione delle leggi di De Morgan tramite diagrammi di
Venn. Se si considera tutta la parte scura si evince la prima legge, mentre se si considera solo la parte a
quadretti si evince la seconda legge.
Due eventi E1 e E2 si dicono incompatibili se E1 ∩ E2 = ∅. Una classe importante di eventi tra loro
incompatibili è rappresentato dagli eventi elementari {ω1 , ω2 , ...} di un esperimento casuale.
Una classe di sottoinsiemi {E1 , E2 , ..., Ek } dell’insieme A è detta partizione di A se
k
∪
Ei = A
e
Ei ∩ Ej = ∅ ∀ i ̸= j.
i=1
La ﬁgura 1.1 contiene esempi di relazioni tra eventi rappresentate con diagrammi di Venn.
Nella tabella 1.1 riassumiamo alcuni interessanti casi della corrispondenza tra la terminologia della teoria
degli insiemi, quella della probabilità e quella del mondo reale da noi descritto come esperimento casuale.
M. Di Marzio
3
Primi elementi di inferenza statistica (ed. maggio 2012)
1.2. Algebra degli eventi
Figura 1.1: Alcune operazioni tra insiemi rappresentate attraverso diagrammi di Venn.
111111
000000
000000
111111
000000
111111
000000
111111
000000
111111
A=111111
000000
000000
111111
111111
000000
000000
111111
000000
111111
111111111
000000000
000000000
111111111
000000000
111111111
000000000
B= 111111111
000000000
111111111
Α
A
111111
000000
000000
111111
000000
111111
000000
B=111111
000000
111111
111111111111111111111111111111111111111111
000000000000000000000000000000000000000000
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
B
00000000000000
11111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
A
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
00000000000000
11111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
00000000000000
11111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
0000000000000000000000000000000
1111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
000000000000000000000000000000000000000000
111111111111111111111111111111111111111111
Ω
Figura 1.2: Leggi di De Morgan tramite diagrammi di Venn.
Teoria degli insiemi
Insieme Ω
ω elemento di Ω, ω ∈ Ω
Insieme ∅
E sottoinsieme di Ω, E ⊂ Ω
E1 contenuto in E2 , E1 ⊂ E2
Negazione dell’insieme E, ∩
E
n
Intersezione di n insiemi,
i=1 Ei
∪n
Unione di n insiemi, i=1 Ei
Diﬀerenza tra due insiemi, E1 − E2
Teoria della probabilità
Evento certo
Evento elementare
Evento impossibile
Evento
E1 implica E2
Evento contrario ad E
Intersezione di n eventi
Unione di eventi
Diﬀerenza tra eventi
Esperimento casuale
Tutti gli esiti
Singolo esito
Nessun esito
Insieme di esiti
Se E1 accade, anche E2 accade
E non accade
E1 , E2 , ..., En accadono insieme
Almeno uno tra E1 , E2 , ..., En accade
E1 accade e E2 non accade
Tabella 1.1: Insiemi, probabilità ed esperimenti casuali.
Primi elementi di inferenza statistica (ed. maggio 2012)
4
M. Di Marzio
1. PROBABILITÀ
Esempio 1.7. Una linea produttiva industriale viene interrotta. Due eventi circa la durata del fermo sono: A =
almeno 3 giorni e B = meno di 7 giorni. Descrivere: a) il complemento di A; b) l’evento intersezione tra A e B; c)
l’evento unione tra A e B; d) A e B sono incompatibili? e) A e B sono collettivamente esaustivi? f ) Quanto vale
(A ∩ B) ∪ (Ā ∩ B)? g) Quanto vale A ∪ (Ā ∩ B)? Di seguito le risposte.
a) Ā = non più di 2 giorni; b) A ∩ B = da 3 a 6 giorni; c) A ∪ B = un qualunque numero di giorni; d) no; e) si; f )
B; g) A ∪ B.
1.3
Probabilità e sue concezioni
Si consideri una prova di un generico esperimento casuale con spazio fondamentale Ω. Dato un evento E ⊂ Ω
si deﬁnisce probabilità di E, e la si indica con P(E), una misura del grado di ﬁducia riposto nel veriﬁcarsi
di E. Ma come assegnare le probabilità agli eventi? La risposta è complessa e spesso non deﬁnitiva. Sono
state elabrate diverse concezioni di probabilità negli ultimi secoli. Purtroppo spesso una data concezione
non è applicabile, e diverse concezioni portano a valutazioni diverse. Così bisogna ben ponderare la natura
dell’esperimento casuale per capire quale concezione applicare. Di seguito riportiamo due tra le concezioni
più importanti, quella classica e quella frequentista.
Se si sa che gli esiti hanno la stessa probabilità di veriﬁcarsi e si conoscono tutti, allora P(E) è data dal
rapporto tra il numero di eventi elementari favorevoli e il numero di eventi elementari possibili:
P(E) =
numero di eventi elementari favorevoli
♯E
=
,
numero di eventi elementari possibili
♯Ω
dove ♯A indica la cardinalità di A. Questa concezione è detta classica. I limiti di questa concezione sono nel
difetto logico per cui si usa il concetto nella deﬁnizione del concetto stesso, infatti si dice “hanno la stessa
probabilità...”, e inoltre nella scarsa applicabilità poichè, se si esclude l’ambito dei giochi di sorte, diﬃcilmente
l’equiprobabilità degli eventi elementari risulta plausibile.
Esempio 1.8. Con riferimento all’esempio 1.1, gli eventi elementari sono equiprobabili, così possiamo applicare la
deﬁnizione classica di probabilità. Si ottiene
1+1+1+1+1+1
;
6
1+1
P(G) =
;
6
P(Ω) =
1+1+1
;
6
1+1
P(H) =
.
6
P(E) =
P(F ) =
1+1+1+1
;
6
Esempio 1.9. In una stanza sono presenti venti persone di cui cinque sono fumatori. Si scelgono casualmente tre
individui. Qual è la probabilità che il primo e il secondo siano fumatori mentre il terzo non lo sia?
Poniamo
Fi = l’i-esimo individuo è un fumatore,
per i = 1, 2, 3.
Lo spazio fondamentale di questo esperimento ripetuto è dato da tutte le terne possibili estraibili senza reimmissione
cioè Ω = Ω1 × Ω2 × Ω3 dove Ωi è lo spazio fondamentale della prova i-esima. Poichè gli individui hanno tutti la stessa
probabilità di essere estratti, le terne sono equiprobabili, e di conseguenza possiamo usare la formulazione classica di
probabilità. Così calcoleremo il rapporto tra il numero delle terne favorevoli all’evento {F1 , F2 , F3 } e il numero delle
terne possibili. Il numero delle terne favorevoli è pari a 5 × 4 × 15, mentre il numero delle terne possibili è dato dalle
permutazioni di 20 oggetti presi tre alla volta. La probabilità cercata è allora
P(F1 , F2 , F3 ) =
5 × 4 × 15
.
20 × 19 × 18
In molti casi un esperimento si veriﬁca ripetutamente nelle stesse condizioni, ad esempio n volte. Così i dati
del passato rendono disponibile la frequenza assoluta del veriﬁcarsi di un evento E che qui indichiamo con
nE . La concezione frequentista adotta come approssimazione di P(E) la frequenza relativa di E, precisando
che più prove ci sono state, cioè più alto è il denominatore n della frequenza relativa, meglio la frequenza
relativa approssima P(E). Purtroppo in questa concezione P(E) non è conoscibile poiché corrisponde alla
frequenza ottenuta dopo aver eﬀettuato inﬁnite prove, formalmente:
nE
.
n→∞ n
P(E) = lim
Rispetto alla concezione classica questo approccio presenta i seguenti vantaggi: la conoscenza di tutti gli esiti
possibili non è richiesta, né è necessaria l’ipotesi di equiprobabilità. Purtroppo anche l’approccio frequentista
soﬀre di limiti di applicabilità. Basti pensare che spesso si è interessati a probabilità di eventi non ripetibili
nelle medesime condizioni.
M. Di Marzio
5
Primi elementi di inferenza statistica (ed. maggio 2012)
1.4. Assiomi della probabilità
Esempio 1.10. Abbiamo ripetuto 1000 volte il lancio di una moneta bilanciata e osservato la frequenza relativa
dell’esito ‘Testa’. La ﬁgura 1.3 rappresenta l’andamento di tale frequenza relativa all’aumentare del numero delle
prove. Questi dati costituiscono una chiara veriﬁca empirica della tendenza della frequenza relativa alla probabilità,
che sappiamo essere pari a 0.5.
1
Frequenza relativa
0.9
0.8
0.7
0.6
0.5
0.4
0
200
400
600
Numero prove
800
1000
Figura 1.3: Andamento della frequenza relativa di teste su 1000 lanci di una moneta.
1.4
Assiomi della probabilità
Qualunque sia la concezione di probabilità adottata, è possibile deﬁnire la probabilità come una funzione reale
che rispetta certi assiomi veriﬁcati da ogni concezione. Tale approccio permette una trattazione matematica
della probabilità esclusivamente basata sugli assiomi e valida per ogni concezione. Segue la deﬁnizione
assiomatica di probabilità.
Dato uno spazio Ω, una funzione P che associa un numero reale ad ogni sottoinsieme di Ω è detta probabilità
se soddisfa i seguenti assiomi:
1) P(Ω) = 1 ;
2) P(E) ≥ 0 ;
3) P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) se E1 ∩ E2 = ∅ ;
dove E, E1 e E2 sono sottoinsiemi di Ω.
Una rapida riﬂessione suggerisce che i tre assiomi elementari sono rispettati sia dalla concezione classica che
dalla frequentista.
Il terzo assioma ci fornisce la regola per ottenere la probabilità di un qualsiasi evento E ⊂ Ω. Infatti essendo
gli eventi elementari incompatibili si ha
∑
P(E) =
P(ωj ),
{j: ωj ∈E}
dove la sommatoria è estesa a tutti gli eventi elementari contenuti in E. Così la teoria della probabilità
sviluppata a partire dagli assiomi fornisce le regole per calcolare la probabilità di un qualsiasi sottoinsieme
di Ω quando gli eventi elementari hanno già avuta assegnata una probabilità secondo una data concezione.
Esempio 1.11. Lanciamo un dado di cui non sappiamo se sia regolare. La concezione classica fornisce le seguenti
probabilità
P(2) = P(4) = P(6) =
1
6
mentre supponiamo che la concezione frequentista sostenga che
P(2) =
1
;
6
P(4) =
2
;
6
P(6) =
3
.
6
Si osservi che le due concezioni attribuiscono probabilità diﬀerenti ai singoli esiti.
Ora consideriamo l’evento ‘numero pari’. La teoria assiomatica fornisce una regola di calcolo della probabilità di uscita
del numero pari valida per ogni concezione; in particolare, il terzo assioma impone che
P(numero pari) = P(2) + P(4) + P(6)
Usando gli assiomi è facile dimostrare le seguenti proprietà:
i) P(∅) = 0 ;
Primi elementi di inferenza statistica (ed. maggio 2012)
6
M. Di Marzio
1. PROBABILITÀ
1111
0000
0000
1111
0000
1111
0000
1111
A=
0000
1111
0000
1111
0000000
1111111
0000000
B=1111111
0000000
1111111
0000000
1111111
E=
A
E=
111
000
000
111
000
111
000
111
000
111
000
111
111111
000000
000000
111111
00000000000000000000000000
11111111111111111111111111
00000000000000
11111111111111
Ω
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000000000000
11111111111111
0
1
00000
11111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000
11111
00000000000000
11111111111111
00000000000
11111111111
011111111111111111111111111
1
00000
11111
00000000000000
11111111111111
00000000000000000000000000
00000
11111
00000000000000
11111111111111
00000000000
11111111111
00000
11111
0
1
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000
11111
00000000000000
11111111111111
00000000000
11111111111
00000
11111
00000000000000
11111111111111
0
1
00000000000000000000000000
11111111111111111111111111
00000
11111
00000000000000
11111111111111
00000000000
11111111111
00000
11111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
0
1
00000
11111
00000000000000
11111111111111
00000000000
11111111111
00000
11111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
0
1
00000
11111
00000000000000
11111111111111
00000000000
11111111111
00000
11111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000
11111
0
1
00000000000000
11111111111111
00000000000
11111111111
00000
11111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000
11111
00000000000000
11111111111111
0
1
00000000000
11111111111
00000
11111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000
11111
00000000000000
11111111111111
00000000000
11111111111
011111111111111111111111111
1
00000
11111
00000000000000
11111111111111
00000000000000000000000000
00000
11111
00000000000000
11111111111111
00000000000
11111111111
00000
11111
0
1
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
00000000000000
11111111111111
00000000000000000000000000
11111111111111111111111111
B
000000
E = 111111
000000
111111
Figura 1.4: Riduzione dello spazio fondamentale per eﬀetto del veriﬁcarsi di A (risp. B).
ii) P(E) = 1 − P(E) ;
iii) 0 ≤ P(E) ≤ 1 ;
iv) P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) − P(E1 ∩ E2 ) (Teorema delle probabilità totali).
Il teorema delle probabilità totali coincide con il terzo assioma se gli eventi sono incompatibili, essendo in
questo caso P(E1 ∩ E2 ) = P(∅) = 0.
Esempio 1.12. Un ristorante ha rilevato che: il 75% dei clienti richiede un antipasto (evento A), il 50% richiede
un secondo (evento S), il 40% li richiede entrambi. Calcoliamo la probabilità che un cliente richieda almeno uno tra
antipasto e secondo. Anzitutto, applicando la concezione frequentista di probabilità, abbiamo che
P(A) = 0.75 ;
P(S) = 0.50 ;
P(A ∩ S) = 0.40 .
Applicando il teorema delle probabilità totali abbiamo
P(A ∪ S) = P(A) + P(S) − P(A ∩ S) = 0.75 + 0.50 − 0.40 = 0.85.
1.5
Probabilità condizionata e indipendenza
Dati due eventi E1 e E2 sottoinsiemi di Ω, se P(E1 ) > 0 ci si può chiedere qual è la probabilità di E2 sapendo
che si è veriﬁcato E1 . Questa probabilità è detta condizionata ed è indicata con P(E2 |E1 ). Per deﬁnizione
P(E2 |E1 ) =
P(E2 ∩ E1 )
.
P(E1 )
Tale rapporto è interpretabile come segue. Poiché sappiamo che l’esito dell’esperimento è contenuto in E1 ,
per il calcolo della probabilità di E2 non tutti gli eventi elementari di Ω sono da considerarsi possibili, ma
solo quelli in E1 , così come non tutti gli eventi elementari in E2 sono casi favorevoli ma solo quelli in E2 ∩ E1 .
Esempio 1.13. Nella ﬁgura 1.4 si può notare che una volta veriﬁcatosi l’evento A (risp. B) i casi favorevoli per il
veriﬁcarsi di E si riducono a quelli compresi in A ∩ E (risp. in B ∩ E), mentre i casi possibili sono contenuti in A
(risp. in B).
Quindi il condizionamento opera una riduzione dello spazio fondamentale: esso non è più Ω ma E1 . Ovviamente ogni evento è condizionato al proprio spazio fondamentale, infatti per ogni evento E in Ω si ha
P(E) = P(E|Ω) = P(E ∩ Ω)/P(Ω) = P(E)/1 ;
inoltre P(E|E) = 1 per ogni E ⊂ Ω. Dalla probabilità condizionata si evince il teorema delle probabilità
composte:
P(E1 ∩ E2 ) = P(E1 )P(E2 |E1 ),
come si vede, la probabilità di una intersezione è calcolata in base alle probabilità dei singoli eventi. Per la
legge commutativa P(E1 ∩ E2 ) = P(E2 ∩ E1 ), così
P(E1 ∩ E2 ) = P(E1 )P(E2 |E1 )
= P(E2 ∩ E1 )
= P(E2 )P(E1 |E2 ).
M. Di Marzio
7
Primi elementi di inferenza statistica (ed. maggio 2012)
1.5. Probabilità condizionata e indipendenza
Generalizzando, dati gli eventi E1 , E2 , ..., En in Ω, se P(E1 ∩ E2 ∩ ... ∩ En−1 ) > 0
P(E1 ∩ E2 ∩ ... ∩ En ) = P(E1 )P(E2 |E1 )...P(En |E1 ∩ E2 ∩ ... ∩ En−1 ).
Esempio 1.14. Per gli eventi E1 ed E2 , si possono descrivere le probabilità congiunte e condizionate per mezzo di
una tabella a doppia entrata del tipo seguente:
E1
E1
E2
P(E1 ∩ E2 )
P(E1 ∩ E2 )
P(E2 )
E2
P(E1 ∩ E2 )
P(E1 ∩ E2 )
P(E2 )
P(E1 )
P(E1 )
1
tale struttura è analoga a una distribuzione statistica doppia dove ogni carattere ha due modalità e agli incroci sono
poste le frequenze relative. In eﬀetti, la distribuzione statistica doppia ci descrive quanto accaduto in passato. Circa il
futuro, ci possiamo chiedere la probabilità di una modalità di un dato carattere (probabilità marginali) o una coppia di
modalità dei due caratteri (probabilità congiunte). In tal caso interpretiamo le frequenze relative come approssimazioni
delle probabilità (concezione frequentista). Ovviamente la tabella a doppia entrata può essere costruita anche per
caratteri con più di due modalità. Nella suindicata tabella le probabilità marginali sono:
P(E1 ), P(E1 ), P(E2 ), P(E2 ) ;
le probabilità congiunte sono:
P(E1 ∩ E2 ), P(E1 ∩ E2 ), P(E1 ∩ E2 ), P(E1 ∩ E2 ) ;
inﬁne le probabilità condizionate sono:
P(E2 |E1 ),
P(E2 |E1 ),
P(E2 |E1 ),
P(E2 |E1 ),
P(E1 |E2 ),
P(E1 |E2 ),
P(E1 |E2 ),
P(E1 |E2 ).
Dati due eventi E1 e E2 sottoinsiemi di Ω, si dirà che essi sono indipendenti se e solo se
P(E2 ∩ E1 ) = P(E2 )P(E1 ),
o, in maniera equivalente, se e solo se
P(E2 |E1 ) = P(E2 ),
cioè il veriﬁcarsi di un evento non cambia la probabilità di veriﬁcarsi dell’altro. Questa formula esplicita che
se c’è indipendenza il teorema delle probabilità composte si riduce alla condizione di indipendenza.
Generalizzando, se gli eventi E1 , E2 , ..., En sono a due a due indipendenti, allora
P(E1 ∩ E2 ∩ ... ∩ En ) =
n
∏
P(Ei ).
i=1
Esempio 1.15. Consideriamo il lancio di un dado. Deﬁniamo i seguenti eventi:
A = Numero pari ;
B = Numero maggiore o uguale a 4 ;
C = Numero maggiore di 4.
Stabiliamo se c’è indipendenza tra gli eventi A e B e tra gli eventi A e C. Dobbiamo calcolare quanto vale P(A|B):
P(A|B) =
P(A ∩ B)
P({4, 6})
2/6
2
=
=
= .
P(B)
P({4, 5, 6})
3/6
3
Come si vede, P(A|B) ̸= P(A) = 1/2, cioè i due eventi sono dipendenti. Va segnalato che il veriﬁcarsi B ha ridotto
lo spazio campionario da {1, 2, 3, 4, 5, 6} a {4, 5, 6}.
Per stabilire se gli eventi A e C sono indipendenti, al solito, calcoliamo P(A|C) per poi confrontarlo con P(A):
P(A|C) =
P(A ∩ C)
P({6})
1/6
1
=
=
= .
P(C)
P({5, 6})
2/6
2
Risulta P(A|C) = P(A), cioè i due eventi sono indipendenti poiché la riduzione dello spazio campionario ha lasciato
inalterata la probabilità di A.
Primi elementi di inferenza statistica (ed. maggio 2012)
8
M. Di Marzio
1. PROBABILITÀ
Incompatibilità
Indipendenza
Deﬁnizione
E 1 ∩ E2 = ∅
P(E1 ∩ E2 ) = P(E1 )P(E2 )
Relazione
tra eventi
tra probabilità
Rappresentazione
su diagrammi di Venn
non si rappresenta
Conseguenza
su P(E1 ∪ E2 )
su P(E1 ∩ E2 )
Tabella 1.2: Incompatibilità ed indipendenza.
Essendo molto diﬀusa una certa confusione tra i concetti di incompatibilità e indipendenza tra gli eventi, è
opportuno riportarne schematicamente le diﬀerenze nella tabella 1.2.
Inﬁne si può facilmente dimostrare che due eventi che hanno probabilità positiva non possono essere contemporaneamente incompatibili e indipendenti. Infatti se sono indipendenti la probabilità della loro intersezione
è data dal prodotto di due numeri positivi e quindi è un numero positivo. D’altro canto se sono incompatibili la probabilità della loro intersezione deve essere nulla. Se due eventi non sono indipendenti si dicono
dipendenti. Due eventi dipendenti E1 e E2 si dicono positivamente correlati se
P(E1 ) < P(E1 |E2 ) ,
negativamente correlati se
P(E1 ) > P(E1 |E2 ) .
Oltre che tra eventi appartenenti allo spazio fondamentale di un singolo esperimento casuale, il concetto di
indipendenza esiste anche tra esperimenti casuali come segue. Dati n esperimenti casuali, diremo che essi
sono mutuamente indipendenti se
P(A1 ∩ A2 ∩ ... ∩ An ) =
n
∏
P(Ai )
i=1
Dove Ai è il generico evento appartenente allo spazio fondamentale Ωi associato all’i-esimo esperimento
casuale, e A1 ∩ A2 ∩ ... ∩ An è un elemento dello spazio fondamentale prodotto Ω = Ω1 × Ω2 × ... × Ωn (sez.
1.1).
Esempio 1.16. Consideriamo l’esperimento casuale composto dai seguenti due: 1) osservare la difettosità un
manufatto e 2) osservare il sesso di un dipendente. Il manufatto può essere difettoso o non difettoso, per cui
Ω1 = {D, N }, mentre il dipendente può essere maschio o femmina, per cui Ω2 = {M, F }. Si assuma inoltre che
P(D) = 0.6 e P(M ) = 0.7 L’esperimento composto ha il seguente spazio campionario prodotto Ω = Ω1 × Ω2 =
{(D, M ), (D, F ), (N, M ), (N, F )}. Si dirà che i due esperimenti sono indipendenti se e solo se:
P(D, M ) = P(D)P(M ) = 0.42 ; P(D, F ) = 0.18 ; P(N, M ) = 0.28 ; P(N, F ) = 0.12 .
1.6
Proprietà degli eventi indipendenti
L’indipendenza ha un certo numero di proprietà, le più importanti delle quali sono di seguito riportate.
1) Simmetria Se E1 è indipendente da E2 , allora anche E2 è indipendente da E1 . È facile dimostrare
questa proprietà ricordando che P(E2 ∩ E1 ) = P(E1 ∩ E2 ) e quindi che
P(E2 )P(E1 |E2 ) = P(E1 )P(E2 |E1 ),
applicando la deﬁnizione di indipendenza P(E1 |E2 ) = P(E1 ) si ha:
P(E2 )P(E1 ) = P(E1 )P(E2 |E1 ),
da cui si ricava P(E2 ) = P(E2 |E1 ), cioè E2 è indipendente da E1 .
2) Indipendenza tra i complementi Se E1 e E2 sono indipendenti, lo sono anche E1 e E2 . Infatti
dire che la probabilità del veriﬁcarsi di E1 non cambia al veriﬁcarsi di E2 è esattamente lo stesso che
dire che essa non cambia al non veriﬁcarsi di E2 . Sfruttando la simmetria, ricaviamo anche che E1 e
indipendente da E2 .
M. Di Marzio
9
Primi elementi di inferenza statistica (ed. maggio 2012)
1.7. Formula di Bayes
3) Indipendenza dei complementi Se E1 e E2 sono indipendenti, lo sono anche E1 e E2 . Infatti per
la seconda legge di De Morgan
P(E1 ∩ E2 ) = P(E1 ∪ E2 ),
ora applicando il teorema delle probabilità totali e ricordando che E1 e E2 sono indipendenti, si ottiene
P(E1 ∪ E2 ) = 1 − P(E1 ∪ E2 )
= 1 − (P(E1 ) + P(E2 ) − P(E1 ∩ E2 ))
= 1 − P(E1 ) − P(E2 ) + P(E1 )P(E2 )
= (1 − P(E1 ))(1 − P(E2 ))
= P(E1 )P(E2 ).
Inﬁne
P(E1 ∩ E2 ) = P(E1 )P(E2 ).
4) Indipendenza di un evento da se stesso Aﬃnché E sia indipendente da se stesso si deve veriﬁcare
che
P(E ∩ E) = P(E)P(E),
cioé, essendo E ∩ E = E, si deve avere P(E) = P(E)P(E). Ma ciò è falso se 0 < P(E) < 1, infatti in
questo caso P(E) < P(E)P(E) e quindi in generale esiste sempre dipendenza tra un evento e se stesso.
Comunque due eventi fanno eccezione, nel senso di essere indipendenti da se stessi. Essi sono l’evento
impossibile e l’evento certo. Infatti per entrambi si ha
e
P(∅) = P(∅)P(∅) = 0
1.7
P(Ω) = P(Ω)P(Ω) = 1.
Formula di Bayes
Sia la classe di k insiemi {C1 , C2 , ..., Ck } una partizione dello spazio Ω, e sia E un sottoinsieme non vuoto di
Ω. Applicando la proprietà distributiva si ottiene:
E =E∩Ω
= E ∩ (C1 ∪ C2 ∪ ... ∪ Ck )
= (E ∩ C1 ) ∪ (E ∩ C2 ) ∪ ... ∪ (E ∩ Ck )
=
k
∪
(E ∩ Ci ).
i=1
Così la partizione {C1 , C2 , ..., Ck } di Ω induce la partizione {E ∩ C1 , E ∩ C2 , ..., E ∩ Ck } di E.
Esempio 1.17. Nella ﬁgura 1.5 la partizione {A∩E, B∩E, C ∩E, } dell’evento E è indotta dalla partizione {A, B, C}
dello spazio fondamentale Ω.
111
000
000
111
000
000
111
A= 111
000
111
000
111
00
11
00 E=
B= 11
00
11
000000
111111
000000
C= 111111
000000
111111
000000
111111
A
B
C
111
000
000
111
000
000
111
E = 111
000
111
000
111
00
11
00
E = 11
00
11
000000
111111
000000
E = 111111
000000
111111
000000 Ω
111111
111
000
00000000000000000000000000
11111111111111111111111111
00000000000000000000000000
11111111111111111111111111
000
111
000
111
00000000000000000000000000
11111111111111111111111111
00000000000
11111111111
000
111
00000000000000000000000000
11111111111111111111111111
00000000000
11111111111
00000000000000000000000000
11111111111111111111111111
000
111
00000000000
11111111111
00000000000000000000000000
11111111111111111111111111
000
111
00000000000
11111111111
00000000000000000000000000
11111111111111111111111111
000
111
00000000000
11111111111
00000000000000000000000000
11111111111111111111111111
000
111
00000000000
11111111111
00000000000000000000000000
11111111111111111111111111
00000000000
11111111111
000
111
00000000000000000000000000
11111111111111111111111111
00000000000
11111111111
000
111
00000000000000000000000000
11111111111111111111111111
00000000000
11111111111
000
111
00000000000000000000000000
11111111111111111111111111
00000000000
11111111111
00000000000000000000000000
11111111111111111111111111
000
111
00000000000000000000000000
11111111111111111111111111
000
111
00000000000000000000000000
11111111111111111111111111
00000000000
11111111111
11111111111
00000000000
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
000000
111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
Figura 1.5: Scomposizione di E indotta dalla partizione {A, B, C}.
Primi elementi di inferenza statistica (ed. maggio 2012)
10
M. Di Marzio
1. PROBABILITÀ
Essendo gli eventi {C1 , C2 , ..., Ck } incompatibili, anche gli insiemi {(E ∩ Ci ), i = 1, 2, ..., k} lo sono, per cui,
appellandosi al terzo assioma della probabilità (si dice anche ‘al teorema delle probabilità totali per eventi
incompatibili’) si ottiene:
P(E) = P(E ∩ C1 ) + P(E ∩ C2 ) + ... + P(E ∩ Ck )
=
k
∑
P(E ∩ Ci ) ;
i=1
ma dal teorema delle probabilità composte abbiamo che P(E ∩ Ci ) = P(Ci )P(E|Ci ), per cui P(E) può essere
scritto come somma di probabilità condizionate:
P(E) = P(C1 )P(E|C1 ) + P(C2 )P(E|C2 ) + ... + P(Ck )P(E|Ck )
=
k
∑
P(Ci )P(E|Ci ).
i=1
Dato un qualsiasi elemento Ch della partizione, e supponendo che P(E) > 0, la formula di Bayes esprime
tramite le espressioni ﬁnora trovate la probabilità di Ch dato E:
P(Ch |E) =
P(Ch )P(E|Ch )
P(Ch ∩ E)
= ∑k
.
P(E)
i=1 P(Ci )P(E|Ci )
Poichè la classe {C1 , C2 , ..., Ck } è una partizione, allora si veriﬁcherà un solo elemento di essa.
Un modo per capire l’importanza della formula di Bayes sta nel connotarla temporalmente tramite un nesso
di causalità. Allora sia l’evento E l’eﬀetto di una sola tra un insieme di cause {C1 , C2 , ..., Ch } incompatibili e
complessivamente necessarie (nel senso che una se ne deve veriﬁcare). La formula di Bayes risponde al quesito:
qual è la probabilità che, essendosi veriﬁcato E, sia stata Ch a causarlo? Una tale interpretazione mette in
luce la formula di Bayes come tecnica di aggiornamento delle aspettative sulla base di nuova conoscenza. In
questo senso la probabilità di Ch può essere determinata senza sapere che E si è veriﬁcato. Per ovvie ragioni
tale probabilità è detta probabilità a priori e viene indicata come P(Ch ). Quando si viene a sapere che E si
è veriﬁcato, P(Ch ) deve essere aggiornata con una misura della compatibilità tra E e Ch data da P(E|Ch ) e
chiamata verosimiglianza. Così la probabilità a priori viene aggiornata nella probabilità a posteriori P(Ch |E).
In termini rigorosi questo può essere osservato riscrivendo la formula di Bayes come
P(Ch |E) = P(Ch )
P(E|Ch )
,
P(E)
ora una buona compatibilità implica che P(E|Ch ) > P(E) e quindi un rapporto maggiore di uno che rende
la probabilità a posteriori maggiore di quella a priori (e viceversa).
Esempio 1.18. Una compagnia di assicurazione suddivide le persone in due classi: “soggette”
e “non soggette”
ad incidenti. Le statistiche mostrano che le persone “soggette” (S) hanno probabilità 0.5 di avere un incidente in un
anno (I), e le “non soggette” (S) 0.3. Vogliamo conoscere la probabilità che un nuovo assicurato abbia un incidente
entro un anno dalla stipula della polizza sapendo che il 25% della popolazione è soggetta ad incidenti. Poiché
P(S) = 0.25,
P(I|S) = 0.5
e
P(I|S) = 0.3,
la probabilità cercata è
P(I) = P(S ∩ I) + P(S ∩ I)
= P(S)P(I|S) + P(S)P(I|S)
= 0.75 × 0.3 + 0.25 × 0.5
= 0.35.
Se un nuovo assicurato ha un incidente entro un anno dall’acquisto della polizza, la probabilità che si tratti di una
persona “soggetta” ad incidenti si ottiene ricorrendo alla formula di Bayes:
P(S|I) =
P(S)P(I|S)
0.25 × 0.5
=
= 0.357 .
P(I)
0.35
M. Di Marzio
11
Primi elementi di inferenza statistica (ed. maggio 2012)
2
Esercizi svolti
Esercizio 2.1. Si consideri un esperimento casuale che consiste nel lanciare tre volte una moneta, e si
determini lo spazio fondamentale nel caso si osservino:
a) le sequenze di testa (T ) e croce (C);
b) il numero di teste nei tre lanci.
Soluzione a) Abbiamo il seguente spazio fondamentale composto da 8 esiti elementari
Ω = {CCC, CCT, CT C, T CC, CT T, T CT, T T C, T T T }.
b) Abbiamo il seguente spazio fondamentale composto da 4 esiti elementari
Ω = {0, 1, 2, 3}.
Esercizio 2.2. Da un sacchetto di quattro palline contrassegnate da 1 a 4 estraiamo due palline. Si determini
lo spazio fondamentale nel caso
a) si reintroduca la prima pallina estratta nell’urna;
b) non si reintroduca la prima pallina estratta nell’urna.
Soluzione a) Abbiamo il seguente spazio fondamentale

(1, 1) (1, 2)



(2, 1) (2, 2)
Ω=
(3, 1) (3, 2)



(4, 1) (4, 2)
composto da 16 esiti elementari

(1, 3) (1, 4) 


(2, 3) (2, 4)
.
(3, 3) (3, 4) 


(4, 3) (4, 4)
b) Abbiamo il seguente spazio fondamentale composto da 12 esiti elementari


(1, 2) (1, 3) (1, 4) 





(2, 1) (2, 3) (2, 4)
Ω=
.
(3, 1) (3, 2) (3, 4) 





(4, 1) (4, 2) (4, 3)
Esercizio 2.3. Un esperimento consiste nel lanciare un dado ﬁno a che esca il 6. Si determini lo spazio
fondamentale nei seguenti casi
a) si osservino le sequenze dei risultati;
b) si contino i lanci ﬁno a che esca 6.
Soluzione a) Lo spazio campionario è inﬁnito, esso è del seguente tipo:


 6,

(1, 6), (2, 6), (3, 6), (4, 6), (5, 6),
Ω=
;


(1, 1, 6), (1, 2, 6), (1, 3, 6), (1, 4, 6), (1, 5, 6), ...
b) anche in questo caso lo spazio fondamentale è inﬁnito, ed è del tipo seguente:
Ω = {1, 2, 3, 4, 5, 6, 7....} .
Primi elementi di inferenza statistica (ed. maggio 2012)
12
M. Di Marzio
2. ESERCIZI SVOLTI
Esercizio 2.4. Un concessionario di autoveicoli oﬀre automobili con le seguenti opzioni
a) con o senza airbag;
b) con o senza climatizzatore;
c) con o senza impianto stereo;
d) con tre diversi motori.
Determinare l’insieme di tutte le possibili automobili oﬀerte.
Soluzione L’insieme delle possibili macchine deﬁnisce uno spazio prodotto
Ω = {Ωa × Ωc × Ωs × Ωm } ,
cioè il prodotto cartesiano di quattro spazi fondamentali, dove
Ωa = {a, ā};
Ωc = {c, c̄};
Ωs = {s, s̄};
Ωm = {m1 , m2 , m3 }.
La cardinalità di Ω è (2 × 2 × 2 × 3) = 24.
Esercizio 2.5. Si scelga a caso una carta da un mazzo di 52 carte. Deﬁniamo i seguenti eventi:
A = la carta scelta è un asso;
B = la carta scelta è di picche.
Determinare se i due eventi sono indipendenti.
Soluzione Controlliamo se P(A ∩ B) = P(A)P(B). Ora,
P(A ∩ B) = P({la carta scelta è un asso di picche}) = 1/52,
e
P(A)P(B) = 4/52 × 13/52 = 1/52.
Quindi gli eventi sono indipendenti. Notiamo, invece, che A e B non sono incompatibili, e quindi la
compatibilità non implica l’indipendenza.
Esercizio 2.6. Si lancino due monete non truccate, ossia si ritiene che i possibili esiti siano equiprobabili.
Deﬁniamo i seguenti eventi:
A = la prima moneta dà croce;
B = la seconda moneta dà testa.
Determinare se i due eventi sono indipendenti.
Soluzione Controlliamo se P(A ∩ B) = P(A)P(B). Ora,
P(A ∩ B) = P({C, T }) = 1/4;
inoltre
P(A) = P({C, T } ∪ {C, C}) = 1/2
e
P(B) = P({T, C} ∪ {T, T }) = 1/2.
Così i due eventi sono indipendenti.
Esercizio 2.7. Si lanciano due dadi non truccati. Deﬁniamo i seguenti eventi:
A = la somma è 6;
B = il primo dado dà 4.
Determinare se i due eventi sono indipendenti.
Soluzione Controlliamo se P(A ∩ B) = P(A)P(B). Ora,
P(A ∩ B) = P({4, 2}) = 1/36;
e
P(A) = P({1, 5} ∪ {2, 4} ∪ {3, 3} ∪ {4, 2} ∪ {5, 1}) = 5/36
e
P(B) = 1/6.
Allora i due eventi non sono indipendenti.
M. Di Marzio
13
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 2.8. Si lanciano due dadi non truccati. Deﬁniamo i seguenti eventi:
A = la somma è 7;
B = il primo dado dà 4.
Determinare se i due eventi sono indipendenti.
Soluzione I due eventi sono indipendenti. Infatti lo spazio prodotto è [1, ..., 6]×[1, ..., 6]. Esso ha 36 elementi,
così per la concezione classica di probabilità si ha
P(A ∩ B) = P({4, 3}) = 1/36;
e d’altro canto
P(A) = P({1, 6} ∪ {2, 5} ∪ {3, 4} ∪ {4, 3} ∪ {5, 2} ∪ {6, 1}) = 6/36
e
P(B) = 1/6.
Esercizio 2.9. Una moneta non truccata viene lanciata due volte. Qual è la probabilità che esca testa (A)
se al primo lancio è uscita testa (B)?
Soluzione Calcoliamo la seguente probabilità condizionata:
P(A | B) =
P(A ∩ B)
P(testa in entrambi i lanci)
1/4
=
=
= 1/2.
P(B)
P(testa al primo lancio)
1/2
Si può inoltre notare che
P(A | B) = P(A),
così gli eventi sono indipendenti.
Esercizio 2.10. Si calcoli P(A | B) se
a) P(A ∩ B) = 0;
b) A ⊂ B;
c) B ⊂ A.
Soluzione Si ha
P(A | B) =
Per cui:
a) P(A | B) =
b) P(A | B) =
c) P(A | B) =
P(A ∩ B)
.
P(B)
P(∅)
P(B) = 0.
P(A)
P(B) . Poiché se A ⊂ B, allora P(A ∩ B) = P(A).
P(B)
P(B) = 1. Poiché se A ⊃ B, allora P(A ∩ B) = P(B).
Esercizio 2.11. Siano A1 , A2 , A3 eventi a due a due indipendenti in Ω. Dimostrare che
P(A1 ∪ A2 ∪ A3 ) = 1 −
3
∏
(1 − P(Ai )).
i=1
Soluzione Applicando la II Legge di De Morgan e considerando l’indipendenza abbiamo:
P(A1 ∪ A2 ∪ A3 ) = 1 − P(A1 ∪ A2 ∪ A3 )
= 1 − P(A1 ∩ A2 ∩ A3 )
= 1 − P(A1 )P(A2 )P(A3 )
=1−
3
∏
P(Ai ) = 1 −
i=1
3
∏
(1 − P(Ai )).
i=1
Esercizio 2.12. A uno stadio di un’inchiesta investigativa l’ispettore è convinto al 60% della colpevolezza
di un indagato. Supponiamo ora che l’ispettore acquisisca una nuova prova: l’indagato ha una certa caratteristica del colpevole. Se il 20% della popolazione possiede tale caratteristica, l’ispettore come modiﬁcherà la
valutazione sulla colpevolezza dell’indagato?
Primi elementi di inferenza statistica (ed. maggio 2012)
14
M. Di Marzio
2. ESERCIZI SVOLTI
Soluzione Deﬁniamo i seguenti eventi:
A = l’indagato è colpevole; B = l’indagato possiede la caratteristica del criminale.
Si ha:
P(A | B) =
P(A ∩ B)
P(B | A)P(A)
=
P(B)
P(B | A)P(A) + P(B | A)P(A)
1 × 0.6
=
= 0.882.
1 × 0.6 + 0.2 × 0.4
Esercizio 2.13. Abbiamo un campione di 400 aziende classiﬁcate secondo il capitale sociale e il fatturato. I
dati sono:
Fatturato
Capitale sociale
< 5000
≥ 5000
≤ 250
80
30
> 250
90
200
Vogliamo conoscere come sono legate queste due grandezze così da ricostruire alcuni dati mancanti nella
nostra ricerca. Deﬁniamo i seguenti eventi:
A = avere un capitale sociale inferiore o uguale a 250,
B = avere un fatturato maggiore o uguale a 5000.
a) Calcolare
P(A),
P(Ā),
P(B),
P(B̄),
P(A ∩ B),
P(A ∪ B),
P(A|B),
P(B|A),
P(Ā|B).
b) Veriﬁcare se e perché A e B sono incompatibili.
c) Veriﬁcare se A e B sono indipendenti.
Soluzione Per utilizzare la tavola introdotta prima dobbiamo calcolare i totali marginali e poi calcolare le
frequenze relative. La tavola con le frequenze marginali sarà:
Fatturato
Capitale sociale
< 5000
≥ 5000
≤ 250(A)
80
30
110
> 250(A)
90
200
290
170
230
400
a) Usando la concezione classica di probabilità: ‘casi favorevoli su casi possibili’ si ottiene:
P(A) =
110
= 0.275;
400
P(A) = 1 − 0.275 = 0.725;
P(B) =
230
= 0.575;
400
P(B) = 1 − 0.575 = 0.425;
P(A ∩ B) =
30
= 0.075;
400
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.275 + 0.575 − 0.075 = 0.775;
P(A|B) =
P(A ∩ B)
30
=
= 0.13;
P(B)
230
P(B|A) =
P(A ∩ B)
30
=
= 0.273.
P(A)
110
P(A|B) = 1 − P(A|B) = 1 − 0.13 = 0.87;
M. Di Marzio
15
Primi elementi di inferenza statistica (ed. maggio 2012)
oppure
P(A|B) =
P(A ∩ B)
200
=
= 0.87.
P(B)
230
Si possono ottenere i medesimi risultati utilizzando il teorema delle probabilità totali.
b) Se A e B sono incompatibili P(A ∪ B) = P(A) + P(B), cioè P(A ∩ B) = 0 ma, come si è visto prima,
P(A ∩ B) = 0.075, così gli eventi sono compatibili.
c) Se A e B sono indipendenti, si ha
P(A | B) = P(A)
P(B | A) = P(B),
e
ma
P(A | B) = 0.130 ̸= P(A) = 0.275
e
P(B | A) = 0.273 ̸= P(B) = 0.575.
Esercizio 2.14. In una catena di montaggio si eseguono due operazioni in sequenza. L’esito della prima non
dipende da quello della seconda. Le probabilità che le operazioni riescano senza difetti sono rispettivamente
0.9 e 0.8. Calcolare la probabilità che:
a) nessuna delle due operazioni riesca;
b) almeno una delle due operazioni non riesca;
c) riesca esattamente una delle due.
Soluzione Poniamo:
Ri = l’operazione i -esima riesce; R̄i = l’operazione i -esima non riesce.
a) Si deve calcolare
P(R̄1 ∩ R̄2 ).
Poiché gli eventi sono indipendenti avremo:
P(R̄1 ∩ R̄2 ) = P(R̄1 ) × P(R̄2 )
ma
P(R̄i ) = 1 − P(Ri ),
per cui:
P(R̄1 ∩ R̄2 ) = P(R̄1 ) × P(R̄2 ) = (1 − 0.9) × (1 − 0.8) = 0.1 × 0.2 = 0.02
b) Dobbiamo calcolare la probabilità che non ne riesca almeno una, cioè: o non riesce una, o non riesce
l’altra, o non riescono entrambe ossia:
P(R̄1 ∪ R̄2 ).
Soluzione 1 Per il teorema delle probabilità totali avremo che:
P(R̄1 ∪ R̄2 ) = P(R̄1 ) + P(R̄2 ) − P(R̄1 ∩ R̄2 ) = 0.1 + 0.2 − 0.02 = 0.28.
Soluzione 2 Si consideri che
R̄1 ∪ R̄2 = R1 ∩ R2 (I legge di De Morgan)
allora
P(R̄1 ∪ R̄2 ) = 1 − P(R1 ∩ R2 ) = 1 − (0.9 × 0.8) = 0.28.
c) Ne riesce solo una, o l’una o l’altra, in simboli:
P(R1 ∪ R2 ) − P(R1 ∩ R2 ).
Soluzione 1 Per il teorema delle probabilità totali scriviamo
P(R1 ∪ R2 ) = P(R1 ) + P(R2 ) − P(R1 ∩ R2 ) = 0.9 + 0.8 − (0.9 × 0.8) = 0.98
per cui la probabilità cercata sarà:
P(R1 ∪ R2 ) − P(R1 ∩ R2 ) = 0.98 − (0.9 × 0.8) = 0.26.
Primi elementi di inferenza statistica (ed. maggio 2012)
16
M. Di Marzio
2. ESERCIZI SVOLTI
Soluzione 2 R1 ∪ R2 = R̄1 ∩ R̄2 (II legge di De Morgan), negando si ottiene:
R1 ∪ R2 = R̄1 ∩ R̄2
che può essere scritto come
R1 ∪ R2 = R̄1 ∩ R̄2
allora:
P(R1 ∪ R2 ) = 1 − P(R̄1 ∩ R̄2 ) = 1 − 0.02 = 0.98,
e quindi
P(R1 ∪ R2 ) − P(R1 ∩ R2 ) = 0.98 − (0.9 × 0.8) = 0.26.
Esercizio 2.15. A e B sono tali che
P(A) = 2/7, P(B) = 1/3, P(Ā ∩ B̄) = 11/21.
Calcolare:
a) P(A ∪ B);
b) P(A ∩ B);
c) P(Ā ∩ B);
d) P(A ∪ B̄);
e) P(Ā ∪ B̄).
Soluzione a) Sappiamo che P(Ā ∩ B̄) = P(A ∪ B) per cui P(A ∪ B) = 11/21.
Ma
P(A ∪ B) = P(A ∪ B) = 1 − P(A ∪ B) = 1 − 11/21 = 10/21.
b) Per il teorema delle probabilità totali, per cui P(A ∪ B) = P(A) + P(B) − P(A ∩ B), così
10
2 1
2 1 10
3
= + − P(A ∩ B) = + −
=
.
21
7 3
7 3 21
21
c) Poiché
(Ā ∩ B) = B − (A ∩ B)
allora
P(Ā ∩ B) = P(B) − P(A ∩ B) = 1/3 − 3/21 = 4/21.
d) Poiché
(A ∪ B̄) = B̄ ∪ (A ∩ B) e B̄ ∩ (A ∩ B) = ∅,
allora
P(A ∪ B̄) = P(B̄) + P(A ∩ B) = 2/3 + 3/21 = 17/21.
e) Per il teorema delle probabilità totali si ha:
P(Ā ∪ B̄) = P(Ā) + P(B̄) − P(Ā ∩ B̄)
(
) (
) ( )
2
1
11
5 2 11
18
= 1−
+ 1−
−
= + −
=
.
7
3
21
7 3 21
21
Esercizio 2.16. Guglielmo e Robin si sﬁdano al tiro con l’arco. La probabilità che Guglielmo centri il
bersaglio è 0.35, mentre la probabilità che Robin non faccia centro è 0.6. Sapendo che la probabilità che
almeno uno dei due sﬁdanti centri il bersaglio è pari a 0.75, calcolare la probabilità che entrambi facciano
centro.
Soluzione Deﬁniamo i seguenti due eventi:
G = Guglielmo colpisce il bersaglio;
R = Robin colpisce il bersaglio.
In simboli abbiamo
P(G) = 0.35;
P(R̄) = 0.6;
P(G ∪ R) = 0.75.
Dobbiamo calcolare P(G ∩ R). Per il teorema delle probabilità totali si ha:
P(G ∪ R) = P(G) + P(R) − P(G ∩ R)
e in numeri
0.75 = 0.35 + (1 − 0.6) − P(G ∩ R)
da cui:
P(G ∩ R) = −0.75 + 0.35 + 0.4 = 0.
M. Di Marzio
17
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 2.17. Il direttore marketing di una società che produce telefonini sta analizzando le chance di
mercato di un nuovo modello. In precedenza solo il 35% dei telefonini ha avuto successo. Il direttore sa
inoltre che in precedenza l’ 85% dei telefonini che erano stati di successo sul mercato avevano avuto giudizio
positivo dalla sezione marketing, mentre lo stesso giudizio era stato dato solo al 15% dei telefonini che si
sarebbero rivelati fallimentari. Il direttore vuole conoscere la probabilità di successo del nuovo modello sapendo
che lo stesso ha avuto giudizio positivo.
Soluzione Siamo quindi di fronte agli eventi:
S = telefonino di successo;
S̄ = telefonino non di successo;
F = giudizio positivo;
F̄ = giudizio negativo.
Ricaviamo subito
P(S) = 0.35; P(S̄) = 0.65; P(F |S) = 0.85; P(F |S̄) = 0.15.
Da cui:
P(S)P(F |S)
P(S)P(F |S) + P(S̄)P(F |S̄)
0.2975
0.35 × 0.85
=
=
0.35 × 0.85 + 0.65 × 0.15
0.2975 + 0.0975
0.2975
=
= 0.7532.
0.3950
P(S|F ) =
Chiaramente
P(S̄|F ) = 1 − 0.7532 = 0.2468.
Possiamo concludere che il giudizio dell’esperto è molto importante poiché un telefonino qualsiasi avrà successo
con probabilità 0.35 ma se l’esperto si è pronunciato favorevolmente la probabilità di successo sale a 0.7532.
Esercizio 2.18. Una multinazionale gestisce le vendite dei suoi prodotti attraverso tre uﬃci A, B e C. La
direzione della multinazionale, al ﬁne di valutare la situazione ﬁnanziaria generale della struttura, rileva per
ciascuno degli uﬃci la percentuale di vendite regolate attraverso la concessione di crediti e la percentuale di
crediti di fornitura rimasti insoluti. I dati raccolti sono riportati di seguito:
Crediti
Crediti insoluti
A
0.4
0.05
B
0.35
0.02
C
0.25
0.03
Sapendo che un cliente della multinazionale non ha adempiuto al pagamento del credito concessogli a fronte
di un acquisto eﬀettuato, determinare la probabilità che l’operazione in questione sia stata gestita dall’uﬃcio
A.
Soluzione Gli eventi da considerare per la risoluzione del problema in questione sono:
I = credito insoluto;
CA = vendite dell’uﬃcio A regolate con concessione di crediti;
CB = vendite dell’uﬃcio B regolate con concessione di crediti;
CC = vendite dell’uﬃcio C regolate con concessione di crediti.
Ed è agevole ricavare che:
P(CA ) = 0.40;
P(CB ) = 0.35;
P(CC ) = 0.25
P(I |CA ) = 0.05;
P( I| CB ) = 0.02;
P( I| CC ) = 0.03.
La probabilità che il credito insoluto sia un credito di fornitura concesso dall’uﬃcio A è dato da:
P(CA )P(I|CA )
, i = A, B, C
P(CA |I) = ∑
i P(Ci )P(I|Ci )
dunque:
P(CA |I ) =
0.40 × 0.05
= 0.58.
0.40 × 0.05 + 0.35 × 0.02 + 0.25 × 0.03
Primi elementi di inferenza statistica (ed. maggio 2012)
18
M. Di Marzio
3
Variabili casuali semplici
Indice
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.1
Variabili casuali . . . . . . . . . . . . . . . .
Distribuzioni di probabilità . . . . . . . . .
Famiglie parametriche . . . . . . . . . . . .
Funzioni di ripartizione . . . . . . . . . . . .
Variabili casuali identicamente distribuite .
Moda . . . . . . . . . . . . . . . . . . . . . . .
Quantili . . . . . . . . . . . . . . . . . . . . .
Valore atteso . . . . . . . . . . . . . . . . . .
Varianza . . . . . . . . . . . . . . . . . . . . .
Coeﬃciente di variazione . . . . . . . . . . .
Disuguaglianza di Chebyshev . . . . . . . .
Variabili casuali standardizzate . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
21
23
23
25
25
25
26
27
29
30
31
Variabili casuali
Gli esiti di un esperimento casuale possono anche essere costituiti da valori non numerici detti categorie.
Esempio 3.1. Di seguito sono mostrati alcuni esempi di spazi fondamentali composti da categorie:
Ω1 = {mediocre, buono, ottimo};
Ω2 = {verde, giallo, rosso, viola};
Ω3 = {successo, insuccesso}.
Ovviamente gli esperimenti possono essere oggetto di calcolo solo se i relativi spazi fondamentali sono insiemi
numerici. Così, nel caso contrario, si rende necessaria una preliminare trasformazione numerica delle categorie.
Per trasformare in numeri gli esiti usiamo una funzione, detta variabile casuale (v.c.), che associa un numero
reale ad ogni evento elementare ω ∈ Ω. Di solito la v.c. è indicata con una lettera latina maiuscola, ad es.
X, mentre un suo valore, detto anche modalità, è indicato in minuscolo, ad es. x. Così scriviamo
X : Ω → R.
Esempio 3.2. Nella tabella che segue sono riassunti i passi per la costruzione di vv.cc. deﬁnite su esiti non numerici.
M. Di Marzio
ESPERIMENTO
ESITO
Ispezione macchina
Difettosa (d)
Non difettosa (nd)
Rilevazione metereologica
Sereno (s)
Nuvoloso (n)
Pioggia (p)
19
V.C.
{
X=
0
1

 1
Y= 2

3
MODALITÀ
se d
se nd
{0, 1}
se s
se n
se p
{1, 2, 3}
Primi elementi di inferenza statistica (ed. maggio 2012)
3.1. Variabili casuali
Così i valori della tavola possono essere riassunti con la seguente notazione
X(d) = 0,
X(nd) = 1,
Y (s) = 1,
Y (n) = 2,
Y (p) = 3.
Per rendere generale il concetto di v.c., diciamo che anche sugli esiti numerici sono deﬁnite vv.cc., solo che
in questo caso esse sono funzioni identità, cioè funzioni tali che f (x) = x.
Esempio 3.3. Nella tabella viene riportata la costruzione di una v.c. che descrive un esperimento con esiti quantitativi che, evidentemente, è una funzione identità.
ESPERIMENTO
Numero ﬁgli
ESITO
V.C.

 0
X= 1

2
0, 1, 2
MODALITÀ
se 0
se 1
se 2
{0, 1, 2}
Qui avremo
X(0) = 0,
X(1) = 1,
X(2) = 2.
In generale, data la v.c. X, l’evento X ∈ B deﬁnito sull’asse dei reali corrisponde nello spazio fondamentale Ω
all’evento {ω ∈ Ω : X(ω) ∈ B}. Così, deﬁnita una v.c. X, lo studio dell’esperimento casuale viene condotto
non più sugli esiti ω ma sulle modalità x = X(ω).
Ovviamente Due vv. cc. X e Y deﬁnite sullo stesso spazio fondamentale Ω si dicono uguali se per ogni
ω ∈ Ω abbiamo X(ω) = Y (ω).
In particolare la conoscenza di come le probabilità sono distribuite tra le modalità equivale a sapere come
le probabilità sono distribuite tra gli esiti. Così da ora in avanti un esperimento casuale verrà studiato solo
indirettamente, tramite la descrizione dell’associata v.c..
Una v.c. X è detta discreta se assume un insieme ﬁnito o inﬁnito numerabile di modalità; è detta continua
se assume un insieme inﬁnito non numerabile (intervallo continuo) di modalità. Si noti inﬁne che le modalità
sono classiﬁcabili come eventi incompatibili poichè chiaramente ad ogni esito dell’evento casuale si veriﬁca
una e una sola modalità di una data v. c..
Esempio 3.4. Le vv.cc. dell’esempio 3.2 e 3.3 sono tutte vv.cc. discrete. Esempi di vv.cc. continue sono: il tempo,
la temperatura, l’intensità della corrente elettrica.
Il concetto di v.c. è generalizzato da quello di funzione di v.c.. Sia g una funzione deﬁnita sui valori di una
v.c. X. Ovviamente la funzione di v.c. Y = g(X) è anch’essa una v.c. poichè Y assumerà il generico
valore y a seconda che si veriﬁchino oppure no i valori di X che, una volta trasformati da g, valgano y.
Esempio 3.5. La v.c. X descriva il numero di puntini risultante dal lancio di un dado. Sia data la funzione
g : {1, 2, ..., 6} → {1, 2} tale che
{
g(x) =
1
2
se 1 ≤ x < 3
altrimenti.
Y = g(X), è una funzione di v.c..
Due importanti funzioni di v.c. che ricorreranno molto spesso nella trattazione successiva sono la v.c. scarto
e la v.c. standardizzata, rispettivamente:
X − µX
,
σX
X − µX ;
dove µX e σX sono due particolari numeri studiati nelle sezioni 3.8 e 3.9. La seconda funzione è di particolare
importanza, ad essa è dedicata la sezione 3.12. Altre importanti funzioni di v.c. sono le trasformazioni lineare
e quadratica, rispettivamente:
Y = aX + b ;
Y = X2
dove a e b sono due numeri reali.
Primi elementi di inferenza statistica (ed. maggio 2012)
20
M. Di Marzio
3. VARIABILI CASUALI SEMPLICI
3.2
Distribuzioni di probabilità
Dato un insieme di numeri reali B, spesso si vuole calcolare P(X ∈ B). Ricordando che le modalità costituiscono eventi incompatibili, una strategia ovvia consiste nel sommare le probabilità associate alle modalità
appartenenti a B. Ad esempio, per una v. c. discreta, assumendo che B sia un intervallo [a, b], si scrive
∑
P(X = xi )
{i:a≤xi ≤b}
Dove l’espressione {i : a ≤ xi ≤ b} indica l’insieme degli indici appartenenti alle modalità comprese nell’intervallo [a, b]. Così è fondamentale conoscere una funzione (pdf) che speciﬁchi come la probabilità è distributa
tra le modalità di X.
Se X è discreta, la sua funzione di distribuzione di probabilità, detta pdf, è una legge pX che associa
ai valori di X una probabilità non nulla, cioè un numero appartenente all’intervallo (0, 1]. Così, per esempio,
se X ha S modalità, si ha:
pX : {xi , i = 1, 2, ..., S} → (0, 1],
inoltre la somma delle probabilità distribuite tra le modalità è pari a 1. In formule:
i) pX (xi ) = P(X = xi );
ii) pX (x) = 0 se x ∈
/ {xi , i = 1, 2, ..., S};
∑S
iii)
i=1 pX (xi ) = 1.
La seconda e la terza proprietà sono espressioni della stesso fatto. Infatti dire ‘è impossibile che X assuma
valori diversi da quelli compresi nell’insieme {xi , i = 1, 2, ..., S}’ equivale a dire ‘è certo che X assuma uno
dei valori compresi nell’insieme {xi , i = 1, 2, ..., S}’.
Se X è continua, la sua pdf, detta funzione di densità di probabilità, è una funzione continua fX che
associa la probabilità ad intervalli del tipo [a, b] di qualsiasi lunghezza tramite un integrale deﬁnito:
∫
b
P(a ≤ X ≤ b) =
fX (x)dx,
a
dove
i) fX (x) > 0 se x appartiene all’insieme delle immagini di X, fX (x) = 0 altrimenti;
∫ +∞
ii) −∞ fX (x)dx = 1.
∫b
Vediamo ora come ∫l’espressione a fX (x)dx è simile a quella del caso discreto descritto all’inizio del paragrafo.
Infatti il simbolo
indica una sommatoria di una inﬁnità non numerabile di elementi. Inoltre fX (x)dx
∫b
rappresenta l’area di un rettangolo dalla base inﬁnitesima dx e altezza fX (x). Allora a fX (x)dx è una somma
nel continuo delle aree di tali intervallini centrati su x per tutte le x comprese tra a e b ed è rappresentabile
come area sottesa alla curva di fX (x) nell’intervallo [a, b]. In questo senso fX (x)dx approssima la probabilità
di un intervallino inﬁnitamente stretto centrato su x e l’integrale la probabilità associata all’intervallo [a, b].
È importante osservare che nel caso continuo la probabilità che una v.c. assuma un particolare valore è 0;
infatti
∫ a
P(X = a) =
fX (x)dx = 0.
a
Pertanto, poiché
a ≤ X ≤ b = (a < X < b) ∪ {a} ∪ {b},
si ha
P(a ≤ X ≤ b) = P(a < X < b) + P(X = a) + P(X = b),
e quindi nel caso continuo
P(X ∈ [a, b]) = P(X ∈ (a, b)) = P(X ∈ [a, b)) = P(X ∈ (a, b]),
cioè la probabilità dell’intervallo non cambia se gli estremi dell’intervallo sono inclusi oppure no.
La ﬁgura 3.1 riassume la costruzione di vv.cc. discrete e continue e delle relative pdf.
Esempio 3.6. Nel seguito viene riportata la distribuzione di probabilità della v.c. discreta X= numero di teste in 3
lanci di moneta bilanciata.
M. Di Marzio
21
Primi elementi di inferenza statistica (ed. maggio 2012)
3.2. Distribuzioni di probabilità
Figura 3.1: Rappesentazioni di vv.cc. discrete e continue con relative pdf.
X
0
1
2
3
pX (x)
1/8
3/8
3/8
1/8
Si ha:
pX (−1) = 0;
e
3
∑
pX (1.5) = 0;
pX (4) = 0;
1
3
3
1
+ + + = 1.
8
8
8
8
pX (x) =
x=0
Esempio 3.7. La v.c. continua X ha la seguente pdf
{
Si ha
∫
∫
3
P(1 ≤ X ≤ 3) =
∫
2
fX (x)dx =
1
∫
4
P(3 ≤ X ≤ 4) =
3
∫
6
2
3
0dx +
1
e
Inoltre
se 2 ≤ x ≤ 6
altrimenti.
1/4
0
fX (x) =
2
3
1
x
3
2
1
dx =
= − = ,
4
4 2 4
4
4
4
1
x
4
3
1
dx =
= − = .
4
4 3 4
4
4
6
1
x
6
2
dx =
= − = 1.
4
4 2 4
4
Esempio 3.8. Si consideri la v.c. continua X con pdf
{
fX (x) =
Si ha quindi
∫
e−x
0
10
P(0 ≤ X ≤ 10) =
se x ≥ 0
altrimenti.
e−x dx = −e−x
0
e
∫
+∞
10
= 1 − e−10 .
0
e−x dx = −e−x
0
+∞
= 1.
0
Circa le pdf di funzioni di v.c., si noti come, ricordando la loro deﬁnizione (sez. 3.1), la pdf di una funzione di
v.c. Y = g(X) resta deﬁnita a partire da quella di X. Così a seconda se X sia discreta o continua, scriviamo
∫
∑
P(Y = y) =
pX (xi ),
P(Y ∈ B) =
fX (x) dx
{x:g(x)∈B}
{i:y=g(xi )}
dove B rappresenta un intervallo di valori di Y .
Esempio 3.9. Di seguito due pdf di funzioni di v.c. discreta.
• Con riferimento all’esempio 3.5 la funzione di v.c. Y = g(X) ha la seguente pdf:
pY (1) = pX (1) + pX (2) = 2/6
e
pY (2) = pX (3) + pX (4) + pX (5) + pX (6) = 4/6.
• La v.c. X abbia la seguente pdf
Primi elementi di inferenza statistica (ed. maggio 2012)
22
M. Di Marzio
3. VARIABILI CASUALI SEMPLICI
X
−2
1
2
4
pX (x)
1/10
2/10
3/10
4/10
si consideri la funzione reale g(x) = x2 . Di seguito la pdf della v.c. Y = g(X).
Y
1
4
16
pY (y)
2/10
4/10
4/10
3.3
Famiglie parametriche
Si consideri una v.c. X la cui pdf dipende da un insieme di valori caratteristici θ = (θ1 , θ2 , ..., θk ). Per
indicare tale relazione di dipendenza della pdf da θ scriveremo rispettivamente pX (·; θ) e fX (·; θ) per le pdf
di vv.cc. discrete e continue. La quantità θ è detta parametro della pdf. Quindi, indicato con Θ ⊆ Rk lo
spazio parametrico, cioè l’insieme dei possibili valori che il parametro θ può assumere, la collezione
{pX (·, θ) : θ ∈ Θ ⊆ Rk }
deﬁnisce al variare di θ una famiglia parametrica di pdf nel caso discreto. Analogamente, nel caso continuo
la famiglia parametrica di pdf sarà deﬁnita da
{fX (·, θ) : θ ∈ Θ ⊆ Rk }.
Esempio 3.10. Sia X una v.c. discreta la cui pdf, che dipende da un numero intero positivo n (scriveremo n ∈ Z+ ),
{
è data da:
pX (x) = pX (x; n) =
1/n
se x = 1, 2, ..., n
0
altrimenti.
Allora, al variare di n, la collezione
{pX (·; n) : n ∈ Z+ },
deﬁnisce una famiglia parametrica di pdf.
Esempio 3.11. Sia X una v.c. continua la cui pdf, che dipende da un parametro λ > 0, è deﬁnita da:
{
fX (x) = fX (x; λ) =
λe−λx
se x ≥ 0
0
altrimenti.
Allora, al variare di λ, la collezione
{fX (·; λ) : λ > 0}
deﬁnisce una famiglia parametrica di pdf.
3.4
Funzioni di ripartizione
Spesso si vuole conoscere la probabilità che la v.c. X assuma un valore inferiore o uguale ad un certo a ∈ R.
Tale probabilità viene deﬁnita probabilità cumulata. La funzione di ripartizione della v.c. X, indicata con
FX (a) = P(X ≤ a),
oﬀre la probabilità cumulata di X in corrispondenza di ogni a ∈ R.
Se la v.c. X è discreta si ha:
∑
FX (a) =
pX (xi ).
{i:xi ≤a}
Poiché la distribuzione di una v.c. discreta assegna probabilità positiva a modalità tra loro distinte, la
funzione di ripartizione è costante al di fuori di esse e ha discontinuità (salti) in loro corrispondenza; l’entità
del salto su xi è pari a pX (xi ).
Se la v.c. è continua, si ha:
∫
a
FX (a) =
−∞
fX (x)dx,
e la funzione di ripartizione assume la forma di una funzione continua e ovunque derivabile.
Ora possiamo dare una deﬁnizione alternativa, e molto semplice, di vv. cc. discrete e continue. Infatti
diciamo che una v.c. X è discreta se FX è una funzione a scalini, continua se invece FX è funzione continua.
Sia nel caso discreto che in quello continuo la funzione di ripartizione:
M. Di Marzio
23
Primi elementi di inferenza statistica (ed. maggio 2012)
3.4. Funzioni di ripartizione
1. è non decrescente, ossia FX (a) ≤ FX (b) per a < b ;
2. FX (−∞) = limx→−∞ FX (x) = 0 ;
3. FX (+∞) = limx→+∞ FX (x) = 1.
La funzione di ripartizione rende semplice il calcolo di probabilità di eventi che sono intervalli o anche unioni
o intersezioni di intervalli sulla base delle tre seguenti identità:
i) P(X ≤ a) = FX (a);
ii) P(X > a) = 1 − FX (a);
iii) P(a < X ≤ b) = FX (b) − FX (a).
Si aggiunga che, ai ﬁni del calcolo della probabilità dell’evento X ∈ E, è molto più semplice usare le regole
qui sopra piuttosto che sommare le singole probabilità associate a tutti valori di X inclusi in E (che, molto
spesso, hanno addirittura cardinalità inﬁnita non numerabile).
Esempio 3.12. Di seguito sono riportati i valori della funzione di ripartizione in corrispondenza dei valori assunti
dalla v.c. X dell’esempio 3.6
X
0
1
2
3
pX (x)
1/8
3/8
3/8
1/8
FX (x)
1/8
4/8
7/8
1
Quindi si ha:
FX (−1000) = 0;
FX (1.5) = 4/8;
FX (2.3) = 7/8;
FX (10000) = 1.
Per la v.c. X introdotta nell’esempio 3.7 la funzione di ripartizione è invece così deﬁnita
∫ a
1
a−2
FX (a) =
dx =
,
4
4
2
e risulta
FX (−10) = 0;
FX (1) = 0;
FX (4) = 1/2;
FX (50) = 1.
Inﬁne, la funzione di ripartizione della v.c. X introdotta nell’esempio 3.8 è
∫ a
e−x dx = 1 − e−a ,
FX (a) =
0
e risulta
FX (−200) = 0;
FX (−1) = 0;
FX (4) = 1 − e−4 ;
FX (50) = 1 − e−50 ≃ 1.
Dalle deﬁnizioni di funzione di ripartizione e funzione di densità si evince facilmente che esiste una regola per
passare dalla funzione di ripartizione alla funzione di densità. Distinguiamo i casi discreto e continuo.
⋄ Caso Discreto Se X è una v.c. discreta, e se ne conosce la funzione di ripartizione, la relativa pdf è
data dalla diﬀerenza tra due valori successivi della funzione di ripartizione:
pX (xj ) = FX (xj ) − FX (xj−1 )
= [pX (x1 ) + pX (x2 ) + ... + pX (xj )] − [pX (x1 ) + pX (x2 ) + ... + pX (xj−1 )].
⋄ Caso Continuo Se X
∫ x ha pdf continua che assume valori tra a e b, e si conosce la sua funzione di
ripartizione FX (x) = a fX (u)du, allora per il teorema fondamentale del calcolo integrale si ha che la
pdf è uguale alla derivata della funzione di ripartizione, ossia per ogni x ∈ (a, b) risulta
fX (x) = F′X (x).
Primi elementi di inferenza statistica (ed. maggio 2012)
24
M. Di Marzio
3. VARIABILI CASUALI SEMPLICI
Esempio 3.13. Si consideri la v.c. X dell’esempio 3.6. Si ha
pX (2) = FX (2) − FX (1) =
Se X è una v.c. continua che assume valori nell’intervallo

0



x−2
FX (x) =
6



1
7
4
3
− = .
8
8
8
(2, 8) con funzione di ripartizione
se x ≤ 2
se 2 < x < 8
se x ≥ 8
allora per ogni valore di x appartenente all’intervallo (2, 8),
fX (x) = F′X (x) = 1/6,
mentre, per x ≤ 2 o x ≥ 8 fX (x) = 0. Se X è una v.c. continua che assume valori in [0, +∞) con funzione di
ripartizione FX (x) = 1 − e−x , allora la sua funzione di densità nel punto x = 3 è pari a
fX (3) = F′X (3) = e−3 .
3.5
Variabili casuali identicamente distribuite
In questa sezione introduciamo una fondamentale deﬁnizione per la statistica, e cioè quella di vv. cc. identicamente distribuite. Due vv. cc. X e Y si dicono identicamente distribuite se, dato un qualsiasi insieme
di numeri reali E,
P(X ∈ E) = P(Y ∈ E),
o, in altri termini, se FX (a) = FY (a) per ogni numero reale a. Si noti che il concetto di identica distribuzione
è diverso da quello di uguaglianza, cioè FX = FY non implica aﬀatto che X = Y .
Esempio 3.14. Si abbia come esperimento casuale il lancio di tre monete, e su di esso siano deﬁnite le due vv. cc.
X = numero di teste osservate;
Y = numero di croci osservate.
Risulta evidente che per ogni k = 0, 1, 2, 3 abbiamo P(X = k) = P(Y = k). Così X e Y sono identicamente distribuite,
ma addirittura per nessun elemento ω dello spazio fondamentale Ω abbiamo X(ω) = Y (ω) e quindi non sono uguali.
3.6
Moda
Come le distribuzioni statistiche, anche le pdf sono descritte tramite valori sintetici aventi generalmente una
semplice espressione ma un forte contenuto informativo. Tra i principali valori sintetici abbiamo: moda,
quantili, valore atteso, varianza, scarto quadratico medio e coeﬃciente di variazione.
Moda, valore atteso e mediana indicano la posizione della distribuzione, costituendone altrettante deﬁnizioni
di centro. Invece varianza, scarto quadratico medio e coeﬃciente di variazione indicano in che misura la
massa della probabilità è dispersa intorno al valore atteso.
Della moda ci occupiamo in questa sezione. Data una v.c. X, si deﬁnisce moda quella modalità in cui pX (o,
nel caso continuo, fX ), raggiunge il suo massimo. Una pdf è detta multimodale se raggiunge il suo massimo
in più di un punto.
3.7
Quantili
q ∈ (0, 1). Data una v.c. X discreta, la generica sua modalità xi per cui FX (xi ) = q, si deﬁnisce quantile
di ordine q. Si noti quindi che nel caso discreto non esiste sempre un quantile per qualsiasi q ∈ [0, 1]. Se
invece X è una v.c. continua, il quantile di ordine q è deﬁnito come quella modalità ξ tale che
FX (ξ) = q .
Esempio 3.15. Il quantile di ordine 0.3 dell’esempio 3.6 è pari a 1; mentre il quantile di ordine 0.3 dell’esempio
3.7 vale 3.2; inﬁne il quantile di ordine 0.5 dell’esempio 3.8 è pari a 0.693.
Il quantile ha nomi speciﬁci a seconda della forma di q: se q è espresso in decimi è anche detto decile, se q è
espresso in centesimi è detto centile, inﬁne se q è espresso in multipli di 0.25 è detto quartile. Decili, centili
e quartili hanno un numero d’ordine.
M. Di Marzio
25
Primi elementi di inferenza statistica (ed. maggio 2012)
3.8. Valore atteso
Esempio 3.16. Il terzo decile è quel numero ξ tale che FX (ξ) = 0.3, oppure il quarantunesimo centile è quel numero
ξ tale che FX (ξ) = 0.41, inﬁne il terzo quartile è quel numero ξ tale che FX (ξ) = 0.75.
Il secondo quartile1 si chiama mediana. Quindi la mediana è un numero che ha metà massa alla sua destra
e metà massa alla sua sinistra. Ciò giustiﬁca l’uso del termine ‘mediana’.
Inﬁne si consideri un numero α ∈ (0, 1), si deﬁnisce quantile superiore di ordine α, e si indica con ξα , quel
numero ξ tale che
1 − FX (ξ) = α .
La parola superiore indica che l’area α si trova a destra di ξ non a sinistra come accade per il quantile.
Esempio 3.17. Il quantile superiore di ordine 1/8 dell’esempio 3.6 è pari a 2; mentre il quantile superiore di ordine
0.3 dell’esempio 3.7 vale 4.8; inﬁne il quantile superiore di ordine 0.5 dell’esempio 3.8 è pari a 0.693.
3.8
Valore atteso
Il valore atteso di una v.c. X, indicato con µX o E[X], rappresenta il centro della distribuzione intorno al
quale sono dislocati i valori di X. Se la v.c. X è discreta e assume s modalità, il suo valore atteso è dato dalla
somma dei prodotti di ciascuna modalità xi per la sua probabilità pX (xi ), quindi è una media ponderata
delle modalità, dove i coeﬃcienti di ponderazione sono le probabilità:
µX = E[X] =
s
∑
xi pX (xi ).
i=1
Similmente, il valore atteso di una v.c. continua è:
∫
µX = E[X] =
+∞
−∞
xfX (x) dx.
Evidentemente l’operatore valore atteso E2 si usa indiﬀerentemente per vv.cc. discrete o continue, così
permettendo una trattazione uniﬁcata.
Esempio 3.18. Determinare il valore atteso della v.c. X con pdf
{
1/12 se 2 < x < 14
0
altrimenti .
fX (x) =
Si ha
∫
E[X]
14
xfX (x) dx
=
∫
2
14
x
=
2
1
1 x2
dx =
12
12 2
14
=8.
2
Ricordando quanto detto nelle sezioni precedenti, resta naturalmente deﬁnito il valore atteso di una funzione
di v.c. Y = g(X). In particolare E[g(X)] sarà pari a
s
∑
∫
g(xi )pX (xi )
+∞
o
−∞
i=1
g(x)fX (x) dx
a seconda che X sia discreta con s modalità, oppure continua.
Esempio 3.19. Calcoliamo il valore atteso della v.c. Y dell’esempio 3.5:
E[Y ] = E[g(X)] =
6
∑
g(xi )pX (xi ) = 1 ×
i=1
1
1
1
1
1
10
1
+1× +2× +2× +2× +2× =
.
6
6
6
6
6
6
6
Segue il calcolo dei valori attesi di alcune trasformazioni lineari di vv.cc..
1 Anche
2 Il
detto quinto decile oppure cinquantesimo centile.
simbolo E deriva dal termine inglese Expectation.
Primi elementi di inferenza statistica (ed. maggio 2012)
26
M. Di Marzio
3. VARIABILI CASUALI SEMPLICI
i) Dato un numero a ∈ R,
µa = a;
questo può essere facilmente compreso se si pensa ad a come all’unica realizzazione possibile per una
v.c. chiamata costante. Risulta allora evidente che il valore atteso di una costante a non può che essere
la costante stessa.
ii) Data una v.c. X, discreta o continua, si consideri la funzione Y = aX, allora:
µY = aµX .
Infatti poichè una costante moltiplicativa a può essere ‘portata fuori’ sia dalla sommatoria sia dall’integrale (a seconda che X sia discreta o continua) (sezz. A.5 e A.14), abbiamo
µY = E[aX] = aE[X] = aµX .
iii) Se invece Y = X + a, allora:
µY = µX + a;
dimostriamo tale proprietà per il caso discreto (X ha s modalità), il caso continuo è del tutto simile.
Per quanto già appreso circa il valore atteso di una funzione di v.c. abbiamo
E[Y ] = E[g(X)] =
s
∑
g(xi )pX (xi ) =
i=1
s
∑
(xi + a)pX (xi )
i=1
ovviamente la sommatoria può essere espressa come somma di due somme, inoltre ‘portando fuori a’,
e ricordando che la somma delle probabilità è 1, otteniamo
E[Y ] =
s
∑
xi pX (xi ) +
i=1
s
∑
apX (xi ) =
i=1
s
∑
xi pX (xi ) + a = µX + a.
i=1
Ma per la proprietà in questione il valore atteso della v.c. scarto g(X) = X − µ è nullo.
iv) Se Y = a + bX con a e b numeri reali, allora:
µY = a + bµX ;
questo si evince per diretta applicazione delle proprietà precedenti.
Esempio 3.20. Si consideri la v.c. X tale che E[X] = 2. Sia Y = 2X + 3. Si ha allora:
E[Y ] = E[2X + 3] = 2E[X] + 3 = 2 × 2 + 3 = 7.
3.9
Varianza
2
La varianza di una v.c. X, indicata con σX
oppure Var[X], misura il valore atteso degli scostamenti di X
da µX , ed è quindi indicativa della dispersione dei valori di X intorno al centro della distribuzione. Come
misura dello scostamento si adotta la funzione di v.c. g(X) = (X − µX )2 , così la varianza è data da E[g(x)].
Così, se X è una v.c. discreta con s modalità, si ha
2
σX
= Var[X] =
s
∑
(xi − µX )2 pX (xi ),
i=1
Se invece X è una v.c. continua si ha
∫
2
σX
= Var[X] =
+∞
−∞
(x − µX )2 fX (x)dx.
Come l’operatore E, Var è utilizzato indiﬀerentemente per vv.cc. discrete e continue, così permettendo una
trattazione uniﬁcata.
Ricaviamo ora una formulazione diﬀerente della varianza. Abbiamo appena appreso che
Var[X] = E[(X − µX )2 ]
M. Di Marzio
27
Primi elementi di inferenza statistica (ed. maggio 2012)
3.9. Varianza
da cui è facile dedurre la seguente formulazione alternativa:
Var[X] = E[X 2 ] − µ2X .
Infatti
Var[X] = E[(X − µX )2 ]
= E[X 2 + µ2X − 2XµX ]
= E[X 2 ] + E[µ2X ] − E[2µ2X ]
= E[X 2 ] + µ2X − 2µ2X
= E[X 2 ] − µ2X .
La terza uguaglianza deriva dalla seconda applicando la regola per cui il valore atteso di una somma è dato
dalla somma dei valori attesi, si veda la sezione 11.1. Lo scarto quadratico medio (s.q.m.) di una v.c. X
è deﬁnito come la radice quadrata della varianza presa con il segno positivo:
√
2 .
σX = σX
Lo s.q.m., come la varianza, misura la dispersione della distribuzione della v.c. intorno al suo valore atteso.
Però, a diﬀerenza di essa, risulta espresso nella stessa unità di misura del carattere: questa proprietà molto
importante è uno dei principali motivi del suo frequentissimo impiego. Se non c’è possibilità di equivoco sulla
2
v.c. in uso, si può scrivere σ, σ 2 e µ in luogo di σX , σX
e µX .
Esempio 3.21. Si calcoli la varianza della v.c. introdotta nell’esempio 3.6. Otteniamo
Var[X] =
3
∑
(x − E[x])2 pX (x) =
x=0
=
(
)2
(
)2
(
)2
(
)2
3
1
3
3
3
3
3
1
0−
+ 1−
+ 2−
+ 3−
2
8
2
8
2
8
2
8
9
1
1
3
1
3
9
1
3
× + × + × + × = = 0.75.
4
8
4
8
4
8
4
8
4
Esempio 3.22. Sia X una v.c. continua con pdf
{
fX (x) =
Si ha allora
∫
∫
10
E[X] =
1/9
0
10
xfX (x) dx =
1
1
se 1 < x < 10
altrimenti.
1
1 x2
x dx =
9
9 2
10
=
1
1
(100 − 1) = 5.5,
18
ma essendo X 2 è una funzione di X, il suo valore atteso sarà
∫
∫
10
E[X 2 ] =
10
x2 fX (x) dx =
1
1
1 2
1 x3
x dx =
9
9 3
10
=
1
1
(1000 − 1) = 37,
27
si ottiene
Var[X] = E[X 2 ] − µ2X = 37 − (5.5)2 = 6.75.
Segue il calcolo delle varianze e s.q.m. di alcune trasformazioni lineari di vv.cc..
i) Dato un numero a ∈ R,
σa2 = 0;
σa = 0
questo può essere facilmente compreso se si pensa ad a come all’unica realizzazione possibile per una
v.c. chiamata costante. Risulta allora evidente che la varianza di a è nulla.
ii) Data una v.c. X, discreta o continua, si consideri la funzione Y = aX, allora:
2
σY2 = a2 σX
;
σY = aσX .
Primi elementi di inferenza statistica (ed. maggio 2012)
28
M. Di Marzio
3. VARIABILI CASUALI SEMPLICI
Infatti
σY2 = E[(Y − E[Y ])2 ] = E[(aX − aE[X])2 ]
= E[a2 (X − E[X])2 ]
ma poichè sia dalla sommatoria sia dall’integrale (a seconda che X sia discreta o continua) una costante
moltiplicativa a può essere ‘portata fuori’ (sezz. A.5 e A.14), si ha
2
σY2 = a2 E[(X − E[X])2 ] = a2 σX
.
iii) Se invece Y = X + a, allora:
2
σY2 = σX
;
σY = σ X .
Infatti
σY2 = E[(Y − E[Y ])2 ] = E[(X + a − E[X + a])2 ]
= E[(X + a − E[X] − a)2 ] = E[(X − E[X])2 ]
2
= σX
.
iv) Se Y = a + bX con a e b numeri reali, allora:
2
σY2 = b2 σX
;
σY = bσX
questo si evince per diretta applicazione delle proprietà precedenti.
3.10
Coeﬃciente di variazione
Quando si vuole confrontare la variabilità di due vv.cc. non è corretto eﬀettuare il confronto tramite varianza
o s.q.m. poiché il valore di questi ultimi è inﬂuenzato dalla media del carattere o dalla unità di misura, le
quali, invece, non dovrebbero giocare alcun ruolo nel confronto delle variabilità. Così diﬀerenti medie o unità
di misura rendono spesso inutile l’uso di varianza o s.q.m., come negli esempi che seguono.
Esempio 3.23. L’intuito ci suggerisce che 3 kg di s.q.m. tra i pesi dei neonati indica una variabilità di gran lunga
maggiore di 4 kg di s.q.m. di tra i pesi delle madri.
Sapere che lo s.q.m. della distribuzione del reddito in Giappone vale 1000 Yen mentre in Italia vale 1000 Euro, non è
suﬃciente per aﬀermare che la variabilità del reddito nelle due nazioni è identica.
Allora si deve ricorrere a un indice che non risenta nè dell’inﬂuenza dell’intensità media nè dell’inﬂuenza
dell’unità di misura. Un indice di tal genere è il coeﬃciente di variazione:
CV [X] =
σX
µX
Esempio 3.24. Si considerino due vv.cc. X e Y . si vuole giudicare quale tra fX e fY presenta più variabilità a
giudicare dai seguenti dati.
µX = 2 ,
2
σX
= 16 ;
µY = 6 ,
σY2 = 81 .
Concludiamo che in fX c’è più variabilità poichè CV[X] = 2 mentre CV[Y ] = 1.5. Di certo il semplice confronto tra
varianze avrebbe favorito di gran lunga la conclusione opposta.
Un vantaggio del coeﬃciente di variazione è che esso è un numero puro, cioè non è espresso in termini di unità
di misura. Purtroppo è però inapplicabile se la media è nulla o negativa. Inﬁne un ulteriore inconveniente è
che risulta troppo ‘sensibile’, e quindi poco indicativo se la media è vicina allo zero.
Data una v.c. X e un numero a, si deﬁnisca la funzione Y = aX. Allora X e Y hanno lo stesso coeﬃciente
di variazione:
aσX
σX
CV[X] =
=
= CV[Y ].
aµX
µX
M. Di Marzio
29
Primi elementi di inferenza statistica (ed. maggio 2012)
3.11. Disuguaglianza di Chebyshev
3.11
Disuguaglianza di Chebyshev
Siano dati una v.c. X e un numero reale positivo t; deﬁniamo evento raro l’insieme dei valori di X la cui
distanza dalla media µX , misurata come |x − µX |, valga almeno t, cioè
{x : |x − µX | ≥ t} = (−∞, µX − t] ∪ [µX + t, +∞).
Spesso è utile determinare la probabilità dell’evento raro, cioè
P(|X − µX | ≥ t) ,
chiaramente questa probabilità determina anche la probabilità dell’evento complementare come
P(|X − µX | < t) = 1 − P(|X − µX | ≥ t).
Ovviamente occorre conoscere la pdf di X, ad esempio nel caso continuo abbiamo
∫
P(|X − µX | ≥ t) =
∫
µX −t
−∞
+∞
fX (x) dx +
fX (x) dx.
µX +t
Purtroppo a volte non è possibile determinare la pdf di una v.c., ma se ne conoscono solo valore atteso e
varianza. La disuguaglianza di Chebyshev consente in questi casi di determinare valori massimi (risp. minimi)
delle probabilità di eventi rari (risp. dei complementi degli eventi rari).
2
Sia X una v.c. con valore atteso µX e varianza σX
, allora per ogni numero reale t > 0, si ha la seguente
disuguaglianza di Chebyshev
σ2
P(|X − µX | ≥ t) ≤ X
.
t2
Dato un numero reale k e posto t = kσX , se ne ottiene una formulazione più semplice
P(|X − µX | ≥ kσX ) ≤
1
,
k2
ossia la probabilità che la v.c. X si discosti dal suo valore atteso di almeno k unità di s.q.m. è al più uguale
a 1/k 2 . D’altro canto se si considera il complemento dell’evento raro si ha
P(|X − µX | ≥ kσX ) ≤
1
k2
⇔
P(|X − µX | < kσX ) ≥ 1 −
1
,
k2
così la probabilità che X si discosti dal suo valore atteso meno di k unità di s.q.m. è almeno pari a 1 − 1/k 2 .
La disuguaglianza di Chebyshev è importante sia perché è valida per qualunque variabile casuale, sia perchè
per applicarla basta conoscere valore atteso e varianza, non necessariamente la funzione di densità. Da ultimo
si osservi che, aﬃnché tale disuguaglianza sia informativa, è necessario che κ sia scelto maggiore di 1.
Esempio 3.25. Supponiamo che una banca riceva in media 500 clienti al giorno con una varianza di 100. Si vuole
calcolare la probabilità che nella giornata di domani, la banca riceverà tra i 300 ed i 700 clienti. A tale scopo sia X il
numero dei clienti che la banca riceverà domani.
Allora la probabilità cercata è P(300 < X < 700). Poiché si conosce che E[X] = 500 e Var[X] = 100, e poiché
P(300 < X < 700) = P(−200 < X − 500 < 200)
= P(|X − 500| < 200)
= 1 − P(|X − 500| ≥ 200),
dalla disuguaglianza di Chebyshev discende che
P(|X − 500| ≥ 200) ≤
100
= 0.0025.
2002
Si ha pertanto
P(300 < X < 700) = P(|X − 500| < 200) ≥ 1 − 0.0025 = 0.9975.
Primi elementi di inferenza statistica (ed. maggio 2012)
30
M. Di Marzio
3. VARIABILI CASUALI SEMPLICI
3.12
Variabili casuali standardizzate
Un’importante trasformazione lineare di vv.cc. è la standardizzazione. Data una v.c. X, la v.c. X ∗
ottenuta sottraendo ad X il suo valore atteso e dividendo tale diﬀerenza per lo s.q.m. è deﬁnita v.c. X
standardizzata. Formalmente:
X − E[X]
X∗ = √
.
Var[X]
Per la v.c. X ∗ si ha:
Infatti
E[X ∗ ] = 0
e
Var[X ∗ ] = 1.
[
]
X − E[X]
E[X] − E[X]
E[X ] = E √
= √
= 0,
Var[X]
Var[X]
]
[
Var[X]
Var[X]
X
−
E[X]
= √
=
= 1.
Var[X ∗ ] = Var √
2
Var[X]
Var[X]
( Var[X])
∗
Per eﬀetto della standardizzazione il centro della distribuzione di X diventa 0 e gli scarti dalla media di X
vengono espressi in unità di s.q.m.. Si noti che, esprimendo di quante unità di s.q.m. X diﬀerisce dal suo
valore atteso, la v.c. X ∗ è indipendente dall’unità di misura di X.
Esempio 3.26. L’ammontare di pioggia in una data area è descritto da una v.c. X con E[X] = 1 cm e Var[X] =
4 cm2 . Assumiamo che all’ i-esima rilevazione di X risulti xi = 5 cm. Poiché x∗i = (5 − 1)/2 = 2, la distanza di xi
dalla media è pari a due volte la deviazione standard di X.
L’operazione di standardizzazione risulta molto utile qualora si vogliano confrontare vv.cc. con distribuzioni
diﬀerenti.
Esempio 3.27. Uno studente ha conseguito 26 all’esame di statistica e 30 all’esame di geograﬁa. Assumiamo che
la media e lo s.q.m. dei voti di tutti gli studenti siano rispettivamente pari a 22 e 4 per l’esame di statistica mentre
queste quantità sono rispettivamente pari a 28 e 4 per l’esame di geograﬁa. Standardizzando si vede che il voto dello
studente è più elevato della media di (26 − 22)/4 = 1 unità di s.q.m. per l’esame di statistica e di (30 − 28)/4 = 0.5 per
l’esame di geograﬁa: il risultato ottenuto dallo studente all’esame di statistica è quindi relativamente migliore rispetto
a quello ottenuto all’esame di geograﬁa.
M. Di Marzio
31
Primi elementi di inferenza statistica (ed. maggio 2012)
4
Esercizi svolti
Esercizio 4.1. L’esperimento consiste nel lanciare due volte una moneta. Se la v.c. è il numero di teste
uscite nei due lanci, qual è:
a) il suo dominio;
b) la legge di associazione;
c) la sua immagine?
Soluzione a) Ω = {T T, T C, CT, CC}. b) Contare il numero di teste. c) X = {0, 1, 2}.
Esercizio 4.2. L’esperimento consiste nel lanciare due volte un dado. Se la v.c. è il numero di puntini nei
due lanci, qual è:
a) il suo dominio;
b) la legge di associazione;
c) la sua immagine?
Soluzione a) In Ω abbiamo 36 eventi elementari:
Ω = {(1, 1), (1, 2), (1, 3), ..., (6, 4), (6, 5), (6, 6)}.
b) Contare il numero di puntini.
c) X = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Esercizio 4.3. Per ciascuno dei seguenti casi si dica se la variabile è discreta o continua:
a) la frequenza cardiaca;
b) il tempo tra due decolli di aerei;
c) la statura di un individuo;
d) la quantità di denaro incassata.
Soluzione a) Discreta. b) Continua. c) Continua. d) Discreta.
Esercizio 4.4. Consideriamo il lancio di 3 monete e le vv.cc. X = n. di teste uscite; Y = n. di croci uscite;
Z = n. di coppie consecutive di teste. Si vince 2 per ogni testa e si paga 1 per ogni croce; deﬁniamo W =
guadagno netto nel lancio delle 3 monete. Determinare le pdf di X, Z, Y e W .
Soluzione Di seguito l’elenco degli esiti elementari (che sono equiprobabili) con i relativi valori delle vv. cc.
Primi elementi di inferenza statistica (ed. maggio 2012)
32
M. Di Marzio
4. ESERCIZI SVOLTI
Risultati
X
Y
Z
W
Probabilità
TTT
3
0
2
6
1/8
TTC
2
1
1
3
1/8
TCT
2
1
0
3
1/8
CTT
2
1
1
3
1/8
TCC
1
2
0
0
1/8
CTC
1
2
0
0
1/8
CCT
1
2
0
0
1/8
CCC
0
3
0
-3
1/8
Da questa tavola ricavano le distribuzioni di probabilità sommando le probabilità degli esiti elementari
favorevoli alla modalità considerata. Cosi, ad esempio, {X = 1} = {T CC ∪ CT C ∪ CCT }. Per cui
P(X = 1) = P (T CC) + P (CT C) + P (CCT ) = 3/8
.
X
pX (x)
0
1/8
1
3/8
2
3/8
3
1/8
Z
pZ (z)
0
1
2
5/8
2/8
1/8
Y
pY (y)
W
pW (w)
0
1
2
1/8
3/8
3/8
-3
0
3
1/8
3/8
3/8
3
1/8
6
1/8
1
1
1
1
Esercizio 4.5. Data la funzione di ripartizione della v.c. discreta X
X
0
1
2
3
4
5
FX (xi )
0
0.2
0.5
0.6
1
1
Determinare la funzione di distribuzione di probabilità in corrispondenza di ciascuna delle modalità xi .
Soluzione Poiché la funzione di ripartizione della v.c.
∑ X fornisce la probabilità cumulata di X in corrispondenza di ogni a ∈ R e nel caso discreto FX (a) =
pX (xi ), la pdf di X risulta:
{i:xi ≤a}
X
0
1
2
3
4
5
pX (xi )
0
0.2
0.3
0.1
0.4
0
Esercizio 4.6. Si consideri la funzione
{
g(x) =
8
15
( 1 )x
se x = 0, 1, 2, 3
2
0
altrimenti.
a) Veriﬁcare che g(x) è una pdf.
b) Determinare i valori della funzione di ripartizione della v.c X.
Soluzione a) Osserviamo innanzitutto che
0 ≤ g(x) ≤ 1
M. Di Marzio
∀ x ∈ {0, 1, 2, 3},
33
Primi elementi di inferenza statistica (ed. maggio 2012)
e
∀x∈
/ {0, 1, 2, 3}.
g(x) = 0
Occorre ora veriﬁcare che
3
∑
g(x) = 1.
x=0
Poiché
3
∑
g(x) =
x=0
=
8
15
( )0
( )
( )2
( )3
1
8 1
8 1
8 1
+
+
+
2
15 2
15 2
15 2
4
2
1
8
+
+
+
= 1,
15 15 15 15
si conclude che g(x) è una funzione di distribuzione di probabilità.
b) Poiché X è una v.c. distreta, la sua funzione di ripartizione è data da
∑
G(a) =
g(xi ),
{i:xi ≤a}
si ha pertanto
X
0
1
2
3
g(x)
8/15
4/15
2/15
1/15
G(xi )
8/15
12/15
14/15
1
Esercizio 4.7. Determinare i valori delle costanti k1 e k2 tali che le funzioni seguenti siano funzioni di
densità di probabilità:
a)
{
g(x) =
b)
{
h(x) =
k1 x se 0 < x < 4
0
altrimenti.
k2 x2
se 0 < x < 2
0
altrimenti.
Soluzione a) Per determinare k1 , utilizziamo la proprietà
∫
∫
4
si ha
0
∫
4
⇒
g(x)dx = 1
0
b) Per determinare k2 , utilizziamo la proprietà
∫
∫
2
0
∫2
0
8k1 = 1
k1 =
1
.
8
2
k2 x2 dx =
0
∫
⇒
h(x)dx = 1. Poiché
2
h(x)dx =
risulta
g(x)dx = 1. Poiché
k1 2
k1
x = (16 − 0) = 8k1 ,
2
2
0
k1 xdx =
0
0
4
4
g(x)dx =
∫4
2
8k2
=1
3
⇒
h(x)dx = 1
k2
8k2
k2 3
x = (8 − 0) =
,
3
3
3
0
0
⇒
k2 =
3
.
8
Esercizio 4.8. Sia X una v.c. discreta con funzione di ripartizione
X
1
2
3
4
5
FX (xi )
1/15
3/15
6/15
10/15
1
Primi elementi di inferenza statistica (ed. maggio 2012)
34
M. Di Marzio
4. ESERCIZI SVOLTI
Determinare la pdf di X.
Soluzione Poiché X è una v.c. discreta, per ogni valore x risulta
pX (x) = FX (x) − FX (x − 1).
Pertanto si ha
pX (1) = FX (1) =
1
15
pX (2) = FX (2) − FX (1) =
3
1
2
−
=
15 15
15
pX (3) = FX (3) − FX (2) =
6
3
3
−
=
15 15
15
pX (4) = FX (4) − FX (3) =
10
6
4
−
=
15 15
15
pX (5) = FX (5) − FX (4) = 1 −
5
10
=
.
15
15
Si conclude pertanto che la pdf della v.c. X è data da
{
x/15 se x = 1, 2, 3, 4, 5
pX (x) =
0
altrimenti.
Esercizio 4.9. Sia X una v.c. continua con funzione di ripartizione deﬁnita da
{
−(x + 1)e−x + 1 se x ≥ 0
FX (x) =
0
altrimenti.
Determinare la pdf di X.
Soluzione Poiché X è una v.c. continua, per ogni valore x vale la relazione seguente
fX (x) = F′X (x).
Si ha pertanto che per x = 0, fX (x) = 0; per x ≥ 0 si ha invece
fX (x) = −e−x − (x + 1)(−e−x ) + 0 = −e−x + xe−x + e−x = xe−x .
La pdf di X è allora deﬁnita da
{
fX (x) =
xe−x
se x ≥ 0
0
altrimenti.
Esercizio 4.10. Calcolare il valore atteso, la varianza e lo scarto quadratico medio della v.c. X = n. di
ipoteche approvate da una banca in una settimana.
M. Di Marzio
N. ipoteche
Probabilità
0
0.10
1
0.10
2
0.20
3
0.30
4
0.15
5
0.10
6
0.05
35
Primi elementi di inferenza statistica (ed. maggio 2012)
Soluzione
µX = E[X] =
S
∑
xi pX (xi )
i=1
= (0 × 0.1) + (1 × 0.1) + (2 × 0.2) + (3 × 0.3) + (4 × 0.15) + (5 × 0.1) + (6 × 0.05)
= 0 + 0.1 + 0.4 + 0.9 + 0.6 + 0.5 + 0.3 = 2.8;
2
σX
=
N
∑
(xi − E[xi ])2 pX (xi )
i=1
= (0 − 2.8)2 0.10 + (1 − 2.8)2 0.10 + (2 − 2.8)2 0.20 + (3 − 2.8)2 0.30+
+ (4 − 2.8)2 0.15 + (5 − 2.8)2 0.10 + (6 − 2.8)2 0.05
= 0.784 + 0.324 + 0.128 + 0.012 + 0.216 + 0.484 + 0.512 = 2.46;
√
σ = 2.46 = 1.57.
Esercizio 4.11. Data la v.c. X con funzione di densità di probabilità
{
1/12 se 2 < x < 14
fX (x) =
0
altrimenti,
determinare:
a) E[9X];
b) Var[X + 5].
Soluzione a) Poiché
∫
∫
14
E[X] =
14
xfX (x)dx =
2
2
1
1 x2
xdx =
12
12 2
14
=
2
1
(196 − 4) = 8,
24
e E[aX] = aE[X] per un qualsiasi numero reale a,
E[9X] = 9E[X] = 9 × 8 = 72.
b) Ricordiamo che
Var[X] = E[X 2 ] − (E[X])2 .
Poichè
∫
2
∫
14
2
E[X ] =
x fX (x)dx =
2
2
14
1 x3
1 2
x dx =
12
12 3
14
=
2
1
(2744 − 8) = 76,
36
si ottiene
Var[X] = 76 − 64 = 12.
Poiché Var[X + a] = Var[X] per un qualsiasi numero reale a,
Var[X + 5] = Var[X] = 12.
Esercizio 4.12. Si consideri la v.c. X con E[X] = 3 e E[X 2 − 4X] = 5. Sia Y = 2X + 1. Determinare:
a) E[Y ];
b) Var[Y ].
Soluzione a)
E[Y ] = E[2X + 1] = 2E[X] + 1 = 2 × 3 + 1 = 7.
b) Si osservi che
E[X 2 − 4X] = E[X 2 ] − 4E[X] = 5 ⇒ E[X 2 ] = 5 + 4E[X] = 5 + 4 × 3 = 17.
Da cui si ottiene
Var[X] = E[X 2 ] − (E[X])2 = 17 − 9 = 8,
e quindi
Var[Y ] = Var[2X + 1] = 4Var[X] = 4 × 8 = 32.
Primi elementi di inferenza statistica (ed. maggio 2012)
36
M. Di Marzio
5
Principali variabili casuali discrete
Indice
5.1
5.2
5.3
5.4
5.5
5.1
Tre esperimenti casuali fondamentali .
Variabile casuale binomiale . . . . . .
Variabile casuale geometrica . . . . . .
Variabile casuale ipergeometrica . . .
Variabile casuale di Poisson . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
38
39
40
41
Tre esperimenti casuali fondamentali
Tantissimi fenomeni aleatori sono ben descritti da uno di tre esperimenti casuali: il bernoulliano, l’ipergeometrico e il poissoniano. Ciascuna delle vv.cc. discrete che verranno introdotte descrivono aspetti di questi
esperimenti.
Un esperimento casuale si dice bernoulliano se ha due possibili esiti, genericamente chiamati successo (s)
e insuccesso (i), con rispettive probabilità indicate come
P(s) = π
P(i) = 1 − π.
e
Si parla di n prove bernoulliane quando un esperimento bernoulliano viene ripetuto n volte e la probabilità
π è la medesima in ogni prova.
Esempio 5.1. Un classico caso di esperimento bernulliano ripetuto consiste nel lanciare diverse volte una moneta.
Qui gli esiti incompatibili sono chiaramente testa e croce.
L’esperimento ipergeometrico consiste nell’estrarre senza reinserimento un oggetto da una popolazione
di oggetti di numerosità ﬁnita T . La popolazione è costituita da S elementi di tipo successo, ed I di tipo
insuccesso, così T = S + I. Inoltre tutti gli elementi hanno la stessa probabilità di essere estratti alla prima
estrazione, che é 1/T .
Esempio 5.2. Il controllo in accettazione di una fornitura contiene un classico caso di esperimento ipergeometrico.
Infatti da un numero ﬁnito di T pezzi se ne estraggono n. Un pezzo può essere difettoso (successo) o non difettoso
(insuccesso).
Un esperimento casuale si dice poissoniano se si osserva il numero di accadimenti di un evento all’interno
di un preﬁssato intervallo t di tempo o spazio con le seguenti caratteristiche:
1) i numeri di accadimenti in due separati intervalli t1 e t2 sono indipendenti;
2) sono teoricamente possibili anche inﬁniti accadimenti quantunque piccolo sia l’intervallo di osservazione
t, ma per valori di t molto piccoli una singola occorrenza è più probabile di due o più;
3) esiste un tasso λ di occorrenza media dei successi per unità di tempo, noto ed empiricamente determinato. Allora si deduce che il numero di accadimenti atteso nell’unità di tempo t è λt.
Esempio 5.3. Due classici esperimenti poissoniani sono: a) osservazione del numero di difetti o non conformità in
un’unità di prodotto quando non ci sono fattori sistematici a provocarli; b) osservazione del numero di chiamate che
arrivano ad un centralino durante un preﬁssato periodo t.
M. Di Marzio
37
Primi elementi di inferenza statistica (ed. maggio 2012)
n=7
π=0.5
0.2
n=50
π=0.3
p(x;n,π)
p(x;n,π)
p(x;n,π)
5.2. Variabile casuale binomiale
n=50
π=0.1
0.15
0.08
0.15
0.1
.1
0.04
0.05
0.05
0
0
2
4
6
x
0
0
7
20
40
0
0
x 50
20
40
50
x
Figura 5.1: Distribuzioni binomiali con diversi valori dei parametri n e π.
5.2
Variabile casuale binomiale
La v.c. binomiale conta il numero di successi in n prove bernoulliane. In formule
X : Ω → [0, 1, ..., n]
dove Ω è uno spazio prodotto. In particolare
2n esiti
n f attori
z
}|
{
z
}|
{
Ω = (s, i) × (s, i)... × (s, i) = {(iii...i), (iii...s), ..., (iss...s), (sss...s)}.
Quindi lo spazio fondamentale è costituito da 2n esiti, ovvero tutte le possibili sequenze di lunghezza n in
cui compaiono le modalità di un carattere dicotomico.
La v.c. X binomiale ha la seguente pdf con parametri n e π
{ (n) x
n−x
se x = 0, 1, ..., n
x π (1 − π)
pX (x; n, π) =
0
altrimenti,
e si scrive X ∼ B(n, π). Qui Θ = [1, 2, ..., n] × (0, 1).
Valore atteso e varianza sono rispettivamente
E[X] = nπ
e
Var[X] = nπ(1 − π).
Il caso particolare con B(1, π), cioè
pX (x; π) = π x (1 − π)1−x
x ∈ {0, 1}
π ∈ [0, 1].
è detto distribuzione di Bernoulli. Qui valore atteso e varianza sono pari a
E[X] = π
e
Var[X] = π(1 − π).
Spieghiamo adesso l’espressione di pX (x; n, π), cioè la probabilità
( ) di x successi in n prove.
L’evento ‘x successi in n prove’ è formato dall’insieme delle nx possibili sequenze di lunghezza n ognuna
contenenti x successi 1 . Poichè le n prove sono esperimenti casuali indipendenti, allora gli eventi associati
a prove diﬀerenti sono indipendenti. Di conseguenza, applichiamo il teorema delle probabilità composte per
eventi indipendenti per ottenere la probabilità della generica sequenza favorevole caratterizzata da n elementi
e x successi:
P(10001101.....1010) = π(1 − π)(1 − π)(1 − π)ππ(1 − π)π.....π(1 − π)π(1 − π)
= π x (1 − π)(n−x) ;
( )
inﬁne, si noti che le nx sequenze sono tra loro incompatibili ed equiprobabili, così, applicando il terzo assioma
della probabilità, si ha:
( )
n x
x
n−x
x
n−x
x
n−x
pX (x; n, π) = π (1 − π)
+ π (1 − π)
+ ... + π (1 − π)
=
π (1 − π)n−x .
|
{z
}
x
(nx) addendi
1 Combinazioni
di n posti in gruppi di x.
Primi elementi di inferenza statistica (ed. maggio 2012)
38
M. Di Marzio
5. PRINCIPALI VARIABILI CASUALI DISCRETE
Esempio 5.4. Un dado regolare viene lanciato 10 volte. Calcoliamo la probabilità di ottenere 4 numeri maggiori o
uguali a 5. Si ha immediatamente
( )
10
pX (4; 10, 2/6) =
(2/6)4 (1 − 2/6)10−4 = 0.228.
4
Dalla ﬁgura 5.1 notiamo che la distribuzione binomiale è simmetrica se π = 0.5, inoltre al crescere di n essa
tende ad assumere la forma di una curva normale (sez. 7.2) con media nπ e varianza nπ(1 − π) per eﬀetto
del teorema centrale del limite (sezione 11.5). Sempre dalla ﬁgura 5.1 ricaviamo che tale convergenza di
pX (·; n, π) alla normale sarà tanto più lenta quanto più π è diverso da 0.5.
5.3
Variabile casuale geometrica
Si consideri l’esperimento che consiste nel ripetersi di una prova bernoulliana ﬁno al primo successo. La v.c.
geometrica conta il numero di insuccessi che si veriﬁcano prima del primo successo. Formalmente abbiamo
X : Ω → [0, 1, 2, ..., +∞)
dove
Ω = {s, is, iis, iiis, iiiis, iiiiis, ...}.
Se X è geometrica e la probabilità dell’insuccesso è 1 − π, allora la sua distribuzione di probabilità sarà
{
π(1 − π)x se x = 0, 1, ...
pX (x; π) =
0
altrimenti,
e si scrive X ∼ G(π). Qui Θ = (0, 1). Il valore atteso e la varianza sono:
E[X] =
1−π
π
e
Var [X] =
1−π
.
π2
La funzione di ripartizione della v.c. geometrica è FX (k) = 1 − (1 − π)k+1 per ogni k intero positivo. Ciò è
evidente se si considera che
FX (k) = P(X ≤ k) = 1 − P(X > k),
ma P(X > k) è la probabilità che le prime k + 1 prove siano insuccessi, cioè (1 − π)k+1 .
Inﬁne la probabilità che siano necessarie almeno k + 1 estrazioni per ottenere il primo successo è uguale alla
probabilità che le prime k prove siano risultate tutte degli insuccessi, in formule:
P(X ≥ k) = (1 − π)k .
Esempio 5.5. Un’urna contiene 10 palline nere e 5 palline bianche. Viene estratta una pallina alla volta con
reinserimento ﬁno a quando esce una pallina nera. Calcolare
a) la probabilità di estrarre esattamente 4 palline;
b) la probabilità di estrarre almeno 3 palline.
Dato che π = 10/15, abbiamo
a)
(
P(X = 3) =
5
15
)3
b)
10
= 0.0242;
15
[
]
10
5 10
P(X ≥ 2) = 1 − P(X < 2) = 1 −
+
= 0.11.
15
15 15
Si osservi che la probabilità che escano almeno 3 palline corrisponde alla probabilità che nelle prime 2 prove escano
esattemente 2 palline bianche.
La ﬁgura 5.2 riporta alcuni esempi di distribuzione geometrica. Come appare intuitivo, al diminuire di π
la distribuzione geometrica tende ad appiattirsi ed ingrossare la coda. Infatti se la probabilità del successo
diminuisce, sequenze di insuccessi relativamente più lunghe diventano più probabili. Si osservi che per π = 0.8
si hanno probabilità signiﬁcativamente diverse da zero ﬁno a 3, per π = 0.4 questo accade ﬁno a 8, inﬁne
per π = 0.1 questo accade ﬁno a oltre 40. Inﬁne, poiché se x = 0 allora π(1 − π)x = π, e se x > 0 allora
π(1 − π)x < π, ne consegue che la moda è sempre nel punto 0. Un’ importante proprietà di cui gode la
M. Di Marzio
39
Primi elementi di inferenza statistica (ed. maggio 2012)
0.08
0.4
p(x,π)
0.1
p(x;π)
p(x;π)
5.4. Variabile casuale ipergeometrica
0.3
0.6
π=0.1
0.06
0.8
π=0.4
π=0.8
0.2
0.4
0.1
0.2
0.04
0.02
0
0
10
20
30
40
x
0
0
50
5
10
x
15
0
0
1
2
3
4
x
5
Figura 5.2: Distribuzioni geometriche con diversi valori del parametro π.
distribuzione geometrica è quella dell’ assenza di memoria. Una v.c. X che misura i tempi di attesa del
primo successo si deﬁnisce priva di memoria se
P(X ≥ t + s|X ≥ t) = P(X ≥ s) .
Così se per il primo successo si è già atteso ﬁno a t, questo non cambia la probabilità di attendere ancora
un tempo pari a s. In altre parole: la probabilità che trascorra ancora un periodo di lunghezza s dopo che è
trascorso un periodo di lunghezza t è uguale alla probabilità che l’attesa duri in tutto s2 .
Per dimostrare che la v.c. geometrica è priva di memoria ricordiamo che per questa vale P(X ≥ k) = (1−π)k ,
allora
P(X ≥ t + s ∩ X ≥ t)
P(X ≥ t)
P(X ≥ t + s)
=
P(X ≥ t)
(1 − π)t+s
=
(1 − π)t
= (1 − π)s
= P(X ≥ s).
P(X ≥ t + s|X ≥ t) =
5.4
Variabile casuale ipergeometrica
Si considerino n prove di un esperimento ipergeometrico. La v.c. ipergeometrica conta il numero degli
oggetti di tipo successo veriﬁcatisi nelle n prove. In formule
X : Ω → [0, 1, ..., n]
dove
Ω = tutte le combinazioni di T oggetti presi a gruppi di n.
Posto I = T − S, la v.c. ipergeometrica ha la seguente pdf di parametri T, S, n
 (S )( I )


 x ( n−x
se x = 0, 1, ..., n
)

T
n
pX (x; T, S, n) =




0
altrimenti,
e si scrive X ∼ I(T, S, n). Qui Θ = [1, 2, ..., T ] × [1, 2, ..., S] × [1, 2, ..., n]. Valore atteso e varianza sono
rispettivamente pari a
E[X] = n ×
S
;
T
e
Var[X] = n ×
S
T −S
T −n
×
×
.
T
T
T −1
Si noti la similitudine con media e varianza della pdf binomiale. Ponendo π = S/T , si potrebbe dire che l’unica
diﬀerenza è nella varianza. Infatti la varianza della ipergeometrica è corretta con il fattore (T − n)/(T − 1)
2 Nella pratica l’assenza di memoria è un requisito diﬃcile da riscontrare. Infatti l’esperienza comune suggerisce che tanto
più lungo è il tempo trascorso, tanto più corta sarà l’attesa resuidua.
Primi elementi di inferenza statistica (ed. maggio 2012)
40
M. Di Marzio
T=10
n=5
S=4
0.4
0.3
T=10
n=7
S=4
0.5
0.4
0.3
0.2
2
3
4
x5
0
0
0.3
0.1
0.1
1
T=10
n=6
S=6
0.4
0.2
0.2
0.1
0
0
0.5
p(x;T,n,S)
0.5
p(x;T,n,S)
p(x;T,n,S)
5. PRINCIPALI VARIABILI CASUALI DISCRETE
1
2
3
4
0
0
x
1
2
3
4
5
6
x
7
Figura 5.3: Distribuzioni ipergeometriche con diversi valori dei parametri T , n e S.
dovuto al fatto che la popolazione è ﬁnita. Chiaramente, se T → +∞ quando sia S/T sia n sono ﬁssati,
allora le prove divengono indipendenti e la geometrica tende a coincidere con la binomiale. Questo si vede
già dal fatto che
T −n
lim
= 1.
T →∞ T − 1
Poiché gli individui della popolazione hanno per ipotesi tutti la stessa probabilità di essere estratti, tutte
le possibili n-ple sono equiprobabili, così alla formula ipergeometrica si perviene applicando la concezione
classica della probabilità: al numeratore abbiamo il numero di casi favorevoli, mentre al denominatore il
numero dei casi possibili. In particolare:
⋄ Denominatore: poiché si tratta di un esperimento ipergeometrico, il numero di casi possibili è dato da
T Cn (sez. B.2). Infatti tutte le possibili n-ple senza reiserimento, dove si conta il numero di successi,
diﬀeriscono solo per la presenza di almeno un oggetto e quindi sono combinazioni.
⋄ Numeratore: il numero di casi favorevoli si ottiene con il seguente ragionamento:
a) Si calcola il numero di modi in cui x esiti favorevoli si possono estrarre dagli S esiti favorevoli
presenti nel collettivo. Questo, poichè l’estrazione è senza reinserimento, sarà pari a S Cx .
b) Si calcola il numero di modi in cui n − x esiti non favorevoli si possono estrarre dagli I esiti non
favorevoli presenti nel collettivo. Questo, poichè l’estrazione è senza reinserimento, sarà pari a
I Cn−x .
c) L’accostamento di una qualsiasi combinazione delle S Cx con una qualsiasi delle I Cn−x combinazioni costituisce un caso favorevole, così il numero di tutti i casi favorevoli è dato dal prodotto
S Cx ×I Cn−x .
In deﬁnitiva:
pX (x; T, S, n) =
S Cx
×I Cn−x
=
T Cn
(S )(
x
I
(Tn−x
)
n
)
.
Esempio 5.6. Un chimico ha commesso 25 errori in 500 esperimenti indipendenti tra loro. Un secondo chimico
controlla casualmente 7 di questi esperimenti. Qual è la probabilità che individui 2 errori?
Indichiamo con X il numero di errori trovati dal secondo chimico. X si distribuisce come una ipergeometrica con
S = 25, T = 500, n = 7, x = 2 e I = T − S = 475.
Quindi
( )( )
P(X = 2) = pX (2; 500, 25, 7) =
25
2
475
(5007−2
) ≃ 0.04.
7
La ﬁgura 5.3 riporta alcuni esempi di distribuzione ipergeometrica. In alcuni casi la probabilità è nulla. Ciò
si veriﬁca quando il campione è più numeroso degli elementi ‘insuccesso’ presenti nella popolazione. Infatti
se T = 10, n = 7, e S = 4 allora si deve avere almeno un successo poiché n = 7 e I = 6. Così come se
T = 10, n = 6, e S = 6 è impossibile avere meno di due successi poiché n = 6 e I = 4.
5.5
Variabile casuale di Poisson
Si consideri un esperimento poissoniano con parametri λ e t. La v.c. di Poisson conta gli esiti che
accidentalmente si manifestano nell’intervallo continuo t. In formule
X : Ω → [0, 1, ..., +∞)
M. Di Marzio
41
Primi elementi di inferenza statistica (ed. maggio 2012)
5.5. Variabile casuale di Poisson
dove Ω è l’insieme di tutti i possibili conteggi di accadimenti nel periodo t, ossia:
Ω = {0, 1, 2...}.
La v.c. di Poisson ha distribuzione di probabilità pari a
 −λt
x

 e (λt)
x!
pX (x; λt) =

 0
se x = 0, 1, ...
altrimenti,
e si scrive X ∼ P(λt). Qui Θ = (0, +∞). Inoltre:
λt=2
p(x;λt)
p(x;λt)
p(x;λt)
0.2
0.3
λt=20
0.08
λt=5
0.2
0.1
0.08
0.1
0
0
2
4
6
8
x 10
0
0
5
10
x
15
0
0
5
10
15
20
25
30
35
x 40
Figura 5.4: Distribuzioni di Poisson con diversi valori del parametro λ.
E[X] = Var[X] = λt.
Esempio 5.7. Supponiamo che, in media, in ogni 3 pagine di un libro c’è un errore tipograﬁco. Se il numero di
errori tipograﬁci in una singola pagina si descrive come una v.c. di Poisson, calcolare la probabilità di avere almeno
un errore su una pagina del libro.
Poiché il problema riguarda una pagina, allora il nostro modello è una v.c. di Poisson con parametro λt = 1/3, quindi
P(X = n) = pX (n; 1/3) =
così calcoliamo come
(1/3)n e−1/3
,
n!
P(X ≥ 1) = 1 − P(X = 0) = 1 − e−1/3 ≃ 0.28.
Nella ﬁgura 5.4 sono riportate alcune distribuzioni di Poisson. Come si vede, la Poisson è asimmetrica con
una lunga coda a destra. Inoltre, dato un certo valore di t, al crescere di λ tende alla normale con media e
varianza λt per eﬀetto del teorema centrale del limite (sezione 11.5).
Primi elementi di inferenza statistica (ed. maggio 2012)
42
M. Di Marzio
6
Esercizi svolti
Esercizio 6.1. Un’azienda produce DVD che hanno probabilità 0.02 di essere difettosi, indipendentemente
l’uno dall’altro. La confezione di vendita contiene 20 pezzi presi a caso dalla produzione totale. La garanzia
aﬀerma che se è presente più di un pezzo difettoso la scatola verrà sostituita.
a) Che percentuale di confezioni si prevede ritornerà?
b) Se compro 5 confezioni con che probabilità ne dovrò restituire una?
Soluzione Se X è il numero di pezzi difettosi in una scatola da 20 dischetti, X ∼ B(20, 0.02). Così:
a)
P(X > 1) = 1 − P(X = 0) − P(X = 1)
= 1 − pX (0; 20, 0.02) − pX (1; 20, 0.02)
20!
20!
20−0
20−1
0.020 (1 − 0.02)
−
0.021 (1 − 0.02)
= 0.06;
=1−
0! (20 − 0)!
1! (20 − 1)!
b) ogni scatola viene resa con probabilità pari a circa 0.06. Allora se compriamo 5 scatole la probabilità di
renderne una sarà:
pX (1; 5, 0.06) =
5!
5−1
0.061 (1 − 0.06)
= 0.234.
1! (5 − 1)!
Esercizio 6.2. Un’azienda deve veriﬁcare i propri ordini di vendita. Così vengono osservati n ordini presi
a caso. Secondo l’esperienza pregressa, la probabilità di avere un ordine errato è pari a 0.1. Come risulta
comprensibile, gli esiti di osservazioni diverse non si inﬂuenzano stocasticamente. Si calcoli:
a) la probabilità di osservare 3 ordini errati su 4.
b) la probabilità di osservare almeno 3 ordini errati su 4.
c) la probabilità di osservare meno di 3 ordini errati su 4.
Soluzione Chiaramente si tratta di prove bernoulliane, dove X conta il numero di difetti, ossia X ∼ B(n, 0.1).
Allora
a)
4!
4−3
0.13 (1 − 0.1)
.
P(X = 3) = pX (3; 4, 0.1) =
3! (4 − 3)!
b) Si ha X ≥ 3, allora scriviamo:
P(X ≥ 3) = P(X = 3) + P(X = 4).
P(X = 3) = 0.0036, come sappiamo.
Resta quindi da calcolare P(X = 4):
P(X = 4) = pX (4; 4, 0.1) =
M. Di Marzio
4!
4!
4
0
4
0
(0.1) (1 − 0.1) =
(0.1) (1 − 0.1) = 0.0001.
4! (4 − 4)!
4!0!
43
Primi elementi di inferenza statistica (ed. maggio 2012)
Per cui:
P(X ≥ 3) = pX (3; 4, 0.1) + pX (4; 4, 0.1) = 0.0036 + 0.0001 = 0.0037.
c) Il valore di X deve essere inferiore a 3.
Poiché n = 4 e π = 0.1, scriviamo:
P(X < 3) = pX (0; 4, 0.1) + pX (1; 4, 0.1) + pX (2; 4, 0.1);
4!
0
4
pX (0; 4, 0.1) =
(0.1) (1 − 0.1) = 0.6561;
0! (4 − 0)!
4!
1
3
pX (1; 4, 0.1) =
(0.1) (1 − 0.1) = 0.2916;
1! (4 − 1)!
4!
2
2
pX (2; 4, 0.1) =
(0.1) (1 − 0.1) = 0.0486;
2! (4 − 2)!
da cui P(X < 3) = 0.9963.
Una soluzione alternativa consiste nel considerare l’evento complemento
P(X < 3) = 1 − P(X ≥ 3) = 1 − 0.0037 = 0.9963.
Esercizio 6.3. Si assuma che una coppia decida di avere ﬁgli ﬁno a che non abbia una femmina. Se la
probabilità di avere una femmina è pari a 0.45, qual è la probabilità di avere 4 ﬁgli?
Soluzione Si applica la legge geometrica, dove il successo è dato dalla nascita della ﬁglia femmina. Così
dato che X ∼ G(0.45) abbiamo:
pX (3, 0.45) = 0.553 0.45 = 0.0748.
Esercizio 6.4. Un ispettore è alla ricerca di saldature non conformi in una tubatura. La probabilità che una
saldatura sia difettosa è pari a 0.05 e le saldature distano 10 metri. L’ispettore, ormai stanco, decide di fare
una pausa al prossimo difetto riscontrato. Qual è la probabilità che l’ispettore debba camminare ancora per
500 metri prima della pausa?
Soluzione Consideriamo i seguenti eventi:
C = {Saldatura conforme}; N C = {Saldatura non conforme}; A = {Pausa dopo 500 metri}.
Per cui:
P(C) = 0.95
e
P(N C) = 0.05.
Poiché, 100 metri contengono 10 saldature, così fare una pausa dopo 500 metri signiﬁca trovare 49 saldature
conformi e la 50-esima non conforme, quindi siccome X ∼ G(0.05) otteniamo
pX (49; 0.05) = 0.9549 0.05 = 0.0040.
Esercizio 6.5. Un dirigente deve formare un gruppo di lavoro selezionando tre membri in un uﬃcio da 6
uomini e 4 donne. Scrive i loro nomi su dei foglietti identici, li mette in un’urna e poi estrae una sequenza
di 3 bigliettini. Calcolare:
a) la probabilità che estragga 2 donne;
b) il numero di donne atteso nel campione.
Soluzione a) Poiché gli esiti sono due e incompatibili, poichè inoltre si tratta di estrazione senza ripetizione,
ricorrono le condizioni dell’esperimento ipergeometrico, ossia X ∼ I(10, 4, 3). Usiamo la seguente simbologia:
F = numero di donne nel gruppo di 10;
M = numero di uomini nel gruppo di 10;
n = ampiezza del campione;
x = numero di donne contenute nel campione.
Avremo:
(F )( M )
6!
4!
6×6
36
2!(4−2)! 1!(6−1)!
n−x
=
=
= 0.30.
P(X = x) = (xM +F
) =
10!
120
120
3!(10−3)!
n
b)
E[X] = n
Primi elementi di inferenza statistica (ed. maggio 2012)
F
3×4
=
= 1.2.
M +F
10
44
M. Di Marzio
6. ESERCIZI SVOLTI
Esercizio 6.6. Supponiamo di voler esaminare il numero di clienti che raggiungono una banca in un’ora.
Ipotizziamo che in media ci siano 180 arrivi in un’ora. Ci chiediamo:
a) Qual è la probabilità di due arrivi in un minuto di tempo?
b) Qual è la probabilità di più di due arrivi in un minuto di tempo?
Soluzione Si può notare che ricorrono gli estremi dell’esperimento poissoniano, infatti ciascun arrivo è un
evento discreto che si veriﬁca in un particolare istante di tempo, nell’intervallo continuo di un’ora, ed è un
evento indipendente perché l’arrivo di un cliente in un intervallo non dipende dall’arrivo di qualsiasi altro
cliente in qualsiasi altro intervallo.
Indichiamo con:
t = l’intervallo di tempo considerato nel problema, cioè un minuto;
X = il numero di successi per intervallo di tempo t;
λ = il numero atteso di successi nell’intervallo di tempo usato come unità di misura, che nel nostro caso è
l’ora.
Allora, tenendo presente che l’unità di misura a cui λ si riferisce è l’ora, si ha:
t = 1/60; λ = 180
quindi X ∼ P(3).
a) Se
e−λt (λt)
,
x!
x
P(X = x) =
allora
e− 60 (180/60)
9
=
= 0.2240.
3
2!
(2.71828) (2)
2
180
P(X = 2) =
b) Calcoliamo qual è la probabilità che arrivino più di 2 clienti, cioè:
P(X > 2) = P(X = 3) + P(X = 4) + P(X = 5) + ...
In questo caso risulta più agevole il calcolo dell’evento complementare, ossia individuare qual è la probabilità
che arrivino non più di 2 clienti, cioè P(X ≤ 2) e poi sottrarlo a 1:
P(X > 2) = 1 − P(X ≤ 2) = 1 − [ P(X = 0) + P(X = 1) + P(X = 2)].
Allora
e−180/60 (180/60)
1
=
3 = 0.0497;
0!
(2.71828)
0
P(X = 0) =
e−180/60 (180/60)
3
=
3 = 0.1494;
1!
(2.71828)
P(X > 2) = 1 − P(X ≤ 2) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)]
1
P(X = 1) =
= 1 − [0.0497 + 0.1494 + 0.2240]
= 1 − 0.423 = 0.577.
M. Di Marzio
45
Primi elementi di inferenza statistica (ed. maggio 2012)
7
Principali variabili casuali continue
Indice
7.1
7.2
7.3
7.4
7.5
7.1
Esperimenti casuali descritti da variabili casuali
Variabile casuale normale . . . . . . . . . . . . .
Variabile casuale normale standard . . . . . . . .
Variabile casuale uniforme . . . . . . . . . . . . .
Variabile casuale esponenziale . . . . . . . . . . .
continue
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
46
46
47
49
50
Esperimenti casuali descritti da variabili casuali continue
A diﬀerenza del caso discreto, dove spesso gli esperimenti casuali generano esiti qualitativi del tipo successo,
gli esperimenti descritti da vv.cc. continue hanno come esiti valori numerici. Così nel caso continuo, le vv.cc.
non trasformano in numeri grandezze qualitative, ma sono semplici funzioni identiche applicate a numeri,
cioè lasciano gli esiti numerici esattamente quali essi sono. Di conseguenza, come si vedrà tra poco, per la
v.c. normale avremo che Ω = R, per la uniforme Ω = [a, b] e inﬁne per la esponenziale Ω = [0, ∞).
7.2
Variabile casuale normale
La v.c. X : R → R è detta normale se, dati due reali −∞ < µ < ∞, e 0 < σ < ∞, ha pdf
fX (x; µ, σ) =
1
√
σ 2π
(x − µ)
2σ 2
e
−
2
− ∞ < x < ∞.
Qui Θ = R × R+ . Si dimostra che E[X] = µ e Var[X] = σ 2 . Circa la funzione di ripartizione, purtroppo
l’integrale
∫ a
(x−µ)2
1
√
e− 2σ2 dx,
F (a) =
2πσ
−∞
non ha soluzione esplicita, così non esiste una espressione algebrica per la funzione di ripartizione della v.c.
normale, che quindi viene calcolata tramite approssimazioni.
In ﬁgura 7.1 sono rappresentate la pdf e la funzione di ripartizione di una v.c. normale. La distribuzione
normale ha un ruolo centrale nell’ambito della statistica poichè si presta a descrivere il comportamento di
numerosi fenomeni reali dove un valore è il più probabile e gli altri valori sono tanto meno probabili quanto più
si discostano da quest’ultimo. I caratteri antropometrici (peso, altezza) sono ben approssimabili dal modello
normale, così come numerose caratteristiche qualitative dei processi produttivi industriali. L’importanza
della distribuzione normale è anche dovuta al fatto che la distribuzione di numerose vv.cc. di interesse per
la statistica può, sotto ipotesi non troppo restrittive, essere ben approssimata dalla distribuzione normale
grazie al teorema centrale del limite.
(
)
Per indicare che la v.c. X ha pdf normale si scrive X ∼ N µ, σ 2 .
La pdf della v.c. normale descrive una curva di forma campanulare, simmetrica che viene deﬁnita curva
normale. Data la simmetria della curva, moda, media e mediana coincidono. La curva normale è asintotica
rispetto all’asse delle ascisse e presenta due punti di ﬂesso in corrispondenza di µ + σ e µ − σ.
Primi elementi di inferenza statistica (ed. maggio 2012)
46
M. Di Marzio
0.4
F(x;µ,σ)
f(x;µ,σ)
7. PRINCIPALI VARIABILI CASUALI CONTINUE
0.3
1
0.8
0.6
0.2
0.4
0.1
0
−4
0.2
−2
0
2
0
−4
x4
−2
0
2
x4
Figura 7.1: Una funzione di densità di una v.c. normale con relativa funzione di ripartizione.
Le variazioni del solo parametro µ determinano traslazioni lungo l’asse reale come mostrato in ﬁgura 7.2.
Le variazioni del solo parametro σ determinano, invece, variazioni nella forma che risulta più appuntita e
con code leggere per valori più piccoli di σ e più appiattita e con code pesanti per valori di σ maggiori. Un
esempio è riportato in ﬁgura 7.3.
7.3
Variabile casuale normale standard
Sappiamo che ogni coppia dei parametri µ e σ individua una distinta distribuzione normale. Comunque
tutte queste possono essere trasformate in un’unica distribuzione normale attraverso l’operazione di standardizzazione (sez. 3.12). Infatti, data una qualsiasi v.c. normale X con valore atteso µ e varianza σ 2 la
v.c.
X −µ
Z=
σ
ha ancora distribuzione normale, ovviamente con valore atteso 0 e varianza 1. In simboli Z ∼ N (0, 1). La
funzione di densità della v.c. normale standardizzata Z è data da:
1 −z2
fZ (z) = √ e 2
2π
− ∞ < z < ∞.
Spesso, per indicare la funzione di densità e la funzione di ripartizione della normale standard, si usano
rispettivamente i simboli ϕ e Φ. Un esempio di standardizzazione di vv.cc. normali è contenuto in ﬁgura
7.4. Segue ora una fondamentale uguaglianza che spiega la notevole importanza pratica della v.c. normale
standardizzata.
Se X ∼ N (µ, σ 2 ), allora per ogni numero reale a si ha
(
)
(
)
X −µ
a−µ
a−µ
FX (a) = P(X ≤ a) = P
≤
=P Z≤
σ
σ
σ
(
)
a−µ
=Φ
.
σ
Pertanto dati due numeri reali a e b, con a < b, dall’uguaglianza precedente si deduce che per una qualsiasi
v.c. X ∼ N (µ, σ 2 ) la probabilità può essere calcolata tramite la funzione di ripartizione della normale
standardizzata come segue
)
(
)
(
a−µ
b−µ
−Φ
.
P(a < X < b) = Φ
σ
σ
Circa il calcolo dei valori della funzione di ripartizione, si è visto che
∫ z
t2
1
√ e− 2 dt,
Φ(z) =
2π
−∞
non ha soluzione in forma chiusa, così si ricorre ad apposite tavole che aiutano a calcolarlo.
Le tavole forniscono i valori della funzione di ripartizione Φ(z) = P(−∞ < Z < z). Si tenga inoltre presente
che per la simmetria della curva normale si ha
Φ(−z) = 1 − Φ(z).
M. Di Marzio
47
Primi elementi di inferenza statistica (ed. maggio 2012)
f(x;µ,σ)
7.3. Variabile casuale normale standard
0.4
0.3
0.2
0.1
0
−6
−4
−2
0
2
4
x
6
f(x;µ,σ)
Figura 7.2: Distribuzioni normali con diﬀerenti valori di µ: −3, 0, 3.
0.8
0.6
0.4
0.2
0
−6
−4
−2
0
2
4
x
6
Figura 7.3: Distribuzioni normali con diﬀerenti valori di σ: 0.6, 1, 3.
Figura 7.4: Standardizzazione di vv.cc. normali.
Esempio 7.1. Il diametro X di un lotto di viti prodotte in serie si distribuisce normalmente con media µ = 2 cm e
deviazione standard σ = 0.5 cm. Si è interessati a determinare la frazione di viti con diametro superiore a 1 cm. A tale
scopo, osserviamo innanzitutto che determinare la frazione di viti con diametro superiore a 1 signiﬁca determinare la
probabilità che X assuma valori nell’intervallo (1, +∞), e quindi il valore dell’area colorata in ﬁgura 7.5. Ricorrendo
all’operazione di standardizzazione si può scrivere
)
(
1−2
X −µ
>
= P(Z > −2).
P(X > 1) = P
σ
0.5
(
Si osservi che
P(X > 1) = 1 − P(X ≤ 1) = 1 − P
Primi elementi di inferenza statistica (ed. maggio 2012)
X −µ
1−2
≤
σ
0.5
48
)
= 1 − P(Z ≤ −2),
M. Di Marzio
f(x;µ,σ)
7. PRINCIPALI VARIABILI CASUALI CONTINUE
1
2
x1
Figura 7.5: L’area ombreggiata indica la quantità P(X > 1).
e poiché
Φ(−2) = 1 − Φ(2)
si ha
P(X > 1) = 1 − (1 − Φ(2)) = Φ(2)
e dalla tavola in cui sono riportati i valori della funzione di ripartizione della v.c. normale standardizzata si vede che
Φ(2) = 0.97725.
Inﬁne indichiamo il centile superiore di ordine α1 della normale standardizzata con zα , cioè zα è quel numero
che soddisfa l’equazione
P(Z ≥ zα ) = α.
7.4
Variabile casuale uniforme
Dati due reali a e b, tali che b > a, la v.c. X : (a, b) → (a, b) è detta uniforme se ha pdf

1


se a < x < b
b
−
a
fX (x; a, b) =


0
altrimenti,
e si scrive X ∼ U(a, b). Qui Θ = {(a, b) : a ∈ R, b ∈ R, b > a}. Si dimostra facilmente che
E[X] =
b+a
2
2
e
Var[X] =
(b − a)
.
12
Quindi una v.c. X ha distribuzione uniforme in un intervallo (a, b) se la funzione di densità di X è costante
in (a, b).
Si può pervenire alla formulazione della pdf uniforme attraverso il seguente ragionamento. Ricordando che
fX (x) misura quanto è verosimile che X assuma un valore prossimo a x, si ipotizzi che tale misura è la stessa
per ogni x ∈ (a, b), allora fX sarà pari a una costante k > 0 per ogni x ∈ (a, b). Ora, essendo l’area sotto una
pdf pari a 1, il valore di k si ottiene dividendo l’area per la lunghezza della base b − a.
Se X ∼ U(a, b), dati due reali c, d ∈ (a, b) tali che c < d è immediato veriﬁcare che
P(c < X < d) =
d−c
,
b−a
ossia la probabilità che la v.c. assuma valori nell’intervallo (c, d) interno all’intervallo (a, b) è data dal rapporto
tra le ampiezze dei due intervalli, o in altri termini la probabilità che la v.c. uniforme assuma valori in un
sottointervallo è proporzionale alla lunghezza del sottointervallo stesso. Si ha infatti
∫ d
∫ d
1
P(c < X < d) =
fX (x) dx =
dx
c
c b−a
d
x
c
d
−
=
b−a c b−a b−a
d−c
=
.
b−a
=
1 Si
ricordi che α è espresso in centesimi compresi tra 0 e 1
M. Di Marzio
49
Primi elementi di inferenza statistica (ed. maggio 2012)
7.5. Variabile casuale esponenziale
Per quanto detto, la funzione di ripartizione è data da:
FX (x; a, b) =
infatti
∫
x−a
,
b−a
∫
x
FX (x) =
x
fX (u) du =
a
a
1
du
b−a
x
u
b−a a
x−a
=
.
b−a
=
F(x;a,b)
f(x;a,b)
In ﬁgura 7.6 sono rappresentate la pdf e la funzione di ripartizione della v.c. X ∼ U (a, b). La distribuzione
1
b−a
1
0.8
0.6
0.4
0.2
b
a
0
x
a
b
x
Figura 7.6: Pdf e funzione di ripartizione di una v.c. uniforme.
uniforme è un modello probabilistico adatto a rappresentare esperimenti che danno luogo ad eventi equiprobabili o esperimenti su cui non si hanno informazioni suﬃcienti per stabilire se determinati risultati siano più
probabili rispetto ad altri.
Un altro naturale impiego del modello uniforme sta nell’estrazione di numeri casuali compresi in (a, b).
Questo perché sotto la distribuzione uniforme tutti gli intervalli di uguale lunghezza compresi tra a e b sono
equiprobabili.
Esempio 7.2. Ogni mattina un individuo giunge presso una stazione degli autobus alle ore 7:00. Se un autobus
arriva presso la stazione ad un orario casuale tra le 7:00 e le 7:30, qual è la probabilità che l’individuo aspetti l’autobus
per più di 10 minuti?
Se l’autobus arriva alla stazione X minuti dopo le 7:00, allora X è una v.c. uniforme sull’intervallo (0, 30). La
probabilità cercata è allora data da
P(10 < X < 30) =
30 − 10
= 2/3 ≃ 0.6666.
30
7.5
Variabile casuale esponenziale
Una v.c. X : [0, +∞) → [0, +∞) è detta esponenziale se ha pdf
{
λe−λx se x ≥ 0
fX (x; λ) =
0
altrimenti,
e si scrive X ∼ E(λ). Qui Θ = (0, +∞). Si dimostra inoltre che
E[X] =
1
λ
e
Var[X] =
1
.
λ2
La funzione di ripartizione della v.c. esponenziale è data da
FX (x; λ) = 1 − e−λx ,
Primi elementi di inferenza statistica (ed. maggio 2012)
50
M. Di Marzio
7. PRINCIPALI VARIABILI CASUALI CONTINUE
∫
infatti
FX (x) =
∫
x
fX (u) du =
0
x
x
λe−λu du = −e−λu = 1 − e−λx .
0
0
1
F(x;λ)
f(x;λ)
Come la v.c. discreta geometrica, l’esponenziale misura l’attesa del veriﬁcarsi di un dato evento casuale.
λ=1
0.8
1
0.8
0.6
0.6
0.4
0.4
λ = 0.5
0.2
0
0
1
2
3
4
5
6
λ=1
λ = 0.5
0.2
0
0
x7
1
2
3
4
5
6
x7
Figura 7.7: Pdf e funzione di ripartizione di vv.cc. esponenziali per diversi valori di λ : 0.5, 1.
Se per la geometrica l’attesa è espressa da un numero di esiti, in questo caso è misurata da lunghezze di
grandezze continue come il tempo o lo spazio.
Esempio 7.3. Per una rete di computer il tempo X (ore) necessario per la prima connessione degli utenti ha
distribuzione esponenziale con λ = 25 connessioni per ora. Supponiamo di essere interessati alla probabilità che non
vi siano connessioni in un intervallo di 6 minuti. Poiché 6 min = 0.1 ore, la probabilità cercata è
P(X > 0.1) = 1 − P(X ≤ 0.1) = 1 − (1 − e−25×0.1 ) ≃ 0.082.
Una proprietà che caratterizza la v.c. esponenziale, e la accomuna alla v.c. geometrica, è la proprietà
dell’assenza di memoria. Ricordiamo che una v.c. X si deﬁnisce priva di memoria se:
P(X ≥ t + s|X ≥ t) = P(X ≥ s),
Per dimostrare l’assenza di memoria, si ricordi che la funzione di ripartizione della v.c. esponenziale è
FX (x) = 1 − e−λx , allora
P(X ≥ t + s ∩ X ≥ t)
P(X ≥ t)
P(X ≥ t + s)
=
P(X ≥ t)
1 − FX (t + s)
=
1 − FX (t)
P(X ≥ t + s|X ≥ t) =
=
1 − {1 − e−λ(t+s) }
1 − {1 − e−λt }
= e−λs = 1 − FX (s)
= P(X ≥ s).
Esempio 7.4. Il tempo di vita X (anni) di un certo tipo di televisore è una v.c. esponenziale con media 10. Se un
individuo ha acquistato questo tipo di televisore più di 10 anni fa, qual è la probabilità che il suo televisore durerà per
almeno altri 10 anni? Se X è una v.c. esponenziale, allora E[X] = 1/λ, quindi il parametro della distribuzione del
tempo di vita del televisore è λ = 1/10. Per la proprietà di assenza di memoria della v.c. esponzenziale, la probabilità
cercata è data da
P(X > 20|X > 10) = P(X > 10) = 1 − (1 − e−(1/10)10 ) ≃ 0.37.
M. Di Marzio
51
Primi elementi di inferenza statistica (ed. maggio 2012)
8
Esercizi svolti
Esercizio 8.1. In uno zuccheriﬁcio le confezioni di zucchero vengono realizzate automaticamente e il peso
X di ogni confezione è una v.c. normale con µ = 500 g e σ = 2 g. Calcolare la probabilità che il peso di una
confezione
a) sia inferiore a 504 g;
b) sia almeno pari a 498 g;
c) sia compreso tra 495 g e 506 g;
d) sia compreso tra 501 g e 503 g.
Soluzione Poiché X ∼ N (500, 4), la v.c. Z = (X − 500)/2 è una v.c. normale standardizzata, si ha:
a)
(
)
504 − 500
P(X < 504) = P Z <
= Φ(2) = 0.9772.
2
b)
)
(
498 − 500
= P(Z ≥ −1)
P(X ≥ 498) = P Z ≥
2
= 1 − Φ(−1) = 1 − (1 − Φ(1)) = 1 − (1 − 0.8413)
= 0.8413.
c)
(
P(495 < X < 506) = P
495 − 500
506 − 500
<Z<
2
2
)
= P(−2.5 < Z < 3)
= Φ(3) − Φ(−2.5) = Φ(3) − (1 − Φ(2.5)) = 0.9987 − (1 − 0.9938)
= 0.9925.
d)
(
P(501 < X < 503) = P
503 − 500
501 − 500
<Z<
2
2
)
= P(0.5 < Z < 1.5)
= Φ(1.5) − Φ(0.5) = 0.9332 − 0.6915
= 0.2417.
Esercizio 8.2. Un questionario viene somministrato ad un gruppo di studenti. Sapendo che ad ogni risposta
esatta è attribuito un punto e che i punteggi realizzati dal gruppo di studenti si distribuiscono normalmente
con media µ = 80 e s.q.m. σ = 10, qual è il numero minimo di risposte esatte che uno studente deve fornire
per posizionarsi entro il 10% dei migliori studenti del gruppo?
Soluzione Considerata la v.c. X ∼ N (80, 100), occorre determinare il valore x tale che P(X ≥ x) = 0.10 o
P(X < x) = 0.90. Poiché
(
)
x − 80
P(X < x) = P Z <
10
Primi elementi di inferenza statistica (ed. maggio 2012)
52
M. Di Marzio
8. ESERCIZI SVOLTI
e poiché dalla tavola della funzione di ripartizione della normale standardizzata risulta Φ(1.28) = 0.8997,
allora
x − 80
≃ 1.28,
10
da cui x ≃ 92.8. Si conclude pertanto che lo studente dovrà rispondere correttamente ad almeno 93 domande.
Esercizio 8.3. Si analizza un processo che produce sacchetti per la spesa. Vogliamo conoscere qualcosa in
più sulle sue caratteristiche analizzando alcuni dati relativi allo stesso. In particolare, sappiamo che sono
stati scartati il 4.475% di sacchetti perché troppo resistenti, infatti essi sono tutti più resistenti di 7.55 kg
per cm2 , e il 13.567% perché troppo poco resistenti, infatti essi sono tutti meno resistenti di 3.35 kg per
cm2 . Ammettendo che la resistenza abbia distribuzione normale, ci chiediamo quale modello normale meglio
rappresenta l’intera produzione e quindi il processo.
Soluzione Per identiﬁcare il modello normale che meglio rappresenta la popolazione prodotta, occorre stimare
µ e σ. I dati riguardano due proposizioni probabilistiche:
e
P(X > 7.55) = 0.04475
P(X < 3.35) = 0.13567.
Poiché i quantili della normale standard sono espressi in termini di µ e σ , troviamo i quantili corrispondenti
alle due probabilità. Bisogna risalire ai quantili associati alle aree:
1 − 0.04475 = 0.9552
1 − 0.13567 = 0.86433.
e
Dalle tavole della funzione di ripartizione della normale standard si ricava
z0.86433 = −1.1.
e
z0.04475 = 1.7
Questi due valori permettono di costruire un sistema di due equazioni in due incognite:
{
{
{
µ = 7.55 − 1.7σ
µ=5
1.7 = 7.55−µ
σ
⇒
⇒
3.35−µ
− 1.1σ = 3.35 − 7.55 + 1.7σ
σ = 1.5
− 1.1 = σ
Esercizio 8.4. Si consideri la v.c. X ∼ U(a, b). Dimostrare che E[X] = (a + b)/2.
Soluzione
∫
∫
b
E[X] =
b
xfX (x)dx =
a
x
a
2
2 b
1
dx
b−a
1 x
a2
b
−
=
b − a 2 a 2(b − a) 2(b − a)
(b − a)(a + b)
a+b
=
=
.
2(b − a)
2
=
Esercizio 8.5. Un autobus parte dal capolinea ogni 30 minuti e la prima corsa è alle 7:30. Se una persona
non conosce l’orario dell’autobus e arriva al capolinea alle 8 e X minuti, dove X ∼ U(0, 60), calcolare la
probabilità che debba aspettare
a) al più 10 minuti;
b) almeno 15 minuti.
Soluzione a) Il passeggero dovrà aspettare al più 10 minuti, se giunge al capolinea tra le 8:20 e le 8:30 o tra
le 8:50 e le 9:00 ossia se 20 < X < 30 o 50 < X < 60. Poiché per una v.c. X ∼ U(a, b), la probabilità di
assumere valori in un sottointervallo (c, d) di (a, b) è data da
P(c < X < d) =
d−c
,
b−a
la probabilità cercata è data da
P(20 < X < 30) + P(50 < X < 60) =
30 − 20 60 − 50
1
+
= ≃ 0.3334.
60
60
3
b) Il passeggero dovrà aspettare almeno 15 minuti se giunge al capolinea tra le 8:00 e le 8:15 o tra le 8:30 e
le 8:45. La probabilità cercata è allora
P(0 < X < 15) + P(30 < X < 45) =
M. Di Marzio
53
1
15 45 − 30
+
= = 0.5
60
60
2
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 8.6. Il capo del personale di una grande industria ha stabilito che un operaio impiega tra gli 8 e i
13 minuti per completare il suo compito in un processo di assemblaggio. Per saperne di più sul rendimento
dell’operaio, ipotizzando che la distribuzione dei tempi di esecuzione sia uniforme, egli vuole determinare
fX (x), E[X] e Var[X]. Inoltre, siccome una prestazione ottimale richiederebbe meno di 11 minuti, si vuole
sapere quante operazioni sono eﬀettuate entro i limiti di eccellenza.
Soluzione Evidentemente a = 8 e b = 13, si ha pertanto
{ 1
fX (x; 8, 13) =
Risulta inoltre
E[X] =
e
13−8
se 8 < x < 13
0
altrimenti.
21
b+a
=
= 10.5,
2
2
2
Var[X] =
(b − a)
25
=
= 2.08.
12
12
Inﬁne, la probabilità cercata è
P(X < 11) =
11 − 8
3
= = 0.6
13 − 8
5
per cui il dipendente in questione lavora in condizioni di eccellenza solo per il 60% del proprio operato.
Esercizio 8.7. Sia X una v.c. uniforme in (a, b) con E[X] = 3/2 e Var[X] = 25/12. Determinare i valori
dei parametri a e b.
Soluzione Poiché per una v.c. X ∼ U(a, b) risulta
E[X] =
a+b
2
e
Var[X] =
(b − a)2
,
12
per determinare i valori dei parametri a e b risolviamo il seguente sistema di due equazioni in due incognite
con il vincolo a < b:
{ a+b
{
{
{
3
a+b=3
b=3−a
b=3−a
2 = 2
⇒
⇒
⇒
(b−a)2
25
2
2
(b − a) = 25
(3 − 2a) = 25
4a2 − 12a − 16 = 0.
= 12
12
La soluzione dell’equazione 4a2 − 12a − 16 = 0 che soddisfa il vincolo 3 − a > a è data da a = −1. Si ha
pertanto
{
a = −1
b = 4.
Esercizio 8.8. Una banca ha il problema di ottimizzare la ripartizione di risorse umane tra il front-oﬃce
– che è a contatto con il cliente – e il back-oﬃce – che svolge il relativo lavoro d’uﬃcio. A tal ﬁne risulta
importante conoscere i ﬂussi di arrivo della clientela. Sapendo che si veriﬁcano in media 0.2 arrivi all’ora,
ci si chiede qual è la probabilità che ﬁno al prossimo arrivo trascorrano tra i 30 e i 45 minuti a partire da un
istante qualsiasi.
Soluzione Si noti che in questo problema la probabilità del tempo ﬁno al prossimo arrivo non dipende da
quando c’è stato l’ultimo arrivo, quindi se si inizia a contare l’attesa dall’ultimo arrivo o da qualsiasi altro
momento non cambia nulla. In questo senso allora risulta corretto applicare un modello senza memoria come
l’esponenziale.
Essendo E[X] = 1/λ = 0.2, la pdf della v.c. esponenziale da utilizzare ha allora la forma fX (x; 5) = 5e−5x .
Poiché 30 minuti corrispondono a 0.5 ore e 45 minuti a 0.75 ore, ricordando che FX (x) = 1 − e−λx si ottiene:
]
] [
[
P(0.5 < X < 0.75) = FX (0.75) − FX (0.5) = 1 − e−(5×0.75) − 1 − e−(5×0.5)
= (1 − e−3.75 ) − (1 − e−2.5 ) ≃ 0.9765 − 0.9179 = 0.0586.
Esercizio 8.9. Il tempo X necessario per eﬀettuare un’operazione presso lo sportello di un uﬃcio postale è
una v.c. esponenziale con varianza pari a 9 minuti. Calcolare
a) il tempo medio impiegato dai clienti per eﬀetture un’operazione presso lo sportello;
b) la probabilità che un cliente impieghi più di 6 minuti per eﬀettuare un’operazione;
Primi elementi di inferenza statistica (ed. maggio 2012)
54
M. Di Marzio
8. ESERCIZI SVOLTI
c) la probabilità che un cliente impieghi più di 10 minuti per eﬀettuare un’operazione, sapendo che si trova
allo sportello da più di 2 minuti.
Soluzione a) Poiché X è una v.c. esponenziale E[X] = 1/λ. Essendo Var[X] = 1/λ2 = 9, risulta
E[X] = 3.
b) Poiché E[X] = 1/λ = 3, il parametro della pdf di X è λ = 1/3. La probabilità cercata è allora:
[
]
P(X > 6) = 1 − P(X ≤ 6) = 1 − 1 − e−(1/3×6) = e−2 ≃ 0.1353.
c) Poiché la v.c. esponenziale è priva di memoria si ha
P(X > 12|X > 2) = P(X > 10).
Pertanto la probabilità cercata è
[
]
P(X > 10) = 1 − P(X ≤ 10) = 1 − 1 − e−(1/3×10) = e−10/3 ≃ 0.0357.
Esercizio 8.10. Da osservazioni eﬀettuate sul traﬃco presso un incrocio stradale, è risultato che il tempo
X in giorni intercorrente tra due incidenti può essere convenientemente descritto da una v.c. esponenziale.
Sapendo che con probabilità pari a 0.02 non ci saranno incidenti nei prossimi due giorni, determinare il tempo
medio intercorrente tra due incidenti.
Soluzione Poiché la v.c. X descrive il tempo intercorrente tra due incidenti, il tempo medio si determina
ricavando il parametro λ della distribuzione di X. Poiché la probabilità di non avere incidenti nei due giorni
successivi è data da
P(X > 2) = 1 − P(X ≤ 2) = 1 − (1 − e−2λ ) = e−2λ ,
sapendo che
e−2λ = 0.02,
e passando ai logaritmi, si ottiene
ln(e−2λ ) = ln 0.02 ⇒ −2λ = −3.91202 ⇒ λ ≃ 1.96.
Si conclude quindi che presso l’incrocio in questione si veriﬁca, in media, un incidente ogni 1/1.96 = 0.51
giorni.
M. Di Marzio
55
Primi elementi di inferenza statistica (ed. maggio 2012)
9
Variabili casuali multiple
Indice
9.1
9.2
9.3
9.4
9.5
9.6
9.7
9.8
9.9
9.1
Variabili casuali multiple e distribuzioni di probabilità
Funzioni di variabile casuale multipla . . . . . . . . . .
Distribuzioni di probabilità marginali . . . . . . . . . .
Distribuzioni di probabilità condizionate . . . . . . . .
Variabili casuali indipendenti . . . . . . . . . . . . . . .
Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . .
Correlazione . . . . . . . . . . . . . . . . . . . . . . . . .
Indipendenza e incorrelazione . . . . . . . . . . . . . . .
Distribuzione normale doppia . . . . . . . . . . . . . . .
congiunte
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
56
58
59
60
63
64
65
66
66
Variabili casuali multiple e distribuzioni di probabilità congiunte
Le vv.cc. considerate ﬁnora – chiamate semplici – hanno origine dall’osservazione di un sigolo carattere ad
ogni esito di un esperimento casuale. Se invece rileviamo le modalità di due o più caratteri, allora osserviamo
realizzazioni di variabili casuali multiple.
Esempio 9.1. L’esperimento consista nel lanciare una moneta tre volte. Deﬁniamo le due variabili casuali X
= numero di teste; Y = numero di croci negli ultimi due lanci. Così ad ogni elemento dello spazio fondamentale
Ω = (T, C) × (T, C) × (T, C) è associata una coppia di numeri come segue:
Ω
X
Y
ω1 = T T T
3
0
ω2 = CT T
2
0
ω3 = T CT
2
1
ω4 = T T C
2
1
ω5 = CCT
1
1
ω6 = CT C
1
1
ω7 = T CC
1
2
ω8 = CCC
0
2
L’insieme di coppie {(3, 0), (2, 0), (2, 1), (1, 1), (1, 2), (0, 2)} costituisce l’immagine della v.c. multipla (X, Y ). In particolare (X, Y ) è detta v.c. doppia.
Nel presente capitolo saranno principalmente studiate le vv.cc. doppie, cioè funzioni che associano ad un
esito di un esperimento casuale una coppia di numeri. E’ importante sottolineare che n vv.cc. qualsiasi non
formano una v.c. n-pla, perché ciò sia possibile tutte le vv.cc. devono essere deﬁnite sugli esiti di un unico
esperimento casuale. Inﬁne si noti che le espressioni n variabili casuali e variabili casuale n-pla sono usate
quasi sempre, ma sempre in questo testo, come sinonimi.
Primi elementi di inferenza statistica (ed. maggio 2012)
56
M. Di Marzio
9. VARIABILI CASUALI MULTIPLE
La v.c. doppia (X, Y ) è detta discreta (risp. continua) se entrambe le sue componenti sono discrete (risp.
continue).
La funzione di distribuzione di probabilità della v.c. doppia discreta (X, Y ) è quella funzione pXY che
associa una probabilità ad ogni elemento del prodotto cartesiano tra l’immagine X e quella di Y ; la somma
delle probabilità deve essere pari a uno. Formalmente se X assume s modalità e Y assume t modalità,
abbiamo:
s ∑
t
∑
pXY : {x1 , x2 , ...xs } × {y1 , y2 , ...yt } → (0, 1] e
pXY (xi , yj ) = 1.
i=1 j=1
inoltre pXY è nulla in corrispondenza di qualsiasi altro punto del piano. Le pdf delle vv.cc. doppie discrete
vengono espresse tramite tabelle in cui l’elemento di posto (i, j) è la probabilità della realizzazione (xi , yj ).
Esempio 9.2. Con riguardo all’esempio 9.1, possiamo riassumere tutti gli esiti con le relative probabilità nella
seguente tabella
X
0
Y
1
2
0
0
0
1/8
1
0
2/8
1/8
2
1/8
2/8
0
3
1/8
0
0
Così, ad esempio
P(X = 2, Y = 1) = 2/8 ,
P(X < 3, Y > 1) = 2/8 ,
P(X > 2, Y < 1) = 1/8.
La somma delle probabilità è pari a 1:
0 + 0 + 1/8 + 0 + 2/8 + 1/8 + 1/8 + 2/8 + 0 + 1/8 + 0 + 0 = 1.
La funzione di densità di probabilità della v.c. doppia continua (X, Y ) è quella funzione fXY che associa
un numero reale non negativo ad ogni elemento del prodotto cartesiano tra le immagini di X e Y , e tale che
su quest’ultimo insieme il suo integrale sia pari a uno. Analogamente al caso discreto, fuori da [a, b] × [c, d]
fXY vale zero. Formalmente, se X assume valori in [a, b] e Y in [c, d], scriviamo
∫ +∞ ∫ +∞
fXY : [a, b] × [c, d] → (0, +∞) e
fXY (x, y) dxdy = 1.
−∞
−∞
Così come nel caso unidimensionale, i valori di una pdf di v.c. doppia continua sono inﬁniti, e di conseguenza
non possono essere rappresentati tramite tabelle, ma solo graﬁcamente.
Esempio 9.3. Si consideri la v.c. doppia (X, Y ) con funzione di densità
{
fXY (x, y) =
4xy
0
se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
altrimenti.
La ﬁgura 9.1 ne contiene il graﬁco. L’immagine di (X, Y ) è [0, 1] × [0, 1], ovviamente risulta
∫ +∞ ∫ +∞
∫ 1∫ 1
fXY (x, y) dxdy =
4xy dxdy = 1.
−∞
−∞
0
0
Anche per il caso continuo possiamo, per esempio, calcolare
∫
0.5
∫
0.5
P(X ∈ [0, 0.5], Y ∈ [0, 0.5]) =
4xy dx dy
∫
0
0
0.5 (
0.5 )
2yx2
=
∫
0
dy
0
0.5
=
0.5y dy
0
=
0.5 2
y
2
0.5
0
= 0.0625;
M. Di Marzio
57
Primi elementi di inferenza statistica (ed. maggio 2012)
9.2. Funzioni di variabile casuale multipla
f(x,y)
4
2
0
1
1
0.5
0.5
0
y
0
x
Figura 9.1: Graﬁco della pdf dell’esempio 9.3.
0.3 (∫ 0.5
∫
P(X ∈ [0.2, 0.5], Y ∈ [0, 0.3]) =
∫
0
0.3 (
=
0.2
2yx
∫
0
∫
0
)
4xy dx dy
0.5 )
2
dy
0.2
0.3
(0.5y − 0.08y)dy
=
0.3
0.42y dy
=
0
=
0.42 2
y
2
0.3
0
= 0.0189.
9.2
Funzioni di variabile casuale multipla
In analogia a quanto detto nella sezione 3.1 per le funzioni di una v.c., introduciamo ora le funzioni di
v.c. multipla. Si consideri la funzione g : Rn → R. Data la v.c. multipla (X1 , X2 , ..., Xn ), anche
Y = g(X1 , X2 , ..., Xn ) è una v.c. la cui pdf pY si desume dalla relazione seguente
∑
pY (y) = P(Y = y) =
P(X1 = x1 , X2 = x2 , ..., Xn = xn ).
{x1 ,x2 ,...,xn :y=g(x1 ,x2 ,...,xn )}
Esempio 9.4. Un primo esempio di funzione di variabile casuale doppia è la somma g(X, Y ) = X +Y . Due funzioni
della v.c. doppia (X, Y ) che spesso incontreremo sono:
g(X, Y ) = XY
e
g(X, Y ) = (X − µX )(Y − µY )
Esempio 9.5. Si consideri la v.c. che vale 1 se dal lancio di una moneta esce testa, e zero altrimenti. Il lancio di
tre monete deﬁnisce la v.c. tripla (X1 , X2 , X3 ) dove ogni componente è una v.c. bernoulliana di parametro p = 0.5.
Il numero di teste nel lancio delle tre monete è una funzione somma: Y = g(X1 , X2 , X3 ) = X1 + X2 + X3 , la sua pdf
assume i seguenti valori
pY (0) = pX1 X2 X3 (0, 0, 0) = 1/8;
pY (1) = pX1 X2 X3 (1, 0, 0) + pX1 X2 X3 (0, 1, 0) + pX1 X2 X3 (0, 0, 1) = 3/8;
pY (2) = pX1 X2 X3 (1, 1, 0) + pX1 X2 X3 (1, 0, 1) + pX1 X2 X3 (0, 1, 1) = 3/8;
pY (3) = pX1 X2 X3 (1, 1, 1) = 1/8;
Primi elementi di inferenza statistica (ed. maggio 2012)
58
M. Di Marzio
9. VARIABILI CASUALI MULTIPLE
Di conseguenza il valore atteso di una funzione di una v.c. doppia E[g(X, Y )], è così deﬁnito
∫ +∞ ∫ +∞
s ∑
t
∑
g(xi , yj )pXY (xi , yj )
o
g(x, y)fXY (x, y) dx dy
−∞
i=1 j=1
−∞
a seconda se la v.c. doppia è discreta, dove X ha s modalità e Y ha t modalità, oppure è continua.
Esempio 9.6. Le due funzioni di v.c. doppia viste nell’esempio 9.4 hanno i seguenti valori attesi
 ∑s ∑t

i=1
j=1 xi yj pXY (xi yj )

E[XY ] =
∫∞ ∫∞

 −∞
xyfXY dx dy
−∞
se (X, Y ) è discreta
se (X, Y ) è continua.
 ∑s ∑t

i=1
j=1 (xi − µX )(yj − µY )pXY (xi yj )

E[(X − µX )(Y − µY )] =
∫∞ ∫∞

 −∞
(x − µX )(y − µY )fXY dx dy
−∞
se (X, Y ) è discreta
se (X, Y ) è continua.
Quest’ultimo valore atteso è detto covarianza (sez. 9.6).
Allo studio di alcune fondamentali funzioni di v.c. multipla è dedicato l’intero capitolo 11.
9.3
Distribuzioni di probabilità marginali
Data la v.c. doppia discreta (X, Y ), si può deﬁnire la probabilità che X = xi (o Y = yj ) sommando le
probabilità di tutti gli esiti che presentano la modalità xi (o yj ), in formule
pX (xi ) = P(X = xi ) =
t
∑
pXY (xi , yj )
e
pY (yj ) = P(Y = yj ) =
j=1
s
∑
pXY (xi , yj ).
i=1
E’ evidente che i valori {pX (xi ) : i = 1, 2, ..., s} (risp. {pY (yj ) : j = 1, 2, ..., t}) costituiscono l’immagine della
pdf di X (risp. Y ), pX (risp. pY ) è chiamata pdf marginale di X (risp. di Y ).
Analogamente se (X, Y ) è continua, le pdf marginali sono
∫ +∞
∫ +∞
fX (x) =
fXY (x, y) dy
e
fY (y) =
fXY (x, y) dx.
−∞
−∞
Esempio 9.7. Nell’esempio 9.1 abbiamo le seguenti pdf marginali:
X
pX (xi ) =
t
∑
pXY (xi , yj )
Y
j=1
pY (yj ) =
s
∑
pXY (xi , yj )
i=1
0
1/8 = 0 + 0 + 1/8
1
3/8 = 0 + 2/8 + 1/8
2
3/8 = 1/8 + 2/8 + 0
3
1/8 = 1/8 + 0 + 0
nell’esempio 9.3 si ha
∫ 1
4xy dy = 2x
fX (x) =
0
2/8 = 0 + 0 + 1/8 + 1/8
1
4/8 = 0 + 2/8 + 2/8 + 0
2
2/8 = 1/8 + 1/8 + 0 + 0
∫
per x ∈ [0, 1]
e
1
fY (y) =
4xy dx = 2y
per y ∈ [0, 1].
0
0
L’espressione marginale si può spiegare come segue. In una distribuzione doppia discreta, che riporta i totali
di riga e di colonna, i valori di pX (pY ), essendo proprio quei totali, si trovano ai margini della tabella.
Una questione che potrebbe sorgere è questa: se conosciamo le pdf marginali, possiamo ricostruire la pdf
congiunta? Per esempio, se conosciamo fX (x) e fY (y), possiamo ottenere fXY (x, y)? In generale, la risposta
è no. Questo perchè di solito esistono molte pdf congiunte che hanno le stesse marginali.
Esempio 9.8. Si considerino le due vv. cc. doppie (X, Y ) e (Z, W ) con rispettive pdf congiunte:
1
5
3
3
, fXY (1, 0) =
, fXY (0, 1) =
, fXY (1, 1) =
12
12
12
12
1
1
1
1
fW Z (0, 0) = , fW Z (1, 0) = , fW Z (0, 1) = , fW Z (1, 1) = ,
6
3
6
3
ora si noti che fXY (x, y) e fW Z (x, y), seppure diﬀerenti, hanno le stesse marginali. Infatti: fX (0) = fW (0) = 1/3;
fX (1) = fW (1) = 2/3; fY (0) = fZ (0) = 1/2; fY (1) = fZ (1) = 1/2;
fXY (0, 0) =
M. Di Marzio
59
Primi elementi di inferenza statistica (ed. maggio 2012)
9.4. Distribuzioni di probabilità condizionate
9.4
Distribuzioni di probabilità condizionate
Data una realizzazione (xi , yj ) della v.c. doppia discreta (X, Y ), se P(X = xi ) > 0, per il teorema delle
probabilità composte abbiamo
P(Y = yj | X = xi ) =
P(X = xi ∩ Y = yj )
,
P(X = xi )
il membro di destra è un rapporto dove il numeratore è dato dalla pdf congiunta, mentre il denominatore è
dato dalla pdf marginale di X. Questo rapporto tra pdf costituisce esso stesso un valore di una pdf chiamata
pdf di Y condizionata all’evento X = xi . Esiste chiaramente anche la pdf di X condizionata all’evento
Y = yj . In formule
pY |xi (yj ) =
pXY (xi , yj )
pX (xi )
e
pX|yj (xi ) =
pXY (xi , yj )
.
pY (yj )
E’ facile dimostrare che le la somma di tutti i valori assunti dalle pdf condizionate è pari a 1, come deve
essere per una pdf:
∑t
t
∑
pX (xi )
j=1 pXY (xi , yj )
=
=1
pY |xi (yj ) =
pX (xi )
pX (xi )
j=1
∑s
s
∑
pXY (xi , yj )
pY (yj )
pX|yj (xi ) = i=1
=
= 1.
pY (yj )
pY (yj )
i=1
Similmente se (X, Y ) è continua, abbiamo le densità condizionate così deﬁnite:
fY |x (y) =
fXY (x, y)
fX (x)
e
fX|y (x) =
fXY (x, y)
,
fY (y)
anche qui
∫
∫
∞
−∞
∞
fX|y (x) dx =
∫
−∞
+∞
−∞
+∞
∫
fY |x (y) dy =
−∞
fXY (x, y)
fY (y)
dx =
= 1;
fY (y)
fY (y)
fX (x)
fXY (x, y)
dy =
= 1.
fX (x)
fX (x)
Esempio 9.9. Data la pdf doppia dell’esempio 9.2, alcune distribuzioni di probabilità condizionate sono:
Y
Y
pY |0 (yj )
pY |1 (yj )
0
0=
0
1/8
0
0=
0
3/8
1
0=
0
1/8
1
2
3
=
2/8
3/8
2
1=
1/8
1/8
2
1
3
=
1/8
3/8
X
pX|0 (xi )
X
pX|1 (xi )
0
0=
0
2/8
0
0=
0
4/8
1
0=
0
2/8
1
1
2
=
2/8
4/8
2
1
2
=
1/8
2/8
2
1
2
=
2/8
4/8
3
1
2
=
1/8
2/8
3
0=
0
4/8
Esempio 9.10. Con riferimento all’esempio 9.3, le pdf condizionate sono
fY |x (y) =
4xy
= 2y
2x
e
rispettivamente per y ∈ [0, 1] e x ∈ [0, 1].
Primi elementi di inferenza statistica (ed. maggio 2012)
fX|y (x) =
4xy
= 2x
2y
60
M. Di Marzio
9. VARIABILI CASUALI MULTIPLE
Esempio 9.11. Un laboratorio di analisi misura la presenza di alcool nel sangue di un gruppo di uomini (0) e donne
(1), fermati casualmente mentre guidano. Le variabili studiate sono il livello di alcool nel sangue (Y ) e il sesso (X).
Risulta la seguente distribuzione doppia di probabilità:
Y
X
< 0.05
≥ 0.05
0
0.50
0.15
1
0.30
0.05
dalla quale otteniamo che la probabilità di fermare casualmente un automobilista che presenta un livello di alcool
superiore al limite di 0.05 è
pY (≥ 0.05) = 0.15 + 0.05 = 0.20.
Vogliamo sapere se questa probabilità dipende dal sesso dell’automobilista.
Supponiamo di fermare una donna, calcoliamo
pY |1 (≥ 0.05) =
pXY (≥ 0.05, 1)
pXY (xi , yj )
0.05
=
=
= 0.143.
pX (xi )
pX (1)
0.35
Interpretazione: Mentre il 20% degli automobilisti fermati presentano nel sangue un livello di alcool superiore allo
0.05, solo il 14.3% delle donne superano il limite. La dipendenza dal sesso appare di conseguenza fondata.
Calcoliamo adesso la pdf della presenza dell’alcol nel sangue condizionata al sesso maschile:
pY |0 (< 0.05) =
pXY (< 0.05, 0)
0.50
=
= 0.77;
pX (0)
0.65
pY |0 (≥ 0.05) =
pXY (≥ 0.05, 0)
0.15
=
= 0.23.
pX (0)
0.65
Riassumendo, pY |0 può così rappresentarsi
y
< 0.05
≥ 0.05
pY |0
0.77
0.23
Il valore atteso di una distribuzione condizionata viene deﬁnito valore atteso condizionato. Formalmente,
ipotizziamo che X e Y hanno una distribuzione di probabilità congiunta discreta, il valore atteso conzionato
di Y data X = xi è una funzione di xi così deﬁnita
E[Y | xi ] = E[Y | X = xi ] =
t
∑
yj pY |xi (yj ),
E[X|yj ] = E[X|Y = yj ] =
j=1
s
∑
xi pX|yj (xi ).
i=1
Similmente per le vv.cc. continue abbiamo
∫
E[Y |x] = E[Y |X = x] =
∫
+∞
−∞
y fY |x (y) dy,
+∞
E[X|y] = E[X|Y = y] =
−∞
x fX|y (x) dx.
Esempio 9.12. Con riferimento all’esempio 9.9, segue il calcolo delle rispettive medie condizionate
E[Y |X = 0] = 0 × 0 + 1 × 0 + 2 × 1 = 2;
2
1
4
E[Y |X = 1] = 0 × 0 + 1 × + 2 × = ;
3
3
3
1
1
E[X|Y = 0] = 0 × 0 + 1 × 0 + 2 × + 3 × =
2
2
1
1
E[X|Y = 1] = 0 × 0 + 1 × + 2 × + 3 × 0 =
2
2
5
;
2
3
.
2
Esempio 9.13. Date due vv.cc. continue con funzione di densità congiunta
{
fXY (x, y) =
e−y
0
se 0 < x < 1 e y > 0
altrimenti,
Il graﬁco di questa densità congiunta è contenuto nella ﬁgura 9.2.
M. Di Marzio
61
Primi elementi di inferenza statistica (ed. maggio 2012)
9.4. Distribuzioni di probabilità condizionate
f(x,y)
1
0.8
0.6
0.4
0.2
0
0
0.5
0.5
y
1
1
x
Figura 9.2: Graﬁco della pdf dell’esempio 9.13.
Calcolare E[X | Y = 2].
Usando la deﬁnizione abbiamo
∫
E[X | Y = 2] =
+∞
−∞
∫ 1
=
∫
x
fXY (x, 2)
dx
fY (2)
x
e−2
dx.
fY (2)
0
1
=
xfX|Y (x | 2) dx
0
Poiché
∫
1
fY (2) =
fXY (x, 2)dx
∫
0
1
=
e−2 dx = e−2 ,
0
abbiamo
∫
1
E[X | Y = 2] =
x
0
e−2
1
dx = x2
e−2
2
1
=
0
1
.
2
Si deve segnalare che il valore atteso condizionato non è un numero, come lo è il valore atteso semplice, ma
una funzione reale di xi (risp. x) o yj (risp. y). Chiaramente se esso viene considerato prima di osservare X,
allora sarà una funzione della v. c. Xi (risp. X) o Yj (risp. Y ).
Una fondamentale proprietà del valore atteso condizionato, inteso come funzione di v.c., è la cosiddetta
proprietà delle medie iterate:
E[E[Y | X]] = E[Y ];
di seguito lo dimostriamo per il caso discreto, per il caso continuo bisogna semplicemente considerare gli
integrali al posto delle sommatorie.
Se X e Y sono due vv.cc. discrete che possono assumere rispettivamente s e t modalità, allora abbiamo che
E[E[Y | X]] =
s ∑
t
∑
yj pY |xi (yj )pX (xi ),
i=1 j=1
Primi elementi di inferenza statistica (ed. maggio 2012)
62
M. Di Marzio
9. VARIABILI CASUALI MULTIPLE
inoltre, ricordando la deﬁnizione di pdf condizionata, scambiando le due sommatorie e richiamando la
deﬁnizione di pdf marginale, otteniamo
E[E[Y | X]] =
s ∑
t
∑
yj pXY (xi , yj )
i=1 j=1
=
t
∑
yj
j=1
=
t
∑
s
∑
pXY (xi , yj )
i=1
yj pY (yj )
j=1
= E[Y ].
La varianza di una distribuzione condizionata viene deﬁnita varianza condizionata. Così ad esempio, data
la v.c. doppia (X, Y ), la varianza di Y condizionata all’evento X = x, sarà indicata come Var[Y | X = x]. In
analogia al caso non condizionato, la varianza condizionata può essere espressa come la seguente diﬀerenza:
Var[Y | X = x] = E[Y 2 | X = x] − (E[Y | X = x])2 .
Esempio 9.14. Con riferimento all’esempio 9.13 abbiamo visto che E[X | Y = 2] = 1/2 e inoltre
∫
1
E[X 2 | Y = 2] =
x2
0
e−2
dx = 1/3
e−2
per cui
Var[X | y = 2] =
9.5
1
1
− = 0.889.
3
4
Variabili casuali indipendenti
In analogia al caso di eventi indipendenti (sez. 1.5), possiamo deﬁnire l’indipendenza tra le componenti di
vv.cc. multiple. Data una v.c. doppia discreta (X, Y ), X e Y sono indipendenti se la pdf congiunta è data
dal prodotto delle rispettive marginali, cioè se e solo se per ogni coppia (xi , yj )
pXY (xi , yj ) = pX (xi )pY (yj ).
Analogamente, il caso di v.c. (X, Y ) continua richiede che, per ogni coppia (x, y)
fXY (x, y) = fX (x)fY (y).
Esempio 9.15. Con riferimento all’esempio 9.3, valutiamo se le vv.cc. X e Y sono indipendenti. La risposta
è aﬀermativa poiché la pdf congiunta fXY (x, y) = 4xy è pari al prodotto delle marginali, che sono rispettivamente
fX (x) = 2x e fY (y) = 2y.
Anche le vv.cc. X e Y con pdf congiunta

−2x−3y
se 0 ≤ x ≤ ∞ e 0 ≤ y ≤ ∞
 6e
fXY (x, y) =
 0
altrimenti
sono indipendenti poiché la pdf congiunta fXY (x, y) = 6e−2x−3y è pari al prodotto delle marginali, che sono una pdf
esponenziale di parametro λ = 3 e una pdf esponenziale di parametro λ = 2.
Esempio 9.16. Una fondamentale generalizzazione di queste deﬁnizioni porterà nel seguito a formulare la densità congiunta associata a un campione casuale di n elementi. Il campione casuale è deﬁnito come una v.c. n-pla
(X1 , X2 , ..., Xn ) le cui singole componenti sono vv.cc. indipendenti e identicamente distribuite. Così a causa dell’indipendenza la pdf congiunta del campione è data dal prodotto delle marginali. Ma essendo le componenti identicamente distribuite, le marginali sono tutte uguali, cioè pX1 = pX2 = ... = pXn = pX , allora per il caso discreto
abbiamo
n
∏
pX1 X2 ...Xn (x1 , x2 , ..., xn ) = pX1 (x1 ) × pX2 (x2 ) × ... × pXn (xn ) =
pX (xi ).
i=1
Analogamente, per il caso continuo se la pdf marginale comune è fX si ha
fX1 X2 ...Xn (x1 , x2 , ..., xn ) = fX1 (x1 ) × fX2 (x2 ) × ... × fXn (xn ) =
n
∏
fX (xi ).
i=1
M. Di Marzio
63
Primi elementi di inferenza statistica (ed. maggio 2012)
9.6. Covarianza
Per accertare l’indipendenza nel caso discreto bisogna veriﬁcare che pXY (xi , yj ) = pX (xi )pY (yj ) per tutte
le coppie (xi , yj ). Ma spesso le possibili coppie (xi , yj ) sono molto numerose. D’altro lato, dimostrare la
dipendenza può essere facile poiché basta trovare una sola coppia per cui non vale la regola del prodotto delle
marginali. Ad esempio, due vv.cc. discrete sono dipendenti se nella distribuzione doppia esiste anche una
sola coppia (xi , yj ) per cui pXY (xi , yj ) = 0. Questo perché x e y sono valori possibili e quindi
pX (xi ) > 0 e pY (yj ) > 0,
il che implica che nel caso di indipendenza pXY (xi , yj ) = pX (xi )pY (yj ) > 0, ricavando che le vv.cc. sono
dipendenti.
9.6
Covarianza
Così come si può essere interessati alla misura della concordanza tra variabili statistiche, allo stesso modo
lo si può essere alla misura della concordanza tra componenti di una v.c. multipla. Data una v.c. doppia
(X, Y ), una misura della concordanza tra le sue componenti X e Y è la covarianza.
Se X e Y sono discrete con s e t modalità, allora la loro covarianza è deﬁnita come
s ∑
t
∑
σXY = Cov [X, Y ] =
(xi − µX )(yj − µY ) pXY (xi , yj ).
i=1 j=1
Analogamente se X e Y sono continue
∫
σXY = Cov [X, Y ] =
∞
−∞
∫
∞
−∞
(x − µX )(y − µY )fXY (x, y) dxdy
dove fXY (x, y) è la pdf della v.c. doppia (X, Y ). Utilizzando l’operatore valore atteso E possiamo denotare
la covarianza con una simbologia comune ai casi discreto e continuo
Cov[X, Y ] = E[(X − µX )(Y − µY )].
E’ facile derivare una formulazione alternativa della covarianza, cioè
Cov[X, Y ] = E[XY ] − µX µY ,
infatti:
Cov[X, Y ] = E[(X − µX )(Y − µY )]
= E[XY − µX Y − XµY + µX µY ]
= E[XY ] − µX µY − µX µY + µX µY
= E[XY ] − µX µY .
La terza uguaglianza deriva dalla seconda applicando la regola per cui il valore atteso di una somma è dato
dalla somma dei valori attesi, si veda la sezione 11.1. Ora se X = Y si ha
Cov[X, X] = E[X 2 ] − µ2X = Var[X].
Alcune proprietà della covarianza sono:
1) Cov[X, Y ] = Cov[Y, X];
2) Se a è un numero reale, Cov[aX, Y ] = aCov[X, Y ];
3) Se a e b sono due numeri reali, Cov[X + a, Y + b] = Cov[Y, X];
4) Se a, b, c, d sono numeri reali, Cov[aX + b, cY + d] = acCov[Y, X].
Queste proprietà si dimostrano facilmente ricorrendo alle proprietà del valore atteso. Ad esempio, usando la
relazione Cov[X, Y ] = E[XY ] − µX µY , dimostriamo la proprietà 4):
Cov[aX + b, cY + d] = E[(aX + b)(cY + d)] − E[aX + b]E[cY + d]
= E[acXY + bcY + adX + bd] − (aµX + b)(cµY + d)
= ac(E[XY ] − µX µY )
= acCov[X, Y ].
Come detto, la covarianza fornisce informazioni circa la relazione tra due vv.cc. X e Y , in particolare ci dice
come variano congiuntamente. Quindi, ricordando che la coviarianza è un valore atteso (del prodotto degli
scarti) sono possibili i seguenti casi
Primi elementi di inferenza statistica (ed. maggio 2012)
64
M. Di Marzio
9. VARIABILI CASUALI MULTIPLE
a) Cov(X, Y ) > 0, X e Y variano in media nello stesso senso (correlazione positiva),
b) Cov(X, Y ) < 0, X e Y variano in media in senso opposto (correlazione negativa),
c) Cov(X, Y ) = 0, X e Y variano in media indiﬀerentemente l’una dall’altra (incorrelazione).
9.7
Correlazione
2
Date le due vv.cc. X e Y , con 0 < σX
< ∞ e 0 < σY2 < ∞, deﬁniamo coeﬃciente di correlazione tra X
e Y , e lo indichiamo con ρXY , il seguente rapporto:
ρXY =
Cov[X, Y ]
.
σX σY
Si noti che ρXY può essere inteso come la covarianza tra X e Y standardizzati (sez. 3.12), cioè
ρXY = Cov[X ∗ , Y ∗ ] = Cov
[
]
X − µX Y − µY
,
.
σX
σY
Infatti, usando la proprietà 4) della covarianza otteniamo
[
]
X − µX Y − µY
,
σX
σY
]
[
X
µX Y
µY
= Cov
−
,
−
σX
σX σY
σY
1 1
=
Cov[X, Y ]
σX σY
Cov[X, Y ]
=
.
σX σY
Cov[X ∗ , Y ∗ ] = Cov
Il coeﬃciente di correlazione fornisce importanti informazioni su come X e Y variano congiuntamente. In
particolare, ρXY misura la forza del legame lineare tra X e Y , cioè quanta parte della relazione tra X e
Y può essere spiegata dalla legge lineare Y = aX + b, dove a e b sono costanti. Inoltre, a diﬀerenza della
covarianza, ρXY non è sensibile alle scale di misura, ed ha un minimo e un massimo. Di seguito alcune sue
proprietà
a) −1 ≤ ρXY ≤ 1;
b) ρXY = −1 se Y = aX + b, con a < 0;
c) ρXY = 1 se Y = aX + b, con a > 0;
d) ρXY = 0 se Cov[X, Y ] = 0.
Dimostriamo la proprietà c). Se Y = aX + b e a > 0, allora:
Cov[X, Y ]
√
Var[X] Var[Y ]
Cov[X, aX + b]
√
=√
Var[X] Var[aX + b]
aCov[X, X + b]
√
=√
Var[X]a Var[X]
aCov[X, X]
√
=√
Var[X]a Var[X]
aVar[X]
=
aVar[X]
= 1.
ρXY = √
M. Di Marzio
65
Primi elementi di inferenza statistica (ed. maggio 2012)
9.8. Indipendenza e incorrelazione
9.8
Indipendenza e incorrelazione
Date le due vv.cc. discrete X e Y , il valore atteso del loro prodotto è dato da:
s ∑
t
∑
E[XY ] =
xi yj pXY (xi , yj ).
i=1 j=1
Ma se X e Y sono indipendenti, allora pXY (xi , yj ) = pX (xi )pY (yj ), e quindi:
E[XY ] =
s ∑
t
∑
xi yj pXY (xi , yj )
i=1 j=1
=
t
s ∑
∑
xi yj pX (xi )pY (yj )
i=1 j=1
=
s
∑
xi pX (xi )
i=1
t
∑
yj pY (yj )
j=1
= E[X]E[Y ].
Così abbiamo dimostrato che nel caso di indipendenza il valore atteso del prodotto XY è pari al prodotto
dei valori attesi di X e di Y . Nel caso continuo vale lo stesso risultato con una dimostrazione simile.
Ora, è facile dimostrare che l’indipendenza implica l’incorrelazione, infatti utilizzando la formula appena
ottenuta abbiamo che la covarianza di due vv.cc. indipendenti è:
Cov[X, Y ] = E[XY ] − E[X]E[Y ]
= E[X]E[Y ] − E[X]E[Y ]
= 0.
Invece l’incorrelazione non implica l’indipendenza. Si consideri l’esempio che segue dove due vv.cc. sono
incorrelate ma dipendenti.
Esempio 9.17. Sia X una v.c. tale che: P(X = −1) = P(X = 0) = P(X = 1) = 1/3, inoltre sia Y così deﬁnita
{
Y =
se X ̸= 0
se X = 0.
0
1
Ora, XY = 0 e quindi E[XY ] = 0. Inoltre E[X] = 0. E quindi Cov[X, Y ] = E[XY ] − E[X]E[Y ] = 0. Ma X e Y sono
chiaramente dipendenti poiché sono legate da una relazione funzionale deterministica.
E’ inﬁne facile ricavare dai dati di sopra la seguente distribuzione doppia di (X, Y ):
Y
−1
X
0
1
0
1/3
0
1/3
2/3
1
0
1/3
0
1/3
1/3
1/3
1/3
1
Evidentemente qui pXY (xi , yj ) ̸= pX (xi )pY (yj ) che è una ulteriore prova della dipendenza.
9.9
Distribuzione normale doppia
La v.c. doppia (X, Y ) è detta normale doppia (o bivariata) se ha pdf congiunta pari a
fXY (x, y; µX , µY , σX , σY , ρXY ) =
)2
)(
) (
)2 ]}
{
[(
(
1
y − µY
y − µY
1
x − µX
x − µX
√
=
+
,
exp
−
−
2ρ
XY
2(1 − ρ2XY )
σX
σX
σY
σY
2πσX σY 1 − ρ2XY
dove (x, y) ∈ R2 . Si dimostra che ρXY è il coeﬃciente di correlazione tra X e Y , circa gli altri parametri si
2
consideri che le distribuzioni marginali sono normali, in particolare X ∼ N (µX , σX
) e Y ∼ N (µY , σY2 ).
Primi elementi di inferenza statistica (ed. maggio 2012)
66
M. Di Marzio
9. VARIABILI CASUALI MULTIPLE
Molto importante risulta la densità di Y condizionata a X = x; si veriﬁca facilmente (esercizio 10.13) che
Y
essa è una pdf normale con media µY + ρXY σσX
(x − µX ) e varianza σY2 (1 − ρ2XY ). Così per la normale doppia
vale il fondamentale risultato per cui la media condizionata risulta funzione lineare di x, mentre la varianza
condizionata non dipende da x (tale ultima proprietà è chiamata omoschedasticità). Queste due importanti
proprietà verranno invocate nella teoria della regressione statistica (sezioni 24.2, 24.3).
Inﬁne è facile dimostrare che se (X, Y ) è una v.c. doppia normale, allora, eccezionalmente, X e Y sono
indipendenti se e solo se sono incorrelate. Infatti se ρXY = 0 allora
fXY (x, y; µX , µY , σX , σY , 0) =
{
[(
)2 (
)2 ]}
1
1
x − µX
y − µY
exp −
+
,
2πσX σY
2
σX
σY
che è esattamente il prodotto delle pdf marginali, così deduciamo che X e Y sono indipendenti. Inoltre,
ricordando che l’indipendenza implica l’incorrelazione, se X e Y sono indipendenti, allora ρXY = 0.
Nella ﬁgura 9.3 sono presentati tre casi di distribuzione normale doppia. Evidentemente, se la correlazione
è diversa da zero le osservazioni sono ammassate intorno a una diagonale. Tanto più la correlazione è forte
tanto più esse tendono a concentrarsi intorno alla diagonale. In corrispondenza del valore limite |ρ| = 1 si
troverebbero addirittura tutte su di essa.
M. Di Marzio
67
Primi elementi di inferenza statistica (ed. maggio 2012)
9.9. Distribuzione normale doppia
2
0.15
0.1
y
f(x,y)
1
0
0.05
−1
0
2
y
−2
2
0
0
−2
−2
−2
−1
0
1
2
1
2
1
2
X
x
2
0.2
0.1
y
f(x,y)
1
0
−1
0
2
2
0
y
−2
0
−2
−2
−2
−1
x
0
x
2
0.2
0.1
y
f(x,y)
1
0
−1
0
2
2
0
y
−2
0
−2
−2
−2
x
−1
0
x
Figura 9.3: Graﬁci di normali bivariate. Tutte hanno parametri µX = 0, µY = 0, σX = 1, σY = 1; nella prima riga
ρXY = 0, nella seconda ρXY = 0.8 e nella terza ρXY = −0.8. I pannelli di destra sono rappresentazioni
tramite curve di livello.
Primi elementi di inferenza statistica (ed. maggio 2012)
68
M. Di Marzio
10
Esercizi svolti
Esercizio 10.1. Le variabili casuali X e Y hanno la seguente distribuzione di probabilità congiunta
Y
X
1
2
3
1
a
2a
3a
2
b
c
d
Trovare a, b, c e d sapendo che X e Y sono indipendenti e che 2pX (1) = pX (2).
Soluzione Siccome deve essere pX (1)+pX (2) = 1, allora pX (1)+2pX (1) = 1 per cui si ricava che pX (1) = 1/3
e pX (2) = 2/3. Da cui 6a = 1/3 e quindi a = 1/18.
Inoltre poiché X e Y sono indipendenti
pXY (x, y) = pX (x)pY (y).
Così, ad esempio, sappiamo che:
a = pXY (1, 1) = pX (1) × pY (1)
e quindi
1/18 = 1/3 × pY (1)
2/18 = 1/3 × pY (2)
⇒
⇒
pY (1) = 3/18
pY (2) = 6/18
3/18 = 1/3 × pY (3)
⇒
pY (3) = 9/18.
Inﬁne
b = 3/18 − 1/18 = 2/18
c = 6/18 − 2/18 = 4/18
d = 9/18 − 3/18 = 6/18.
Esercizio 10.2. Le variabili casuali X e Y hanno la seguente distribuzione di probabilità congiunta
Y
X
1
2
3
1
1/3
a
1/6
2
b
1/4
c
Dimostrare che X e Y sono indipendenti, qualunque siano i valori che a, b e c possono assumere.
M. Di Marzio
69
Primi elementi di inferenza statistica (ed. maggio 2012)
Soluzione Dimostriamolo per assurdo. Se c’è indipendenza, allora abbiamo che
pX (1) × pY (1) = 1/3
pX (1) × pY (3) = 1/6.
e
Il che implica che pY (1) = 2pY (3). Poniamo pY (3) = W . Allora, la distribuzione marginale di Y sarà:
pY (1) = 2W ;
pY (2) = 1 − 3W ;
pY (3) = W.
Da ciò si deduce la distribuzione marginale di X espressa in termini di W . Sempre ipotizzando l’indipendenza,
si ha che 2W pX (1) = 1/3, da cui pX (1) = 1/(6W ), e quindi
pX (2) = 1 − 1/(6W ) =
6W − 1
.
6W
Così nel caso di indipendenza
(1 − 3W )(6W − 1)
,
6W
da cui possiamo ricavare una equazione di secondo grado nel modo seguente
1/4 =
1/4 =
6W − 1 − 18W 2 + 3W
3
15
⇒ W = −18W 2 + 9W − 1 ⇒ −18W 2 + W − 1 = 0.
6W
2
2
Risolvendo l’equazione troviamo che essa ammette solo radici immaginarie. Così non esistono valori di W
che permettono l’indipendenza.
Esercizio 10.3. La v.c. X assume i valori 0, 1, 2, 3 mentre la v.c. Y i valori 0, 1, 2. Inoltre la distribuzione
di probabilità congiunta è della forma
pXY (x, y) = c |x − y| .
a) Determinare il valore di c;
b) calcolare P(X = Y );
c) calcolare P(| X − 1 |≤ 1);
d) calcolare P(X + Y ≤ 3);
e) X e Y sono indipendenti?
Soluzione E’ immediato costruire la distribuzione di probabilità congiunta
Y
X
0
1
2
0
0
c
2c
1
c
0
c
2
2c
c
0
3
3c
2c
c
Da cui si evince che:
a) c = 1/14;
b)
P(X = Y ) = P({0, 0} ∪ {1, 1} ∪ {2, 2})
= P({0, 0}) + P({1, 1}) + P({2, 2})
= 0;
c)
P(| X − 1 |≤ 1) = P({0, 0} ∪ {0, 1} ∪ {0, 2} ∪ {1, 0} ∪ {1, 1} ∪ {1, 2} ∪ {2, 0} ∪ {2, 1} ∪ {2, 2})
= pX (0) + pX (1) + pX (2)
= 3c + 2c + 3c
= 8c;
Primi elementi di inferenza statistica (ed. maggio 2012)
70
M. Di Marzio
10. ESERCIZI SVOLTI
d)
P(X + Y ≤ 3) = P({0, 0} ∪ {0, 1} ∪ {0, 2} ∪ {1, 0} ∪ {1, 1} ∪ {1, 2} ∪ {2, 0} ∪ {2, 1} ∪ {3, 0})
= 3c + 2c + 3c = 0 + c + 2c + c + 0 + c + 0 + 3c
= 11c;
e) X e Y non sono indipendenti. Infatti
pXY (0, 0) = 0 ̸= 6c × 3c.
Esercizio 10.4. Un’urna contiene tre palle rosse e due verdi. Si estraggono due palle a caso una dopo l’altra
i) reinserendo la prima e ii) senza reinserire la prima. Deﬁniamo le seguenti vv.cc.
{
{
1 se la prima è rossa
1 se la seconda è rossa
X=
Y =
0 se la prima è verde;
0 se la seconda è verde.
Per i casi i) e ii) deﬁnire
a) distribuzioni di probabilità congiunte,
b) distribuzioni di probabilità condizionate,
c) valori attesi condizionati.
Soluzione a) Le distribuzioni di probabilità congiunte, con e senza reinserimento, sono rispettivamente
X
X
Y
0
1
Y
0
1
0
4
25
6
25
6
25
9
25
0
2
20
6
20
6
20
6
20
1
1
b) Nel caso di reinserimento le densità condizionate sono
X
pX|0 (xi )
X
pX|1 (xi )
Y
pY |0 (yi )
Y
pY |1 (yi )
0
2
5
3
5
0
2
5
3
5
0
0
1
2
5
3
5
1
2
5
3
5
1
1
mentre nel caso di mancato reinserimento si ha
X
pX|0 (xi )
X
pX|1 (xi )
Y
pY |0 (yi )
Y
pY |1 (yi )
0
1
4
3
4
0
1
2
1
2
0
1
4
3
4
0
1
2
1
2
1
1
1
1
c) Inﬁne, le medie condizionate sono nel caso di reinserimento e non reinserimento rispettivamente pari a
{ 3
{ 3
{ 3
{ 3
y=0
x=0
y=0
x=0
5
5
4
4
E[X|Y ] =
E[Y |X] =
e E[X|Y ] =
E[Y |X] =
3
3
1
1
y = 1;
x = 1;
y = 1;
x = 1.
5
5
2
2
Esercizio 10.5. La densità congiunta di X, Y è data da
{ −(x+2y)
2e
se 0 ≤ x < +∞ e 0 ≤ y < +∞
fXY (x, y) =
0
altrimenti.
a) Calcolare P(X > 1, Y < 1);
b) calcolare P(X < a);
c) X e Y sono indipendenti?
M. Di Marzio
71
Primi elementi di inferenza statistica (ed. maggio 2012)
Soluzione a)
∫
1
∫
∞
2e−(x+2y) dxdy
(
∫ 1
∞)
=
2e−2y −e−x
dy
P(X > 1, Y < 1) =
0
1
0
= e−1
1
∫
1
2e−2y dy
0
= e−1 (1 − e−2 );
b)
∫
a
∫
∞
P(X < a) =
∫
0
2e−(x+2y) dydx
0
a
=
e−x dx
0
= 1 − e−a ;
c) X e Y sono indipendenti poiché la densità congiunta è il prodotto di due densità esponenziali, con parametri
rispettivamente 2 e 1.
Esercizio 10.6. La densità congiunta di X, Y è data da



fXY (x, y) =
15
2 x(2
− x − y)

 0
se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1
altrimenti.
a) Si calcolino le pdf marginali;
b) si calcoli la densità condizionata di X dato Y = y.
Soluzione a) Le densità marginali sono rispettivamente:
∫
1
15
15
x(2 − x − y) dy =
x(1.5 − x)
2
2
1
15
15
x(2 − x − y) dx =
(2/3 − y/2).
2
2
fX (x) =
∫
0
fY (y) =
0
b) Abbiamo
fXY (x, y)
f (x, y) dx
−∞ XY
fX|y (x) = ∫ ∞
= ∫1
0
=
15/2x(2 − x − y)
15/2x(2 − x − y) dx
x(2 − x − y)
.
2/3 − y/2
Esercizio 10.7. La densità congiunta di X, Y è data da

 e−x/y e−y
fXY (x, y) =
y

0
se 0 ≤ x < +∞ e 0 ≤ y < +∞
altrimenti.
Calcolare il valore atteso condizionato di X su Y , cioè E[X|Y = y].
Primi elementi di inferenza statistica (ed. maggio 2012)
72
M. Di Marzio
10. ESERCIZI SVOLTI
Soluzione Iniziamo con il calcolare la densità condizionata fX|y (x)
fXY (x, y)
fXY (x, y)
= ∫∞
fY (y)
f (x, y) dx
−∞ XY
fX|y (x) =
(1/y)e−x/y e−y
= ∫∞
(1/y)e−x/y e−y dx
0
(1/y)e−x/y
= ∫∞
(1/y)e−x/y dx
0
e−x/y
,
y
=
come si vede, la densità condizionata è semplicemente la pdf esponenziale con parametro 1/y. Quindi il
valore atteso condizionato sarà esattamente il valore atteso di questa esponenziale, cioè y. In formule
∫ ∞
x −x/y
e
dx = y.
E[X|Y = y] =
y
0
Esercizio 10.8. La distribuzione doppia di X, Y è la seguente

2 2

 27
x y
se x ∈ [0, 3] e y ∈ [−1, 2]
fXY (x, y) =

 0
altrimenti.
a) Dimostrare che fXY (x, y) è una densità congiunta;
b) calcolare le densità marginali;
c) X e Y sono indipendenti?
Soluzione a) Bisogna dimostrare che
∫
2
−1
∫
3
0
2 2
x ydxdy = 1.
27
Abbiamo che
∫
2
−1
∫
3
0
2 2
x y dxdy =
27
∫
2
(
−1
∫ 2
2 x3
y
27 3
3)
dy
0
2 2
y
2
ydy =
3
3
−1
(
)
4 1
=
−
3 3
=
−1
= 1.
b) Le densità marginali sono rispettivamente
(
∫ 2
2 2 y2
2 2
x ydy =
x
fX (x) =
27
2
−1 27
(
)
1
2 2 4 1
x
−
= x2 ;
=
27
2 2
9
2
)
−1
( 3 3)
2
x
2 2
x ydx =
y
27
27
3 0
0
2
2 27
y
= y.
=
27 3
3
∫
3
fY (y) =
c) X e Y sono indipendenti perché
(
fX (x) × fY (y) =
M. Di Marzio
1 2
x
9
)(
2
y
3
73
)
=
2 2
x y = fXY (x, y).
27
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 10.9. La densità congiunta di X, Y è data da
{
k(xy)
se x ∈ [0, 1] e y ∈ [0, 1]
fXY (x, y) =
0
altrimenti,
dove k è una costante.
a) Calcolare il valore di k tale che fXY (x, y) sia una funzione di densità congiunta;
b) calcolare le densità marginali;
c) X e Y sono indipendenti?
Soluzione a) Procediamo similmente all’esercizio precendente calcolando il seguente integrale
∫ 1∫ 1
∫ 1 ( 2 1)
x
k
xydxdy = k
y
dy
2 0
0
0
0
( 2 1)
∫ 1
1
y
y
=k .
=k
dy = k
2
4
4
0
0
Quindi otteniamo che k = 4.
b) Le densità marginali sono rispettivamente
∫ 1
fX (x) =
4(xy)dy
0
∫
(
1
= 4x
ydy = 4x
0
∫
y2
2
1)
= 2x;
0
1
fY (y) =
4(xy)dx
0
∫
1
= 4y
0
(
x2
xdx = 4y
2
1)
= 2y.
0
c) X e Y sono indipendenti perché
fX (x)fY (y) = (2x)(2y) = 4xy = fXY (x, y).
Esercizio 10.10. La densità congiunta di X, Y è data da
{
ke−(ax+by)
se 0 ≤ x < +∞ e 0 ≤ y < +∞
fXY (x, y) =
0
altrimenti,
dove a, b, k sono delle costanti.
a) Calcolare il valore di k tale che fXY (x, y) sia una funzione di densità congiunta;
b) calcolare le densità marginali;
c) X e Y sono indipendenti?
Soluzione a) Procediamo calcolando il seguente integrale
∫ ∞∫ ∞
∫ ∞ ( −ax
∞)
e
−by
−ax −by
e
dy
k
e
e dxdy = k
−
a
0
0
0
0
(
∫
1 ∞ −by
1
e−by
=k
e dy = k
−
a 0
a
b
Quindi otteniamo che k = ab.
b) Le densità marginali sono rispettivamente
∫
∞
fX (x) =
∞)
=
0
k
.
ab
e−ax e−by dy = ae−ax ;
0
∫
∞
fY (y) =
e−ax e−by dx = be−by .
0
c) X e Y sono indipendenti perché
fX (x)fY (y) = (ae−ax )(be−bx ) = abe−(ax+by) = fXY (x, y).
Primi elementi di inferenza statistica (ed. maggio 2012)
74
M. Di Marzio
10. ESERCIZI SVOLTI
Esercizio 10.11. La densità congiunta di X, Y è data da

1 + xy


se − 1 ≤ x ≤ 1 e − 1 ≤ y ≤ 1
4
fXY (x, y) =


0
altrimenti,
dove k è una costante.
a) Calcolare le densità marginali;
b) X e Y sono indipendenti?
c) Calcolare il valore atteso di X su Y .
Soluzione a) Le densità marginali sono rispettivamente
∫
fX (x) =
−1
∫
fY (y) =
1
1
−1
(
1
1
y2 x
(1 + xy)dy =
y+
4
4
2
(
1
1
x2 y
(1 + xy)dx =
x+
4
4
2
)
1
−1
1
1
=
4
[(
) (
)]
x
x
1
1+
− −1 +
= ,
2
2
2
1
4
[(
) (
)]
y
y
1
1+
− −1 +
= .
2
2
2
)
=
−1
b) X e Y non sono indipendenti perché
fX (x)fY (y) =
11
̸= fXY (x, y).
22
c) Dato che
fX|y (x) =
fXY (x, y)
1 + xy
=
,
fY (y)
2
il valore atteso di X condizionato a Y = y è il seguente
∫ 1
∫ 1
∫
1 + xy
1 1
E[X|y] =
xfX|y (x)dx =
x
dx =
x + x2 ydx
2
2 −1
−1
−1
(
[(
) (
)]
1 )
1 x2
x3
1 y
1 y
y
1
=
+ y
+
−
−
= .
=
2 2
3 −1
2
2 3
2 3
3
Esercizio 10.12. L’uﬃcio acquisti di un’azienda ha rilevato l’ammontare X (centinaia di euro) delle forniture richieste nell’ultimo mese ed il ritardo medio Y (giorni) nelle relative consegne. Sulla base dei dati
raccolti si è costruita la pdf doppia seguente:
X
Y
[10, 14)
[14, 18)
[18, 22)
[22, 26)
7
5/45
4/45
0
1/45
10/45
8
6/45
3/45
4/45
0
13/45
9
0
0
6/45
2/45
8/45
10
0
0
6/45
8/45
14/45
11/45
7/45
16/45
11/45
1
a) Costruire la pdf marginale della v.c. X;
b) costruire la distribuzione della v.c. Y condizionata all’intervallo [14, 18) di X;
c) costruire la distribuzione della v.c. X condizionata all’evento Y = 9;
d) calcolare i valori attesi condizionati E[Y |X = xj ] per j = 1, 2, 3, 4;
e) determinare la probabilità che il ritardo nella consegna di una fornitura sia pari a 8;
M. Di Marzio
75
Primi elementi di inferenza statistica (ed. maggio 2012)
f ) determinare la probabilità che una consegna pervenuta con ritardo y = 10 giorni rispetto al tempo
concordato sia di ammontare [18, 22) ;
g) determinare la probabilità che una fornitura di ammontare [22, 26) pervenga all’azienda con un ritardo
di 7 giorni.
Soluzione a) La distribuzione marginale del carattere X è:
X
[10, 14)
[14, 18)
[18, 22)
[22, 26)
pX (xi )
11/45
7/45
16/45
11/45
b) La distribuzione di Y condizionata all’intervallo di modalità [14, 18) di X è:
Y
7
8
9
10
pY |[14,18) (yj )
4/7
3/7
0
0
c) La distribuzione della v.c. X condizionata alla modalità y3 = 9 di Y è:
X
[10, 14)
[14, 18)
[18, 22)
[22, 26)
pX|9 (xi )
0
0
6/8
2/8
d) I valori attesi condizionati E[Y |X = xj ] per j = 1, 2, 3, 4 sono:
E[Y |X = x1 ] = 7.545;
E[Y |X = x2 ] = 7.4286;
E[Y |X = x3 ] = 9.125;
E[Y |X = x4 ] = 9.545.
e) La probabilità che il ritardo nella consegna di una fornitura sia pari a 8 è
13
.
45
pY (8) =
f) La probabilità che una consegna pervenuta con ritardo y = 10 sia di ammontare compreso in [18, 22) è
pX|10 ([18, 22)) =
pXY ([18, 22), 10)
6/45
6
=
=
.
pY (10)
14/45
14
g) La probabilità che una fornitura di ammontare compreso in [22, 26) pervenga all’azienda con un ritardo
y = 7 giorni è
pXY ([22, 26) , 7)
1/45
1
pY |[22,26) (7) =
=
=
.
pX ([22, 26))
11/45
11
Esercizio 10.13. Se la v.c. (X, Y ), ha distribuzione normale doppia, dimostrare che la densità condizionata
di Y su X = x è
]2 }
{ [
1
σY
√ √
fY |x (y; µX , µY , σX , σY , ρXY ) =
(x − µX )
.
exp − y − µY − ρXY
σX
σY 2π 1 − ρ2XY
Soluzione Ricordando la deﬁnizione di pfd condizionata abbiamo
fXY (x, y; µX , µY , σX , σX , ρXY )
fX (x; µX , σX )
fY |x (y; µX , µY , σX , σY , ρXY ) =
{
2πσX σY
1
√
1−ρ2XY
exp
)2
[(
1
− 2(1−ρ
2
XY )
{
=
σX
Primi elementi di inferenza statistica (ed. maggio 2012)
1
√
(
− 2ρXY
x−µX
σX
2π
exp
− 12
76
)(
x−µX
σX
)
y−µY
σY
)2 ]}
(
+
y−µY
σY
)2 }
(
x−µX
σX
M. Di Marzio
10. ESERCIZI SVOLTI
(
)2
(
)2
(
)(
)
)2 }
{
(
1
ρXY
x − µX
y − µY
1 x − µX
√
exp
−
+
−
+
2(1 − ρ2XY ) 1 − ρ2XY
σX
σY
2(1 − ρ2XY ) 2
σX
σY 2π 1 − ρ2XY
)2 (
)
(
)(
)
)2 }
{ (
(
1
1 x − µX
1
ρXY
x − µX
y − µY
1
y − µY
√ √
=
exp
1−
+
−
2
σX
1 − ρ2XY
1 − ρ2XY
σX
σY
2(1 − ρ2XY )
σY
σY 2π 1 − ρ2XY
{
)
)(
)
)2 }
(
(
(
2
−ρ2XY
1
y − µY
1
x − µX
ρXY
x − µX
y − µY
√ √
=
exp
−
+
2(1 − ρ2XY )
σX
1 − ρ2XY
σX
σY
2(1 − ρ2XY )
σY
σY 2π 1 − ρ2XY
=
x−µX
σX
√
=
σY
√
2π
1
√
1 − ρ2XY
=
M. Di Marzio
σY
{ −ρ2
XY
exp
√
y−µY
σY
2
σY
2 (x
σX
− µX )2 + 2ρXY
2(1
σY
σX (x − µX )(y
− ρ2XY )σY2
− µY ) − (y − µY )2 }
{ [
]2 }
1
σY
√
exp
−
y
−
µ
−
ρ
(x
−
µ
)
.
Y
XY
X
σX
2π 1 − ρ2XY
77
Primi elementi di inferenza statistica (ed. maggio 2012)
11
Funzioni di variabili casuali
Indice
11.1
11.2
11.3
11.4
11.5
11.1
Somma di variabili casuali . . . . . . . . . . . . . . .
Distribuzioni del minimo e del massimo di variabili
Variabili casuali che derivano dalla normale . . . .
Somme di particolari variabili casuali indipendenti
Teorema centrale del limite . . . . . . . . . . . . . .
. . . . .
casuali
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
78
80
82
83
84
Somma di variabili casuali
Tutta la statistica si basa sul concetto di funzione di più variabili casuali (sez. 9.2). In questo capitolo ne
studieremo alcune tra le più importanti. In particolare in questa sezione presentiamo il calcolo di valore
atteso e varianza della v.c. somma. In seguito daremo risposte più complete, infatti vedremo che in casi
particolari si può ottenere (sez. 11.4) o approssimare (sez. 11.5) addirittura la pdf della somma.
Spesso è utile conoscere valore atteso e varianza della somma di vv.cc. per ciascuna delle quali già siano noti
valore atteso e varianza.
Esempio 11.1. Supponiamo che gli incassi giornalieri di ciascuno dei 100 punti vendita di un supermercato siano
rappresentati da vv.cc. indipendenti con media 25 e varianza
20 (migliaia di euro). Di conseguenza il totale degli
∑100
incassi giornalieri della catena si rappresenta come una v.c.
i=1 Xi dove Xi rappresenta l’incasso del punto vendita
i. Ovviamente, a ﬁni previsivi, siamo interessati a valore atteso e varianza dell’incasso totale.
Date n vv.cc. X1 , X2 , ..., Xn , si consideri la v.c. somma
n
∑
Xi
i=1
il valore atteso di tale somma è dato dalla somma dei valori attesi
]
[ n
n
∑
∑
Xi =
E[Xi ]
E
i=1
i=1
Dimostriamo questa legge, detta additività del valore atteso, solo nel caso di una v.c. doppia continua, gli
altri casi si deducono facilmente. Così dobbiamo dimostrare che
E[X + Y ] = E[X] + E[Y ]
infatti applicando la deﬁnizione di valore atteso di una funzione di v.c. doppia (sez. 9.2) abbiamo
∫ ∞∫ ∞
E[X + Y ] =
(x + y)fXY (x, y) dxdy
−∞ −∞
]
]
∫ ∞ [∫ ∞
∫ ∞ [∫ ∞
=
x
fXY (x, y) dy dx +
y
fXY (x, y) dx dy
−∞
−∞
−∞
−∞
∫ ∞
∫ ∞
=
x fX (x) dx +
y fY (y) dy
−∞
−∞
= E[X] + E[Y ].
Primi elementi di inferenza statistica (ed. maggio 2012)
78
M. Di Marzio
11. FUNZIONI DI VARIABILI CASUALI
Esempio 11.2. Un’impresa ha partecipato a tre gare d’appalto sottoponendo preventivi di 10, 20 e 40 euro. Gli esiti
delle gare sono indipendenti e le probabilità di successo sono rispettivamente 0.2, 0.8 e 0.3. Qual è il proﬁtto totale
che l’azienda si aspetta?
Il proﬁtto totale è una v.c. S = X1 + X2 + X3 , e quindi
E[S] = E[X1 ] + E[X2 ] + E[X3 ].
Poiché se non si vince l’appalto il ricavo sarà nullo, allora
E[S] = 10 × 0.2 + 0 × 0.8
+ 20 × 0.8 + 0 × 0.2
+ 40 × 0.3 + 0 × 0.7 = 30.
Certamente, se tutte le medie sono uguali e pari a µ, risulta
[ n
]
n
n
∑
∑
∑
E
Xi =
E[Xi ] =
µ = nµ.
i=1
i=1
i=1
Esempio 11.3. Nell’esempio 11.1 abbiamo che E[S] = 100 × 25 = 2500.
Circa la varianza della somma, si dimostra che
[ n
]
n ∑
n
∑
∑
Var
Xi =
Cov[Xi , Xj ]
i=1
i=1 j=1
=
n
∑
Var[Xi ] +
i=1
n ∑
n
∑
Cov[Xi , Xj ]
i=1 j=1
i̸=j
ricordando che Cov[Xi , Xi ] = Var[Xi ]. Ma se X1 , X2 , ..., Xn sono indipendenti le covarianze sono nulle poiché
l’indipendenza implica l’incorrelazione (sez. 9.8). Allora per vv.cc. indipendenti si ha:
[ n
]
n
∑
∑
Xi =
Var [Xi ] .
Var
i=1
i=1
Se inoltre X1 , X2 , ..., Xn hanno tutte la stessa varianza σ 2
n
∑
i=1
Var [Xi ] =
n
∑
σ 2 = nσ 2 .
i=1
Esempio 11.4. Nell’esempio 11.1 abbiamo che Var[S] = 100 × 20 = 2000.
Dimostriamo la formula della varianza di una somma di variabili casuali nel caso di due sole vv.cc. X e Y .
Sapendo che Var[W ] = E[W 2 ] − (E[W ])2 , per W = X + Y abbiamo
Var[X + Y ] = E[(X + Y )2 ] − (E[X + Y ])2
= E[X 2 + Y 2 + 2XY ] − (E[X] + E[Y ])2
= E[X 2 ] + E[Y 2 ] + 2E[XY ] − (E[X])2 − (E[Y ])2 − 2E[X]E[Y ]
= E[X 2 ] − (E[X])2 + E[Y 2 ] − (E[Y ])2 + 2E[XY ] − 2E[X]E[Y ]
= Var[X] + Var[Y ] + 2Cov[X, Y ].
Chiaramente Var[X − Y ] = Var[X] + Var[Y ] − 2Cov[X, Y ].
∑n
Si osservi che Var[X] misura la dispersione della v.c. X intorno al suo valore medio, mentre Var [ i=1 Xi ]
misura la dispersione congiunta delle vv.cc. X1 , X2 , ..., Xn intorno ai loro valori medi, infatti essa comprende
anche le covarianze.
Esempio 11.5. Sapendo che le vv.cc. X1 , X2 , X3 sono tali che
E[X1 ] = 2 e Var[X1 ] = 1; E[X2 ] = 1 e Var[X2 ] = 4; E[X3 ] = 0 e Var[X3 ] = 9, calcolare media e varianza di
T = X1 + 4X2 + 2X3
M. Di Marzio
79
Primi elementi di inferenza statistica (ed. maggio 2012)
11.2. Distribuzioni del minimo e del massimo di variabili casuali
a) nel caso in cui X1 , X2 , X3 sono a due a due indipendenti;
b) se Cov[3X1 , 4X2 ] = −6; Cov[X1 , X3 ] = 2.5; Cov[2X2 , X3 ] = −2.
a) Abbiamo
E[T ] = E[X1 + 4X2 + 2X3 ] = E[X1 ] + 4E[X2 ] + 2E[X3 ] = 6;
Var[T ] = Var[X1 + 4X2 + 2X3 ] = Var[X1 ] + 16Var[X2 ] + 4Var[X3 ] = 1 + 64 + 36 = 101;
b) si noti anzitutto che il valore atteso non cambia. Ora, se Cov[3X1 , 4X2 ] = −6 allora 12Cov[X1 , X2 ] = −6 per cui
Cov[X1 , X2 ] = −0.5. Analogamente, se Cov[2X2 , X3 ] = −2, allora Cov[X2 , X3 ] = −1, per cui:
Var[T ]
=
Var[X1 + 4X2 + 2X3 ] = Var[X1 ] + 16Var[X2 ] + 4Var[X3 ]
+
4 × 2 × Cov[X1 , X2 ] + 2 × 2 × Cov[X1 , X3 ] + 4 × 2 × 2 × Cov[X2 , X3 ] =
=
1 + 64 + 36 − 4 + 10 − 16 = 91.
Supponiamo di avere n vv.cc. X1 , X2 , ..., Xn , ognuna con media µi e m vv.cc. Y1 , Y2 , ..., Ym , ognuna con
media νi . La proprietà che segue è detta additività della covarianza:
[∑
] ∑
n
m
n ∑
m
∑
Cov
Xi ,
Yj =
Cov[Xi , Yj ],
i=1
j=1
i=1 j=1
per dimostrare questo, ricordiamo che nella sezione 11.1, l’additività del valore atteso permette di scrivere
[∑
] ∑
[∑
] ∑
n
n
m
m
E
Xi =
µi ,
E
Yj =
νj ,
i=1
allora
Cov
[∑
n
i=1
Xi ,
i=1
m
∑
j=1
j=1
[(∑
]
)(∑
)]
n
n
m
m
∑
∑
Yj = E
Xi −
µi
Yj −
νj
j=1
i=1
=E
=E
=
=
[∑
n
(Xi −
i=1
[∑
n ∑
m
i=1
m
∑
µi )
j=1
]
j=1
(Yj − νj )
j=1
]
(Xi − µi )(Yj − νj )
i=1 j=1
n ∑
m
∑
E[(Xi − µi )(Yj − νj )]
i=1 j=1
n ∑
m
∑
Cov[Xi , Yj ].
i=1 j=1
Si noti che per passare dalla terzultima alla penultima equazione abbiamo ancora sfruttato l’additività del
valore atteso.
11.2
Distribuzioni del minimo e del massimo di variabili casuali
Date n vv.cc. X1 , X2 , ..., Xn indipendenti e identicamente distribuite, aventi pdf continua fX , siano
e
Y1 = min(X1 , X2 , ..., Xn )
Yn = max(X1 , X2 , ..., Xn ).
Dalla deﬁnizione di Y1 risulta che la funzione di ripartizione del minimo è
FY1 (y) = P(Y1 ≤ y)
= 1 − P(Y1 > y)
= 1 − P(X1 > y ∩ X2 > y ∩ ... ∩ Xn > y),
poiché Y1 è maggiore di y se e solo se Xi > y, ∀i = 1, 2, ..., n. Poiché le vv.cc. X1 , X2 , ..., Xn sono indipendenti
si ottiene
n
∏
FY1 (y) = 1 −
P(Xi > y)
=1−
i=1
n
∏
[1 − FXi (y)],
i=1
Primi elementi di inferenza statistica (ed. maggio 2012)
80
M. Di Marzio
11. FUNZIONI DI VARIABILI CASUALI
ed essendo le vv.cc. X1 , X2 , ..., Xn identicamente distribuite
FY1 (y) = 1 − [1 − FX (y)]n .
Ricordando che la pdf di una v.c. continua può essere deﬁnita come derivata della funzione di ripartizione,
si ottiene
fY1 (y) = F′Y1 (y) = n[1 − FX (y)]n−1 fX (y).
Dalla deﬁnizione di Yn risulta che la funzione di ripartizione del massimo è
FYn (y) = P(Yn ≤ y)
= P(X1 ≤ y ∩ X2 ≤ y ∩ ... ∩ Xn ≤ y),
in quanto Yn è minore o uguale a y se e solo se ogni v.c. Xi , i = 1, 2, ..., n, è minore o uguale a y. Pertanto
FYn (y) =
n
∏
FXi (y),
i=1
poiché le vv.cc. X1 , X2 , ..., Xn sono indipendenti; ma essendo anche identicamente distribuite, risulta
n
∏
FXi (y) = [FX (y)]n .
i=1
La pdf della v.c. Yn è allora deﬁnita da
fYn (y) = F′Yn (y) = n[FX (y)]n−1 fX (y).
Esempio 11.6. Siano X1 , X2 , ..., Xn n vv.cc. indipendenti uniformemente distribuite nell’intervallo [0, θ]. Determinare le pdf delle vv.cc.
a) Yn = max{X1 , X2 , ..., Xn };
b) Y1 = min{X1 , X2 , ..., Xn }.
Soluzione a) Ciascun elemento del campione ha pdf e funzione di ripartizione pari a
{ 1
se 0 ≤ x ≤ θ
θ
fX (x; θ) =
0 altrimenti,
∫
e
∫
u
FX (u) =
u
fX (x; θ) dx =
0
0
x
1
dx =
θ
θ
u
=
0
u
.
θ
Se Yn = yn , allora xi = yn per uno solo degli i ∈ {1, 2, ..., n}, mentre per le restanti n − 1 osservazioni si ha xi ≤ yn .
Così la funzione di ripartizione del massimo è pari alla probabilità che ogni elemento del campione sia minore o uguale
ad esso. Quindi, tenendo conto dell’indipendenza, possiamo scrivere:
FYn (yn ) = {FX (yn )}n
derivando si ottiene la funzione di densità:
F′Yn (yn ) = fYn (yn ) = n(FX (yn ))n−1 fX (yn ) = n
( y )n−1 1
n(yn )n−1
n
=
.
θ
θ
θn
b) Se Y1 = y1 , xi = y1 per uno solo degli i ∈ {1, 2, ..., n} e inoltre
P(Xi ≥ y1 ) = 1 − FX (y1 ) = 1 −
y1
.
θ
Ricordando che Y1 può essere una qualsiasi delle n vv.cc. X1 , X2 , ..., Xn , si ottiene che la funzione di ripartizione del
minimo, con ragionamento analogo al precedente, è
FY1 (y1 ) = {1 − FX (y1 )}n
inﬁne, derivando si ottiene:
(
)n−1
(
n(θ − y1 )n−1
y1 )n−1 1
θ − y1
1
fY1 (y1 ) = n 1 −
=n
=
.
θ
θ
θ
θ
θn
M. Di Marzio
81
Primi elementi di inferenza statistica (ed. maggio 2012)
11.3. Variabili casuali che derivano dalla normale
11.3
Variabili casuali che derivano dalla normale
Ora si introducono alcune variabili casuali che rivestono un ruolo importantissimo nella statistica inferenziale,
ossia la v.c. chi-quadrato, la v.c. t di Student e la v.c. F di Fisher. Esse sono deﬁnibili più o meno
direttamente come funzioni di vv.cc. normali.
Siano X1 , X2 , ..., Xr r vv.cc. indipendenti e tutte con distribuzione normale standard, allora la v.c. somma
dei quadrati
r
∑
X2r =
Xi2
i=1
è detta v.c. chi-quadrato con r gradi di libertà; qui X è la lettera greca χ in maiuscolo.
1
0.8
r=1
0.6
0.4
r=2
r=3
0.2
r=4
r=6
0
0
5
10
15
Figura 11.1: Funzioni di densità della v.c. X2r per diversi valori di r.
Si può dimostrare che
E[X2r ] = r
Var[X2r ] = 2r.
e
la pdf della v.c. X2r non viene riportata poiché non di interesse per questo corso, comunque, come si vede
dalla ﬁgura 11.1, essa è asimmetrica ma tende alla normale N (r, 2r) all’aumentare dei gradi di libertà. In
analogia a quanto appreso per la v.c. normale standard (sez. 7.3), indichiamo con χ2α,r la quantità che
soddisfa l’equazione
P(X2r > χ2α,r ) = α.
Se X e Y sono vv.cc. indipendenti e rispettivamente normale standard e chi-quadrato con r gradi di libertà,
allora la v.c.
X
Tr = √
Y /r
è detta t di Student con r gradi di libertà. La pdf della v.c. Tr non viene riportata, si tratta comunque
di una funzione simmetrica rispetto allo 0, di forma campanulare come la normale ma con code più alte;
inoltre, come si può vedere dalla ﬁgura 11.2, al crescere dei gradi di libertà r tende alla normale standard.
Tale convergenza, a diﬀerenza degli altri casi, è quasi completa già per piccoli valori di n. Infatti, come regola
generale, la convergenza alla normale è tanto più veloce tanto più simmetrica è la distribuzione di partenza.
In analogia a quanto appreso per le vv.cc. normale standard e chi-quadrato, indichiamo con tα,r la quantità
che soddisfa l’equazione
P(Tr > tα,r ) = α.
Se X e Y sono vv.cc. indipendenti chi-quadrato rispettivamente con r1 e r2 gradi di libertà, allora la v.c.
Fr1 ,r2 =
X/r1
Y /r2
è detta F di Fisher con r1 e r2 gradi di libertà. La pdf della v.c. Fr1 ,r2 non viene riportata, comunque,
come si può vedere dalla ﬁgura 11.3, è deﬁnita solo per valori positivi, è asimmetrica, ma come la χ2 , al
crescere dei gradi di libertà, si trasforma in una distribuzione normale. In analogia a quanto appreso per
le vv.cc. normale standard, chi-quadrato e t di Student, indichiamo con fα,r1 ,r2 la quantità che soddisfa
l’equazione
P(Fr1 ,r2 > fα,r1 ,r2 ) = α.
Primi elementi di inferenza statistica (ed. maggio 2012)
82
M. Di Marzio
11. FUNZIONI DI VARIABILI CASUALI
0.5
r=4
r=∞
r=1
0.4
f(x)
0.3
0.2
0.1
0
−5
0
5
x
f(x)
Figura 11.2: Funzioni di densità della v.c. Tr per diversi valori di r.
1
r1=10, r2=4
r1=10,r2=50
r1=10,r2=300
0.8
0.6
0.4
0.2
0
0
1
2
3
x
4
Figura 11.3: Funzioni di densità della v.c. Fr1 ,r2 per alcune coppie (r1 , r2 ).
11.4
Somme di particolari variabili casuali indipendenti
Se di n vv.cc. conosciamo non solo medie e varianze, ma sappiamo che hanno tutte la stessa pdf, anche se
con parametri diversi, esistono casi in cui la famiglia parametrica a cui apprtiene la pdf della somma è la
stessa a cui appartengono le singole vv.cc. sommate. Seguono alcuni dei casi più importanti.
⋄ Somma di vv.cc. binomiali Se n vv.cc. indipendenti X1 , X2 , ..., Xn hanno distribuzione binomiale
di parametri rispettivamente
(m1 , π), (m2 , π), ..., (mn , π), senza alcun
∑n calcolo possiamo concludere che
∑n
la v.c. somma i=1 Xi ha distribuzione binomiale con parametri ( i=1 mi , π). Infatti, Xi rappresenta
il numero di successi in mi prove dove P(successo) = π. Allora siccome
le vv.cc. X1 , X2 , ..., Xn sono
∑n
indipendenti, ne segue che S rappresenta il numero di successi in i=1 mi prove indipendenti,
ognuna
∑n
delle quali dà successo con probabilità π. Così S è una v.c. binomiale di parametri i=1 mi e π.
⋄ Somma di vv.cc. di Poisson Date n vv.cc. di Poisson indipendenti X1 , X2 , ∑
..., Xn ognuna con disn
tribuzione di Poisson con parametri rispettivamente
λ
t
,
λ
t
,
...,
λ
t
,
la
v.c.
1
1
2
2
n
n
i=1 Xi si distribuisce
∑n
come una v.c. di Poisson con parametro i=1 λi ti .
⋄ Somma di vv.cc. normali Siano X1 , X2 , . . . , Xn , n vv.cc. ∑
normali indipendenti aventi rispettivan
2
2
2
mente parametri
(µ
,
σ
),
(µ
,
σ
),
...,
(µ
,
σ
),
allora
la
v.c.
1 ∑
2
n
n
1
2
i=1 Xi ha distribuzione normale con
∑n
n
2
parametri i=1 µi e
σ
.
i=1 i
⋄ Somma di vv.cc. chi-quadrato Date n vv.cc. chi-quadrato
X1 , X2 , ..., Xn rispettiva∑indipendenti
n
mente con parametri r1 , r2 , ..., rn ,∑
la variabile casuale somma i=1 Xi si distribuisce ancora come una
n
v.c. chi-quadrato con parametro i=1 ri . Questo è ovvio, infatti ogni v.c. chi-quadrato è una somma
di vv.cc. normali standard indipendenti elevate al quadrato, così la somma di vv.cc. chi-quadrato è
una somma di somme di quadrati di normali standard.
M. Di Marzio
83
Primi elementi di inferenza statistica (ed. maggio 2012)
11.5. Teorema centrale del limite
1
f(x)
n=2
n=3
0.8
n=4
n=6
0.6
n=10
0.4
0.2
0
0
1
2
3
4
5
6
7
Figura 11.4: Distribuzioni di varie somme di vv.cc. uniformi indipendenti di parametri 0 e 1 con rispettive
approssimazioni normali date dal teorema centrale del limite (linea tratteggiata).
11.5
Teorema centrale del limite
Il teorema centrale del limite (TCL) è uno dei risultati più importanti del calcolo delle probabilità. La sua
portata nell’ambito della statistica è enorme.
Teorema 11.1. Teorema centrale del limite per la somma Siano X1 , X2 , . . . , Xn , n vv.cc. indipendenti
e identicamente distribuite (i.i.d.) con
µ e varianza σ 2 entrambe ﬁnite.
∑media
n
Al crescere di n la v.c. somma Sn = i=1 Xi tende ad avere distribuzione normale con media nµ e varianza
nσ 2 . In formule
(
)
Sn − nµ
√
lim P
≤ z = Φ(z).
n→∞
nσ 2
Che valore atteso e varianza di S siano nµ e nσ 2 è gia assicurato dalle proprietà della somma di variabili
casuali i.i.d. viste nella sezione 11.1. Piuttosto la grossa novità introdotta da questo teorema sta nello stabilire
che la distribuzione della v.c. somma converge alla distribuzione normale, qualunque sia la pfd delle vv.cc.
sommate. Quindi per n suﬃcientemente grande la conoscenza della distribuzione delle singole vv.cc. diventa
poco rilevante ai ﬁni del calcolo della distribuzione della somma, in quanto in virtù del TCL la distribuzione
della somma è approssimabile dalla pdf di una v.c. normale.
Ma quanto grande deve essere il campione aﬃnché l’approssimazione normale sia buona? Questo dipende
molto dalla simmetria della pdf comune alle vv.cc.. Per densità simmetriche si ha una buona convergenza
anche per n ≤ 10, come si può vedere nella ﬁgura 11.4, mentre una forte asimmetria ritarda la convergenza.
Una regola pratica abbastanza eﬃcace suggerisce che l’approssimazione è buona se n > 30.
Esempio 11.7. Nella ﬁgura 11.4 si riportano le pdf delle somme di n vv.cc. Xi ∼ U (0, 1), i.i.d. con i = 1, ..., n, nei
casi in cui n assume i valori seguenti: 2, 3, 4, 6, 10. Inoltre sono anche riportate le relative approssimazioni normali
date dal TCL (linea tratteggiata). Va rilevato che in questo caso l’approssimazione è subito molto buona.
Come si è appreso nella sezione 11.4 esistono vv.cc. che possono essere espresse come somma di vv.cc. i.i.d..
Ma secondo il TCL tali somme tendono ad avere distribuzione normale al crescere di n. Così concludiamo
che in base al TCL le vv.cc. esprimibili come somme di vv.cc. i.i.d. hanno tutte distribuzione asintotica
normale. Questo vale per la v.c. di Poisson, che tende alla normale al crescere del valore del parametro λ (si
veda la ﬁgura 5.4). Due ulteriori casi, che ora esaminiamo in dettaglio, sono quelli delle vv.cc. chi-quadrato
e binomiale.
◃ Approssimazione normale della v.c. chi-quadrato poiché una v.c. chi-quadrato con r gradi di
libertà è una somma di r vv.cc. chi-quadrato indipendenti con un grado di libertà, il TCL assicura che
la v.c. chi-quadrato tende ad avere distribuzione normale con media r e varianza 2r, all’aumentare di
r. Si veda la ﬁgura 11.1 per una veriﬁca empirica. Così se r è grande vale la seguente approssimazione
)
(
χ2α,r − r
≃ α,
P Z≥ √
2r
Primi elementi di inferenza statistica (ed. maggio 2012)
84
M. Di Marzio
11. FUNZIONI DI VARIABILI CASUALI
da cui si deduce che
χ2α,r − r
√
≃ zα
2r
e quindi
√
χ2α,r ≃ r + zα 2r.
Questa approssimazione è utile quando bisogna calcolare il valore χ2α,r e r è tanto grande da non essere
presente nelle tavole.
√
Esempio 11.8. Controlliamo il valore dell’approssimazione χ2α,r ≃ r + zα 2r√ con α = 0.05. Per r = 10
abbiamo che il vero valore è 18.31, mentre l’approssimazione è pari a 10 + 1.645 √2 × 10 = 17.35. Per r = 50
abbiamo che il vero valore è 67.50, mentre l’approssimazione è pari a 50 + 1.645 2 × 50 √
= 66.45. Inﬁne per
r = 100 abbiamo che il vero valore è 124.34, mentre l’approssimazione è pari a 100 + 1.645 2 × 100 = 123.26.
◃ Approssimazione normale della v.c. binomiale Abbiamo appreso che una v.c. binomiale Y con
parametri n e π è una somma di n vv.cc. binomiali con parametri 1 e π. Così è applicabile il TLC.
Allora, date n vv.cc. binomiali con parametri 1 e π, la loro somma – che è una v.c. binomiale – è
distribuita, al tendere di n a inﬁnito, come una normale N (nπ, nπ(1 − π)). La convergenza alla normale
è tanto più veloce quanto più simmetrica è la curva, cioè tanto più π è vicino a 0.5. Si osservi la ﬁgura
5.1 per una veriﬁca empirica. In formule
(
)
Y − nπ
lim P √
< z = Φ(z).
n→∞
nπ(1 − π)
Tale approssimazione richiede calcoli molto semplici e può essere utilizzata quando l’uso diretto della
distribuzione binomiale è reso proibitivo da numeri molto grandi.
Esempio 11.9. Si vuole sapere con che probabilità in 1000 giocate alla roulette il numero 2 esce almeno 25
volte. Chiaramente il numero di volte in cui esce 2 è descritto da una v.c. binomiale Y con parametri n = 1000
e π = 1/37. Così esistono 2 soluzioni dirette di questo problema
P(Y ≥ 25) =
1000
∑
x=25
(
)
1000
(1/37)x (1 − 1/37)1000−x
x
ma questa soluzione richiede il calcolo di 976 addendi. La soluzione che segue richiede il calcolo di 25 addendi
P(Y ≥ 25) = 1 − P(Y < 25)
(
)
24
∑
1000
=1−
(1/37)x (1 − 1/37)1000−x .
x
x=0
L’approssimazione normale fornita dal TCL aﬀerma che Y tende a distribuirsi come una normale con parametri
1
1
1
1000 37
e 1000 37
(1 − 37
) così si ottiene la seguente veloce soluzione

P(Y ≥ 25) = P  √
1
Y − 1000 37
1
1000 37
(1 −
1
25 − 1000 37
1
)
37
≥ √
1
1000 37
(1 −
1
)
37

 = P(Z ≥ −0.4) = Φ(0, 4) = 0, 6554.
Segue un’altra formulazione del TCL banalmente equivalente alla precedente ma di più immediata
utilità per
∑i=1
X −µ
la statistica. Tale formulazione si ottiene dividendo il numeratore e il denominatore di nσ√ni
per n.
Teorema 11.2. Teorema centrale del limite per la media Siano X1 , X2 , . . . , Xn , n vv.cc. i.i.d. con
media µ e varianza σ 2 entrambe ﬁnite.
∑n
Al crescere di n la v.c. media X =
i=1 Xi /n tende ad avere distribuzione normale con media µ e varianza
σ 2 /n. In formule
)
(
X −µ
√ ≤ z = Φ(z).
lim P
n→∞
σ/ n
M. Di Marzio
85
Primi elementi di inferenza statistica (ed. maggio 2012)
11.5. Teorema centrale del limite
1
0.8
n=1
n=2
0.6
0.5
0.4
0.2
0
0
1.5
1
2
3
4
0
0
5
n=10
1
2
0.5
1
0
0
1
2
2
3
3
0
0
4
n=30
1
2
Figura 11.5: Distribuzioni delle medie di n vv.cc. esponenziali indipendenti di parametro 1. Nel caso n = 30
è anche riportata la rispettiva approssimazione normale data dal teorema centrale del limite (linea
tratteggiata).
Esempio 11.10. Si consideri una popolazione esponenziale di parametro 1, cioè fX (x) = e−x x ≥ 0. Si dimostra che
la media in questo caso ha distribuzione fX (x) = {nn /(n−1)!}xn−1 e−nx per x > 0. In ﬁgura 11.5 sono rappresentate
distribuzioni di questa media campionaria per diverse numerosità campionarie. Per n = 1 abbiamo ovviamente una
distribuzione esponenziale fX (x) = e−x . Come emerge dall’analisi degli altri casi, per eﬀetto del TCL all’aumentare di
n la distribuzione tende ad essere normale. In particolare la media sarà sempre 1, ma lo s.q.m. che, come sappiamo è
√
pari a 1/ n, diminuisce progressivamente. Si può osservare come la distribuzione delle media campionaria nel caso di
una distribuzione fortemente non normale tende velocemente alla normale. Infatti già per n = 10 c’è una asimmetria
non troppo elevata.√ Per n = 30 siamo già molto vicini alla normale (in tratteggio è anche rappresentata la funzione
di densità N (1, 1/ 30)).
Primi elementi di inferenza statistica (ed. maggio 2012)
86
M. Di Marzio
12
Popolazione e campionamento
Indice
12.1
12.2
12.3
12.4
12.5
12.6
12.7
12.8
Popolazione, campione e inferenza . . . . . . . . . . . . .
Popolazione come pdf parametrica . . . . . . . . . . . . .
Campione casuale e osservato . . . . . . . . . . . . . . . .
Statistiche campionarie . . . . . . . . . . . . . . . . . . . .
Media campionaria: valore atteso e varianza . . . . . . .
Media campionaria: funzione di densità . . . . . . . . . .
Valore atteso della varianza campionaria . . . . . . . . .
Funzione di densità della varianza campionaria nel caso
gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.9 Altre statistiche calcolate su campioni casuali gaussiani
12.1
. .
. .
. .
. .
. .
. .
. .
di
. .
. .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
campioni
. . . . . .
. . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
casuali
. . . . .
. . . . .
87
88
89
91
93
93
94
95
96
Popolazione, campione e inferenza
Per popolazione si intende l’insieme degli elementi su cui un carattere statistico viene studiato. Il singolo
elemento è chiamato unità statistica. Salvo casi eccezionali i caratteri statistici assumono intensità diﬀerenti
nelle varie unità statistiche: studiare un carattere statistico presso una popolazione signiﬁca accertare come le
modalità si distribuiscono tra le unità. Ad esempio, è importante conoscere quali modalità sono maggiormente
presenti di altre, inoltre se le modalità osservate sono tutte vicine tra loro oppure distanti.
Non di rado sono di interesse anche popolazioni il cui numero di elementi non ha limite massimo, dette
inﬁnite. Le popolazioni inﬁnite sono chiaramente ipotetiche. Un esempio rilevante di popolazione inﬁnita è
costituito dai prodotti ottenibili ripetendo indeﬁnitamente una lavorazione nelle stesse condizioni.
Il carattere statistico viene spesso rilevato solo su una porzione limitata della popolazione chiamata campione; in tali casi l’indagine non viene estesa a tutte le unità statistiche allo scopo di contenerne i costi. Tuttavia
il campione viene analizzato per conoscere la popolazione. Di conseguenza è necessario che il campione sia
rappresentativo, cioè che la distribuzione del carattere presso il campione sia somigliante alla distribuzione
del carattere presso la popolazione.
Per inferenza statistica si intende l’insieme delle tecniche induttive che sulla base della informazione campionaria producono conclusioni riguardo aspetti incogniti della popolazione. Tali conclusioni sono deﬁnibili
generalizzazioni supportate da valutazioni probabilistiche circa la precisione di ciò che si aﬀerma.
Esempio 12.1. Occorre determinare il prezzo di una fornitura. Sulla base dell’intuito e della sensazione aﬀermiamo
“Ho visto 30 dei 1000 pezzi che mi vuoi vendere e mi sembra che i pezzi di questa fornitura non rispettino le speciﬁche”.
Mentre il prendere una decisione su base statistica inferenziale comporta una aﬀermazione più scientiﬁca: “Dopo aver
osservato un campione casuale di 30 pezzi estratto dai 1000 della fornitura, posso concludere con un livello di ﬁducia
pari al 99% che il 45% della fornitura non è conforme.”
Esempio 12.2. In un’azienda vengono prodotte viti lunghe 10 cm. La legge impone di vendere solo viti che non
diﬀeriscono di oltre il 2% dalla misura dichiarata. Così bisogna controllare che l’intera produzione sia conforme
alla legge, cioè tutte le viti devono avere lunghezza compresa tra 9.98 e 10.02 cm. Come eﬀettuare un tale controllo?
Certamente misurare ognuna delle decine di migliaia di viti prodotte non è proponibile. Il metodo statistico inferenziale
ci suggerisce di analizzare un campione della produzione totale, che sia rappresentativo della popolazione, e misurare
M. Di Marzio
87
Primi elementi di inferenza statistica (ed. maggio 2012)
12.2. Popolazione come pdf parametrica
solo le viti appartenenti ad esso: con una certa probabilità, proporzionale al loro numero, le viti del campione presentano
le caratteristiche delle viti della popolazione.
Esempio 12.3. Si è interessati alla qualità dei circuiti che escono da una linea di produzione di memorie ram. Un
giudizio sulla qualità riguarda di certo la distribuzione di un certo carattere X presso la popolazione dei circuiti che
sono prodotti nel lungo periodo.
Per fare inferenza su una popolazione del genere, che è inﬁnita, si può rilevare il carattere X su un campione di n
elementi.
12.2
Popolazione come pdf parametrica
Aﬃnché la distribuzione di un carattere presso una popolazione sia analizzata da metodologie soﬁsticate come
quelle inferenziali, è necessario che essa sia stilizzata attraverso una funzione deﬁnita sui valori del carattere. Quest’ultima sarà l’autentico oggetto dell’inferenza, non l’eﬀettiva distribuzione presso la popolazione.
Appare evidente che le funzioni più indicate per rappresentare la distribuzione di un carattere presso una
popolazione sono le pdf. Infatti in corrispondenza di un dato intervallo di valori del carattere la frequenza
relativa è perfettamente resa dalla probabilità che la pdf associa all’intervallo stesso.
Esempio 12.4. Una volta rappresentata la distribuzione del carattere peso all’interno di una popolazione con una pdf
normale con media 65 e varianza 9, qualunque caratteristica della distribuzione viene dedotta dalla pdf. Ad esempio
sappiamo che la percentuale di individui che pesano meno di 77 chili è pari al 15.87%, e che questa è uguale a quella di
individui che pesano più di 83 chili. Il grado di rispondenza al vero di queste conclusioni dipende da come fedelmente
il modello normale prescelto descriva la distribuzione del mondo reale.
Segue ora una impostazione del problema inferenziale detta parametrica. Molto spesso appare fondato che
la distribuzione del carattere sia stilizzata da una legge appartenente a una data famiglia parametrica di pdf
(si veda la sezione 3.3) nota
{fX (·; θ) : θ ∈ Θ ⊆ Rk },
oppure, nel caso discreto
{pX (·; θ) : θ ∈ Θ ⊆ Rk }.
Questo signiﬁca che prima di osservare i dati si elenca un’insieme di alternative, numerose quanto i possibili valori del parametro. Il problema è capire quale particolare pdf descriva la distribuzione del carattere
nella popolazione. Siccome ognuna delle pdf della famiglia diﬀerisce da qualsiasi altra solo per il valore del
parametro, decidere quale sia la popolazione consiste nello scegliere un valore per il parametro sulla base dei
dati campionari.
Si riﬂetta a questo punto come possa essere statisticamente semplice l’approccio parametrico: se la famiglia
è stata correttamente speciﬁcata, per una buona inferenza tutto viene ridotto alla stima del parametro sulla
base del campione, operazione quasi mai complicata.
In eﬀetti i parametri non saranno mai noti con certezza perché i dati a disposizione non riguardano l’intera popolazione. Così il procedimento inferenziale si limita a ridurre l’ignoranza circa il parametro con
un’aﬀermazione del tipo ‘con alta probabilità il parametro ha questo valore’.
Esempio 12.5. Un astronomo vuole misurare la precisione di uno strumento che rileva la distanza in anni luce tra
pianeti. La precisione dello strumento è data dalla distribuzione del carattere ‘errore’ presso la popolazione ipotetica
costituita dalle inﬁnite misurazioni di una stessa distanza. L’astronomo eﬀettua allora n misurazioni indipendenti
della distanza tra due particolari pianeti. Egli considera questi valori come un campione generato da una popolazione
inﬁnita ipotetica di misurazioni appartenente alla famiglia parametrica normale che, ricordiamo, ha come parametri
media e varianza. Sulla base del campione stima la media, che misura la distanza eﬀettiva, e lo s.q.m. che misura la
precisione. Operata la stima, l’astronomo assumerà di conoscere completamente la popolazione, e potrà calcolare con
che probabilità commetterà un certo errore nelle prossime misurazioni.
Esempio 12.6. Per studiare la misura delle viti dell’esempio 12.2 appare indicato il modello normale. In questo
modo la completa conoscenza di tutta la produzione dipende solo dai due parametri µ e σ. Due stime quindi risolvono
il problema.
Esempio 12.7. Per studiare la proporzione di simpatizzanti di un partito politico si usa un modello bernoulliano
di parametro π. Così l’unica cosa non nota è la proporzione di favorevoli π, cioè il parametro della distribuzione di
Bernoulli. La semplice stima di π risolve il problema.
Esempio 12.8. Si studia il numero di incidenti che avvengono in un periodo t su una strada statale. Il modello di
Poisson è il più indicato in questo caso. Anche qui c’è un solo parametro da stimare che è λt, ovvero il tasso medio
di incidenti nel periodo t.
Primi elementi di inferenza statistica (ed. maggio 2012)
88
M. Di Marzio
12. POPOLAZIONE E CAMPIONAMENTO
Figura 12.1: Istogrammi dei dati campionari.
Esempio 12.9. Si studia il tempo di durata di una certa componente elettronica. Il modello esponenziale è il più
indicato in questo caso. Anche qui c’è un solo parametro da stimare, che è λ.
Esempio 12.10. A volte i parametri della popolazione coincidono con la media o la varianza. Tuttavia, i parametri,
essendo contenuti nella espressione della popolazione, sono di conseguenza sempre contenuti nelle espressioni di media
e varianza. Se come modelli per la popolazione consideriamo le famiglie parametriche introdotte nei capitoli precedenti,
abbiamo quanto segue.
a) Se la popolazione è bernoulliana, il parametro π è anche la media della popolazione.
b) Se la popolazione è di Poisson, il parametro λt corrisponde sia alla media sia alla varianza.
c) Se la popolazione è geometrica, il parametro π non corrisponde né alla media né alla varianza.
d) Se la popolazione è uniforme continua, i parametri a e b, non corrispondono a media o varianza. Qui lo spazio
parametrico è contenuto in R2 .
e) Se X è normale, µ è la media e σ è lo s.q.m.. Qui lo spazio parametrico è R × R+ .
f ) Se la popolazione è esponenziale, il parametro λ non corrisponde alla media.
La fase dell’indagine statistica in cui si sceglie la famiglia parametrica viene chiamata speciﬁcazione del
modello. Naturalmente l’eﬃcacia del procedimento inferenziale poggia totalmente su questa fase. Se si
sbaglia famiglia, qualunque suo membro fornirà una spiegazione molto povera dei dati e una previsione molto
lontana dal vero. Se abbiamo una realizzazione da una popolazione normale con media negativa e speciﬁchiamo la famiglia esponenziale, nessuna pdf esponenziale potrà mai costituire una buona approssimazione,
indipendentemente dalla bontà del metodo di stima.
Ma come scegliere la famiglia parametrica? Come appare dagli esempi che precedono, si è sempre guidati da
informazioni a priori, cioè informazioni su X che precedono l’osservazione del campione, di regola originarie
di altre competenze scientiﬁche. Comunque anche la rappresentazione graﬁca dei dati campionari può orientare la scelta nel senso che la ‘forma’ del campione può oﬀrire indicazioni sulla ‘forma’ della popolazione
generatrice.
Esempio 12.11. Si consideri l’istogramma dei dati campionari (i rettangoli hanno area pari alla frequenza relativa
associata agli intervalli che costituiscono la loro base). Si osservi la ﬁgura 12.1: se l’istogramma dei dati campionari
è quello di sinistra, i dati ci suggeriscono una famiglia normale; se invece l’istogramma è quello di destra i dati ci
suggeriscono un modello esponenziale.
12.3
Campione casuale e osservato
Ora si introduce l’unica modalità di estrazione del campione considerata in questo corso, cioè il campionamento casuale semplice. Si consideri l’esperimento casuale ripetuto che consiste nell’osservare n volte una
v.c. X. Inoltre si assuma che le osservazioni siano indipendenti tra loro. Questo esperimento genera una
v.c. multipla X1 , X2 , ..., Xn 1 chiamata campione casuale. L’osservazione di un campione casuale produce
un insieme di valori numerici x1 , x2 , . . . , xn , detto campione osservato o realizzazione campionaria. Se
fX (·; θ) indica la pdf di X, allora per ogni j ∈ [1, 2, ..., n]
∫
b
P(Xj ∈ [a, b]) =
fX (x; θ) dx,
a
oppure, nel caso discreto,
P(Xj ∈ [a, b]) =
∑
pX (xi )
a≤xi ≤b
1 Per indicare una v.c. multipla dovremmo scrivere (X , X , ..., X ), ma per comodità di notazione le parentesi tonde verranno
n
1
2
omesse.
M. Di Marzio
89
Primi elementi di inferenza statistica (ed. maggio 2012)
12.3. Campione casuale e osservato
così Xj ha la stessa pdf di X, è una copia di X. Di conseguenza il campione è inteso come una v.c.
n−dimensionale a componenti indipendenti e identicamente distribuite (i.i.d.). La pdf congiunta di X1 , X2 , ..., Xn
è pari a
fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) = fX1 (x1 ; θ) fX2 (x2 ; θ) ...fXn (xn ; θ)
n
∏
=
fX (xi ; θ) .
i=1
Similmente, se X è discreta, la distribuzione di probabilità congiunta è così deﬁnita:
pX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) = pX1 (x1 ; θ)pX2 (x2 ; θ) ...pXn (xn ; θ)
n
∏
pX (xi ; θ).
=
i=1
Nella pratica si studiano generalmente popolazioni ﬁnite e a volte inﬁnite ipotetiche. Ora si osservi che per
ottenere un campione casuale da una popolazione ﬁnita occorre reinserire di volta in volta l’elemento estratto
nella popolazione. In questo modo prima di ogni estrazione la distribuzione di probabilità della v.c. da
osservare resta sempre la stessa, realizzando l’indipendenza e l’identica distribuzione. Ovviamente nel caso di
popolazione ipotetica inﬁnita il reinserimento perde completamente di importanza, essendo a tutti gli eﬀeti
indiﬀerente se l’individuo estratto venga reinserito.
Esempio 12.12. Data una popolazione esponenziale con parametro λ = 2, si calcolino le pdf congiunte delle seguenti
realizzazioni campionarie
{0.1, 0.1, 0.3, 2}
e
Applicando la deﬁnizione fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) =
∏n
{0.01, 0.05, 0.03, 0.02}.
i=1 fX
(xi ; θ), si ha:
fX1 X2 X3 X4 (0.1, 0.1, 0.3, 2; 2) = 2e−2×0.1 × 2e−2×0.1 × 2e−2×0.3 × 2e−2×2 = 24 e−2×2.5 = 0.1078,
e
fX1 X2 X3 X4 (0.01, 0.05, 0.03, 0.02; 2) = 2e−2×0.01 × 2e−2×0.05 × 2e−2×0.03 × 2e−2×0.02
= 24 e−2×0.11 = 12.8403.
Si noti che la seconda realizzazione ha densità molto maggiore della prima. Ciò perché è composta da elementi che si
trovano in regioni della densità esponenziale più probabili.
Esempio 12.13. Data una popolazione di Poisson con parametro λt = 1.5, si calcolino le pdf congiunte corrispondenti alle seguenti due realizzazioni campionarie:
{1, 1, 2, 3} e {5, 6, 7, 4}.
∏
Applicando la deﬁnizione pX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) = n
i=1 pX (xi ; θ), abbiamo:
1.52 e−1.5
1.53 e−1.5
1.57 e−6
×
=
= 0.0035,
2!
3!
2!3!
1.56 e−1.5
1.57 e−1.5
1.54 e−1.5
×
×
×
6!
7!
4!
pX1 X2 X3 X4 (1, 1, 2, 3; 1.5) = 1.5e−1.5 × 1.5e−1.5 ×
1.55 e−1.5
5!
1.522 e−6
=
= 0.0000000017745.
5!6!7!4!
pX1 X2 X3 X4 (5, 6, 7, 4; 1.5) =
Si può notare che la seconda realizzazione ha pdf congiunta molto minore della prima. Questo perché essa è composta
da elementi che hanno probabilità molto minori sotto il modello di Poisson considerato.
Indichiamo con C l’insieme dei possibili valori di X. Poiché il campione è casuale, cioè per ogni i si ha
Xi = X, allora l’insieme X di tutti i possibili campioni estraibili, detto spazio o universo campionario, è
dato dal seguente prodotto cartesiano:
X = C × C × .... × C.
X è il dominio della pdf congiunta, così la pdf congiunta è una funzione da X in [0, +∞) o [0, 1], a seconda
se X sia continua o discreta.
Esempio 12.14. Dato un campione casuale di tre elementi estratto dalla distribuzione:
a) bernoulliana,
b) di Poisson;
Primi elementi di inferenza statistica (ed. maggio 2012)
90
M. Di Marzio
12. POPOLAZIONE E CAMPIONAMENTO
descriviamo gli universi campionari di appartenenza del campione.
Poiché il campione considerato è casuale, cioè a componenti i.i.d., gli spazi campionari sono del tipo X = X × X × X.
Allora
a)
X = {0, 1} × {0, 1} × {0, 1}
= {(000), (001), (010), (100), (011), (101), (110), (111)};
b)
X = {0, 1, 2, ...} × {0, 1, 2, ...} × {0, 1, 2, ...}
= {(x1 , x2 , x3 ) : xi ∈ {0, 1, 2, ...}, ∀i ∈ {1, 2, 3}}.
Esempio 12.15. Dato un campione casuale di due elementi da una v.c. uniforme con parametri a = 0 e b = θ,
determinare spazio parametrico e spazio campionario. Lo spazio parametrico è chiaramente il semiasse positivo R+ .
Lo spazio campionario è deﬁnito in maniera più complicata del solito, infatti in questo caso esso cambia con θ poiché
con θ cambia l’insieme dei valori che X può assumere. Ad esempio, per θ = 5 si ha X5 = [0, 5] × [0, 5] mentre per
θ = 30 si ha X30 = [0, 30] × [0, 30]. Così in questo caso usiamo una deﬁnizione più generale di spazio campionario, e
cioè l’insieme di tutti gli spazi campionari che corrispondono ai possibili valori di θ:
∪
X=
Xθ .
θ∈Θ
12.4
Statistiche campionarie
Operativamente l’inferenza statistica è fondata su opportune misure di sintesi dell’informazione campionaria
chiamate statistiche campionarie. Per statistica campionaria si intende una funzione t nota (cioè che non
contiene parametri incogniti) così deﬁnita:
t : X → R.
Esempio 12.16. Si
di voler stimare il parametro θ. La quantità
∑supponga
n
1
mentre la quantità
incognito θ.
θ
i=1
1
n
∑n
i=1 Xi è una statistica campionaria
Xi non lo è poiché non è una funzione nota del campione. Essa infatti dipende dal parametro
Se la statistica t ha come argomento il campione casuale, allora costituisce v.c. T funzione di v.c. multipla
poiché funzione delle n variabili casuali componenti il campione:
T = t(X1 , X2 , ..., Xn ).
Mentre se applicata a una realizzazione campionaria x1 , x2 , . . . , xn , t genera una realizzazione numerica di
T , indicata con t e chiamata valore campionario di T :
t = t(x1 , x2 , ..., xn ).
Alcune importanti statistiche sono riportate nella tabella 12.1. Qui la v.c. X ha g modalità, mentre la
v.c. Y ha h modalità. Inoltre la frequenza assoluta della i-esima modalità è indicata
con ni , ∑
mentre la
∑g
h
frequenza assoluta della coppia di modalità (xi , yj ) è indicata con nij ; inﬁne n = i=1 ni e m = j=1 nj .
In caso di ambiguità gli indici sono accompagnati dalla indicazione in pedice del carattere a cui si riferiscono,
così ad esempio possiamo avere SX , codxy , devx . . . .etc. Se la popolazione generatrice è bernoulliana (cioè
X ∈ {0, 1}), la statistica media campionaria è chiamata proporzione campionaria ed è indicata con P ,
essa indica la frazione dei casi favorevoli presenti nel campione.
Esempio 12.17. Si dispone della seguente realizzazione campionaria estratta da una popolazione bernoulliana
{1, 1, 0, 0, 0, 1, 1, 0, 0, 0}.
Per calcolare la proporzione di successi nel campione applichiamo la statistica media campionaria. Si ottiene (1 + 1 +
0 + 0 + 0 + 1 + 1 + 0 + 0 + 0) × 1/10 = 4/10. Così nella realizzazione sotto esame c’è il 40% di successi.
Esempio 12.18. Una grande azienda rileva, su un campione di 60 operai, il numero X di anni di servizio ed il
numero medio Y di ore di straordinario mensilmente eﬀettuate. I dati raccolti sono riportati nella tabella seguente:
M. Di Marzio
91
Primi elementi di inferenza statistica (ed. maggio 2012)
12.4. Statistiche campionarie
Argomento della statistica campionaria
Campione casuale
Media
Devianza
X=
DEV =
S2 =
Varianza
Scarto
quadratico
medio
S=
COD =
Coeﬃciente
di
correlazione
R = √∑
n
Xi
i=1 n
∑n
i=1 (Xi
∑n
i=1
x=
− X)2
dev =
(Xi −X)2
n−1
s2 =
(Xi −X)2
n
i=1
n−1
∑m
j=1 (Xi
i=1
∑n
∑n
√∑
∑n
Codevianza
Realizzazione campionaria
cod =
∑m
∑g
xi ni
n
i=1 (xi
∑g
i=1
∑h
(xi −x)2 ni
n−1
j=1 (xi
i=1
− x)2 ni
(xi −x)2 ni
n−1
i=1
∑g
∑g
− X)(Yj − Y )
√∑
m
2
2
i=1 (Xi − X)
j=1 (Yi − Y )
i=1
i=1
√∑
g
s=
− X)(Yj − Y )
∑g
− x)(yj − y)nij
∑h
− x̄)(yj − ȳ)nij
√∑
h
2
2
i=1 (xi − x̄) ni
j=1 (yj − ȳ) nj
j=1 (Xi
r = √∑
g
j=1 (xi
i=1
Tabella 12.1: Alcune statistiche campionarie.
Y
[2, 6)
[6, 10)
X
[10, 14)
[14, 18)
6
2
0
0
8
10
8
4
4
2
4
14
10
8
6
10
2
26
12
6
4
0
0
10
20
14
12
14
60
Si vuole conoscere l’atteggiamento dei dipendenti verso lo straordinario a seconda dell’anzianità. Un indice statistico
utile a tale scopo è la codevianza campionaria. Si ricordi che, ai ﬁni del calcolo, alle classi vanno sostituiti i rispettivi
valori centrali. Ora, poiché x = 9.33 e y = 9.2, risulta:
cod = (4 − 9.33) (6 − 9.2) 2 + (16 − 9.33) (6 − 9.2) 8 + (4 − 9.33) (8 − 9.2) 4 + (8 − 9.33) (8 − 9.2) 4+
+ (12 − 9.33) (8 − 9.2) 2 + (16 − 9.33) (8 − 9.2) 4 + (4 − 9.33) (10 − 9.2) 8 + (8 − 9.33) (10 − 9.2) 6+
+ (12 − 9.33) (10 − 9.2) 10 + (16 − 9.33) (10 − 9.2) 2 + (4 − 9.33) (12 − 9.2) 6 + (8 − 9.33) (12 − 9.2) 4 =
= −254.16.
Si conclude che c’è discordanza tra i due caratteri: con l’aumentare dell’anzianità
di servizio si tende a chiedere meno
∑
straordinari. La codevianza si poteva calcolare anche con la formula cod = n
x
i=1 i yi − nx y. La somma dei prodotti
è pari a 4896, di conseguenza
cod = 4896 − 60 × 9.33 × 9.2 = −254.16.
Se T è continua (rispettivamente discreta), la relativa pdf fT (t) (risp. pT (ti )) è proporzionale al numero di
realizzazioni campionarie in corrispondenza delle quali T = t (risp. per le quali T = ti ). La pdf è in entrambi
i casi chiamata distribuzione campionaria della statistica T .
Poiché la statistica campionaria T è una v.c. espressa come funzione degli elementi del campione casuale, di
regola la pdf di T sarà funzione delle pdf dei singoli elementi campionari fX (xi ; θ)(oppure pX (xi ; θ)). Quindi,
di regola, la pdf di T dipenderà dal parametro incognito θ.
Riassumendo, abbiamo ad esempio per il caso continuo:
fT (t; θ) ∝ ♯{(x1 , x2 , ...., xn ) : t(x1 , x2 , ...., xn ) = t},
dove il simbolo ∝ signiﬁca ‘proporzionale a’ e ♯A indica la cardinalità dell’insieme A.
Primi elementi di inferenza statistica (ed. maggio 2012)
92
M. Di Marzio
12. POPOLAZIONE E CAMPIONAMENTO
12.5
Media campionaria: valore atteso e varianza
Da questa sezione in poi studiamo la distribuzione campionaria di varie statistiche campionarie sotto l’ipotesi
di campionamento casuale semplice. Ricordiamo che ciò signiﬁca che gli elementi del campione sono vv.cc.
i.i.d.. Iniziamo con la media campionaria, cioè: dato un campione casuale X1 , X2 , ..., Xn estratto da una pdf
con media µ e varianza σ 2 , calcoliamo valore atteso e varianza di X.
∑n
∑n
Per il valore atteso si ricordi che, date n vv.cc. identicamente distribuite, E[ i=1 Xi ] = i=1 E[Xi ] = nµ.
Così
[ n
]
∑ Xi
1
E
= nµ = µ.
n
n
i=1
∑n
∑n
Per la varianza si ricordi che, date n vv.cc. i.i.d., Var[ i=1 Xi ] = i=1 Var[Xi ] = nσ 2 . Così
[ n
]
1∑
1
σ2
Var
.
Xi = 2 nσ 2 =
n i=1
n
n
È importante sottolineare come questi risultati non dipendano dalla particolare distribuzione di X, ma solo
dal fatto che gli elementi del campione sono identicamente distribuiti e indipendenti.
Esempio 12.19. Sia X1 , X2 , ..., Xn un campione casuale generato da una popolazione fX .
⋄ Se X ha distribuzione bernoulliana di parametro π, allora
[ n
]
[ n
]
∑ Xi
∑ Xi
π(1 − π)
=π
e
Var
=
.
E
n
n
n
i=1
i=1
⋄ Se X ha distribuzione di Poisson di parametro λt, allora
[
E
n
∑
Xi
n
i=1
]
[
= λt
e
Var
n
∑
Xi
n
i=1
]
=
λt
.
n
⋄ Se X ha distribuzione chi-quadrato con r gradi di libertà
[ n
]
[ n
]
∑ Xi
∑ Xi
2r
E
=r
e
Var
=
.
n
n
n
i=1
i=1
⋄ Se X ha distribuzione normale di parametri µ e σ 2
[ n
]
∑ Xi
E
=µ
e
n
i=1
[ n
]
∑ Xi
σ2
Var
=
.
n
n
i=1
Così fX è centrata sulla media della popolazione generatrice, ed è più concentrata di essa. Si capisce facilmente
che X ha una varianza minore di X considerando che per campioni diﬀerenti ci può essere uno stesso valore
della media.
A diﬀerenza della varianza, la deviazione standard della distribuzione di X diminuisce solo a un tasso pari a
√
n, ciò vuol dire che per dimezzare la deviazione standard di X occorre quadruplicare le osservazioni, e non
semplicemente raddoppiarle.
Esempio 12.20. Si consideri una popolazione normale con media 0 e s.q.m. 2. La distribuzione della media
campionaria calcolata su campioni di 9 elementi sarà ancora normale
per il teorema sulla somma di vv.cc. normali.
√
Inoltre, per quanto appena visto, X avrà media 0 e s.q.m. 2/ 9. Si veda la ﬁgura 12.2. Se si vuole dimezzare la
varianza della media campionaria occorre utilizzare un campione di 18 elementi, così la varianza passerà da 4/9 a
4/18.
√ Se invece si vuole dimezzare lo s.q.m. bisognerà quadruplicare il campione così lo s.q.m. passerà da 2/3 a
2/ 9 × 4 = 2/6.
12.6
Media campionaria: funzione di densità
Dato un campione casuale di n elementi, se la media della popolazione è µ e la varianza σ 2 , il TCL aﬀerma
che, qualunque sia la popolazione, la media campionaria, per n grande, ha distribuzione approssimativamente
normale con media µ e varianza σ 2 /n (sez. 11.5). Così grazie al TCL siamo in grado di approssimare la
M. Di Marzio
93
Primi elementi di inferenza statistica (ed. maggio 2012)
f(x)
12.7. Valore atteso della varianza campionaria
0.6
0.5
0.4
0.3
0.2
0.1
0
−6
−4
−2
0
2
4
6
x
Figura 12.2: fX (·; θ) e fX (·; θ) (curva più concentrata).
distribuzione della più importante statistica campionaria senza conoscere la popolazione generatrice. Tuttavia
nei quattro casi particolari della sezione 11.4 possiamo derivare le distribuzioni esatte di X. Il ragionamento
considera la seguente banale identità:
( n
)
(
)
∑
k
P X=
=P
Xi = k ,
n
i=1
che permette di utilizzare direttamente i risultati trovati per la pdf della somma. Qui di seguito esponiamo
i quattro casi in dettaglio.
⋄ Se X ∼ B(1, π) allora, come visto,
∑n la media campionaria si indica con P e si chiama proporzione campionaria. In questo caso poiché i=1 Xi ∼ B(n, π), allora anche la proporzione ha la stessa distribuzione,
infatti è ovvio che
( n
)
(
)
∑
k
Xi = k
P P =
=P
n
i=1
così P assume i valori 0, 1/n, 2/n, ..., 1 con probabilità rispettivamente pari a
( )
( )
( )
n 0
n 1
n n
π (1 − π)n ,
π (1 − π)n−1 , ...,
π (1 − π)0 .
0
1
n
∑n
⋄ Se X ∼ P(λt) sappiamo che i=1 Xi ∼ P(nλt), e la media assumerà i valori k/n, k = 1, 2, ..., con
probabilità pari a
( n
)
(
)
∑
e−nλt (nλt)k
k
P X=
Xi = k =
=P
.
n
k!
i=1
In deﬁnitiva vediamo che in entrambi i casi si assegnano le probabilità delle somme ai valori delle medie.
∑n
⋄ Se X ha distribuzione chi-quadrato con r gradi di libertà, allora la v.c.
i=1 Xi ha anch’essa distribuzione chi-quadrato con nr gradi di libertà e quindi
( )
k
fX
= fX2nr (k).
n
⋄ Se inﬁne X ∼ N (µ, σ 2 ) si ha direttamente che
X ∼ N (µ, σ 2 /n).
12.7
Valore atteso della varianza campionaria
Dato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione con media µ e varianza σ 2 , si dimostra
che il valore atteso della statistica varianza campionaria è pari alla varianza della popolazione, cioè
E[S 2 ] = σ 2 .
La dimostrazione di ciò usa questa equazione
n
∑
(Xi − X)2 =
i=1
Primi elementi di inferenza statistica (ed. maggio 2012)
n
∑
(Xi − µ)2 − n(X − µ)2
i=1
94
M. Di Marzio
12. POPOLAZIONE E CAMPIONAMENTO
che ora dimostriamo essere vera. Infatti:
n
∑
(Xi − µ)2 =
i=1
n
∑
(Xi − X + X − µ)2
i=1
=
n
∑
[(Xi − X) + (X − µ)]2
i=1
=
n
∑
[(Xi − X)2 + (X − µ)2 + 2(Xi − X)(X − µ)]
i=1
=
=
n
∑
i=1
n
∑
(Xi − X)2 +
n
∑
(X − µ)2 + 2(X − µ)
i=1
n
∑
(Xi − X)
i=1
(Xi − X)2 + n(X − µ)2 .
i=1
Possiamo ora aﬀrontare il calcolo del valore atteso:
[
]
n
∑
1
E[S 2 ] = E
(Xi − X)2
n − 1 i=1
[ n
]
∑
1
2
2
=
E
(Xi − µ) − n(X − µ)
n−1
i=1
[ n
]
∑
1
E[(Xi − µ)2 ] − nE[(X − µ)2 ]
=
n − 1 i=1
]
[ n
∑
1
2
=
σ − nVar[X]
n − 1 i=1
(
)
1
σ2
1
=
nσ 2 − n ×
=
(n − 1)σ 2 = σ 2 .
n−1
n
n−1
Si noti che nel passaggio dalla prima alla seconda equazione abbiamo usato l’uguaglianza ottenuta nella prima
parte della sezione, e nel passaggio dalla seconda alla terza si è ricorso all’additività del valore atteso.
12.8
Funzione di densità della varianza campionaria nel caso di
campioni casuali gaussiani
Dato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione normale con media µ e varianza σ 2 , è
possibile conoscere la distribuzione esatta di S 2 . Infatti in questo caso si dimostra che S 2 ha una distribuzione
proporzionale a quella di una v.c. chi-quadrato con n−1 gradi di libertà. In particolare è una variabile casuale
del tipo
σ2
X2 .
n − 1 n−1
Si è detto proporzionale poiché si tratta di una v.c. chi-quadrato moltiplicata per la costante σ 2 e divisa per i suoi gradi di libertà. Presentiamone una dimostrazione non rigorosa ma molto semplice basata
sull’uguaglianza utilizzata per la dimostrazione di E[S 2 ] = σ 2 dove entrambi i membri sono divisi per σ 2 :
n
∑
(Xi − µ)2
i=1
σ2
=
n
∑
(Xi − X)2
σ2
i=1
+
n(X − µ)2
.
σ2
Ora il membro di sinistra dell’equazione è una somma di n normali standard elevate al quadrato, così è
una v.c. X2n . Il secondo addendo del membro di destra è una normale standard al quadrato, cioè una v.c.
X21 . Così poiché una v.c. chi-quadrato è espressa come somma di vv.cc. chi-quadrato indipendenti, allora
il membro di destra dell’equazione deve essere la somma di due vv.cc. chi-quadrato una con n − 1 gradi di
libertà, e l’altra con un grado di libertà. Se moltiplichiamo il primo addendo del membro di destra per σ 2 e
lo dividiamo per n − 1, la quantità risultante, che è la varianza campionaria, ha ovviamente la distribuzione
prima speciﬁcata.
M. Di Marzio
95
Primi elementi di inferenza statistica (ed. maggio 2012)
12.9. Altre statistiche calcolate su campioni casuali gaussiani
12.9
Altre statistiche calcolate su campioni casuali gaussiani
Dato un campione casuale X1 , X2 , ..., Xn estratto da una pdf normale con media µ e varianza σ 2 , si può
dedurre la distribuzione esatta di due statistiche campionarie molto utili per l’inferenza.
Abbiamo dimostrato che il primo addendo del membro di destra dell’equazione nel paragrafo precedente, cioè
U=
(n − 1)S 2
σ2
è una v.c. Chi quadrato con n − 1 gradi di libertà.
Esempio 12.21. Il tempo di esecuzione di un processo produttivo è descritto da una v.c. normale con media 30
e varianza 7.093. Una volta osservata l’esecuzione di 15 processi, si vuole calcolare la probabilità che la varianza
campionaria sia maggiore di 12. Si ha
(
)
(
)
(n − 1)S 2
14 × 12
P(S 2 > 12) = P
= P X214 > 23.685 = 0.05.
>
2
σ
7.093
Il valore della probabilità è stato ottenuto tramite le tavole della v.c. chi-quadrato.
Sempre sotto l’ipotesi di normalità sappiamo inoltre che la v.c.
Z=
X −µ
√
σ/ n
ha distribuzione normale standard. Di conseguenza
X −µ
√ = Tn−1 .
S/ n
√
Questo perché Tn−1 = Z/ U/(n − 1). In termini poco formali si può dire che la media campionaria
standardizzata utilizzando la varianza campionaria è una v.c. t di Student con n − 1 gradi di libertà.
Dati due campioni casuali indipendenti X1 , X2 , ..., Xn e Y1 , Y2 , ..., Ym estratti da popolazioni normali con
diverse medie ma uguali varianze σ 2 , si ha
2
SX
/σ 2
S2
= X
= Fn−1,m−1 ,
2
2
SY /σ
SY2
in quanto il rapporto di due vv.cc. chi-quadrato indipendenti rispettivamente divise per i propri gradi di
libertà ha distribuzione F di Fisher con n − 1 e m − 1 gradi di libertà.
L’aspetto notevole delle vv.cc. introdotte in questa sezione è che hanno distribuzioni che non dipendono da
µ e σ 2 sebbene queste siano contenute nelle loro deﬁnizioni. L’impiego statistico di U , Z, Tn−1 , X2n−1 e
Fn−1,m−1 sfrutterà proprio queste caratteristiche per costruire intervalli di conﬁdenza e test statistici.
Primi elementi di inferenza statistica (ed. maggio 2012)
96
M. Di Marzio
13
Verosimiglianza e suﬃcienza
Indice
13.1 Funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.2 Sintesi dell’informazione tramite statistiche . . . . . . . . . . . . . . . . . . . .
13.3 Statistiche suﬃcienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.1
97
98
99
Funzione di verosimiglianza
Sia la v.c. X discreta o continua, da qui in avanti indichiamo la sua pdf con fX (·; θ). Riassumiamo lo scenario
dell’inferenza parametrica. Dopo la fase di speciﬁcazione si ritiene che una famiglia del tipo
{fX (·; θ) : θ ∈ Θ ⊆ Rk }
contiene una pdf la quale descrive adeguatamente come il carattere di interesse sia distribuito presso la
popolazione. Tale pdf è nota a meno del valore assunto dal parametro θ. Inoltre si dispone della realizzazione
x1 , x2 , ..., xn di un campione casuale X1 , X2 , ...., Xn che proviene da essa.
Ora introduciamo lo strumento basilare dell’inferenza statistica. Fissata una realizzazione campionaria
x1 , x2 , ..., xn , per funzione di verosimiglianza si intende la pdf congiunta del campione avente come
parametro la realizzazione campionaria x1 , x2 , ...., xn e come variabile θ; in simboli:
L(θ; x1 , x2 , ..., xn ) =
n
∏
fX (θ; xi )
i=1
dove
L(θ; x1 , x2 , ..., xn ) : Θ → R+ .
Per brevità la notazione L(θ; x1 , x2 , ..., xn ) è spesso rimpiazzata da L(θ). Si noti che la funzione di verosimiglianza contiene tutta l’informazione su cui si basa l’inferenza statistica, infatti la sua formulazione scritta evidenzia
due ingredienti:
1) l’informazione a priori, cioè l’informazione di cui si dispone prima di osservare il campione, che è la
conoscenza della famiglia parametrica;
2) l’informazione a posteriori rispetto all’osservazione del campione, cioè la realizzazione campionaria.
Esempio 13.1. Come detto, per poter scrivere la funzione di verosimiglianza dobbiamo sapere a quale famiglia
parametrica appartiene la popolazione generatrice e dobbiamo disporre di una realizzazione campionaria. Seguono
esempi di funzioni di verosimiglianza.
⋄ Se si speciﬁca la famiglia normale con σ = 1, data la realizzazione x1 = 2, x2 = 4, x3 = 6, si ha la seguente
funzione di verosimiglianza:
(
)3
{
}
1
1
L(µ; 2, 4, 6) = √
exp − [(2 − µ)2 + (4 − µ)2 + (6 − µ)2 ] .
2
2π
Il graﬁco di L(µ; 2, 4, 6) è a sinistra in ﬁgura 13.1. Incidentalmente osserviamo che in questo caso lo spazio
parametrico può essere anche considerato R, non R × R+ , questo perché conosciamo la varianza.
M. Di Marzio
97
Primi elementi di inferenza statistica (ed. maggio 2012)
L(µ;2,4,6)
π8(1−π)10−8
13.2. Sintesi dell’informazione tramite statistiche
2
3
4
5
6
0
µ
0.2
0.4
0.6
0.8
π 1
Figura 13.1: Funzioni di verosimiglianza dell’esempio 13.1.
⋄ Se si speciﬁca la famiglia bernoulliana, e si ha la realizzazione x1 = 1, x2 = 1, x3 = 1, x4 = 0, x5 = 1, x6 =
1, x7 = 1, x8 = 1, x9 = 0, x10 = 1 si ottiene:
L(π; 1, 1, 1, 0, 1, 1, 1, 1, 0, 1) = π 8 (1 − π)10−8 .
In ﬁgura 13.1 possiamo osservare i graﬁci delle due funzioni di verosimiglianza.
Inﬁne, volendo eﬀettuare un parallelo tra funzione di densità congiunta del campione (sez. 12.3) e funzione
di verosimiglianza si può dire quanto segue. Nel caso di pdf congiunta è ﬁssato il valore di θ e quindi per
quel θ sono fornite le densità di tutte le realizzazioni in X e si scrive
fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) : X → R+ .
Mentre nel caso di funzione di verosimiglianza è ﬁssata una realizzazione x1 , x2 , ..., xn e si fornisce la densità
associata a quella particolare realizzazione sotto tutte le diverse ipotesi di θ, cioè sotto tutte le ipotesi di
popolazione. Con altre parole si può dire che la funzione di verosimiglianza indica per ogni valore di θ la
(densità di) probabilità che avevamo di osservare ciò che poi si è veriﬁcato.
Nel caso fosse necessario trovare il massimo della funzione di verosimiglianza, per comodità di calcolo, piuttosto che L(θ) conviene massimizzare il suo logaritmo neperiano (anche detto naturale) che è chiamato
funzione di log-verosimiglianza ed è indicato come
L(θ) = log(θ).
Infatti essendo il logaritmo una trasformazione monotòna, L(θ) ha gli stessi massimi di L(θ). Tuttavia il
logaritmo trasforma i prodotti in somme ed elimina le funzioni esponenziali e quindi ha una espressione molto
più facile da trattare.
Esempio 13.2. Le funzioni di log-verosimiglianza relative all’esempio 13.1 sono rispettivamente
1
1
L(µ; 2, 4, 6) = 3 log √ − [(2 − µ)2 + (4 − µ)2 + (6 − µ)2 ]
2
2π
e
L(π; 1, 1, 1, 0, 1, 1, 1, 1, 0, 1) = 8 log π + (10 − 8) log(1 − π).
Nella ﬁgura 13.2 sono riportati i rispettivi graﬁci. Si può notare che, anche se diverso da L, L = log L ne conserva i
punti di massimo, che sono rispettivamente 4 e 0.8.
13.2
Sintesi dell’informazione tramite statistiche
Si consideri una generica statistica T con un numero ﬁnito m di modalità.
dell’informazione contenuta nel campione osservato x1 , x2 , ...xn in due sensi:
Essa produce una sintesi
1) Si passa dall’elemento (x1 , x2 , ..., xn ) di uno spazio n-dimensionale X ⊆ Rn ad uno spazio unidimensionale poiché la statistica è un numero.
2) I valori assunti dalle statistiche sono molto meno numerosi delle realizzazioni campionarie possibili. Nel
nostro caso scriviamo m < ♯X. Segue una giustiﬁcazione formale di questo fatto.
La funzione t induce una partizione sullo spazio X. Infatti X è divisibile in sottoinsiemi incompatibili
ognuno dei quali contiene realizzazioni che generano uno stesso valore della statistica:
X = X1 ∪ X2 ∪ ... ∪ Xm ,
dove Xi è l’insieme di realizzazioni in corrispondenza di cui t genera il valore ti , inoltre - ma questo è
ovvio - qualunque realizzazione appartiene a un solo elemento della partizione {Xi , i = 1, 2, ..., m}.
Primi elementi di inferenza statistica (ed. maggio 2012)
98
M. Di Marzio
log L(µ;2,4,6)
8logπ+(10−8)log(1−π)
13. VEROSIMIGLIANZA E SUFFICIENZA
0
2
4
6
µ 8
0
0.5
π 1
Figura 13.2: Funzione di log-verosimiglianza dell’esempio 13.2.
Esempio 13.3. Si abbia una popolazione di Bernoulli, cioè una popolazione in cui ogni individuo detiene (1) o meno
(0) una caratteristica. Estraiamo un campione di tre elementi. Si avrà:
X = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)}.
Si consideri la statistica somma campionaria
T =
n
∑
Xi .
i=1
Anzitutto essa realizza una sintesi rispetto al campione perché al posto di considerare terne di numeri ne considera la
somma.
Inoltre, la partizione indotta da T è di 4 sottoinsiemi in corrispondenza dei 4 valori che la somma può assumere.
Infatti
t = 0 induce il sottoinsieme {(0, 0, 0)};
t = 1 induce {(1, 0, 0), (0, 1, 0), (0, 0, 1)};
t = 2 induce {(1, 1, 0), (1, 0, 1), (0, 1, 1)};
t = 3 induce {(1, 1, 1)}.
I quattro sottoinsiemi non hanno elementi in comune e la loro unione coincide con lo spazio campionario X. In parole
più semplici diciamo che di solito esistono meno valori della statistica campionaria – in questo caso 4 – rispetto al
numero delle realizzazioni – in questo caso 8 –.
13.3
Statistiche suﬃcienti
Una procedura inferenziale potrebbe giovarsi dell’ utilizzo di una statistica t = t(x1 , x2 , ..., xn ) al posto di
x1 , x2 , ..., xn ; infatti, per quanto detto nella sezione precedente, si otterrebbe una notevole sempliﬁcazione
dei calcoli. Ma questa sempliﬁcazione determina perdita di informazione: che t contenga meno informazione
di x1 , x2 , ..., xn lo si vede dal fatto che t non è una funzione biunivoca: in genere x1 , x2 , ..., xn non può essere
individuata a partire da t, mentre il converso è banalmente vero. Però non tutta l’informazione contenuta in
x1 , x2 , ..., xn è rilevante poiché non tutta riguarda il parametro incognito θ.
In deﬁnitiva risulta conveniente rimpiazzare x1 , x2 , ..., xn con t esclusivamente se t e x1 , x2 , ..., xn contengono
le stesse informazioni su θ, cioè se nel rimpiazzo si perde solo informazione che non riguarda θ.
T si dice suﬃciente per θ se, indiﬀerentemente da quali siano i valori assunti da x1 , x2 , ..., xn e da θ, t
contiene tutta l’informazione rilevante per θ presente nella realizzazione che lo ha generato.
Il tipo di sintesi che la statistica suﬃciente opera si può rendere con il seguente parallelo.
Si pensi al complesso dell’informazione campionaria come una miscela di pulviscoli di legno, ferro e plastica. Si
consideri l’informazione rilevante per il campione come la polvere di ferro. Si immagini la statistica suﬃciente
come una calamita. Si paragoni il processo di sintesi al passaggio della calamita sulla miscela di polveri. La
calamita riterrà tutto il pulviscolo di ferro tralasciando l’informazione non necessaria, cioè gli altri pulviscoli.
Per una deﬁnizione formale di statistica suﬃciente è necessario premettere quanto segue. Supponiamo che
t(x1 , x2 , ..., xn ) = t. Ora (T = t) si veriﬁca se e solo se si veriﬁca un elemento della partizione di X corrispondente a t. Di conseguenza (X1 = x1 , X2 = x2 , ..., Xn = xn ) ∩ (T = t) ha la stessa probabilità dell’intersezione
tra la realizzazione e quella partizione. Ma tale intersezione è ovviamente pari alla realizzazione stessa. Come
conseguenza si ha che fX1 X2 ...Xn T (x1 , x2 , ..., xn , t; θ) = fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ)
M. Di Marzio
99
Primi elementi di inferenza statistica (ed. maggio 2012)
13.3. Statistiche suﬃcienti
Una statistica T è detta suﬃciente se e solo se la pdf condizionata di x1 , x2 , ..., xn dato T = t, cioè
fX1 X2 ...Xn T (x1 , x2 , ..., xn , t; θ)
fT (t; θ)
fX X ...X (x1 , x2 , ..., xn ; θ)
= 1 2 n
fT (t; θ)
fX1 X2 ..Xn |t (x1 , x2 , ..., xn |T = t; θ) =
ha un’espressione che non dipende da θ per qualsiasi realizzazione t di T .
Il fatto che fX1 X2 ...Xn |t (x1 , x2 , ..., xn |T = t) non dipende da θ signiﬁca che la variabilità delle realizzazioni
campionarie che fanno capo al medesimo valore t non è generata da θ. Allora avere a disposizione l’una o
l’altra di due diverse realizzazioni che danno lo stesso valore di t è indiﬀerente ai ﬁni della conoscenza di θ.
Una formulazione alternativa di statistica suﬃciente è data dal seguente criterio di fattorizzazione. Una
statistica T si dice suﬃciente se e solo se esistono due funzioni non negative, g e h, tali che per qualsiasi
realizzazione campionaria x1 , x2 , ..., xn possiamo scrivere:
L(θ; x1 , x2 , ..., xn ) = g(T (x1 , x2 , ..., xn ); θ) × h(x1 , x2 , ..., xn ).
Per capire che il senso di questa deﬁnizione è identico a quello della deﬁnizione precedente, si considerino due
realizzazioni campionarie, x1 , x2 , ..., xn e x′1 , x′2 , ..., x′n . Ora, se T (x1 , x2 , ..., xn ) = T (x′1 , x′2 , ..., x′n ), allora il
rapporto tra le due rispettive verosimiglianze sarà pari a
h(x1 , x2 , ..., xn )
L(θ; x1 , x2 , ..., xn )
g(T (x1 , x2 , ..., xn ); θ) × h(x1 , x2 , ..., xn )
=
=
,
′
′
′
′
′
′
′
′
′
L(θ; x1 , x2 , ..., xn )
g(T (x1 , x2 , ..., xn ); θ) × h(x1 , x2 , ..., xn )
h(x′1 , x′2 , ..., x′n )
come si vede il rapporto delle verosimiglianze è ﬁsso per qualsiasi valore di θ. Di conseguenza i graﬁci
delle funzioni di verosimiglianza sono proporzionali. Ma verosimiglianze proporzionali garantiscono stesso
contenuto informativo, ad esempio hanno stessi massimi e minimi, e quindi identiche conclusioni inferenziali
indipendentemente dal fatto che i due campioni x1 , x2 , ..., xn e x′1 , x′2 , ..., x′n siano diversi.
Esempio 13.4. Dato il campione casuale X1 , X2 , X3 estratto da una popolazione bernoulliana, dimostrare che:
a) S1 = X1 + X2 + X3 è una statistica suﬃciente per π;
b) S2 = X1 X2 + X3 è una statistica non suﬃciente per π.
a) Per dimostrare che la statistica S1 è suﬃciente per π, occorre determinare la distribuzione del campione X1 , X2 , X3
condizionata ai valori della statistica ossia
fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 ) =
fX1 X2 X3 (x1 , x2 , x3 ; π)
fS1 (s1 ; π)
e veriﬁcare se essa dipende dal parametro π che identiﬁca la legge distributiva bernoulliana.
Lo spazio campionario di riferimento è
X = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)} .
La pdf del campione è
∑
fX1 X2 X3 (x1 , x2 , x3 ; π) = π
Inoltre, poiché la statistica S1 =
binomiale:
∑
i
xi
(1 − π)3−
∑
xi
.
xi è una somma di vv.cc. bernoulliane, essa segue una legge di distribuzione
(
fS1 (s1 ; π) =
)
∑
∑
3
∑
π xi (1 − π)3− xi .
xi
E dunque si hanno i seguenti calcoli:
Primi elementi di inferenza statistica (ed. maggio 2012)
100
M. Di Marzio
13. VEROSIMIGLIANZA E SUFFICIENZA
fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 )
Realizzazione
campionaria
s1
(0, 0, 0)
0
(0, 0, 1)
1
fX1 X2 X3 (0, 0, 1; π)/fS1 (1; π) = (1 − π)2 π/[
(3)
(1 − π)2 π] = 1/3
1
(0, 1, 0)
1
fX1 X2 X3 (0, 1, 0; π)/fS1 (1; π) = (1 − π)2 π/[
(3)
(1 − π)2 π] = 1/3
1
(1, 0, 0)
1
fX1 X2 X3 (1, 0, 0; π)/fS1 (1; π) = (1 − π)2 π/[
(3)
(1 − π)2 π] = 1/3
1
(0, 1, 1)
2
fX1 X2 X3 (0, 1, 1; π)/fS1 (2; π) = (1 − π)π 2 /[
(3)
(1 − π)π 2 ] = 1/3
2
(1, 0, 1)
2
fX1 X2 X3 (1, 0, 1; π)/fS1 (2; π) = (1 − π)π 2 /[
(3)
(1 − π)π 2 ] = 1/3
2
(1, 1, 0)
2
fX1 X2 X3 (1, 1, 0; π)/fS1 (2; π) = (1 − π)π 2 /[
(3)
(1 − π)π 2 ] = 1/3
2
(1, 1, 1)
3
fX1 X2 X3 (0, 0, 0; π)/fS1 (0; π) = (1 − π)3 /[
(3)
(1 − π)3 ] = 1
0
fX1 X2 X3 (1, 1, 1; π)/fS1 (3; π) = π 3 /[
(3) 3
π ]=1
3
Poiché fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 ) risulta indipendente da π, si conclude che S1 = X1 + X2 + X3 è una statistica
suﬃciente per π.
∑
A ben guardare, al risultato si perviene in maniera immediata. Infatti poiché s1 =
xi possiamo scrivere
∑
fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 ) =
∑
fX1 X2 X3 (x1 , x2 , x3 ; π)
π xi (1 − π)3− xi
1
∑
= ( 3 )
= ( 3 ) ∑x
xi
∑
∑
i (1 − π)3−
fS1 (s1 ; π)
π
x
x
i
i
così la distribuzione condizionata del campione X1 , X2 , X3 dato S1 = s1 non dipende da π, per qualsiasi valore di S1 .
b) Le modalità della statistica S2 sono:
Realizzazione
campionaria
Realizzazione
di S2
(0, 0, 0)
0
(0, 0, 1)
1
(0, 1, 0)
0
(1, 0, 0)
0
(0, 1, 1)
1
(1, 0, 1)
1
(1, 1, 0)
1
(1, 1, 1)
2
Essendo le sequenze di 0 e 1 (insuccessi e successi), che identiﬁcano le realizzazioni campionarie, incompatibili ed
equiprobabili, le densità fS2 (s2 ; π) sono ottenute come somma delle probabilità delle sequenze (x1 , x2 , x3 ) tali che
s2 = x1 x2 + x3 dove i ∈ {0, 1, 2} (ossia i possibili valori che la statistica S2 può assumere). Pertanto:
fS2 (0; π) = (1 − π)3 + (1 − π)π(1 − π) + π(1 − π)(1 − π)
= (1 − π)3 + 2π(1 − π)2
= (1 − π)2 (1 − π + 2π) = (1 − π)2 (1 + π);
fS2 (1; π) = (1 − π)(1 − π)π + (1 − π)ππ + π(1 − π)π + ππ(1 − π)
= (1 − π)2 π + 3π 2 (1 − π) = (1 − π)π(1 − π + 3π)
= (1 − π)π(1 + 2π);
fS2 (2; π) = π 3 .
M. Di Marzio
101
Primi elementi di inferenza statistica (ed. maggio 2012)
13.3. Statistiche suﬃcienti
Si ricava, dunque:
fX1 X2 X3 |s2 (x1 , x2 , x3 |s2 )
Realizzazione
campionaria
S2
(0, 0, 0)
0
(0, 0, 1)
1
(0, 1, 0)
0
fX1 X2 X3 (0, 1, 0; π)/fS2 (0; π) = (1 − π)2 π/[(1 − π)2 (1 + π)] =
π
1+π
(1, 0, 0)
0
fX1 X2 X3 (1, 0, 0; π)/fS2 (0; π) = (1 − π)2 π/[(1 − π)2 (1 + π)] =
π
1+π
(0, 1, 1)
1
fX1 X2 X3 (0, 1, 1; π)/fS2 (1; π) = (1 − π)π 2 /[(1 − π)π(1 + 2π)] =
π
1+2π
(1, 0, 1)
1
fX1 X2 X3 (1, 0, 1; π)/fS2 (1; π) = (1 − π)π 2 /[(1 − π)π(1 + 2π)] =
π
1+2π
(1, 1, 0)
1
fX1 X2 X3 (1, 1, 0; π)/fS2 (1; π) = (1 − π)π 2 /[(1 − π)π(1 + 2π)] =
π
1+2π
(1, 1, 1)
2
fX1 X2 X3 (0, 0, 0; π)/fS2 (0; π) = (1 − π)3 /[(1 − π)2 (1 + π)] =
fX1 X2 X3 (0, 0, 1; π)/fS2 (1; π) = (1 − π)2 π/[(1 − π)π(1 + 2π)] =
1−π
1+π
1−π
1+2π
fX1 X2 X3 (1, 1, 1; π)/fS2 (2; π) = π 3 /π 3 = 1
Poiché la distribuzione condizionata del campione X1 , X2 , X3 dati i valori s2 assunti da S2 dipende da π, si conclude
che la statistica S2 non è suﬃciente per π.
Primi elementi di inferenza statistica (ed. maggio 2012)
102
M. Di Marzio
14
Esercizi svolti
Esercizio 14.1. Su una popolazione di 3 elementi si è rilevato X, ottenendo {2, 6, 10}.
a) Determinare quanti e quali campioni casuali di numerosità n = 2 è possibile estrarre e calcolare il valore
medio del carattere X in ciascun campione;
b) costruire la distribuzione delle frequenze assolute e relative della media campionaria;
c) costruire la pdf della v.c. media campionaria.
Soluzione a) Il numero di campioni casuali di numerosità n = 2 estraibili da una popolazione di numerosità
N = 3 è pari al numero di disposizione con reimmissione, cioè N n = 32 = 9.
I possibili campioni e le rispettive medie sono:
(2, 2) x = 2;
(6, 2) x = 4;
(10, 2) x = 6;
(2, 6) x = 4;
(6, 6) x = 6;
(10, 6) x = 8;
(2, 10) x = 6;
(6, 10) x = 8;
(10, 10) x = 10.
b) La distribuzione delle frequenze con cui ciascuna media si presenta è:
xi
2
4
6
8
10
ni
1
2
3
2
1
9
ni /N n
1/9
2/9
3/9
2/9
1/9
1
c) Poiché i campioni sono equiprobabili, la probabilità di estrazione di ciascun campione è di 1/9, così la
distribuzione campionaria della v.c. X è data da:
xi
2
4
6
8
10
pX (xi )
1/9
2/9
3/9
2/9
1/9
1
Esercizio 14.2. Determinare media, varianza e scarto quadratico medio della distribuzione campionaria di
X, costruita nell’esercizio precedente.
Soluzione La media della v.c. media campionaria è ottenuta come somma dei valori xi ponderati con le
rispettive probabilità:
µX =
∑
i
xi pX (xi ) = 2 ×
2
3
2
1
1
+ 4 × + 6 × + 8 × + 10 × = 6.
9
9
9
9
9
La varianza della v.c. media campionaria è, invece, data dalla somma dei quadrati delle diﬀerenze tra i valori
xi ponderati con le rispettive probabilità
∑
2
2
=
(xi − µX ) pX (xi )
σX
i
2
= (2 − 6)
M. Di Marzio
1
2 2
2 3
2 2
2 1
+ (4 − 6)
+ (6 − 6)
+ (8 − 6)
+ (10 − 6)
= 5.33.
9
9
9
9
9
103
Primi elementi di inferenza statistica (ed. maggio 2012)
Inﬁne, lo scarto quadratico medio della distribuzione campionaria in esame, ottenuto come radice quadrata
positiva della varianza è pari a
√
2 = 2.31.
σX = + σX
Agli stessi risultati si arriva tramite il teorema su media e varianza della media campionaria:
µX = µX = 6 ;
σX
3.266
σX = √ = √ = 2.31.
n
2
Esercizio 14.3. Considerata la distribuzione di frequenze della variabile X costruita nell’esercizio 14.1,
determinare la probabilità che un campione casuale estratto dalla popolazione di riferimento, presenti media
maggiore di 2 ma non superiore a 6.
Soluzione Per determinare la probabilità richiesta dall’esercizio consideriamo i valori della funzione di
ripartizione in corrispondenza di X i = 6 e di X i = 2.
Infatti:
(
)
P 2 < X ≤ 6 = FX (6) − FX (2) .
Dalla distribuzione di frequenza della variabile X si ricava:
FX (2) =
da cui:
1
9
e
FX (6) =
6
1 2 3
+ + = .
9 9 9
9
(
) 6 1
5
P 2<X≤6 = − = .
9 9
9
In alternativa
)
(
2 3
5
P 2 < X ≤ 6 = P(4) + P(6) = + = .
9 9
9
Esercizio 14.4. La durata in ore di un certo tipo di lampadine X si distribuisce secondo una legge incognita
con
( deviazione
) standard σX = 8. Supponendo di estrarre un campione casuale di 36 lampadine e sapendo che
P X ≤ 1400 = 0.9332 calcolare µX .
Soluzione Poiché, per il TCL, al crescere della numerosità campionaria la distribuzione della v.c. media
campionaria può essere convenientemente
approssimata dalla distribuzione normale, con media µX e varianza
√
2
σX
/n, la quantità (X − µX ) n/σ
tenderà
a distribuirsi secondo una√normale standard.
X
√
Dall’uguaglianza Z = (X − µX ) n/σX si ricava che µX = X − ZσX / n.
Di questa equazione conosciamo le grandezze:
x = 1400,
σX = 8,
n = 36.
Inoltre Z può essere trovato(col seguente
) ragionamento.
Il dato di cui si dispone è P X ≤ 1400 = 0.9332 e, per quanto detto, possiamo scrivere:
(
)
P X ≤ 1400 = P (Z ≤ z) = 0.9332.
Sulle tavole della funzione di ripartizione della pdf normale standardizzata si trova il valore z = 1.5 in
corrispondenza di 0.9332. Pertanto, sostituendo nell’equazione impostata inizialmente, si ottiene:
8
µX = 1400 − 1.5 √ = 1398.
36
Esercizio 14.5. In un’azienda produttrice di software, le ore settimanali di straordinario si distribuiscono
con media µ = 6 e varianza σ 2 = 0.36. Si sa che questa settimana 49 programmatori hanno prenotato lo
straordinario. Gli accantonamenti predisposti possono bastare per al massimo 300 ore. Sorge il problema
se gli accantonamenti siano suﬃcienti. A tal ﬁne ci si chiede qual è la probabilità che il totale delle ore
settimanali di straordinario che saranno richieste sia non superiore a 300.
Soluzione Sebbene non si conosca la distribuzione
delle ore settimanali di straordinario, per il TCL, la
∑n
pdf della v.c. somma campionaria Y = i=1 Xi è approssimabile alla distribuzione normale con parametri
2
µY = nµX e σY2 = nσX
. Pertanto la distribuzione del totale delle ore di straordinario del campione di 49
programmatori, tende a distribuirsi normalmente con media e scarto quadratico medio
√
√
µY = nµX = 49 × 6 = 294 ;
σY = nσX = 7 0.36 = 4.2 .
Primi elementi di inferenza statistica (ed. maggio 2012)
104
M. Di Marzio
14. ESERCIZI SVOLTI
(
)
300 − 294
P (Y ≤ 300) = P Z ≤
= P (Z ≤ 1.4286) .
4.2
Allora
Consultando le tavole della funzione di ripartizione della pdf normale standardizzata, in corrispondenza di
z = 1.43, si ottiene
P (Z ≤ 1.4286) = 0.9236.
Esercizio 14.6. Un’azienda intende attivare una linea di produzione ad elevata automazione in grado di
aumentare notevolmente la quantità prodotta giornaliera e che inoltre favorisce un notevole risparmio sulla
forza lavoro. Dalle informazioni del fornitore l’azienda viene a sapere che ci si deve attendere un 10%
di produzione non conforme al giorno. Dopo alcuni calcoli di budget si decide di non attivare la linea di
produzione se, su un campione casuale di 500 pezzi, la percentuale D di pezzi difettosi è pari o superiore al
13%. Determinare la probabilità che l’azienda non attivi la linea di produzione.
Soluzione Con un campionamento casuale da una popolazione
che è chiaramente bernoulliana, P è la
∑n
statistica proporzione campionaria: P = X/n dove X = i=1 Xi è la statistica somma campionaria e misura
il numero di pezzi difettosi presenti nel campione. Allora P si distribuirà come una binomiale riscalata con
n, per cui media, varianza e s.q.m. saranno rispettivamente pari a:
π(1 − π)
0.1 × 0.90
=
= 0.00018,
n
500
√
√
π(1 − π)
0.10 × 0.90
σP =
=
= 0.0134.
n
500
σP2 =
µP = π = 0.1,
Una ovvia soluzione è quella di calcolare la probabilità in questione facendo uso della distribuzione binomiale,
dovendo calcolare:
P (X ≥ 13) =
100
∑
0.1x (1 − 0.1)
100−x
oppure
P (X ≥ 13) = 1 −
x=13
12
∑
0.1x (1 − 0.1)
100−x
x=0
ciò risulta piuttosto laborioso, mentre una semplice soluzione è oﬀerta dall’approssimazione normale della
proporzione campionaria fornita dal TCL. Allora si ragionerà nel seguente modo.
Si consideri che per il TCL al crescere della numerosità campionaria n la distribuzione della proporzione
campionaria dei difetti P sarà approssimabile dalla distribuzione normale. Allora, ricorrendo alla standardizzazione, si ha:
P − µP
Z=
.
σP
Quindi, la probabilità che l’azienda non attivi la linea di produzione in questione è pari a
(
)
0.13 − 0.10
P (P ≥ 0.13) = P Z ≥
= P (Z ≥ 2.24) .
0.0134
Ricavando dalle tavole delle aree funzione di ripartizione della pdf della normale standardizzata il valore
corrispondente a z = 2.24, si ottiene la probabilità che l’azienda non attivi la linea di produzione:
P (P ≥ 0.13) = 1 − P (Z ≤ 2.24) = 1 − 0.9875 = 0.0125.
Esercizio 14.7. Sia X1 , . .∑
. , Xn un campione casuale estratto da una pdf B(n, π). Dimostriamo che la
n
statistica campionaria T = i=1 Xi è suﬃciente per π.
Soluzione Come si sa, la somma di n bernoulliane di parametro π si distribuisce come una binomiale di
parametri n e π. Inoltre la densità congiunta campionaria è
n
∏
π xi (1 − π)(1−xi ) = π
∑
xi
(1 − π)
∑
(1−xi )
= π t (1 − π)n−t ;
i=1
allora:
pX1 X2 ...Xn (x1 , x2 , ..., xn ; π)
π t (1 − π)n−t
= (n) t
=
n−t
pT (t; π)
t π (1 − π)
( )−1
n
t
che non dipende da π.
M. Di Marzio
105
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 14.8. Sia X1 , . . . , Xn un campione casuale∑
da una popolazione normale con parametri µ e σ 2 .
n
Dimostriamo che la statistica media campionaria X = i=1 Xi /n è suﬃciente per µ.
Soluzione Nello scrivere la densità condizionata consideriamo prima il numeratore, cioè la densità congiunta
campionaria e esprimiamolo in una formulazione conveniente al nostro caso:
{
}
n
∏
(
)−1/2
(xi − µ)2
2πσ 2
exp −
fX1 X2 ...Xn (x1 , ..., xn ; µ, σ) =
2σ 2
i=1
{ ∑n
}
(
)−n/2
(xi − µ)2
= 2πσ 2
exp − i=1 2
2σ
utilizzando la relazione trovata nella sezione 12.7 otteniamo
}
{ ∑n
(
)
(xi − x̄)2 + n(x̄ − µ)2
2 −n/2
fX1 X2 ...Xn (x1 , ..., xn ; µ, σ) = 2πσ
exp − i=1
.
2σ 2
Riguardo la pdf della media campionaria fX (x̄; µ, σ 2 ), sappiamo che in questo caso è normale con parametri
µ e σ 2 /n. Per cui la densità condizionata sarà:
{ ∑n
}
2
2
(
)
2 −n/2
i=1 (xi −x̄) +n(x̄−µ)
2πσ
exp
−
2
2σ
fX1 X2 ...Xn (x1 , ..., xn ; µ, σ)
{
}
=
( 2πσ2 )−1/2
n(x̄−µ)2
fX (x̄; µ, σ)
exp −
n
2σ 2
{ ∑n
}
2
(
)
−1/2
2 −(n−1)/2
i=1 (xi − x̄)
=n
2πσ
exp −
2σ 2
che non dipende da µ. Così abbiamo provato che X è suﬃciente per µ.
Esercizio 14.9. Sia X1 , X2 , ..., Xn un campione casuale da una pdf uniforme nell’intervallo [0, θ]. Dimostrare
che
a) Yn = max{X1 , X2 , ..., Xn } è una statistica suﬃciente per θ;
b) Y1 = min{X1 , X2 , ..., Xn } non è una statistica suﬃciente per θ.
Soluzione a) Per dimostrare che Yn è una statistica suﬃciente per θ occorre dimostrare che la pdf congiunta
del campione dato Yn = yn non dipende da θ.
Poiché le vv.cc. X1 , X2 , ..., Xn hanno pdf
{ 1
se 0 ≤ x ≤ θ
θ
fX (x; θ) =
0 altrimenti,
e, come dimostrato nell’esercizio 11.6
fYn (yn ) =
n(yn )n−1
,
θn
si ottiene
fX1 X2 ...Xn Yn (x1 , x2 , ..., xn , yn ; θ)
fX X ...X (x1 , x2 , ..., xn ; θ)
= 1 2 n
fYn (yn )
fYn (yn )
n
(1/θ)
1
=
=
.
(n(yn )n−1 )/θn
n(yn )n−1
fX1 X2 ...Xn |yn (x1 , x2 , ..., xn ; θ|Yn = yn ) =
Pertanto la pdf congiunta del campione dato Yn = yn non dipende da θ, e si conclude che Yn è una statistica
suﬃciente per θ.
b) come dimostrato nell’esercizio 11.6, dato che
fY1 (y1 ) =
n(θ − y1 )n−1
,
θn
si ha che
fX1 X2 ...Xn Y1 (x1 , x2 , ..., xn , y1 ; θ)
fX X ...X (x1 , x2 , ..., xn ; θ)
= 1 2 n
fY1 (y1 )
fY1 (y1 )
1
(1/θ)n
=
.
=
(n(θ − y1 )n−1 )/θn
n(θ − y1 )n−1
fX1 X2 ...Xn |y1 (x1 , x2 , ..., xn ; θ|Y1 = y1 ) =
Pertanto la pdf congiunta del campione dato Y1 = y1 dipende dal parametro θ; di conseguenza la statistica
Y1 non è suﬃciente per θ.
Primi elementi di inferenza statistica (ed. maggio 2012)
106
M. Di Marzio
15
Stima
Indice
15.1 Il problema della stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
15.2 Proprietà degli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
15.3 Proprietà per piccoli campioni
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
15.4 Proprietà per grandi campioni
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
15.5 Costruzione degli stimatori
15.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Il problema della stima
Supponiamo di essere interessati a ridurre la nostra ignoranza sulla distribuzione di un carattere quantitativo
X in una popolazione. Sappiamo già che la distribuzione del carattere appartiene a una famiglia parametrica
a noi nota indicata con {fX (·; θ); θ ∈ Θ ⊂ Rk }, ma non sappiamo quale sia. In altri termini, ne conosciamo
la forma funzionale a meno del valore del parametro.
Così dobbiamo stimare θ sulla base della realizzazione di un campione casuale estratto da fX (·; θ). A tale
ﬁne usiamo una statistica campionaria ϑ̂ che trasforma i dati campionari in valori del parametro:
ϑ̂ : X → Θ.
Essendo una statistica, ϑ̂ può essere applicata al campione casuale, e allora deﬁnisce la v.c. stimatore
indicata come
Θ̂ = ϑ̂(X1 , X2 , ..., Xn ) ,
oppure può essere applicata a una particolare realizzazione campionaria, e allora deﬁnisce il valore campionario
di Θ̂ che è chiamato stima ed è indicato come
θ̂ = ϑ̂(x1 , x2 , ..., xn ) .
Tradizionalmente, con una infelice traduzione dall’inglese, si parla di stima puntuale in luogo di stima.
Tuttavia l’espressione inglese point estimation sarebbe meglio tradotta con l’espressione, ancorché poco in
uso, stima per punti.
Esempio 15.1. Un tecnico che pesa minerali sa che la popolazione ipotetica degli errori di pesatura ha forma normale.
Qui la stima dei parametri equivale alla stima di media e varianza. Si vogliono stimare i parametri sulla base della
realizzazione campionaria 1 x1 , x2 ..., xn . Indicata con X la v.c. continua che descrive gli errori di misurazione, per
la pdf normale si ha µ = E[X] e σ 2 = Var[X]. In analogia all’espressione formale dei parametri il tecnico può operare
le seguenti stime
n
n
1∑
1∑
xi
e
σˆ2 =
(xi − µ)2
µ̂ =
n i=1
n i=i
1 Da qui in avanti per realizzazione campionaria si intenderà, quando non diversamente speciﬁcato, la realizzazione di un
campione casuale.
M. Di Marzio
107
Primi elementi di inferenza statistica (ed. maggio 2012)
15.2. Proprietà degli stimatori
Ogni realizzazione x1 , x2 , ..., xn di un campione casuale X1 , X2 , ..., Xn dà luogo a una particolare stima θ̂: la
popolazione ipotetica delle stime, corrispondente all’insieme delle possibili realizzazioni X, deﬁnisce la pdf
di Θ̂ che è indicata con fΘ̂ (·; θ), ed è chiamata distribuzione campionaria dello stimatore. Si noti che
essa in generale dipende da θ poichè la fonte di casualità di Θ̂ è la pdf del campione casuale che, a sua volta,
dipende da θ.
Esempio 15.2. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione normale di parametri µ e σ.
La statistica media campionaria X può essere scelta come stimatore per la media della popolazione µ, e la sua pdf
campionaria è normale con parametri µ e σ 2 /n, come dimostrato nella sezione 12.5. Così scriviamo fX (·; µ, σ) =
N (µ; σ 2 /n). Come già osservato alla ﬁne della sezione 12.4 la pdf dello stimatore contiene il parametro da stimare,
come evidenziato dal suo simbolo generico fΘ̂ (·; θ).
15.2
Proprietà degli stimatori
Di regola per la stima di un parametro incognito θ è possibile ricorrere a molte statistiche campionarie, così
bisogna applicare criteri che consentano di scegliere tra le diverse opzioni.
Esempio 15.3. Alcune statistiche utilizzabili come stimatori del parametro µ di una pdf normale sono:
X=
n
1∑
Xi ;
n i=1
T =
X2 + X1
;
2
Q = mediana[X1 , X2 , ..., Xn ] ;
V = X1 ;
R = moda[X1 , X2 , ..., Xn ] .
Il modo più ragionevole di giudicare uno stimatore consiste nel riferirsi alle caratteristiche della sua distribuzione campionaria fΘ̂ (·; θ). In particolare, è importante valutare come fΘ̂ (·; θ) è dislocata intorno al
valore del parametro θ. Naturalmente è auspicabile che fΘ̂ (·; θ) sia concentrata intorno a θ.
Esempio 15.4. Supponiamo di dover stimare il parametro µ della popolazione dell’esempio 12.20. Usiamo gli stimatori X e V dell’esempio 15.3. Le rispettive distribuzioni campionarie sono rappresentate in ﬁgura 12.2. Chiaramente
lo stimatore preferibile è X perché molto più concentrato intorno al valore del parametro che è 0.
Tale idea di concentrazione è deﬁnita in vari modi tramite funzioni della v.c. errore
Θ̂ − θ .
Si può infatti misurare la distorsione, cioè quanto il valore atteso dell’errore sia piccolo (vd. sez. 15.3).
Oppure l’errore quadratico medio, quanto il valore atteso dell’errore al quadrato sia piccolo (vd. sez. 15.3).
In questi casi misuriamo quanto possiamo aspettarci che la stima risulti vicina al parametro. Proprietà come
queste sono deﬁnite, forse impropriamente, per piccoli campioni o esatte perché si calcolano per una ﬁssata
ampiezza campionaria.
Di cruciale importanza è il comportamento dello stimatore al crescere della numerosità campionaria. Le
proprietà per cui lo stimatore riesce a sfruttare in termini di maggiore accuratezza l’aumento dell’informazione
dato dall’aumento della numerosità campionaria sono dette per grandi campioni o asintotiche.
Esempio 15.5. Da una pdf normale standard sono state estratte 500 realizzazioni di campioni casuali di numerosità
crescenti che vanno da 1 a 500. Per ognuno di questi campioni è stata calcolata la media come stima di µ = 0. La
ﬁgura 15.1 rappresenta i valori delle medie campionarie in corrispondenza delle rispettive numerosità. Risulta evidente
che la precisione delle stime aumenta con l’aumentare di n.
L’aumento di accuratezza dovuto all’aumentare di n può essere descritto in vari modi: il valore atteso del
quadrato dell’errore deve tendere a 0, oppure la probabilità che l’errore si annulli deve tendere a 1 (vd. sez.
15.4).
Si noti che nello speciﬁcare le proprietà dello stimatore, pretenderemo sempre che queste devono essere valide
per qualsiasi valore di θ. Ciò per il semplice fatto che non sappiamo qual è il valore di θ, così, per essere
aﬃdabile, una proprietà deve mantenersi ovunque – o come anche si dice uniformemente – valida lungo
l’intero spazio parametrico Θ.
Primi elementi di inferenza statistica (ed. maggio 2012)
108
M. Di Marzio
15. STIMA
media
campionaria
0.5
0
−0.5
−1
0
100
200
300
400
numerosità campionaria
500
Figura 15.1: Stime di µ = 0 tramite la media campionaria.
15.3
Proprietà per piccoli campioni
Come si è detto, un primo modo di misurare la bontà di uno stimatore è considerare il valore atteso del suo
errore. In particolare, essendo il parametro θ una quantità ﬁssa, si ha
E[Θ̂ − θ] = E[Θ̂] − θ.
E[Θ̂] − θ è detta distorsione ed indicata con dist[Θ̂]. Come diﬀerenza tra due quantità ﬁsse, la distorsione
non è una v.c.. A parità di altre condizioni preferiamo lo stimatore con distorsione più prossima allo zero.
Uno stimatore Θ̂ si dice non distorto o corretto se per qualsiasi valore di θ in Θ si ha E[Θ̂] = θ (oppure
dist[Θ̂] = 0). In pratica ciò implica che se si potesse ripetere la stima un grosso numero di volte su altrettanti
campioni della stessa numerosità, la media di tutte le stime ottenute sarebbe molto vicina o coincidente con
il valore del parametro.
Esempio 15.6. Sia X1 , X2 , ..., Xn un campione casuale, ecco due casi di statistiche utilizzabili come stimatori
corretti.
⋄ La media campionaria X è uno stimatore corretto per la media µ della popolazione, infatti E[X] = µ. Nel caso
di popolazione bernoulliana diciamo che la statistica proporzione campionaria P è uno stimatore corretto di π
poiché E[P ] = π.
⋄ La varianza campionaria S 2 (lo s.q.m. campionario S) è uno stimatore corretto per la varianza (s.q.m.) della
popolazione σ 2 (σ), infatti E[S 2 ] = σ 2 . Ne consegue che anche lo s.q.m. campionario è corretto per σ, cioè
E[S] = σ.
Esempio 15.7. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf N (0, σ 2 ). Lo stimatore T =
2
1
n
∑n
i=1
Xi2
è corretto per σ . Per dimostrare ciò si consideri la quantità
∑ Xi2
nT
=
,
2
σ
σ2
i=1
n
che, in quanto somma di n vv.cc. normali standard al quadrato, è una v.c. chi-quadrato con n gradi di libertà. Si ha
]
] = n, e quindi nE[T
= n, da cui
allora che E[ nT
σ2
σ2
E[T ] =
nσ 2
= σ2 .
n
Esempio 15.8. Dato il campione casuale X1 , X2 , X3 dalla pdf esponenziale fX (x; λ) = λe−λx , λ ≥ 0, lo stimatore
3/(X1 + X2 + X3 ) è corretto per il parametro λ. Infatti
]
[
3
3
3
3
=
=
=
= λ.
E
X1 + X2 + X3
E[X1 + X2 + X3 ]
E[X1 ] + E[X2 ] + E[X3 ]
3/λ
M. Di Marzio
109
Primi elementi di inferenza statistica (ed. maggio 2012)
15.3. Proprietà per piccoli campioni
La correttezza ci assicura che in media lo stimatore né sottostima né sovrastima il parametro, cioè non
contiene deviazioni sistematiche rispetto a θ. Tuttavia essa non è una caratteristica che basta da sola poiché
non dice alcunchè circa la dispersione di fΘ̂ (·; θ) intorno a θ. Ma una dispersione elevata vaniﬁca la correttezza
poiché in tal caso si possono avere stime molto lontane da θ anche se in media queste sono pari ad esso.
Ora si introduce una misura che tiene conto sia della distorsione che della varianza dello stimatore.
Dato uno stimatore Θ̂ di θ, l’ errore quadratico medio (EQM) di Θ̂ è la quantità deﬁnita da:
EQM[Θ̂] = E[(Θ̂ − θ)2 ].
In quanto media della diﬀerenza al quadrato tra Θ̂ e θ, l’indice EQM[Θ̂] è una misura della dispersione di Θ̂
intorno a θ, esattamente come la varianza di una v.c. è una misura della dispersione della v.c. intorno al suo
valore atteso. Si noti che, a diﬀerenza della distorsione, l’errore quadratico medio non può essere negativo.
L’errore quadratico medio può scriversi come somma di varianza dello stimatore e distorsione al quadrato,
infatti
EQM[Θ̂] = E[(Θ̂ − θ)2 ]
= E[(Θ̂ − µΘ̂ + µΘ̂ − θ)2 ]
= E[{(Θ̂ − µΘ̂ ) + (µΘ̂ − θ)}2 ]
= E[(Θ̂ − µΘ̂ )2 + (µΘ̂ − θ)2 + 2(Θ̂ − µΘ̂ )(µΘ̂ − θ)]
= E[(Θ̂ − µΘ̂ )2 ] + E[(µΘ̂ − θ)2 ] + 2E[(Θ̂ − µΘ̂ )(µΘ̂ − θ)];
ma
2E[(Θ̂ − µΘ̂ )(µΘ̂ − θ)] = (µΘ̂ − θ)2E[Θ̂ − µΘ̂ ] = (µΘ̂ − θ)2(µΘ̂ − µΘ̂ ) = 0,
inoltre
E[(µΘ̂ − θ)2 ] = (µΘ̂ − θ)2
per cui
EQM[Θ̂] = E[(Θ̂ − µΘ̂ )2 ] + (µΘ̂ − θ)2 = Var[Θ̂] + dist2 [Θ̂].
Esempio 15.9. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf normale di parametri µ incognito e
σ 2 = 2. Si consideri come stimatore di µ la statistica T = X1 + X2 . Poiché
EQM[T ] = E[(T − µ)2 ] = Var[T ] + dist2 [T ],
essendo
Var[T ] = Var[X1 + X2 ] = Var[X1 ] + Var[X2 ] = 2σ 2 = 4
e
dist2 [T ] = (E[T ] − µ)2 = (E[X1 + X2 ] − µ)2 = (E[X1 ] + E[X2 ] − µ)2 = (2µ − µ)2 = µ2
si ha
EQM[T ] = 4 + µ2 .
Il criterio dello EQM suggerisce di scegliere lo stimatore con lo EQM più basso per qualsiasi valore di θ in
Θ. Tale proprietà assicura che grossi scostamenti della stima dal vero valore del parametro si veriﬁcheranno
con probabilità inferiore a quella di scarti contenuti.
Ma come si vede dalla sua deﬁnizione, lo EQM dipende da θ. Purtroppo ne deriva che non sempre è possibile
utilizzare tale criterio, poiché non si può trovare uno stimatore con errore quadratico medio uniformemente
minimo lungo tutto lo spazio parametrico Θ.
Esempio 15.10. Siano W1 e W2 stimatori del parametro θ per cui EQM[W1 ] = (θ/4)2 e EQM[W2 ] = (θ/4 + 5)2 .
Lo spazio parametrico è Θ = [−30, 10]. Se θ ∈ [−30, −10] si ha EQM[W1 ] > EQM[W2 ], mentre se θ ∈ [−10, 10] è vero
il contrario. Sulla base del confronto tra gli EQM non è allora possibile stabilire quale sia lo stimatore migliore per il
semplice motivo che non sappiamo in quale zona si trova il parametro. La ﬁgura 15.2 illustra il caso.
Se gli stimatori Θ̂1 e Θ̂2 sono entrambi corretti, si ha che EQM[Θ̂i ] = Var[Θ̂i ], per i = 1, 2. In questo caso
particolare, se Var[Θ̂1 ] < Var[Θ̂2 ] si sceglierà lo stimatore Θ̂1 poiché la sua distribuzione è più concentrata
intorno al parametro. Allora diremo che Θ̂1 è più eﬃciente di Θ̂2 . Se tra tutti gli stimatori corretti di un
parametro esiste il più eﬃciente si dirà che esso è eﬃciente in senso assoluto.
Primi elementi di inferenza statistica (ed. maggio 2012)
110
M. Di Marzio
15. STIMA
EQM[W ]
EQM[W1]
20
2
15
10
5
0
−5
−10
−30
−20
−10
0
10
Θ
Figura 15.2: Errori quadratici medi degli stimatori W1 e W2 .
Esempio 15.11. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf normale con media µ incognita e
varianza σ 2 = 4. Scegliamo lo stimatore di µ tra le seguenti statistiche campionarie
T1 = X 1 ;
T2 =
X1 + X2
.
2
Poiché
E[T1 ] = E[X1 ] = µ
[
]
X1 + X2
1
µ+µ
= (E[X1 ] + E[X2 ]) =
= µ,
2
2
2
gli stimatori T1 e T2 sono entrambi corretti per µ. Per stabilire quale dei i due stimatori sia il più eﬃciente,
confrontiamo Var[T1 ] e Var[T2 ]. Poiché
Var[T1 ] = Var[X1 ] = σ 2 = 4
e
E[T2 ] = E
e
[
X1 + X2
Var[T2 ] = Var
2
]
=
1
σ2 + σ2
σ2
4
(Var[X1 ] + Var[X2 ]) =
=
= = 2,
4
4
2
2
risulta
Var[T2 ] < Var[T1 ],
e quindi tra T1 è T2 lo stimatore più eﬃciente è T2 .
Ma come fare se Var[Θ̂1 ] < Var[Θ̂2 ] ma E[Θ̂1 ] ̸= θ e E[Θ̂2 ] = θ? Eﬃcienza e distorsione si compongono nel
criterio dello EQM per cui è sempre suﬃciente confrontare EQM[Θ̂1 ] e EQM[Θ̂2 ].
Esempio 15.12. Si considerino due stimatori della media della popolazione µ, W1 e W2 , tali che:
E[W1 ] = µ, E[W2 ] = µ + 3, Var[W1 ] = 26, Var[W2 ] = 16,
Sebbene distorto, W2 è più eﬃciente, infatti EQM[W1 ] = 26 mentre EQM[W2 ] = 25.
Esempio 15.13. Sia X1 , X2 , ..., Xn un campione casuale generato da una pdf normale con media incognita µ e
varianza σ 2 = 4. Si considerino come stimatori di µ lo stimatore T1 proposto nell’esempio 15.11 e lo stimatore
W = X1 + X2 .
Poiché T1 è uno stimatore corretto per µ si ha EQM[T1 ] = Var[T1 ] = 4. Per lo stimatore W si ha invece
E[W ] = E[X1 + X2 ] = E[X1 ] + E[X2 ] = 2µ.
Pertanto W non è uno stimatore corretto per µ e
dist[W ] = E[W ] − µ = 2µ − µ = µ.
Poiché
Var[W ] = Var[X1 + X2 ] = σ 2 + σ 2 = 8,
risulta
EQM[W ] = Var[W ] + dist2 [W ] = 8 + µ2 .
Pertanto
EQM[T1 ] < EQM[W ]
e si conclude che tra T1 e W lo stimatore da preferire per µ è T1 .
M. Di Marzio
111
Primi elementi di inferenza statistica (ed. maggio 2012)
15.4. Proprietà per grandi campioni
Passando a una diﬀerente proprietà, deﬁniamo lineare uno stimatore Θ̂ che sia espresso come funzione lineare
degli elementi del campione, cioè se:
n
∑
Θ̂ =
ai Xi .
i=1
dove le quantità a1 , a2 , ..., an sono costanti.
Esempio 15.14. Sia dato un campione
casuale X1 , X2 , ..., Xn estratto da una popolazione con media µ e varianza
∑
σ 2 . La media campionaria X = n−1 n
i=1 Xi è uno stimatore lineare. Qui ai = 1/n per i = 1, 2, ..., n.
Dato un campione casuale estratto da una pdf con media µ, ora dimostriamo un risultato molto interessante
che
∑n
accredita la media come il migliore stimatore tra quelli
i=1 ai = 1.
∑n per cui ai ≥ 0 per ogni i ∈ [1, 2, ..., n] e
Dimostriamo prima che gli stimatori lineari per cui i=1 ai = 1 e ai ≥ 0 sono corretti:
]
[ n
n
n
∑
∑
∑
ai Xi =
ai µ = µ
ai = µ.
E
i=1
i=1
i=1
[ ]
Passiamo adesso alla varianza. Sappiamo che Var X = σ 2 /n. Invece per un generico stimatore lineare abbiamo che
[ n
]
n
n
∑
∑
∑
a2i .
Var
ai Xi =
a2i Var[Xi ] = σ 2
i=1
i=1
i=1
Così il confronto tra gli EQM si riduce allo studio del segno della diﬀerenza tra le due varianze. Si ha
[ n
]
( n
)
∑
∑ 2 1
2
ai −
Var
ai Xi − Var[X] = σ
n
i=1
i=1
( n
)
∑ 2 2
1
2
=σ
ai − +
n
n
i=1
( n
)
∑n
n
∑ 2 2
1∑1
2
i=1 ai
=σ
+
ai −
n
n i=1 n
i=1
(
)
n
∑ 2 2ai
1
= σ2
ai −
+ 2
n
n
i=1
)2
n (
∑
1
= σ2
≥ 0.
ai −
n
i=1
Poiché la diﬀerenza tra le due varianze è positiva, allora abbiamo dimostrato che la media aritmetica ha errore
quadratico medio (o varianza) uniformemente minima all’interno della classe considerata.
15.4
Proprietà per grandi campioni
Le proprietà ﬁnora presentate riguardano un’ampiezza n del campione ﬁssata. Ora ci chiediamo come
dovrebbe comportarsi uno stimatore all’aumentare dell’ampiezza campionaria. In eﬀetti, al crescere di n
cresce l’informazione sul parametro. Quindi vorremmo che lo stimatore fosse in grado di sfruttare l’aumento
dell’informazione per essere via via più preciso; le proprietà di uno stimatore al crescere dell’ampiezza del
campione sono dette, come anticipato, per grandi campioni o asintotiche.
Nel seguito sono enunciate alcune tra le principali proprietà asintotiche degli stimatori. Nell’enunciare dette
proprietà lo stimatore sarà indicato con Θ̂n per sottolineare che la sua pdf fΘ̂n (·; θ) cambia forma al variare
di n.
Lo stimatore Θ̂n si deﬁnisce asintoticamente corretto, se all’aumentare di n la sua distorsione tende a 0,
per qualsiasi valore di θ in Θ. In formule
lim E[Θ̂n ] − θ = 0.
n→+∞
Esempio 15.15. Si consideri un campione casuale X1 , X2 , ..., Xn generato da una pdf di Poisson con parametro
incognito λ. Lo stimatore
∑n
Tn =
i=1 Xi
n−1
è uno stimatore distorto per λ. Si ha infatti
[ n
]
[ ∑n
]
n
∑
1
1 ∑
nλ
i=1 Xi
E[Tn ] = E
=
E
Xi =
̸= λ.
E [Xi ] =
n−1
n−1
n
−
1
n
−1
i=1
i=1
Primi elementi di inferenza statistica (ed. maggio 2012)
112
M. Di Marzio
15. STIMA
Tuttavia poiché
dist[Tn ] = E[Tn ] − λ =
nλ
nλ − nλ + λ
λ
−λ=
=
,
n−1
n−1
n−1
si ha che
λ
= 0,
n−1
e si conclude pertanto che Tn è uno stimatore asintoticamente corretto per λ.
lim dist[Tn ] = lim
n→+∞
n→+∞
Lo stimatore Θ̂n si deﬁnisce coerente (o consistente) in media quadratica, se all’aumentare di n il suo
EQM tende ad annullarsi per qualsiasi valore di θ in Θ. In formule
lim EQM[Θ̂n ] = 0.
n→+∞
Ora, essendo EQM[Θ̂n ] = Var[Θ̂n ] + dist2 [Θ̂n ], le condizioni
lim E[Θ̂n ] − θ = 0
e
n→+∞
lim Var[Θ̂n ] = 0
n→+∞
sono necessarie e suﬃcienti aﬃnché Θ̂n sia consistente in media quadratica.
Esempio 15.16. Sia X1 , X2 , ..., Xn un campione casuale avente pdf generatrice normale con varianza nota σ 2 = 5
e media incognita µ. Lo stimatore
∑n
i=1
Xn =
Xi
n
è uno stimatore corretto per µ. Si ha pertanto
EQM[X n ] = Var[X n ] =
σ2
5
= ,
n
n
e poiché
lim EQM[X n ] = lim
n→+∞
n→+∞
5
= 0,
n
lo stimatore X n è consistente in media quadratica.
Esempio 15.17. Si consideri lo stimatore T dell’esempio 15.7. Esso è consistente in media quadratica. Infatti,
abbiamo già provato che la distorsione è nulla, così resta da provare che la varianza tende a 0 con l’aumentre di n.
Ricordando che per la variabile casuale chi-quadrato con n gradi di libertà, indicata con X2n , risulta Var[X2n ] = 2n,
abbiamo
[ 2
]
[ ]
σ 2
σ4
2nσ 4
2σ 4
Var[T ] = Var
Xn = 2 Var X2n =
=
.
2
n
n
n
n
Ora
2σ 4
lim
= 0.
n→∞ n
Esempio 15.18. Dato un campione casuale di n elementi da una popolazione con varianza σ 2 , si consideri il
seguente stimatore per la media aritmetica:
T = 0.8X1 +
0.2
∑n
i=2
Xi
n−1
Sebbene T sia corretto, e quindi anche asintoticamente corretto, tuttavia esso non é coerente in media quadratica,
poichè al crescere di n la varianza non tende a zero, infatti
∑
(
)
0.22 n
0.04
i=2 Var[Xi ]
=
0.64
+
σ2
Var[T ] = 0.82 Var[X1 ] +
(n − 1)2
n−1
così limn→+∞ EQM[T ] = 0.64σ 2 .
Esempio 15.19. Lo stimatore T dell’esempio 15.9 non è consistente poichè, se n → ∞, il suo errore quadratico
medio continua comunque a valere 4 + µ2 poichè non dipende da n.
Lo stimatore Θ̂n si deﬁnisce semplicemente coerente (o consistente), se al crescere della dimensione
campionaria assume, con probabilità 1, valori sempre più vicini al valore eﬀettivo del parametro da stimare
per qualsiasi valore di θ in Θ. In formule
lim P(|Θ̂n − θ| < ε) = 1,
n→+∞
dove ε è un numero positivo piccolo a piacere.
M. Di Marzio
113
Primi elementi di inferenza statistica (ed. maggio 2012)
15.5. Costruzione degli stimatori
Ma quale relazione esiste tra i due tipi di coerenza? La coerenza in media quadratica implica la coerenza
semplice. Segue una dimostrazione di questa relazione che riguarda il solo caso di stimatori corretti. Con la
simbologia appena introdotta, si consideri la seguente formulazione della disuguaglianza di Chebyshev (sez.
3.11). Posto µn = E[Θ̂n ] e σn2 = Var[Θ̂n ]:
P(|Θ̂n − µn | < kσn ) ≥ 1 −
1
,
k2
dove k > 0. Ponendo ϵ = kσn si ottiene
P(|Θ̂n − µn | < ϵ) ≥ 1 −
σn2
,
ϵ2
passando al limite si ha
σn2
,
n→+∞ ϵ2
lim P(|Θ̂n − µn | < ϵ) ≥ 1 − lim
n→+∞
se Θ̂n è corretto, allora µn = θ; inoltre la coerenza in media quadratica implica che limn→+∞ σn2 = 0, così
lim P(|Θ̂n − θ| < ϵ) ≥ 1,
n→+∞
inﬁne, ricordando che la probabilità non può essere maggiore di uno, si ottiene che
lim P(|Θ̂n − θ| < ε) = 1.
n→+∞
Esempio 15.20. Si consideri lo stimatore X n dell’esempio 15.16. Poiché X n è consistente in media quadratica,
allora è anche semplicemente consistente. Risulta infatti
P(|X n − µ| < ϵ) ≥ 1 −
σ 2 /n
ϵ2
e poiché
lim
n→+∞
σ2
= 0,
n
risulta
lim P(|X n − µ| < ϵ) = 1.
n→∞
Uno stimatore Θ̂n si deﬁnisce asintoticamente normale se la sua pdf tende alla normale, per qualsiasi
valore di θ in Θ. In formule


Θ̂n − E[Θ̂n ]
lim P  √
≤ z  = Φ(z)
n→+∞
Var[Θ̂n ]
Grazie alla vasta applicabilità del TCL, tanti stimatori sono asintoticamente normali, ciò sempliﬁcando
notevolmente le analisi teoriche.
Esempio 15.21. Dato il campione casuale X1 , X2 , ..., Xn , la media campionaria è asintoticamente normale in virtù
del TCL.
15.5
Costruzione degli stimatori
Finora sono stati trattati alcuni dei principali criteri per giudicare uno stimatore. In questa sezione verrà
aﬀrontato il problema della costruzione di uno stimatore. Sebbene ne esistano di numerosi, discutiamo solo
due metodi: il metodo dell’analogia e il metodo della massima verosimiglianza. Un terzo, il metodo dei
minimi quadrati, si riferisce a un problema inferenziale leggermente diverso e verrà presentato nel capitolo
24.
Il metodo dell’analogia è molto naturale ed intuitivo. Esso consiste nell’utilizzare come stimatore la formula
che il parametro ha nella popolazione. Un esempio al riguardo è riportato nell’esempio 15.1. Purtroppo lo
stimatore per analogia non presenta proprietà rilevanti, così non è quasi mai consigliabile.
Il metodo della massima verosimiglianza è unanimemente riconosciuto come il più importante per le
numerose e importanti proprietà vantate (accennate al termine di questa sezione). Giova anzitutto ricordare
la deﬁnizione di funzione di verosimiglianza su cui tutto si basa.
Primi elementi di inferenza statistica (ed. maggio 2012)
114
M. Di Marzio
15. STIMA
La funzione di verosimiglianza di un campione casuale è
L(θ; x1 , x2 , ..., xn ) =
n
∏
fX (θ; xi );
i=1
essa ha per dominio lo spazio parametrico Θ, e per ogni valore θ ∈ Θ fornisce la probabilità (o densità)
congiunta – quindi una misura della credibilità – che la realizzazione x1 , x2 , ..., xn abbia origine da fX (·; θ).
Evidentemente il valore di θ che rende massima L(θ) indica la popolazione presso cui la realizzazione
x1 , x2 , ..., xn ha maggiore probabilità di essere estratta, e quindi la popolazione con cui la realizzazione è maggiormente compatibile. Di conseguenza risulta fondato scegliere come stima proprio quel valore del parametro
che identiﬁca l’elemento della famiglia parametrica più compatibile con la realizzazione campionaria osservata.
La stima di massima verosimiglianza di θ è il valore θ̂ dello spazio parametrico Θ in corrispondenza del
quale la funzione di verosimiglianza L(θ) raggiunge il massimo, cioè se θ̂ è la stima di massima verosimiglianza,
allora
L(θ̂) ≥ L(θ)
∀θ ∈ Θ.
Bisogna osservare, comunque, che la stima così ottenuta è un semplice numero. Per cui se si usasse una
diversa realizzazione campionaria (stessa numerosità o numerosità diversa) si dovrebbe rifare tutto il calcolo
(cioè formulare L(θ) e trovarne il punto d’ascissa del massimo). Questo si evita se invece la stima può
essere espressa come una statistica, cioè se si riesce a scriverla come una funzione della generica realizzazione
campionaria, cioè se si riesce a trovare una funzione ϑ̂ tale che
θ̂ = ϑ̂(x1 , x2 , ..., xn ),
se così fosse, per ottenere la stima basterebbe applicare ϑ̂ alla realizzazione osservata. Inoltre ϑ̂ renderebbe
automaticamente deﬁnito lo stimatore di massima verosimiglianza di θ che sarebbe
Θ̂ = ϑ̂(X1 , X2 , ..., Xn ).
L’esempio 15.23 approfondisce questo aspetto, mostrando come la media campionaria identiﬁchi il massimo
della funzione di verosimiglianza per qualsiasi realizzazione.
Da un punto di vista matematico, trovare il punto di massimo di una funzione richiede il calcolo di derivate di
ordine superiore al primo. Nel caso di L(θ) si ha la fortunata circostanza per cui quasi sempre basta trovare
il valore del parametro, se esiste, che annulla la derivata prima.
Poiché la trasformazione logaritmica di una funzione ha gli stessi punti di stazionarietà della funzione ed è più
semplice da studiare, nella pratica non si trova il massimo di L(θ) ma della funzione di log-verosimiglianza
L(θ) = log L(θ).
Esempio 15.22. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf normale di parametri µ = 0 e σ 2
incognito. Troviamo lo stimatore di massima verosimiglianza di σ 2 . Per comodità di notazione poniamo θ = σ 2 . La
funzione di verosimiglianza è
L(θ) =
n
∏
i=1
2
√
xi
1
e− 2θ =
2πθ
La funzione di log-verosimiglianza è
L(θ) = −n log
√
(
√
1
2πθ
)n
∑n
2πθ −
i=1
e−
∑n
2
i=1 xi
2θ
.
x2i
2θ
e la derivata della log-verosimiglianza è
∑n
x2i
∂L(θ)
n
=−
+ i=12 ;
∂θ
2θ
2θ
dopo aver eguagliato a zero quest’ultima espressione, moltiplicando entrambi i membri dell’equazione per 2θ e poi
risolvendo si ottiene la stima di massima verosimiglianza
∑n
2
i=1 xi
.
θ̂ = σ̂ 2 =
n
In questo particolare caso lo stimatore di massima verosimiglianza ottenuto è anche corretto come dimostrato nell’esempio 15.7.
Esempio 15.23. Supponiamo che un campione casuale di 3 elementi sia estratto dalla distribuzione binomiale di
parametri n = 1 e π (o bernoulliana)
pX (x; π) = π x (1 − π)1−x .
Ogni realizzazione campionaria è allora costituita da una successione di 0 e di 1. La funzione di verosimiglianza è
M. Di Marzio
115
Primi elementi di inferenza statistica (ed. maggio 2012)
15.5. Costruzione degli stimatori
L(π) =
e se poniamo y =
∑3
i=1
3
∏
π xi (1 − π)1−xi = π
∑3
i=1
xi
∑3
(1 − π)3−
i=1
xi
i=1
xi otteniamo la seguente log-verosimiglianza
ln L(π) = y ln π + (3 − y) ln(1 − π)
e quindi la seguente derivata
∂ ln L(π)
y
3−y
= −
.
∂π
π
1−π
Ponendo questa espressione uguale a zero e risolvendo per π, troviamo la stima
∑3
y
i=1 xi
π̂ = =
.
3
3
Le funzioni possibili sono ovviamente le seguenti
L0 = L(π; Σxi = 0) = (1 − π)3
L1 = L(π; Σxi = 1) = π(1 − π)2
L2 = L(π; Σxi = 2) = π 2 (1 − π)
L(π)
L3 = L(π; Σxi = 3) = π 3 .
1
0.8
L0
L3
L1
L2
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
π1
Figura 15.3: Funzioni di verosimiglianza per diversi campioni da una pdf binomiale di parametri 1 e π
In ﬁgura 15.3 sono rappresentate le funzioni Li , i = 0, 1, 2, 3, è immediato osservare come per ogni curva la funzione
è massimizzata dal valore
∑3
i=1 xi
π̂ =
3
che per L0 è 0, per L1 è 1/3, per L2 è 2/3 e per L3 è 1.
Abbiamo empiricamente veriﬁcato che per ognuna delle funzioni di verosimiglianza, la stima di massima verosimiglianza ne individua il punto di ascissa del massimo.
Si può provare che lo stimatore di massima verosimiglianza è asintoticamente normale. La normalità asintotica risulta molto comoda poiché, quando non si riesce a determinare la distribuzione dello stimatore di
massima verosimiglianza, si possono sempre fare aﬀermazioni probabilistiche basate sul modello normale con
la consapevolezza di non sbagliarsi troppo.
Un’altra rimarchevole proprietà è che lo stimatore di massima verosimiglianza è coerente in tutte le varie accezioni. Comunque a volte gli stimatori di massima verosimiglianza sono distorti, ma sempre asintoticamente
corretti.
Si noti inﬁne che in tutti gli esempi e gli esercizi svolti nel capitolo successivo la stima di massima verosimiglianza dipende dal campione∑
solo attraverso una statistica∑suﬃciente. Ad esempio, con riguardo all’esempio 15.23
3
3
la statistica suﬃciente è i=1 xi . Così ogni valore di i=1 xi (non ogni realizzazione campionaria!) individua
una funzione di verosimiglianza. Che la stima di massima verosimiglianza dipenda da statistiche suﬃcienti accade nella generalità dei casi e risulta di certo un aspetto notevole della teoria classica dell’inferenza
statistica.
Primi elementi di inferenza statistica (ed. maggio 2012)
116
M. Di Marzio
16
Esercizi svolti
Esercizio 16.1. Sia X1 , X2 , X3 un campione casuale estratto da una popolazione esponenziale di parametro
λ incognito. Stabilire quale dei seguenti stimatori della media della popolazione 1/λ è corretto:
T1 = X1 + 1,
T2 =
2X1 + X2
,
3
T3 = min(X1 , X2 , X3 )
Soluzione Per stabilire la correttezza degli stimatori, si procede al calcolo del loro valore atteso. Si ottiene
allora
E[T1 ] = E[X1 + 1] = E[X1 ] + 1 = 1/λ + 1,
[
]
2X1 + X2
1
1
E[T2 ] = E
= E[2X1 + X2 ] = (E[2X1 ] + E[X2 ])
.
3
3
3
(
)
1 2
1
1
3
1
+
= × = 1/λ,
= (2E[X1 ] + E[X2 ]) =
3
3 λ λ
3 λ
Inoltre ricordando che se Y1 = min(X1 , X2 , ..., Xn ) allora
fY1 (x) = n[1 − FX (x)]n−1 fX (x),
poiché se X ha distribuzione esponenziale si ha
{
λe−λx se x ≥ 0
fX (x; λ) =
0
altrimenti,
risulta
FX (x) = 1 − e−λx ,
e
fT3 (x) = 3[1 − (1 − e−xλ )]2 λe−xλ = 3e−2xλ λe−xλ = 3λe−3xλ ,
e quindi T2 ha distribuzione esponenziale di parametro 3λ e
E[T3 ] =
1
.
3λ
Poiché per deﬁnizione uno stimatore T è corretto per il parametro θ se risulta E[T ] = θ, si conclude che T2 è
uno stimatore corretto per 1/λ, mentre gli stimatori T1 e T3 sono distorti.
Esercizio 16.2. Sia X un’osservazione casuale generata da una distribuzione uniforme nell’intervallo [θ, θ +
1], dove θ è un numero reale positivo. Stabilire quale tra i due seguenti stimatori è preferibile per θ:
W1 = X,
Soluzione Poiché
∫
E[W1 ] = E[X] =
θ+1
xdx =
θ
W2 = 2X.
x2
2
θ+1
=
θ
θ2
1
(θ + 1)2
−
=θ+
2
2
2
e
E[W2 ] = E[2X] = 2E[X] = 2θ + 1,
gli stimatori W1 e W2 sono entrambi distorti per θ e, in particolare, risulta
dist[W1 ] = E[W1 ] − θ = θ +
M. Di Marzio
117
1
1
−θ = ,
2
2
Primi elementi di inferenza statistica (ed. maggio 2012)
e
dist[W2 ] = E[W2 ] − θ = 2θ + 1 − θ = θ + 1.
Per stabilire quale tra i due stimatori sia preferibile si procede allora al confronto tra i rispettivi errori
quadratici medi.
Ricordando che per una v.c. X si ha Var[X] = E[X 2 ] − (E[X])2 , poiché
∫ θ+1
θ+1
x3
θ3
3θ2 + 3θ + 1
(θ + 1)3
E[W12 ] = E[X 2 ] =
x2 dx =
=
−
=
,
3 θ
3
3
3
θ
si ottiene
Var[W1 ] =
E[W12 ]
3θ2 + 3θ + 1
− (E[W1 ]) =
−
3
(
2
e
Var[W2 ] = Var[2X] = 4Var[X] =
1
EQM[W1 ] = Var[W1 ] + (dist[W1 ]) =
+
12
2
EQM[W2 ] = Var[W2 ] + (dist[W2 ])2 =
)2
=
1
12
4
1
= .
12
3
Risulta dunque
e
1
+θ
2
( )2
1
1
=
2
3
1
2
+ (θ + 1)
3
2
e poiché la quantità (θ + 1) è positiva risulta EQM[W1 ] < EQM[W2 ]. Si conclude pertanto che tra i due
stimatori di θ è preferibile W1 .
Esercizio 16.3. Un’azienda tessile ha immesso sul mercato un tessuto innovativo realizzato utilizzando, per
ogni metro, una quantità θ di seta. Un’azienda concorrente, dopo accurate ricerche di laboratorio, individua
due possibili stimatori T1 e T2 per la quantità incognita θ, tra loro indipendenti, entrambi corretti rispetto a θ.
Supponendo di combinare linearmente T1 e T2 in un terzo stimatore T3 = kT1 + (1 − k)T2 (dove 0 < k < 1),
veriﬁcare se T3 è corretto rispetto a θ per qualsiasi valore di k.
Soluzione Essendo T1 e T2 entrambi corretti rispetto al parametro θ, E (T1 ) = E (T2 ) = θ. Pertanto
E[T3 ] = E [kT1 + (1 − k) T2 ] = kE[T1 ] + (1 − k) E[T2 ] = kθ + (1 − k) θ = θ
e si conclude che T3 è uno stimatore corretto per θ, per qualunque valore di k.
Esercizio 16.4. Considerato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione esponenziale
con media incognita θ, si dimostri che X è uno stimatore consistente per θ.
Soluzione Poiché la pdf del carattere X osservato presso la popolazione è deﬁnita da
{
λe−λx se x ≥ 0
fX (x; λ) =
0
altrimenti,
risulta E[X] = 1/λ, e quindi θ = 1/λ. Si ha pertanto
[ ∑n
]
nE[Xi ]
1
i=1 Xi
E[X] = E
=
= = θ,
n
n
λ
e si conclude che lo stimatore X è corretto per θ. Pertanto, ricordando che se X ha distribuzione esponenziale
di parametro λ, Var[X] = 1/λ2 e Var[X] = 1/(nλ2 ), per la disuguaglianza di Chebyshev si ha
√
1
P(|X − 1/λ| ≤ k/(λ n)) ≥ 1 − 2 .
k
√
Posto allora ϵ = k/(λ n), risulta k 2 = nλ2 ϵ2 e quindi
P(|X − 1/λ| ≤ ϵ) ≥ 1 −
Poiché
lim
n→∞
1
.
nλ2 ϵ2
1
=0
nλ2 ϵ2
risulta
lim P(|X − 1/λ| ≤ ϵ) = 1
n→∞
e si conclude che X è uno stimatore consistente per θ.
Primi elementi di inferenza statistica (ed. maggio 2012)
118
M. Di Marzio
16. ESERCIZI SVOLTI
Esercizio 16.5. Il numero X di veicoli in transito presso una stazione di servizio, in cinque intervalli di
tempo di un’ora, indipendenti e disgiunti, è risultato pari a: 14, 20, 18, 8, 25.
Assumendo che X si distribuisce secondo una legge di Poisson di parametro λ, stimare, con il metodo della
massima verosimiglianza, il numero medio di veicoli in transito in un’ora presso la stazione di servizio.
Soluzione Poiché la pdf di X è data da
 −λ x
e λ


x!
pX (x; λ) =


0
se x = 0, 1, ...
altrimenti
la funzione di verosimiglianza è data da
L (λ) =
n
∏
pX (xi ; λ) =
n −λ xi
∏
e λ
i=1
i=1
xi !
∑
e−nλ λ xi
=
n
∏
xi !
i=1
operando la trasformazione logaritmica, la log-verosimiglianza risulta
L(λ) = ln L (λ) = −nλ +
n
∑
xi ln λ − ln
i=1
n
∏
xi !
i=1
Derivando L(λ) ed eguagliando a zero la derivata risulta
∂L (λ)
= −n +
∂λ
∑
xi
=0
λ
da cui si ottiene la stima di massima verosimiglianza di λ
∑
xi
14 + 20 + 18 + 8 + 25
λ̂ =
=
= 17.
n
5
Esercizio 16.6. In una catena di montaggio, il tempo X impiegato da ciascuna macchina per completare la
sua produzione giornaliera si distribuisce normalmente con media µ e varianza σ 2 incognite.
Per un campione di n = 6 macchine della catena di montaggio si è registrato un tempo medio x̄ = 10 ed una
devianza di 36.
Stimare i parametri µ e σ 2 della popolazione con il metodo della massima verosimiglianza.
Soluzione La funzione di verosimiglianza per un campione generato da un modello distributivo normale è
data da
[
]
[
]
n
n
(
) ∏
( 2 )−n/2
1
1 ∑
1
2
2
2
√
L µ; σ =
exp − 2 (xi − µ) = σ 2π
exp − 2
(xi − µ) .
2
2σ
2σ i=1
i=1 σ 2π
Dalla trasformazione logaritmica si ottiene
(
L µ; σ
2
)
n
n
n
1 ∑
2
2
= − ln σ − ln 2π − 2
(xi − µ) .
2
2
2σ i=1
Le derivate di L(µ; σ 2 ) rispetto a µ e σ 2 risultano, rispettivamente
(
)
∑
∂L µ; σ 2
1
1 ∑
= − 2 (−2)
(xi − µ) = 2
(xi − µ) ;
∂µ
2σ
σ
(
)
∂L µ; σ 2
n
1 ∑
2
=− 2 + 4
(xi − µ) .
2
∂σ
2σ
2σ
Le stime di massima verosimiglianza per µ e σ 2 si ottengono allora risolvendo il seguente sistema di equazioni

1 ∑


(xi − µ) = 0
 σ2


 − n + 1 ∑ (xi − µ)2 = 0.
2σ 2
2σ 4
M. Di Marzio
119
Primi elementi di inferenza statistica (ed. maggio 2012)
Risolvendo rispetto a µ la prima equazione del sistema si ottiene la stima
∑
xi
µ̂ =
= x̄ = 10
n
∑
xi
n
e sostituendo nella seconda equazione
−
= x̄ si ha
n
1 ∑
2
+ 4
(xi − x̄) = 0
2
2σ
2σ
da cui si ottiene la stima
∑
2
(xi − x̄)
36
=
= 6.
n
6
Esercizio 16.7. Sia X1 , X2 , ..., Xn un campione casuale da una distribuzione geometrica di parametro π
incognito. Determinare lo stimatore di massima verosimiglianza per π.
σ̂ 2 =
Soluzione Poiché la pdf di una v.c. geometrica X è deﬁnita da
{
π(1 − π)x se x = 0, 1, ...
pX (x; π) =
0
altrimenti
la funzione di verosimiglianza è data da
L(π) =
=
n
∏
i=1
n
∏
pX (xi ; π)
π(1 − π)xi
i=1
= π n (1 − π)
∑n
i=1
xi
.
La log-verosimiglianza risulta allora
L(π) = n log π +
n
∑
xi log(1 − π),
i=1
e equagliando a zero la derivata parziale di L calcolata rispetto a π, si ottiene
∑n
∑n
xi
n(1 − π) − π i=1 xi
∂L (π)
n
= − i=1
=
= 0,
∂π
π
1−π
π(1 − π)
da cui risulta
n − nπ − π
n
∑
xi = 0
i=1
e quindi
π(n +
n
∑
xi ) = n.
i=1
Pertanto
π̂ =
n+
n
∑n
i=1
xi
.
Esercizio 16.8. Sia X1 , X2 , ..., Xn un campione casuale da una distribuzione uniforme di parametri 0 e
θ > 0. Si trovi lo stimatore di massima verosimiglianza di θ.
Soluzione Indichiamo con yn la statistica campionaria massimo, cioè: yn = max(x1 , x2 , ..., xn ) e notiamo
che θ è il massimo valore possibile per X. Chiaramente la funzione di verosimiglianza è nulla in (0, yn )
perché è impossibile che il il massimo valore possibile per X, cioè θ, sia minore di una qualsiasi osservazione
campionaria. Così
 ∏n 1
n
 i=1 θ = θ1n se yn ≤ θ ≤ +∞
∏
L(θ) =
fX (xi ; θ) =

0
altrimenti.
i=1
In questo caso il punto di massimo si identiﬁca facilmente considerando che 1/θn è strettamente decrescente
e quindi il suo massimo conincide con il minimo di Θ, cioè yn .
Primi elementi di inferenza statistica (ed. maggio 2012)
120
M. Di Marzio
16. ESERCIZI SVOLTI
Esercizio 16.9. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione presso la quale il carattere X ha distribuzione uniforme nell’intervallo [0, θ]. Considerato Yn = max(X1 , X2 , ..., Xn ) come possibile
stimatore di θ, veriﬁcarne le proprietà asintotiche.
Soluzione Ricordiamo che se Yn = max(X1 , X2 , ..., Xn ), allora la pdf di Yn è deﬁnita da
fYn (x) = n[FX (x)]n−1 fX (x).
Poiché se X è uniformemente distribuita nell’intervallo [0, θ], la sua pdf è data da
{ 1
se 0 ≤ x ≤ θ
θ
fX (x; θ) =
0 altrimenti,
e la sua funzione di ripartizione è
FX (x) =
x
;
θ
la pdf di Yn risulta allora
( x )n−1 1
nxn−1
=
.
θ
θ
θn
Procedendo al calcolo del valore atteso di Yn si ottiene
∫ θ
E[Yn ] =
xfYn (x)dx
fYn (x) = n
∫
0
θ
=
0
nxn−1
n
x n dx = n
θ
θ
∫
θ
x×x
n−1
0
n
dx = n
θ
∫
θ
xn dx
0
θ
=
n θn+1
n xn+1
nθ
=
=
,
n
n
θ n+1 0 θ n+1
n+1
e quindi Yn è uno stimatore distorto per θ. Poiché però
nθ
= θ,
n→∞ n + 1
lim
Yn è asintoticamente corretto per θ. Poiché Yn è asintoticamente corretto per veriﬁcare la consistenza in
media quadratica di Yn è suﬃciente veriﬁcare che
lim Var[Yn ] = 0.
n→∞
Utilizzando la relazione
Var[Yn ] = E[Yn2 ] − (E[Yn ])2 ,
poiché
∫
E[Yn2 ]
θ
x2
=
0
n
= n
θ
∫
nxn−1
dx
θn
θ
xn+1 dx =
0
n+2
n xn+2
θn n + 2
θ
0
n θ
nθ2
= n
=
,
θ n+2
n+2
risulta
(
)2
nθ
nθ2
−
Var[Yn ] =
n+2
n+1
[
]
2
2
nθ2
n2 θ 2
2 n(n + 1) − n (n + 2)
=
−
=
θ
n + 2 (n + 1)2
(n + 2)(n + 1)2
nθ2
.
=
(n + 2)(n + 1)2
Si ha allora
nθ2
= 0,
n→∞
n→∞ (n + 2)(n + 1)2
e si conclude che Yn è uno stimatore di θ consistente in media quadratica. Inoltre poiché la consistenza in
media quadratica implica la consistenza semplice, Yn è anche uno stimatore semplicemente consistente.
lim Var[Yn ] = lim
M. Di Marzio
121
Primi elementi di inferenza statistica (ed. maggio 2012)
17
Stima per intervalli
Indice
17.1 Il problema della stima per intervalli . . . . . . .
17.2 Deﬁnizione di quantità pivotale . . . . . . . . . . .
17.3 Quantità pivotali nel caso di popolazione normale
17.4 Quantità pivotali nel caso di grandi campioni . .
17.5 Costruzione di stimatori per intervalli . . . . . . .
17.6 Intervalli di conﬁdenza per la media . . . . . . . .
17.7 Numerosità campionaria per la stima della media
17.8 Intervalli di conﬁdenza per la proporzione . . . .
17.9 Intervalli di conﬁdenza per la varianza . . . . . . .
17.10Proprietà degli stimatori intervallari . . . . . . . .
17.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
122
123
123
124
125
125
126
127
127
127
Il problema della stima per intervalli
Uno stimatore per punti Θ̂ genera un singolo numero θ̂ come inferenza su θ ∈ R. Purtroppo quasi sempre tale
singolo numero non costituisce una stima esatta di θ. Se infatti fΘ̂ (·; θ) è discreta, allora spesso stime prossime
a θ hanno probabilità molto simili ad una stima uguale a θ. Inoltre se fΘ̂ (·; θ) è continua, la probabilità che
∫ θ
abbiamo di ottenere una stima esatta di θ è nulla, infatti P(Θ̂ = θ) = θ fΘ̂ (θ̂; θ) dθ̂ = 0. Così uno stimatore
per punti è in genere inadeguato per l’uso pratico.
Una naturale risposta metodologica a questo inconveniente consiste nello speciﬁcare:
i) un intervallo di valori di θ plausibili, e
ii) una misura della ﬁducia che tale intervallo contenga θ.
Esempio 17.1. Spesso deﬁniamo intervalli per stimare grandezze quantitative: 1) abbiamo ricevuto dai 20 ai 25
clienti. 2) il fatturato sarà tra 1.5 e 1.65 milioni di euro. Di norma, pur non speciﬁcandolo, abbiamo un elevatissimo
livello di ﬁducia che le grandezze incognite siano comprese nell’intervallo da noi espresso.
Formalmente, questo modo di ridurre l’ignoranza circa la popolazione incognita fX (·; θ) consiste nel selezionare
un elemento di Θ × Θ, cioè una coppia di possibili valori del parametro che costituiscono gli estremi dell’intervallo. Tale selezione è basata sulla realizzazione di un campione casuale estratto da fX (·; θ), ed avviene
per il tramite di una funzione ι del tipo
ι : X → Θ × Θ.
Come lo stimatore per punti è una statistica, così ι è una coppia di statistiche, che indichiamo con S1 e S2 ,
che deﬁniscono un intervallo casuale
Iθ = ι(X1 , X2 , ..., Xn ) = (S1 , S2 )
e il suo valore campionario
iθ = ι(x1 , x2 , ..., xn ) = (s1 , s2 ).
Primi elementi di inferenza statistica (ed. maggio 2012)
122
M. Di Marzio
17. STIMA PER INTERVALLI
In luogo dell’espressione stimatore intervallare spesso si usa quella di intervallo di conﬁdenza (o ﬁducia) per
sottolineare la presenza del livello di conﬁdenza (o ﬁducia) al ﬁanco di un intervallo casuale. Così si ha questa
deﬁnizione.
Si abbiano un intervallo casuale Iθ = (S1 , S2 ), dove per ogni realizzazione campionaria S1 è minore di S2 , e
un numero α compreso tra 0 e 1; se P(S1 < θ < S2 ) = 1 − α per qualsiasi valore di θ, l’intervallo casuale Iθ
è deﬁnito intervallo di conﬁdenza per θ al livello 100(1 − α)%.
La deﬁnizione può essere così interpretata. In corrispondenza dello spazio campionario X, ι genera una
popolazione ipotetica di realizzazioni del tipo iθ = (s1 , s2 ). Allora 1−α è la proporzione di queste realizzazioni
contenenti θ. Per cui prima di osservare iθ sappiamo che quest’ultima conterrà θ con probabilità 1−α. Emerge
con chiarezza una interpretazione frequentista della probabilità associata all’intervallo casuale Iθ .
Purtroppo, oltre allo stimatore, anche la stima iθ è chiamata intervallo di conﬁdenza, ingenerando un po’ di
confusione. Se infatti la distinzione tra stimatore Iθ e stima iθ è chiara, una interpretazione completamente
diversa spetta alla quantità 1 − α a seconda del caso. Quando per la stima intervallare si dice ‘vi è un livello
di conﬁdenza dell’ (1 − α)100% che iθ = (s1 , s2 ) contenga θ ’, questo non signiﬁca che c’è una probabilità
pari a (1 − α) che la stima includa il parametro: la stima, essendo una realizzazione, è come il parametro,
ossia una quantità ﬁssa che, come tale, include o meno il parametro stesso. Quindi, l’evento θ ∈ iθ non ha
natura aleatoria, di conseguenza la quantità 1 − α, se associata alla stima, deve ritenersi un livello di ﬁducia,
conﬁdenza, non già una probabilità.
17.2
Deﬁnizione di quantità pivotale
Si consideri una funzione reale τ che dipende sia dal campione sia dal parametro non noto θ, formalmente
τ : X × Θ → R.
In corrispondenza di un campione casuale X1 , X2 , ..., Xn , τ deﬁnisce una v.c. T :
T = τ (X1 , X2 , ..., Xn ; θ) ,
mentre in corrispondenza di una realizzazione x1 , x2 , ..., xn τ deﬁnisce un valore t di T
t = τ (x1 , x2 , ..., xn ; θ) .
Una v.c. del tipo T = τ (X1 , X2 , ..., Xn ; θ) è detta quantità pivotale se e solo se la sua pdf fT è completamente nota (e quindi non dipende dal parametro incognito θ). Dalla deﬁnizione di quantità pivotale vediamo
che essa contiene θ nella sua espressione, e quindi non è una statistica poiché non è una funzione nota del
campione.
Esempio 17.2. Si consideri un campione casuale X1 , X2 , ..., Xn estratto da una pdf normale con media µ e varianza
4. Sappiamo che X ha distribuzione N (µ, 4/n). Così
X −µ
è una quantità pivotale poiché: 1) dipende dal parametro incognito µ e dalla statistica X, 2) ha distribuzione N (0, 4/n)
che è del tutto nota. Anche
X −µ
√
2/ n
è una quantità pivotale perché: 1) dipende da X e µ e 2) la sua pdf è N (0, 1). Invece la quantità
X
,
µ
con µ ̸= 0, non è una quantità pivotale poiché, anche se funzione del parametro incognito µ e da X, ha pdf
N (1, 4/(nµ2 )) che, essendo la varianza funzione del parametro incognito µ, non è nota del tutto.
17.3
Quantità pivotali nel caso di popolazione normale
Ora introduciamo alcune quantità pivotali che si renderanno utili per la costruzione sia di intervalli di conﬁdenza sia di test statistici. Nei punti 1) – 4) supponiamo di avere un campione casuale estratto da una
popolazione normale N (µ, σ 2 ). Nei punti 5) e 6) supponiamo di avere due campioni casuali estratti da due
popolazioni normali N (µ1 , σ12 ) e N (µ2 , σ22 ); qui ovviamente X i e Si2 sono media e varianza del campione
i-esimo.
M. Di Marzio
123
Primi elementi di inferenza statistica (ed. maggio 2012)
17.4. Quantità pivotali nel caso di grandi campioni
1. La quantità pivotale
X −µ
√
σ/ n
ha una pdf normale standard poichè X ha pdf N (µ, σ 2 /n) (sez. 12.6).
2. La quantità pivotale
n
∑
(Xi − µ)2
σ2
i=1
ha distribuzione chi-quadrato con n gradi di libertà poiché somma di n vv.cc. normali standard elevate
al quadrato.
3. La quantità pivotale
n
∑
(Xi − X)2
σ2
i=1
ha distribuzione chi-quadrato con n − 1 gradi di libertà (sez. 12.8).
4. La quantità pivotale
X −µ
√
S/ n
ha distribuzione t di Student con n − 1 gradi di libertà. Infatti
/
X −µ
X −µ
S
√ =
√
σ
S/ n
σ/ n
dove il numeratore ha distribuzione normale standard e il denominatore
è la radice quadrata del rapporto
∑n
tra una v.c. chi-quadrato e i suoi gradi di libertà. Infatti i=1 (Xi − X)2 /σ 2 è una v.c. chi-quadrato
con n − 1 gradi di libertà.
5. La quantità pivotale
X 1 − X 2 − (µ1 − µ2 )
√
σ12 /n1 + σ22 /n2
ha distribuzione normale standard poiché la v.c. X 1 − X 2 ha distribuzione N (µ1 − µ2 , σ12 /n1 + σ22 /n2 )
per il teorema sulla somma di vv.cc. normali (sez. 11.4).
6. Se estraiamo i due campioni da distribuzioni normali con varianze uguali, allora la quantità pivotale
√
(X 1 − X 2 ) − (µ1 − µ2 )
(n1 − 1)S12 + (n2 − 1)S22
√
con
Sp =
n1 + n2 − 2
Sp (1/n1 + 1/n2 )
si distribuisce come una t di Student con n1 + n2 − 2 gradi di libertà per motivi analoghi a quelli visti
nel punto 2.
17.4
Quantità pivotali nel caso di grandi campioni
Data una qualunque popolazione, il TCL assicura che, se il campione è casuale e grande (n > 30), le pdf di
media e proporzione campionaria tendono alla normale. Così, ad esempio, le quantità pivotali dei punti 1
e 5 della sezione precedente sono ancora approssimativamente valide se la popolazione non è normale ma il
campione è grande.
Il TLC ci aiuta a stabilire quantità pivotali nell’importantissimo caso di popolazione bernoulliana. Infatti, se
la popolazione è bernoulliana, per il TLC la proporzione campionaria P tende a distribuirsi come una normale
con media π e varianza π(1 − π)/n . Ne conseguono le seguenti quantità pivotali per grandi campioni estratti
da popolazioni bernoulliane.
1. La quantità pivotale
P −π
√
P (1 − P )/n
ha pdf approssimativamente N (0, 1).
Primi elementi di inferenza statistica (ed. maggio 2012)
124
M. Di Marzio
17. STIMA PER INTERVALLI
2. La quantità pivotale
P −π
√
π(1 − π)/n
ha pdf approssimativamente N (0, 1).
3. Nel caso di due popolazioni bernoulliane, la quantità pivotale
(P1 − P2 ) − (π1 − π2 )
SP1 −P2
√
con SP1 −P2 = P1 (1 − P1 )/n1 + P2 (1 − P2 )/n2 ha pdf approssimativamente N (0, 1) perché si tratta
di una somma standardizzata di due vv.cc. che hanno distribuzione asintotica normale.
17.5
Costruzione di stimatori per intervalli
Ricordiamo anzitutto il problema della stima intervallare: dato un campione casuale X1 , X2 , ..., Xn estratto
da una popolazione appartenente alla famiglia parametrica {fX (·; θ); θ ∈ Θ ⊂ Rk }, vogliamo un intervallo di
conﬁdenza per il parametro incognito θ. A tal riguardo immaginiamo di disporre di una quantità pivotale
T = τ (X1 , X2 , ..., Xn , θ). Il punto fondamentale è che T ha pdf nota, così, una volta stabilito α, possiamo
sempre trovare due suoi valori t1 e t2 per cui
P(t1 < τ (X1 , X2 , ..., Xn , θ) < t2 ) = 1 − α.
Se per ogni realizzazione x1 , x2 , ..., xn nella disuguaglianza t1 < τ (X1 , X2 , ..., Xn , θ) < t2 è possibile isolare θ
per ottenere θ ∈ ι(x1 , x2 , ..., xn , t1 , t2 ) (procedimento di inversione) allora si potrà scrivere:
P(t1 < τ (X1 , X2 , ..., Xn , θ) < t2 ) = P(θ ∈ ι(x1 , x2 , ..., xn , t1 , t2 )) = 1 − α.
Ricordando la deﬁnizione di intervallo di conﬁdenza, si evince che l’intervallo casuale
Iθ = ι(X1 , X2 , ..., Xn , t1 , t2 )
è un intervallo di conﬁdenza per θ allo (1 − α)100%.
Quindi una volta osservata la realizzazione x1 , x2 , ..., xn si ottiene la stima intervallare
iθ = ι(x1 , x2 , ..., xn , t1 , t2 )
che ha un livello di conﬁdenza del 100( 1 − α)%.
Nelle prossime sezioni applicheremo il metodo della quantità pivotale per ottenere intervalli di conﬁdenza di
vari parametri e popolazioni. In ogni caso si ipotizzerà la disponibilità di un campione casuale X1 , X2 , ..., Xn
e di un preﬁssato valore di α. Ovviamente gli stimatori saranno costituiti dagli intervalli contenuti nei secondi
membri delle equazioni che descrivono l’inversione.
17.6
Intervalli di conﬁdenza per la media
1. Se X ha distribuzione N (µ, σ 2 ) e σ 2 è noto, per la stima intervallare della media si ricorre alla quantità
X −µ
√ . Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché si inverte come
pivotale Z =
σ/ n
segue
(
)
(
)
X −µ
σ
σ
√ < zα/2 = P X − zα/2 √ < µ < X + zα/2 √
P −zα/2 <
=1−α
σ/ n
n
n
ottenendo lo stimatore intervallare per la media quando la varianza è nota.
(
)
2. Se X ha distribuzione N µ, σ 2 e σ 2 non è noto, per la stima intervallare della media si ricorre al(
)
X −µ
√ . Si trova tα/2,n−1 tale che P −tα/2,n−1 < T < tα/2,n−1 = 1 − α.
la quantità pivotale T =
S/ n
Dopodiché si inverte:
)
(
)
(
S
S
X −µ
√ < tα/2,n−1 = P X − tα/2,n−1 √ < µ < X + tα/2,n−1 √
=1−α
P −tα/2,n−1 <
S/ n
n
n
ottenendo lo stimatore intervallare per la media quando la varianza non è nota.
M. Di Marzio
125
Primi elementi di inferenza statistica (ed. maggio 2012)
17.7. Numerosità campionaria per la stima della media
3. Se rileviamo due caratteri indipendenti X1 e X2 , e inoltre il carattere X1 ha distribuzione N (µ1 , σ12 ) e
X2 ha distribuzione N (µ2 , σ22 ), e entrambe le varianze σ12 e σ22 sono note, usiamo la quantità pivotale
X 1 − X 2 − (µ1 − µ2 )
Z= √ 2
. Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché si inverte
σ1 /n1 + σ22 /n2
come segue
)
(X 1 − X 2 ) − (µ1 − µ2 )
√
P zα/2 <
< zα/2 =
σ12 /n1 + σ22 /n2
)
(
√
√
)
)
(
(
2
2
2
2
P X 1 − X 2 − zα/2 σ1 /n1 + σ2 /n2 < µ1 − µ2 < X 1 − X 2 + zα/2 σ1 /n1 + σ2 /n2 = 1 − α.
(
ottenendo lo stimatore intervallare per la diﬀerenza tra medie con varianze note.
4. Se rileviamo due caratteri indipendenti X1 e X2 , e inoltre se X1 ha distribuzione N (µ1 , σ 2 ) e X2
ha distribuzione N (µ2 , σ 2 ) e quindi le varianze sono uguali, ricorriamo alla quantità pivotale T =
(
)
(X 1 − X 2 ) − (µ1 − µ2 )
√
. Si trova tα/2,n1 +n2 −2 tale che P −tα/2,n1 +n2 −2 < T < tα/2,n1 +n2 −2 = 1 − α.
Sp (1/n1 + 1/n2 )
Dopodiché si inverte:
(
P −tα/2,n1 +n2 −2
(X 1 − X 2 ) − (µ1 − µ2 )
√
<
< tα/2,n1 +n2 −2
Sp 1/n1 + 1/n2
)
=
√
√
(
)
1
1
1
1
= P (X 1 − X 2 ) − tα/2,n1 +n2 −2 Sp
+
< µ1 − µ2 < (X 1 − X 2 ) + tα/2,n1 +n2 −2 Sp
+
=1−α
n1
n2
n1
n2
ottenendo lo stimatore intervallare della diﬀerenza tra due medie quando le varianze sono uguali ma
incognite.
Si noti inﬁne, che, nel caso di grandi campioni, cioè se n > 30, tutte le quantità pivotali di questa sezione hanno
distribuzione asintotica normale standard per il TCL, indipendentemente dalla popolazione generatrice. Di
conseguenza l’inversione basata sulla normale standard appare teoricamente giustiﬁcata anche senza ipotesi
di normalità della famiglia parametrica, basta solo che il campione sia grande e casuale.
17.7
Numerosità campionaria per la stima della media
Prima di estrarre il campione ci si può chiedere qual è la numerosità n ottimale per la stima intervallare di
µ. Infatti osservare campioni più numerosi è più costoso, ma rende le stime più precise. Così è naturale che
la scelta di n dipenda dalla precisione desiderata. Come misura della precisione desiderata si considera la
semiampiezza dell’intervallo, detta errore campionario e indicata con Err. Se σ è noto, l’errore campionario
è indipendente dal campione, quindi non è una v.c., e può essere conosciuto prima della estrazione del
campione. Infatti
σ
Err = zα/2 √ .
n
√
Allora si ragiona nel modo seguente. Poiché Err = zα/2 σ/ n, elevando al quadrato entrambi i membri
dell’equazione si ottiene:
2
zα/2
σ2
Err2 =
n
e risolvendo rispetto ad n:
n=
(z
α/2 σ
Err
)2
.
Di conseguenza, una volta scelta la precisione desiderata Err, l’ultima equazione fornisce l’ampiezza campionaria n che la genera.
Se σ 2 non è noto, l’ampiezza dell’intervallo non può essere conosciuta
prima dell’osservazione del campione
√
poiché dipende da esso. Infatti in questo caso Err = zα/2 s/ n ed è funzione di una realizzazione della v.c.
S. Così, se non si conosce σ, l’ampiezza non può essere predeterminata con esattezza.
Primi elementi di inferenza statistica (ed. maggio 2012)
126
M. Di Marzio
17. STIMA PER INTERVALLI
17.8
Intervalli di conﬁdenza per la proporzione
La proporzione π può essere stimata in maniera semplice solo nel caso di grandi campioni come segue.
1. Se X ha distribuzione bernoulliana π x (1 − π)1−x con x ∈ {0, 1}, e il campione è grande, la quantità
P −π
pivotale utile è Z = √
. Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché
P (1 − P )/n
si inverte come segue
(
)
P −π
P −zα/2 < √
< zα/2 =
P (1 − P )/n
(
)
√
√
= P P − zα/2 P (1 − P )/n < π < P + zα/2 P (1 − P )/n = 1 − α.
che porta allo stimatore intervallare per la proporzione nel caso di grandi campioni.
2. Siano dati due caratteri bernoulliani indipendenti X1 e X2 , dove X1 ha distribuzione π1x1 (1 − π1 )1−x1
mentre X2 ha distribuzione π2x2 (1 − π2 )1−x2 con xi ∈ {0, 1} per i ∈ {1, 2}.
Dati due campioni casuali indipendenti, tali che n1 + n2 > 30, usiamo la quantità pivotale Z =
(P1 − P2 ) − (π1 − π2 )
. Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché si inverte
SP1 −P2
come segue
(
)
(P1 − P2 ) − (π1 − π2 )
P −zα/2 <
< zα/2 =
SP1 −P2
(
)
= P (P1 − P2 ) − zα/2 SP1 −P2 < π1 − π2 < (P1 − P2 ) + zα/2 SP1 −P2 = 1 − α.
ottenendo lo stimatore intervallare per la diﬀerenza tra proporzioni nel caso di grandi campioni.
17.9
Intervalli di conﬁdenza per la varianza
1. Se X ∑
ha distribuzione N (µ, σ 2 ) e µ è noto, per la stima intervallare di σ 2 si ricorre alla quantità pivotale
n
U = i=1 (Xi − µ)2 /σ 2 . Si trovano le due quantità χ21−α/2,n e χ2α/2,n tali che che P(χ21−α/2,n < U <
χ2α/2,n ) = 1 − α. Dopodiché si inverte come segue
(∑
)
∑n
∑n
(
)
n
2
2
2
2
2
2
i=1 (Xi − µ)
i=1 (Xi − µ)
i=1 (Xi − µ)
P χ1−α/2,n <
<σ <
=1−α
< χα/2,n = P
σ2
χ2α/2,n
χ21−α/2,n
ottenendo lo stimatore intervallare per la varianza quando la media è nota.
2. Se ci troviamo nella stessa
∑n situazione del punto precedente, ma la media non è nota, si ricorre alla
quantità pivotale V = i=1 (Xi − X)2 /σ 2 . Si trovano le due quantità χ21−α/2,n−1 e χ2α/2,n−1 tali che
che P(χ21−α/2,n−1 < V < χ2α/2,n−1 ) = 1 − α. Dopodiché si inverte come segue
(∑
)
∑n
∑n
(
)
n
2
2
2
(X
−
X)
(X
−
X)
(X
−
X)
i
i
i
i=1
P χ21−α/2,n−1 < i=1 2
< χ2α/2,n−1 = P
< σ 2 < i=1
= 1−α
σ
χ2α/2,n−1
χ21−α/2,n−1
ottenendo lo stimatore intervallare per la varianza quando la media non è nota.
17.10
Proprietà degli stimatori intervallari
Finora si è trattato un solo metodo di costruzione di intervalli di conﬁdenza, cioè il metodo della quantità
pivotale. Esistono però altri metodi di costruzione che, in corrispondenza della stessa realizzazione campionaria, possono portare a stime diﬀerenti. Di conseguenza, esattamente come nella stima puntuale, occorre
scegliere tra gli stimatori sulla base di qualche proprietà di accuratezza. Di seguito esponiamo unicamente la
principale proprietà di accuratezza per stimatori intervallari, veriﬁcando che quasi tutti gli stimatori generati
dal metodo della quantità pivotale considerati la posseggono.
La stima per intervalli più precisa possibile è quella che, a parità di α, genera l’intervallo più stretto possibile.
Infatti più è stretto l’intervallo, più riduciamo l’ignoranza sul parametro. Bisogna rimarcare che se due
M. Di Marzio
127
Primi elementi di inferenza statistica (ed. maggio 2012)
17.10. Proprietà degli stimatori intervallari
intervalli hanno ampiezza diﬀerente, ma il più ampio presenta un valore di α minore, non si può di regola
giudicare quale sia il migliore. Infatti al più stretto è associato un livello di conﬁdenza minore, cioè un rischio
maggiore di non racchiudere il parametro incognito.
Ovviamente, data una quantità pivotale T , si riduce l’ampiezza scegliendo le quantità t1 e t2 più vicine
possibile nel rispetto del vincolo P(t1 < T < t2 ) = 1 − α. Infatti le coppie (t1 , t2 ) che soddisfano tale vincolo
sono molte. Se fT (·; θ) è continua sono addirittura inﬁnite. Quanto detto è formalmente descritto dal seguente
problema di minimo vincolato (il vincolo è la seconda riga):

min(t2 − t1 ) ,

t1 ,t2

con P(t1 < T < t2 ) = 1 − α ;
tale problema ha una soluzione semplice nel caso fT (·; θ) sia simmetrica e unimodale. Infatti una breve
riﬂessione suggerisce che in tal caso l’intervallo più stretto è centrato sulla moda. Ma le quantità pivotali da
noi utilizzate sono, a parte il caso della varianza, vv.cc. t di Student o normali, quindi hanno distribuzione
simmetrica e con unica moda pari a zero. Ora si comprende perchè nei casi in cui la quantità pivotale T è
normale o t di Student si è posto t1 = −tα/2 e t2 = tα/2 , cioè un intervallo centrato sullo zero.
In deﬁnitiva gli stimatori intervallari che abbiamo ricavato sono ottimi ad eccezione di quelli per la varianza,
basati su quantità pivotali con distribuzione chi-quadrato (non simmetriche).
Esempio 17.3. Data una quantità pivotale Q, Sia fQ (·, θ) = N (0, 1) e 1 − α = 0.95. L’equazione P(q1 < Q < q2 ) =
0.95 è soddisfatta da inﬁniti intervalli, tra i quali troviamo:
(q1 = −1.35, q2 = 5.22);
(q1 = −1.68, q2 = 2.70);
(q1 = −1.96, q2 = 1.96).
Noi scegliamo (q1 = −1.96, q2 = 1.96), che, essendo centrato su 0, ha ampiezza minima.
Primi elementi di inferenza statistica (ed. maggio 2012)
128
M. Di Marzio
18
Esercizi svolti
Esercizio 18.1. Per ottimizzare i ﬂussi di magazzino in entrata, un’azienda vuole veriﬁcare di tanto in tanto
il livello medio dei tempi di consegna dei fornitori. Sulla base dell’esperienza pregressa si sa che il tempo X
in giorni intercorrente tra l’invio degli ordini e la consegna ha distribuzione N (µ, 9).
Si estrae un campione di n = 36 ordini e si osserva un tempo medio x̄ = 16. Determinare la stima intervallare
per la media incognita µ al livello di conﬁdenza del 95% .
Soluzione Poiché X ∼ N (µ, σ 2 /n), e σ 2 è noto, la quantità pivotale utilizzata per la costruzione dell’intervallo di conﬁdenza per µ è
X −µ
√ ,
Z=
σ/ n
che ha pdf N (0, 1). Partendo dalla relazione
{
}
P −zα/2 ≤ Z ≤ zα/2 = 1 − α,
e applicando il procedimento di inversione, si ottiene l’intervallo casuale al livello del (1 − α)%
{
}
σ
σ
Iµ = X − zα/2 √ , X + zα/2 √
.
n
n
Essendo 1 − α = 0.95 e, quindi, α = 0.05, dalle tavole della normale standardizzata si ricavano i valori delle
soglie ±zα/2 = ±z0.025 = ±1.96. Quindi, sostituendo alla v.c. X la sua realizzazione x̄ = 16 e sapendo che
√
√
σ/ n = 3/ 36, la stima intervallare al livello del 95% per µ risulta
}
{
3
3
= {15.02, 16.98} .
iµ = 16 − 1.96 √ , 16 + 1.96 √
36
36
Esercizio 18.2. In una multinazionale di abbigliamento, la programmazione e il controllo dell’attività di
approvvigionamento richiede il continuo monitoraggio del numero dei capi venduti X. Si ha ragione di
ritenere che X si distribuisce normalmente con media µ e varianza σ 2 incognite. Si estrae un campione
casuale di n = 9 negozi e si osserva un numero medio di capi venduti x̄ = 200 e uno scarto quadratico medio
s = 12.72.
Costruire l’intervallo di conﬁdenza per il numero medio µ di capi venduti nella settimana dalla catena di
negozi, al livello del 98%.
Soluzione Poiché la varianza della popolazione non è nota ed il campione osservato è un piccolo campione
(n < 30), per la costruzione dell’intervallo di conﬁdenza si ricorre alla quantità pivotale
T=
X −µ
√
s/ n
che ha distribuzione t di Student con n − 1 gradi di libertà. Pertanto, partendo dalla relazione
P(−tα/2,n−1 < T < tα/2,n−1 ),
e applicando il procedimento di inversione, la stima intervallare al livello (1 − α)% per µ avrà forma
}
{
s
s
.
iµ = x − tα/2,n−1 √ , x + tα/2,n−1 √
n
n
M. Di Marzio
129
Primi elementi di inferenza statistica (ed. maggio 2012)
Sostituendo allora le informazioni a disposizione e ricavando dalle tavole della t di Student i valori ±tα/2,n−1 =
±t0.01,8 = ±2.896, si ottiene
{
}
12.72
12.72
iµ = 200 − 2.896 √ , 200 + 2.896 √
= {187.721, 212.279}.
9
9
Esercizio 18.3. In una grande azienda si vuole veriﬁcare se le risorse ﬁnanziarie accantonate per il pagamento degli straordinari hanno bisogno di essere ridimensionate per il prossimo futuro. Il numero di ore
mensili di straordinario eﬀettuate dai dipendenti si distribuisce normalmente con media µ e varianza σ 2
incognite.
Si estrae un campione casuale di n = 81 dipendenti e si osserva un numero medio di ore mensili di straordinario x̄ = 24 ed uno scarto quadratico medio s = 5.96. Costruire l’intervallo di conﬁdenza al livello del 99%
per la media incognita µ della popolazione generatrice.
Soluzione Pur essendo la varianza della popolazione non nota, poiché il campione osservato è un campione
grande (n > 30), per la costruzione dell’intervallo di conﬁdenza si ricorre alla quantità pivotale
Z=
X −µ
√ .
s/ n
La stima intervallare per la media incognita µ al livello di conﬁdenza (1 − α)% ha allora forma
{
}
s
s
iµ = x̄ − zα/2 √ , x̄ + zα/2 √
,
n
n
e sostituendo le informazioni a disposizione e ricavando dalle apposite tavole i valori ±zα/2 = ±z0.005 = ±2.575
si ottiene
{
}
5.96
5.96
iµ = 24 − 2.575 √ , 24 + 2.575 √
= {22.29, 25.71} .
81
81
Esercizio 18.4. Si vuole misurare lo scarto di eﬃcienza esistente tra due linee di produzione che realizzano il
medesimo prodotto. I tempi X1 e X2 rispettivamente impiegati dalle due linee di produzione si distribuiscono
normalmente con medie µ1 e µ2 e varianze σ12 = 9 e σ22 = 16.
Da n1 = 81 osservazioni di X1 è stato rilevato un tempo medio x̄1 = 24, mentre da n2 = 100 osservazioni di
X2 è stato rilevato un tempo medio x̄2 = 20.
Determinare la stima intervallare per la diﬀerenza tra le medie µ1 e µ2 dei tempi impiegati dalle due linee di
produzione, al livello 1 − α = 0.95.
)
(
Soluzione Poiché (X 1 − X 2 ) ∼ N µ1 − µ2 ; σ12 /n1 + σ22 /n2 , la quantità pivotale utilizzata per costruire
l’intervallo di conﬁdenza al livello (1 − α)% per µ1 − µ2 è
Z=
(X 1 − X 2 ) − (µ1 − µ2 )
√
.
σ12 /n1 + σ22 /n2
Applicando allora il procedimento di inversione, a partire da
{
}
P −zα/2 ≤ Z ≤ zα/2 = 1 − α
si ottiene, la stima intervallare al livello (1 − α)% di forma
{
}
√
√
2
2
2
2
iµ1 −µ2 = (x̄1 − x̄2 ) − zα/2 σ1 /n1 + σ2 /n2 , (x̄ − x̄2 ) + zα/2 σ1 /n1 + σ2 /n2 .
√
√
Essendo x̄ − x̄2 = 24 − 20 = 4, σ12 /n1 + σ22 /n2 = 9/81 + 16/100 = 0.52 e ricavando dalle apposite tavole
i valori ±zα/2 = ±z0.025 = ±1.96, si ottiene allora la stima intervallare
iµ1 −µ2 = {4 − 1.96 × 0.52, 4 + 1.96 × 0.52} = {2.98, 5.02} .
Esercizio 18.5. I tempi X1 e X2 impiegati per la manutenzione dei macchinari in due aziende A e B si
distribuiscono normalmente con medie µ1 e µ2 e varianze incognite ma uguali σ12 = σ22 .
Per un campione casuale di n1 = 4 macchinari dell’azienda A si è registrato un tempo medio di manutenzione
x̄ = 16 e una varianza s21 = 2, mentre per un campione casuale di n2 = 6 macchinari dell’azienda B si è
registrato un tempo medio x̄2 = 10 e una varianza s22 = 3. Costruire l’intervallo di conﬁdenza al livello del
98% per la diﬀerenza.
Primi elementi di inferenza statistica (ed. maggio 2012)
130
M. Di Marzio
18. ESERCIZI SVOLTI
Soluzione Poiché la numerosità campionaria (che nel caso di due campioni è dato dalla somma delle numerosità) n = n1 + n2 = 10 è piccola e le varianze σ12 = σ22 = σ 2 non note, la stima intervallare al livello
(1 − α)% per la diﬀerenza µ1 − µ2 assume la forma
{
}
√
√
iµ1 −µ2 = (x̄ − x̄2 ) − tα/2,n1 +n2 −2 sp 1/n1 + 1/n2 , (x̄ − x̄2 ) + tα/2,n1 +n2 −2 sp 1/n1 + 1/n2
√
dove
sp =
((n1 − 1) s21 + (n2 − 1) s22 ) / (n1 + n2 − 2) =
√
(3 · 2 + 5 · 3) / (4 + 6 − 2) = 1.62
è la stima della varianza incognita delle due popolazioni.
Pertanto, essendo x̄ − x̄2 = 16 − 10 = 6 e ricavando dalle tavole della t di Student, in corrispondenza di
α/2 = 0.01 e di n1 + n2 − 2 = 8 gradi di libertà, i valori delle soglie ±tα/2,n1 +n2 −2 = ±t0.01,8 = ±2.896 risulta
{
}
√
√
iµ1 −µ2 = 6 − 2.896 × 1.62 1/4 + 1/6, 6 + 2.896 × 1.62 1/4 + 1/6
= {2.9716, 9.0284} .
Esercizio 18.6. In una ispezione di qualità si confrontano i bulloni prodotti dalle aziende A e B. In un
campione casuale di n1 = 200 bulloni estratto dalla produzione dell’azienda A si è rilevato un diametro medio
x̄1 = 4 cm e una varianza s21 = 0.56, mentre in un campione casuale di n2 = 180 bulloni estratto dalla
produzione dell’azienda B si è rilevato un diametro medio x̄2 = 2 cm e una varianza s22 = 0.6.
Supponendo che i diametri dei bulloni prodotti dalle due aziende in questione si distribuiscano normalmente
con medie µ1 e µ2 e varianze σ12 = σ22 = σ 2 incognite, costruire l’intervallo di conﬁdenza al livello del 95%
per la diﬀerenza µ1 − µ2 tra i diametri medi dei bulloni prodotti dalle due aziende.
Soluzione Poiché n = n1 + n2 = 380 è suﬃcientemente grande, pur non essendo nota la varianza delle
popolazioni di origine dei campioni, la stima intervallare al livello di conﬁdenza (1 − α)% per la diﬀerenza
µ1 − µ2 assume la forma
}
{
√
√
iµ1 −µ2 = (x̄1 − x̄2 ) − zα/2 sp (1/n1 + 1/n2 ), (x̄1 − x̄2 ) + zα/2 sp (1/n1 + 1/n2 )
√
dove
sp =
(n1 − 1)s21 + (n2 − 1) s22
=
n1 + n2 − 2
√
199 × 0.56 + 179 × 0.6
= 0.76
200 + 180 − 2
è la stima della varianza incognita delle due popolazioni.
Pertanto, essendo x̄ − x̄2 = 4 − 2 = 2 ed essendo le soglie ±zα/2 = ±z0.025 = ±1.96, la stima intervallare al
livello di conﬁdenza del 95% per la diﬀerenza µ1 − µ2 è
{
}
√
√
iµ1 −µ2 = 2 − 1.96 × 0.76 (1/200 + 1/180), 2 + 1.96 × 0.76 (1/200 + 1/180)
= {1.85, 2.15} .
Esercizio 18.7. In un campione casuale di n = 1000 prodotti venduti da un’azienda nell’ultimo anno, 200
risultano venduti a clienti esteri. Costruire un intervallo di conﬁdenza al livello del 95% per la proporzione
π dei prodotti esportati dall’ azienda nell’ultimo anno.
Soluzione Essendo elevata la numerosità del campione, la quantità pivotale utilizzata per la costruzione
dell’intervallo di conﬁdenza al livello (1 − α)% per la proporzione π è
P −π
Z=√
,
P (1 − P ) /n
che ha pdf approssimativamente N (0, 1).
Applicando il procedimento di inversione a partire da
{
}
P −zα/2 ≤ Z ≤ zα/2 = 1 − α,
l’intervallo di conﬁdenza al livello (1 − α)% per π è dato da
√
√
Iπ = {P − zα/2 P (1 − P )/n, P + zα/2 P (1 − P )/n}.
Poichè la realizzazione campionaria di P è pari a 200/1000 = 0.2, trovando sulle tavole i valori delle soglie
±zα/2 = ±z0.025 = ±1.96 si ottiene la stima intervallare
√
√
iπ = {0.2 − 1.96 (0.2 × 0.8)/1000, 0.2 + 1.96 (0.2 × 0.8)/1000} = {0.18, 0.22}.
M. Di Marzio
131
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 18.8. Un’azienda ha avviato due diﬀerenti processi produttivi per la realizzazione di uno stesso
prodotto e vuole veriﬁcare quale sia il più eﬃciente.
Estraendo un campione casuale di n1 = 100 pezzi prodotti utilizzando il primo processo ed un campione casuale
di n2 = 100 pezzi prodotti utilizzando il secondo processo si sono rilevati, rispettivamente, rispettivamente 40
e 20 di pezzi difettosi.
Costruire l’intervallo di conﬁdenza al livello del 98% per la diﬀerenza π1 − π2 tra le percentuali di pezzi
difettosi prodotti attraverso i due processi.
Soluzione Poiché i campioni presentano una numerosità suﬃcientemente grande, la quantità pivotale utilizzata per costruire l’intervallo di conﬁdenza per π1 − π2 è
(P1 − P2 ) − (π1 − π2 )
Z=√
,
P1 (1 − P1 )/n1 + P2 (1 − P2 )/n2
che ha approssimativamente pdf N (0, 1).
Allora, a partire da
{
}
P −zα/2 ≤ Z ≤ zα/2 = 1 − α,
l’intervallo di conﬁdenza al livello (1 − α)% per π1 − π2 è dato da


√
√

P1 (1 − P1 ) P2 (1 − P2 )
P1 (1 − P1 ) P2 (1 − P2 ) 
Iπ1 −π2 = (P1 − P2 ) − zα/2
+
, (P1 − P2 ) + zα/2
+
.


n1
n2
n1
n2
Pertanto, poichè le realizzazioni campionarie di P1 e P2 risultano rispettivamente 40/100 = 0.4 e 20/100 = 0.2,
individuati sulle tavole i valori delle soglie ±zα/2 = ±z0.01 = ±2.33, la stima intervallare al livello del 98% è
data da
{
}
√
√
0.4 × 0.6 + 0.2 × 0.8
0.4 × 0.6 + 0.2 × 0.8
iπ1 −π2 = (0.4 − 0.2) − 2.33
, (0.4 − 0.2) + 2.33
100
100
= {0.05, 0.35} .
Esercizio 18.9. Nell’ambito della programmazione di una ricerca di mercato, un’azienda intende stimare il
numero medio µ, in giorni, necessario alla realizzazione delle campagne pubblicitarie per il lancio dei suoi
prodotti. Da indagini passate, è risultato che questi tempi si distribuiscono normalmente con s.q.m. σ = 6
giorni. Determinare quale deve essere la numerosità n del campione di misurazioni dei tempi di realizzazione
per ottenere un intervallo di conﬁdenza al livello del 95% che possa dare una precisione di Err = 4 giorni.
√
Soluzione Il margine di errore della stima di µ che si è disposti a tollerare è Err = zα/2 σ/ n. Elevando al
quadrato entrambi i membri dell’equazione si ottiene
Err2 =
e risolvendo rispetto ad n
(
n=
2
zα/2
× σ2
n
zα/2 × σ
Err
)2
.
Poiché 1−α = 0.95, α = 0.05 e α/2 = 0.025 risulta zα/2 = 1.96. Sostituendo nell’equazione σ = 6, zα/2 = 1.96
ed Err = 4, risulta
)2
(
1.96 × 6
n=
= 8.6436,
4
arrotondando per eccesso il valore ottenuto all’intero più vicino, risulta dunque che la numerosità campionaria
necessaria è n = 9.
Esercizio 18.10. Un’industria che produce lamiere metalliche ha ricevuto un ordine di acquisto di un grosso
quantitativo di lamiere di un dato spessore. Per assicurare la qualità della propria fornitura, l’azienda vuole
tenere sotto controllo la propria produzione. Assumendo che lo spessore X delle lamiere prodotte ha distribuzione normale con media µ = 3 cm, e avendo osservato un campione di lamiere per le quali gli spessori
sono risultati essere x1 = 2.88, x2 = 2.93 e x3 = 2.98 determinare la stima intervallare al livello del 95% per
la varianza incognita σ 2 dello spessore.
Primi elementi di inferenza statistica (ed. maggio 2012)
132
M. Di Marzio
18. ESERCIZI SVOLTI
Soluzione Poiché X ha distribuzione normale con media µ nota, ed la numerosità del campione è n < 30,
la quantità pivotale da utilizzare per costruire l’intervallo di conﬁdenza per σ 2 è
∑n
(Xi − µ)2
U = i=1 2
,
σ
che ha distribuzione chi-quadrato con n gradi di libertà. Partendo allora dalla relazione
P(χ21−α/2,n < U < χ2α/2,n ) = 1 − α,
utilizzando il procedimento di inversione, l’intervallo di conﬁdenza al livello (1 − α)% per σ 2 risulta
{∑
}
∑n
n
2
2
i=1 (Xi − µ)
i=1 (Xi − µ)
,
Iσ2 =
.
χ2α/2,n
χ21−α/2,n
Dalle tavole della distribuzione chi-quadrato si ricavano i valori χ2α/2,n = χ20.025,3 = 9.35 e χ21−α/2,n =
χ21−0.025,3 = 0.22, ed avendo osservato la realizzazione x1 = 2.88, x2 = 2.93, x3 = 2.98, la stima intervallare
al livello del 95% per σ 2 risulta
}
{
(2.88 − 3)2 + (2.93 − 3)2 + (2.98 − 3)2 (2.88 − 3)2 + (2.93 − 3)2 + (2.98 − 3)2
iσ2 =
,
9.35
0.22
= {0.0021, 0.0895}.
Esercizio 18.11. Si vuole veriﬁcare se la quantità X di una sostanza inquinante emessa dalle marmitte
prodotte da un’azienda sono contenute entro limiti prestabiliti. A tal ﬁne, si estrae un campione di n = 3
marmitte dalla produzione settimanale dell’azienda e attraverso prove su strada si rilevano le seguenti quantità
(in mg per Km) della sostanza nociva rilasciate: x1 = 895, x2 = 902, x3 = 894. Sapendo che la quantità
emessa della sostanza in esame ha distribuzione normale di parametri µ e σ 2 incogniti, determinare la stima
intervallare di σ 2 al livello di conﬁdenza del 99%.
Soluzione Poiché X ha distribuzione normale con media µ incognita, e la numerosità del campione è n < 30,
la quantità pivotale da utilizzare per costruire l’intervallo di conﬁdenza per σ 2 è
∑n
(Xi − X)2
V = i=1 2
,
σ
che ha distribuzione chi-quadrato con n − 1 gradi di libertà. Partendo allora dalla relazione
P(χ21−α/2,n−1 < V < χ2α/2,n−1 ) = 1 − α,
utilizzando il procedimento di inversione, l’intervallo di conﬁdenza al livello (1 − α)% per σ 2 risulta
{∑
}
∑n
n
2
2
i=1 (Xi − X)
i=1 (Xi − X)
Iσ2 =
,
.
χ2α/2,n−1
χ21−α/2,n−1
Dalle tavole della distribuzione chi-quadrato si ricavano i valori χ2α/2,n−1 = χ20.005,2 = 10.6 e χ21−α/2,n−1 =
χ21−0.005,2 = 0.01, ed essendo
∑3
xi
895 + 902 + 894
=
= 897,
x = i=1
3
3
la stima intervallare al livello del 99% per σ 2 risulta
{
}
(895 − 897)2 + (902 − 897)2 + (894 − 897)2 (895 − 897)2 + (902 − 897)2 + (894 − 897)2
iσ 2 =
,
10.6
0.01
= {3.58, 3008}.
M. Di Marzio
133
Primi elementi di inferenza statistica (ed. maggio 2012)
19
Veriﬁca d’ipotesi
Indice
19.1 Ipotesi statistiche . . . . . . . . . . . . . . . . . . .
19.2 Il test statistico . . . . . . . . . . . . . . . . . . . .
19.3 Accuratezza del test statistico . . . . . . . . . . . .
19.4 Costruzione del test statistico . . . . . . . . . . . .
19.5 Veriﬁca d’ipotesi sulla media . . . . . . . . . . . .
19.6 Veriﬁca di ipotesi sulla diﬀerenza tra medie . . .
19.7 Veriﬁca di ipotesi nel caso di grandi campioni . .
19.8 Veriﬁca d’ipotesi sulla proporzione . . . . . . . . .
19.9 Veriﬁca d’ipotesi sulla diﬀerenza tra proporzioni
19.10Veriﬁca di ipotesi sulla varianza . . . . . . . . . . .
19.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
134
135
137
139
141
142
143
143
144
144
Ipotesi statistiche
L’inferenza statistica, ﬁnora espressa in termini di stima, può anche essere condotta esaminando la compatibilità tra un’ipotesi sul valore del parametro e i dati campionari. Il risultato di tale procedura consiste nella
decisione di (non) rigetto dell’ipotesi accompagnata dalla probabilità di aver commesso un errore.
Esempio 19.1. Prima dell’acquisto di una fornitura risulta consigliabile prelevare un campione di merce e veriﬁcare,
sulla base dell’evidenza empirica, se quanto aﬀermato dal fornitore è supportato dai fatti. In particolare vengono
formulate due ipotesi su una caratteristica quantitativa della merce, una racchiude la speciﬁcazione numerica asserita
dal fornitore, l’altra speciﬁcazioni numeriche alternative. Sulla base del campione osservato si deve decidere se scartare
la prima.
In termini formali, la veriﬁca di ipotesi statistiche può essere descritta come segue. Sia X un carattere
quantitativo, immaginiamo di voler acquisire informazioni su fX (·; θ). Sappiamo che fX (·; θ) appartiene alla
famiglia parametrica {fX (·; θ); θ ∈ Θ ⊂ Rk }, ma non conosciamo il valore del parametro θ. Al solito possiamo
osservare un campione casuale X1 , X2 , ..., Xn . Tale modello statistico, usuale per la stima, nel caso di veriﬁca
di ipotesi prevede di un elemento aggiuntivo. Infatti si suppone anche che lo spazio parametrico Θ è bipartito
negli insiemi non vuoti Θ0 e Θ1 tali che
Θ0 ∪ Θ1 = Θ
e
Θ0 ∩ Θ1 = ∅.
Si deve stabilire, sulla base di una realizzazione campionaria, se scartare l’aﬀermazione θ ∈ Θ0 .
La notazione
{
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1 ,
rappresenta il sistema di ipotesi da sottoporre a veriﬁca. L’aﬀermazione H0 è detta ipotesi nulla, mentre
l’aﬀermazione H1 è detta ipotesi alternativa. Normalmente l’ipotesi nulla racchiude lo status quo ante,
così se essa non verrà rigettata la situazione pratica sottostante resterà immutata, mentre in caso contrario
ci saranno cambiamenti. Con riferimento all’esempio 19.1, l’aﬀermazione del fornitore costituisce l’ipotesi
Primi elementi di inferenza statistica (ed. maggio 2012)
134
M. Di Marzio
19.
VERIFICA D’IPOTESI
nulla, così se quest’ultima non verrà scartata continueremo a rivolgerci allo stesso fornitore, mentre in caso
contrario lo sostituiremo.
Un’ipotesi si deﬁnisce semplice se esprime un singolo valore del parametro θ, e quindi se speciﬁca completamente la pdf fX (·; θ), altrimenti si dice composta.
Esempio 19.2. Si consideri il campione casuale estratto dalla pdf fX (·; θ). Il sistema d’ipotesi

 H0 : θ = 5
 H : θ ̸= 5,
1
contrappone un’ipotesi nulla semplice ad un’ipotesi alternativa composta.
Un’ipotesi composta Hi , i ∈ {0, 1} si deﬁnisce
⋄ bidirezionale se ha espressione Hi : θ ̸= k, con k ∈ Θ;
⋄ unidirezionale se ha espressione Hi : θ > k (oppure Hi : θ < k), con k ∈ Θ.
19.2
Il test statistico
Lo statistico, di fronte a una prestabilita bipartizione {Θ0 , Θ1 }, ha il compito di formulare una regola o
test che, sulla base dei dati campionari, permette di decidere se θ ∈ Θ0 . In particolare si deﬁnisce test
statistico una funzione Γ che associa ad ogni realizzazione campionaria la decisione di non rigettare (A)
oppure la decisione di rigettare (R) l’ipotesi nulla:
Γ : X → {A, R}.
Si noti che Γ non è una funzione reale poichè assume valori in uno spazio decisionale. A volte useremo
l’espressione accettare H0 , ma in realtà questo non sarebbe corretto. Infatti l’evidenza empirica può non
essere suﬃciente per scartare H0 , oppure essere suﬃciente per scartarla, mai per accettare H0 o H1 .
L’insieme A delle realizzazioni campionarie che portano ad accettare H0 , cioè
A = {x1 , x2 , .., xn : Γ(x1 , x2 , .., xn ) = A}
è detto regione di accettazione, mentre l’insieme R delle realizzazioni campionarie che portano a riﬁutare
H0 , cioè
R = {x1 , x2 , .., xn : Γ(x1 , x2 , .., xn ) = R}
è detto regione di riﬁuto. Ovviamente A e R formano una bipartizione di X, cioè:
A∪R=X
e
A ∩ R = ∅.
Così una qualsiasi bipartizione di X del tipo {A, R} identiﬁca un test statistico, per cui le espressioni test e
bipartizione di X sono interscambiabili.
Normalmente ogni realizzazione campionaria è in una certa misura compatibile sia con il caso θ ∈ Θ0 sia con
il caso θ ∈ Θ1 , di conseguenza non si può mai scartare una ipotesi senza rischio di sbagliarsi.
Esempio 19.3. Sia X1 , X2 un campione casuale estratto da una popolazione presso la quale il carattere X ha
distribuzione uniforme nell’intervallo [0, θ]. Lo spazio parametrico è ovviamente Θ = R+ . Si vuole veriﬁcare il
seguente sistema di ipotesi

 H0 : θ ≤ 3
 H : θ > 3.
1
La realizzazione (5, 6) è compatibile esclusivamente con H1 ; essa conduce pertanto a riﬁutare H0 senza rischio di
errore. La realizzazione (1, 2) risulta invece compatibile con entrambe le ipotesi del sistema e quindi non conduce a
scartare (accettare) H0 senza possibilità di errore 1 .
In particolare è possibile riﬁutare l’ipotesi nulla H0 quando questa è vera. L’errore così deﬁnito è detto
errore di I tipo e la probabilità del suo veriﬁcarsi è indicata con α(θ), ossia
α(θ) = P(x1 , x2 , ..., xn ∈ R|θ ∈ Θ0 )
∫
∫ ∏
n
= ···
fX (xi ; θ)dx1 dx2 , ..., dxn
R
con θ ∈ Θ0 .
i=1
1 Si
noti che il caso della densità uniforme è uno dei pochi, come descritto nell’esempio 12.15, in cui lo spazio campionario X
è determinato dal valore del parametro.
M. Di Marzio
135
Primi elementi di inferenza statistica (ed. maggio 2012)
19.2. Il test statistico
H0 vera
H0 falsa
Accetto H0
decisione corretta
errore II tipo
Riﬁuto H0
errore I tipo
decisione corretta
Tabella 19.1: Possibili esiti della veriﬁca di ipotesi.
L’altro errore che può essere commesso è quello di accettare l’ipotesi nulla H0 quando questa è falsa; si parla
di errore di II tipo e la probabilità del suo veriﬁcarsi è indicata con β(θ), ossia
β(θ) = P(x1 , x2 , ..., xn ∈ A|θ ∈ Θ1 )
∫
∫ ∏
n
fX (xi ; θ)dx1 dx2 , ..., dxn
= ···
A
con θ ∈ Θ1 .
i=1
Nella tabella 19.1 sono schematizzati i possibili esiti della veriﬁca di un sistema di ipotesi.
Dalle formule precedenti emerge che le probabilità di errore sono funzione del parametro incognito θ. Poiché
α(θ) è la probabilità di riﬁutare H0 condizionatamente al fatto che H0 è vera, α(θ) ha come dominio Θ0 ,
mentre per l’analoga ragione β(θ) ha come dominio Θ1 . In formule
α : Θ0 → [0, 1] ,
β : Θ1 → [0, 1] .
Si deﬁnisce funzione di potenza del test la funzione ℘(θ) che per ogni θ fornisce la probabilità di riﬁutare
l’ipotesi nulla, in formule
℘(θ) = P(x1 , x2 , ..., xn ∈ R|θ ∈ Θ).
Esempio 19.4. Sia X1 , X2 , ..., X5 un campione casuale estratto da una popolazione bernoulliana di parametro π
incognito. In questo caso lo spazio parametrico è P = [0, 1]. Si vuole veriﬁcare il sistema d’ipotesi

 H0 : π ≤ 1/2
 H : π > 1/2.
1
Consideriamo un test Γ1 che conduce al riﬁuto di H0 se e solo se si osservano tutti esiti successo, ossia se X∑
i = 1 per
ogni i = 1, 2, ..., 5, e un test Γ2 che conduce al riﬁuto di H0 se si osservano 3, 4 o 5 esiti successo. Posto Y = 5i=1 Xi ,
allora Y ∼ B(π, 5), e le funzioni di potenza dei test Γ1 e Γ2 risultano rispettivamente
( )
5 5
℘1 (π) = P(Y = 5) =
π (1 − π)0 = π 5
5
e
℘2 (π) = P(Y ∈ {3, 4, 5}) =
( )
( )
( )
5 3
5 4
5 5
π (1 − π)2 +
π (1 − π) +
π (1 − π)0
3
4
5
esse sono illustrate nella ﬁgura 19.1.
℘2
1
0.8
0.6
0.4
℘
0.2
1
0
0.2
0.4
0.6
0.8
π1
Figura 19.1: Funzioni di potenza dei test Γ1 e Γ2 .
Primi elementi di inferenza statistica (ed. maggio 2012)
136
M. Di Marzio
19.
VERIFICA D’IPOTESI
0
℘(θ)
1
℘(θ)
1
Θ0
0.2
0.5
0.8
0
Θ
1
Θ1
0.2
Θ0
0.8
Θ1
Figura 19.2: Funzioni di potenza dei test dell’esempio 19.6.
Esempio 19.5. Si estrae una singola osservazione X1 da una pdf N (µ, 1). Il sistema di ipotesi da saggiare è

 H0 : µ ≤ 0
 H : µ > 0.
1
Si utilizza il test che non rigetta H0 se X1 ≤ 0. Qui lo spazio parametrico è ovviamente M = R. La funzione di
potenza è
℘(µ) = P(X1 > 0)
= P(X1 − µ > 0 − µ)
= P(Z > −µ)
= 1 − Φ(−µ)
= Φ(µ).
Così la funzione di potenza coincide con la funzione di ripartizione della pdf normale standard.
Come si vedrà in seguito, alla funzione di potenza si ricorre per valutare l’accuratezza di un test, così come
si ricorre al criterio dello EQM per valutare l’accuratezza di uno stimatore per punti.
Ovviamente in Θ0 si ha che ℘(θ) = α(θ). Così, tramite la funzione di potenza, si deﬁnisce il livello di
signiﬁcatività α di un test come la massima probabilità di commettere l’errore di I tipo:
α = sup ℘(θ).
θ∈Θ0
19.3
Accuratezza del test statistico
Si è visto che ogni possibile bipartizione di X del tipo {A, R} deﬁnisce un test statistico, così normalmente
sono disponibili molti test per un dato problema. Nasce quindi l’esigenza di un criterio per scegliere il test
migliore. Evidentemente un test potrà essere giudicato ottimale se rende piccole, nei limiti del possibile, le
probabilità degli errori di I e di II tipo. In particolare sarebbe auspicabile una bipartizione di X tale che la
funzione di potenza ℘(θ) sia:
⋄ la più alta possibile (idealmente uguale a 1) quando θ ∈ Θ1 ,
⋄ la più bassa possibile (idealmente uguale a 0) quando θ ∈ Θ0 .
Esempio 19.6. Nella parte sinistra della ﬁgura 19.2 è riportata la funzione di potenza ideale del test

 H0 : θ ∈ [0, 0.5]
 H : θ ∈ (0.5, 1],
1
mentre nella parte destra è riportata la funzione di potenza del test peggiore possibile per il sistema di ipotesi

 H0 : θ ∈ [0.2, 0.8]
 H : θ ∈ [0, 0.2) ∪ (0.8, 1].
1
M. Di Marzio
137
Primi elementi di inferenza statistica (ed. maggio 2012)
19.3. Accuratezza del test statistico
℘(θ)
1
α
Θ0
−7
Θ
1
Figura 19.3: Funzioni di potenza di due test per l’ipotesi H0 : θ ≤ −7 contro H1 : θ > −7.
Ovviamente bipartizioni senza rischio, come quelle dell’esempio precedente, corrispondono al caso, per nulla
realistico, in cui ogni realizzazione campionaria è compatibile con una sola delle ipotesi. Di conseguenza la
realtà dei fatti impone
α(θ) > 0,
β(θ) > 0
∀θ ∈ Θ ;
inoltre, a ben vedere, le probabilità α(θ) e β(θ) non possono essere ridotte contemporaneamente. Se infatti
volessimo ridurre α(θ) (rispettivamente β(θ)) per ogni θ ∈ Θ0 (risp. Θ1 ), allora dovremmo ridurre la regione
R (risp. A) che è la regione di integrazione nella formulazione di α(θ) (risp. β(θ)): ma poiché R = X − A
(risp. A = X − R), riducendo R (risp. A) si aumenta A (risp. R) e quindi il valore dell’integrale che
deﬁnisce β(θ) (risp. α(θ))2 . Comunque da tale ragionamento si deduce che si può ottenere una bipartizione
ottimale se spostando realizzazioni campionarie da A in R la probabilità di un errore scende più di quanto
la probabilità dell’altro errore salga.
In applicazione dei principi appena esposti, si sceglie, tra i test di un prestabilito livello α, quello che rende
minima la probabilità β(θ) per ogni θ ∈ Θ1 . Un test siﬀatto viene chiamato uniformemente più potente
di livello α. Formalmente diremo che nella classe di tutti i test con livello α ﬁssato, adottati per veriﬁcare il
sistema di ipotesi
{
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1 ,
un test con funzione di potenza ℘∗ (θ) è uniformemente più potente se risulta
℘∗ (θ) ≥ ℘(θ),
per ogni funzione di potenza ℘(θ) di ciascun altro test a livello α e per ogni θ ∈ Θ1 . Purtoppo come nei
problemi di stima per punti in genere non sempre esiste tra più stimatori di un parametro θ quello che ha
EQM minore per ogni valore θ ∈ Θ, egualmente non sempre esiste tra diversi test al livello α uno che possa
vantare funzione di potenza maggiore per ogni valore θ ∈ Θ1 .
Esempio 19.7. In ﬁgura 19.3 sono rappresentate le funzioni di potenza di due test utilizzabili per il sistema di ipotesi

 H0 : θ ≤ −7
 H : θ > −7.
1
Essi hanno uguale livello di signiﬁcatività, ma non ce n’è uno uniformemente più potente.
Fissato il livello α, si adotta la seguente procedura di verosimiglianza per ottenere la bipartizione con potenza
massima: la regione di riﬁuto include tutte le realizzazioni campionarie aventi probabilità più alta sotto
l’ipotesi alternativa. Come conseguenza la regione di accettazione include le realizzazioni campionarie meno
probabili sotto l’ipotesi alternativa e quindi, per quel dato valore di α, sarà minimizzata la probabilità di
commettere un errore di II tipo.
Fin qui è stata discussa l’accuratezza per campioni di ampiezza ﬁssa. Alla base dell’intera teoria esposta sta
il fatto che, data una ﬁssata ampiezza n, le probabilità di errore α e β non possono essere ridotte contestualmente. Comunque, come si è appreso per la stima, ci aspetteremmo che all’aumentare della numerosità
campionaria l’accuratezza del test dovrebbe aumentare poiché l’informazione sul parametro aumenta. Questo
è quello che infatti accade nella generalità dei casi. Infatti si osserva che al tendere di n all’inﬁnito entrambe
le probabilità α(θ) e β(θ) diminuiscono contestualmente, ﬁno ad annullarsi entrambe. L’eﬀetto in termini di
funzione di potenza è che quest’ultima tende alla sua forma ideale.
2 Si
osservi che questo ragionamento si basa sul fatto che le funzioni integrande sono non negative.
Primi elementi di inferenza statistica (ed. maggio 2012)
138
M. Di Marzio
VERIFICA D’IPOTESI
℘(µ)
19.
1
0.8
n=1
n=10
n=100
n=10000000
0.6
0.4
0.2
0
−3
−2
−1
0
1
2
µ 3
Figura 19.4: Funzioni di potenza del test dell’esempio 19.5 per varie numerosità campionarie.
Esempio 19.8. Si consideri il test dell’esempio 19.5; nella ﬁgura 19.4 ne è riportata la funzione di potenza in
corrispondenza di campioni di varia entità. Chiaramente per n molto grande la funzione di potenza assume la forma
ideale, divenendo così quasi impossibile commettere errori di prima o seconda specie.
19.4
Costruzione del test statistico
Consideratene le proprietà di accuratezza, presentiamo adesso un metodo di costruzione del test statistico.
Da qui in avanti saranno presi in considerazione solo sistemi di ipotesi in cui l’ipotesi nulla è semplice, ossia
H0 : θ = θ0 . In tal caso il livello di signiﬁcatività è semplicemente α = α(θ0 ) = ℘(θ0 ).
Un test statistico è speciﬁcato tramite la statistica test, cioè una statistica campionaria D = δ(Θ̂; θ0 ) che
misura la discrepanza tra una stima θ̂ ed l’ipotesi nulla θ0 .
L’uso della statistica test permette una forte sempliﬁcazione poichè realizza la riduzione delle regioni di
punti n-dimensionali A e R in due regioni A e R di punti appartenenti all’asse reale. Inoltre, essendo una
discrepanza, permette di applicare il principio di massimizzazione della potenza poichè a discrepanze maggiori
corrispondono realizzazioni campionarie meno probabili sotto l’ipotesi nulla. Logicamente, se il valore della
discrepanza cade in A, si ottiene l’accettazione, in caso contrario il riﬁuto.
Una quantità pivotale T = τ (X1 , X2 , ...Xn ; θ) (sez. 17.2) può trasformarsi in statistica test per la veriﬁca di
ipotesi semplici H0 : θ = θ0 se al parametro θ si sostituisce il valore θ0 .
Esempio 19.9. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione bernoulliana con proporzione π
e sia n > 30. Assumiamo di aver formulato un sistema di ipotesi in cui l’ipotesi nulla è H0 : π = π0 . La quantità
Z= √
P − π0
π0 (1 − π0 )/n
è una statistica test. Infatti misura la discrepanza tra P e π0 e per il TCL ha pdf N (0, 1), che è del tutto nota.
Un test statistico è stato deﬁnito come una procedura che porta ad accettare o riﬁutare H0 sulla base dei
dati, con la logica che segue. Misurata la discrepanza d = δ(θ̂; θ0 ) tra la stima θ̂ e il valore del parametro
sotto l’ipotesi nulla θ0 , si presentano due alternative:
⋄ se d è ‘bassa’, l’evidenza empirica supporta H0 ;
⋄ se d è ‘alta’, l’evidenza empirica non supporta H0 .
Così, dato α, la regione di riﬁuto R del test ottimale contiene tutti i valori più grandi della statistica test
poichè questi sono i più rari sotto l’ipotesi nulla.
Illustriamo la procedura di costruzione di regioni di riﬁuto per i diversi sistemi di ipotesi che saranno presi
in considerazione. Come detto, si includono nella regione di riﬁuto il α100% dei casi più rari.
⋄ Ipotesi alternative unidirezionali Sia X1 , X2 , ..., Xn un campione casuale dalla pdf fX (·; θ) e sia D
la statistica test utilizzata per sottoporre a veriﬁca il seguente sistema di ipotesi
{
H0 : θ = θ0
H1 : θ > θ 0 .
M. Di Marzio
139
Primi elementi di inferenza statistica (ed. maggio 2012)
19.4. Costruzione del test statistico
La soglia che divide la regione di riﬁuto dalla regione di accettazione è data dal valore d∗ tale che
∫
+∞
fD (d)dd = α.
d∗
Quindi, indicato con d il valore della statistica test in corrispondenza della realizzazione campionaria
osservata, l’ipotesi nulla sarà rigettata se d > d∗ , mentre sarà accettata se d < d∗ .
In maniera equivalente ricorrendo al calcolo del livello di signiﬁcatività osservato
γ = P(D ≥ d|θ = θ0 ),
se risulta γ ≥ α, la discrepanza d si giudica bassa e H0 viene accettata; se invece risulta γ < α, d si
considera alta, l’ipotesi nulla viene riﬁutata ed il test si deﬁnisce signiﬁcativo. Qui ‘signiﬁcativo’ è
da intendersi nel senso che l’evidenza empirica è suﬃciente per rigettare l’ipotesi nulla, e quindi il test
statistico motiva un cambiamento della situazione preesistente. In caso di accettazione il test è detto
non signiﬁcativo poiché l’informazione racchiusa in H0 non è contrastata, confermando ciò che già
era conosciuto.
Se il sistema di ipotesi da sottoporre a veriﬁca è invece
{
H0 : θ = θ0
H1 : θ < θ 0 ,
allora la soglia che divide la regione di accettazione dalla regione di riﬁuto è data dal valore d∗ tale che
∫
d∗
−∞
fD (d)dd = α,
e l’ipotesi nulla sarà riﬁutata se il valore della statistica test in corrispondenza della realizzazione
campionaria osservata si rivela inferiore a d∗ .
Equivalentemente calcolata la probabilità
γ = P(D ≤ d|θ = θ0 ),
se risulta γ > α si accetta H0 , mentre se γ < α si riﬁuta H0 .
⋄ Ipotesi alternativa bidirezionale Sia X1 , X2 , ..., Xn un campione casuale dalla pdf fX (·; θ) e sia D
la statistica test utilizzata per sottoporre a veriﬁca il seguente sistema di ipotesi
{
H0 : θ = θ0
H1 : θ ̸= θ0 .
Sia d la discrepanza osservata in corrispondenza della realizzazione campionaria x1 , x2 , ..., xn . La regione
di accettazioni del test sarà delimitata dai valori d∗1 e d∗2 tali che d∗1 < d∗2 e
∫
d1 ∗
−∞
fD (d) dd =
∫
α
2
+∞
e
d∗
2
fD (d) dd =
α
,
2
e l’ipotesi nulla verrà rigettata se il valore della statistica test in corrispondenza della realizzazione
campionaria osservata risulta d < d∗1 oppure d > d∗2 .
Equivalentemente, si procede a determinare le probabilità
γ1 = P(D ≥ d|θ = θ0 )
e
γ2 = P(D ≤ d|θ = θ0 ).
Quindi si riﬁuta H0 se in corrispondenza della realizzazione campionaria osservata risulta γ1 < α/2
oppure γ2 < α/2.
Il metodo appena descritto sarà ora usato per costruire test su medie, percentuali e varianze.
Primi elementi di inferenza statistica (ed. maggio 2012)
140
M. Di Marzio
19.
VERIFICA D’IPOTESI
Ipotesi H0
Ipotesi H1
Regione R
µ = µ0
µ > µ0
{z : z ≥ zα }
µ = µ0
µ < µ0
{z : z ≤ −zα }
µ = µ0
µ ̸= µ0
{z : |z| ≥ zα/2 }
Tabella 19.2: Regioni di riﬁuto per test sulla media di popolazioni normali con σ 2 noto.
19.5
Veriﬁca d’ipotesi sulla media
Sia X1 , X2 , ..., Xn un campione casuale da una pdf N (µ, σ 2 ). Si vuole sottoporre a test la media incognita
µ. Fissato il livello di signiﬁcatività α, si formula l’ipotesi nulla H0 : µ = µ0 . Sono possibili due casi.
◃ Caso 1: varianza nota Se la varianza della popolazione σ 2 è nota, la statistica test adeguata è
Z=
X − µ0
√ ;
σ/ n
Come statistica test, Z misura la discrepanza tra x ed il valore espresso dall’ipotesi nulla µ0 e inoltre
ha pdf nota, cioè N (0, 1).
Se l’ipotesi alternativa è H1 : µ > µ0 , H0 viene riﬁutata quando
γ = P(Z ≥ z|µ = µ0 )
(
)
x̄ − µ0
√
=P Z≥
σ/ n
<α
ma P (Z ≥ zα ) = α, così la regione di riﬁuto del test è deﬁnita da
R = {z : z ≥ zα }.
Con l’ipotesi alternativa H1 : µ < µ0 , si riﬁuta H0 se
γ = P(Z ≤ z|µ = µ0 )
(
)
x̄ − µ0
√
=P Z≤
σ/ n
< α,
e poiché qui α = P(Z ≤ −zα ), la regione di riﬁuto è deﬁnita da
R = {z : z ≤ −zα }.
Per l’ipotesi alternativa bidirezionale H1 : µ ̸= µ0 si calcolano invece le probabilità
(
)
(
)
x̄ − µ0
x̄ − µ0
√
√
γ1 = P(Z ≥ z|µ = µ0 ) = P Z ≥
e γ2 = P(Z ≤ z|µ = µ0 ) = P Z ≤
σ/ n
σ/ n
e si riﬁuta se γ1 < α/2 o γ2 < α/2. La regione di riﬁuto è allora deﬁnita da
R = {z : z ≥ zα/2 } ∪ {z : z ≤ −zα/2 } = {z : |z| ≥ zα/2 }.
Nella tabella 19.2 sono indicate le regioni di riﬁuto ﬁnora ricavate.
◃ Caso 2: varianza non nota Se la varianza della popolazione σ 2 è incognita, allora la statistica test
adeguata a veriﬁcare l’ipotesi H0 : µ = µ0 è
T=
M. Di Marzio
141
X̄ − µ0
√ ,
S/ n
Primi elementi di inferenza statistica (ed. maggio 2012)
19.6. Veriﬁca di ipotesi sulla diﬀerenza tra medie
Ipotesi H0
Ipotesi H1
Regione R
µ = µ0
µ > µ0
{t : t ≥ tα,n−1 }
µ = µ0
µ < µ0
{t : t ≤ −tα,n−1 }
µ = µ0
µ ̸= µ0
{t : |t| ≥ tα/2,n−1 }
Tabella 19.3: Regioni di riﬁuto per test sulla media di popolazioni normali con σ 2 non noto.
che ha distribuzione t di Student con n − 1 gradi di libertà. Anche in questo caso la veriﬁca di ipotesi
verrà condotta seguendo il procedimento descritto in precedenza. Quindi ad esempio, se il sistema da
sottoporre a veriﬁca contrappone all’ipotesi nulla l’ipotesi alternativa unidirezionale H1 : µ > µ0 , si
riﬁuta H0 se
γ = P(T ≥ t|µ = µ0 )
(
)
x̄ − µ0
√
=P T≥
s/ n
< α,
ed essendo P (T ≥ tα,n−1 ) = α, la regione di riﬁuto del test rimane deﬁnita come
R = {t : t ≥ tα,n−1 }.
Nella tabella 19.3 sono riassunte le regioni di riﬁuto corrispondenti ai diversi sistemi di ipotesi riguardanti la media di popolazioni normali quando la varianza σ 2 è incognita.
19.6
Veriﬁca di ipotesi sulla diﬀerenza tra medie
Spesso può risultare interessante confrontare le medie di due popolazioni. In questi casi ha senso testare
l’ipotesi di uguaglianza tra le medie contro le diverse possibili ipotesi alternative.
Supponiamo di avere due campioni casuali indipendenti estratti rispettivamente da una pdf N (µ1 , σ12 ) e da
una pdf N (µ2 , σ22 ). Si vuole testare l’ipotesi H0 : µ1 − µ2 = 0. Pertanto, ﬁssato il livello di signiﬁcatività α
possono aversi i due casi di seguito proposti.
◃ Caso 1: varianze note Se le varianze σ12 e σ22 delle popolazioni di origine dei due campioni sono
entrambe note, la statistica test adottata è
X1 − X2
Z=√ 2
σ1 /n1 + σ22 /n2
che coincide con la quantità pivotale utilizzata come stimatore intervallare per la diﬀerenza tra medie
(sez. 17.6), condizionata a µ1 − µ2 = 0.
Si consideri l’ipotesi alternativa H1 : µ1 − µ2 > 0. Fissato il livello di signiﬁcativà α, seguendo un
ragionamento del tutto analogo a quello adottato nel caso di una sola media, se
γ = P(Z ≥ z|µ1 − µ2 = 0)
(
)
x̄1 − x̄2
=P Z≥ √ 2
σ1 /n1 + σ22 /n2
<α
l’ipotesi nulla viene rigettata. Equivalentemente, poiché P(Z ≥ zα ) = α la regione di riﬁuto del test è
deﬁnita da
R = {z : z ≥ zα }.
Nella tabella 19.5 sono riportate le regioni di riﬁuto per la veriﬁca di sistemi di ipotesi sulla diﬀerenza
tra medie di due popolazioni normali.
Primi elementi di inferenza statistica (ed. maggio 2012)
142
M. Di Marzio
19.
VERIFICA D’IPOTESI
Ipotesi H0
Ipotesi H1
Regione R
µ1 − µ2 = 0
µ1 − µ2 > 0
{z : z ≥ zα }
µ 1 − µ2 = 0
µ1 − µ2 < 0
{z : z ≤ −zα }
µ 1 − µ2 = 0
µ1 − µ2 ̸= 0
{z : |z| ≥ zα/2 }
Tabella 19.4: Regione di riﬁuto per test sulla diﬀerenza tra medie di due popolazioni normali con varianze note.
Ipotesi H0
Ipotesi H1
Regione R
µ1 − µ2 = 0
µ1 − µ2 > 0
{t : t ≥ tα,n1 +n2 −2 }
µ1 − µ2 = 0
µ1 − µ2 < 0
{t : t ≤ −tα,n1 +n2 −2 }
µ1 − µ2 = 0
µ1 − µ2 ̸= 0
{t : |t| ≥ tα/2,n1 +n2 −2 }
Tabella 19.5: Regioni di riﬁuto per test sulla diﬀerenza tra medie di due popolazioni normali con varianze non note.
◃ Caso 2: varianze incognite uguali Studiamo solo il caso in cui le varianze σ12 e σ22 sono incognite,
ma è noto che sono uguali, ossia σ12 = σ22 = σ 2 . Per l’ipotesi nulla H0 : µ1 = µ2 si usa la statistica test
T=
X − X2
√ 1
,
Sp 1/n1 + 1/n2
che ha distribuzione t di Student con n1 + n2 − 2 gradi di libertà.
Seguendo la usuale logica si ottengono le regioni di riﬁuto riportate nella tabella 19.5.
19.7
Veriﬁca di ipotesi nel caso di grandi campioni
Nel caso di grandi campioni, cioè nel caso in cui la numerosità dei campioni considerati è maggiore di 30,
per eﬀetto del TCL le statistiche test adottate per le veriﬁche di ipotesi indipendentemente dalla popolazione
di origine hanno distribuzione approssimativamente normale. Di conseguenza se il campione è casuale i test
sulla media e sul confronto tra medie sono basati sulla normale standard, e quindi restano sempre possibili
nel senso che non è più necessaria l’ipotesi di normalità per la popolazione generatrice.
19.8
Veriﬁca d’ipotesi sulla proporzione
Sia X1 , X2 , ..., Xn un campione casuale di numerosità n > 30 estratto da una popolazione bernoulliana di
parametro incognito π. Dato un sistema di ipotesi dove H0 : π = π0 , se è vera l’ipotesi nulla la statistica test
Z=√
P − π0
π0 (1 − π0 )/n
segue una distribuzione N (0, 1) per eﬀetto del TCL. Assumendo allora che l’ipotesi contrapposta ad H0 sia
H1 : π > π0 e ﬁssato il livello α, l’ipotesi nulla sarà riﬁutata se
γ = P(Z ≥ z|π = π0 )
)
(
P − π0
=P Z≥ √
π0 (1 − π0 )/n
< α.
Allo stesso modo, se P(Z ≥ zα ) = α, la regione di riﬁuto del test è deﬁnita da
R = {z : z ≥ zα }.
Ragionando come di consueto si determinano le regioni di riﬁuto per i diversi sistemi di ipotesi, come riportate
nella tabella 19.6.
M. Di Marzio
143
Primi elementi di inferenza statistica (ed. maggio 2012)
19.9. Veriﬁca d’ipotesi sulla diﬀerenza tra proporzioni
Ipotesi H0
Ipotesi H1
Regione R
π = π0
π > π0
{z : z ≥ zα }
π = π0
π < π0
{z : z ≤ −zα }
π = π0
π ̸= π0
{z : |z| ≥ zα/2 }
Tabella 19.6: Regioni di riﬁuto per test sulla proporzione per grandi campioni.
19.9
Veriﬁca d’ipotesi sulla diﬀerenza tra proporzioni
Supponiamo di estrarre due campioni casuali indipendenti di rispettive numerosità n1 > 30 e n2 > 30 da due
distribuzioni bernoulliane di parametri incogniti π1 e π2 . Assumiamo di voler veriﬁcare l’ipotesi che le due
proporzioni π1 e π2 siano uguali ossia l’ipotesi H0 : π1 − π2 = 0. Ora, sappiamo che sotto l’ipotesi nulla le
+n2 p2
. La
proporzioni sono identiche ma non conosciamo il valore comune. Esso verrà stimato con p = n1np11 +n
2
statistica test da adottare, che al solito è una quantità pivotale condizionata all’ipotesi nulla, sarà
Z=
(P1 − P2 )
,
SP
√
dove
SP =
(
p(1 − p)
1
1
+
n1
n2
)
che segue approssimativamente una legge distributiva Normale standard 3 (non si confonda il simbolo SP
con Sp , incontrato nella sezione 19.6). Le regioni di riﬁuto corrispondenti alle diverse ipotesi alternative
possono essere allora costruite attraverso il ragionamento sviluppato in precedenza. Tali regioni di riﬁuto
sono riportate nella tabella 19.7.
Ipotesi H0
Ipotesi H1
Regione R
π1 − π2 = 0
π1 − π2 > 0
{z : z ≥ zα }
π1 − π2 = 0
π1 − π2 < 0
{z : z ≤ −zα }
π1 − π2 = 0
π1 − π2 ̸= 0
{z : |z| ≥ zα/2 }
Tabella 19.7: Regioni di riﬁuto per test sulla diﬀerenza di proporzioni per grandi campioni.
19.10
Veriﬁca di ipotesi sulla varianza
Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf N (µ, σ 2 ). Vogliamo testare la varianza σ 2 . In
particolare assumiamo il sistema di ipotesi dove H0 : σ 2 = σ02 . Fissato il livello di signiﬁcatività α, possono
presentarsi i due casi seguenti.
◃ Caso 1: media nota Se la media della pdf di origine del campione è nota, la statistica test da
impiegare è
∑n
(Xi − µ)2
U = i=1 2
,
σ0
che si distribuisce come un chi-quadrato con n gradi di libertà (sez. 12.7). Con lo stesso ragionamento
adottato per determinare le regioni di riﬁuto degli altri test considerati, ﬁssato il livello α, e assumendo
H1 : σ 2 > σ02 l’ipotesi nulla sarà riﬁutata se
γ = P(U ≥ u|σ 2 = σ02 )
∑n
(
)
2
i=1 (xi − µ)
=P U ≥
σ02
< α,
3 Si
usa la quantità pivotale Z =
p1 −p2 −(π1 −π2 )
,
Sp
Primi elementi di inferenza statistica (ed. maggio 2012)
e poichè H0 : π1 = π2 , il condizionamento ad H0 porta alla statistica vista.
144
M. Di Marzio
19.
VERIFICA D’IPOTESI
e poiché P(U ≥ χ2α,n ) = α, la regione di riﬁuto del test è data da
R = {u : u ≥ χ2α,n }.
Per le altre formulazioni del sistema di ipotesi si segue il consueto ragionamento che conduce a determinare le regioni di riﬁuto riportate nella tabella 19.8.
Ipotesi H0
Ipotesi H1
Regione R
σ 2 = σ02
σ 2 > σ02
{u : u ≥ χ2α,n }
σ 2 = σ02
σ 2 < σ02
{u : u ≤ χ21−α,n }
σ 2 = σ02
σ 2 ̸= σ02
{u : u ≤ χ21−α/2,n oppure u ≥ χ2α/2,n }
Tabella 19.8: Regioni di riﬁuto per test sulla varianza di popolazioni normali con µ noto.
◃ Caso 2: media non nota Se la media della popolazione di origine del campione non è nota, allora la
statistica test da adottare è
∑n
(Xi − X)2
V = i=1 2
,
σ0
che ha distribuzione chi-quadrato con n − 1 gradi di libertà (sez. 12.7). Le regioni di riﬁuto per le
diverse formulazioni dell’ipotesi alternativa sono riportate nella tabella 19.9.
Ipotesi H0
Ipotesi H1
Regione R
σ 2 = σ02
σ 2 > σ02
{v : v ≥ χ2α,n−1 }
σ 2 = σ02
σ 2 < σ02
{v : v ≤ χ21−α,n−1 }
σ 2 = σ02
σ 2 ̸= σ02
{v : v ≤ χ21−α/2,n−1 oppure v ≥ χ2α/2,n−1 }
Tabella 19.9: Regioni di riﬁuto per test sulla varianza di popolazioni normali con µ non noto.
M. Di Marzio
145
Primi elementi di inferenza statistica (ed. maggio 2012)
20
Esercizi svolti
Esercizio 20.1. Abbiamo osservato un campione casuale di 100 elementi da una popolazione bernoulliana.
Per il test con sistema di ipotesi
{
H0 : π = 0.5
H1 : π = 0.6,
calcoliamo la funzione di potenza sapendo che la zona di riﬁuto è data da {z : z ≥ 1.68}.
Soluzione In questo caso Θ = {0.5, 0.6}, così la funzione di potenza assume solo due valori, precisamente
℘(0.5) e ℘(0.6). Il primo è α, mentre il secondo è 1 − β(0.6). Dopo qualche semplice calcolo si ottiene che
℘(0.5) = α = 0.2483 ,
℘(0.6) = 1 − β(0.6) = 0.9110.
Esercizio 20.2. Sia X1 un’osservazione casuale estratta da una popolazione con distribuzione esponenziale
di parametro θ incognito. Si vuole mettere alla prova il sistema di ipotesi
{
H0 : θ = 1.5
H1 : θ = 2.5,
e si decide di accettare l’ipotesi H0 se x1 ≤ 3, e di riﬁutarla se x1 > 3. Calcolare le probabilità di commettere
gli errori di I e II tipo.
Soluzione L’errore di I tipo è l’errore che si commette riﬁutando H0 quando questa è vera. La relativa
probabilità è deﬁnita come
α(θ) = P(X1 > 3|θ = 1.5) = 1 − P(X1 ≤ 3|θ = 1.5),
e poiché per X ∼ E(θ)
si ottiene
P(X ≤ x) = FX (x) = 1 − e−θx ,
α(1.5) = 1 − (1 − e−1.5×3 ) = e−1.5×3 ≃ 0.011.
L’errore di II tipo è invece l’errore che si commette accettando l’ipotesi nulla quando questa è falsa. Pertanto,
la probabilità di commettere questo tipo di errore è data da
β(θ) = P(X1 ≤ 3|θ = 2.5) = 1 − e−2.5×3 ≃ 0.9994
Esercizio 20.3. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione in cui il carattere X ha
distribuzione uniforme in [0, θ]. Si confrontino due possibili test, Γ1 e Γ2 , per veriﬁcare il sistema di ipotesi
seguente
{
H0 : θ ∈ [5, 6]
H1 : θ ∈
/ [5, 6].
Il test Γ1 è speciﬁcato ricorrendo alla statistica Yn = max(X1 , X2 , ..., Xn ) e conduce ad accettare H0 se
yn < 4.6 oppure yn > 5.9. Il test Γ2 è invece speciﬁcato ricorrendo alla statistica media campionaria X e
conduce ad accettare H0 se x̄ < 2.30 oppure x̄ > 2.95. Quale test tra Γ1 e Γ2 è preferibile?
Primi elementi di inferenza statistica (ed. maggio 2012)
146
M. Di Marzio
20. ESERCIZI SVOLTI
Soluzione Nel problema in esame, lo spazio parametrico è deﬁnito da Θ = (0, +∞).
accettazione per il test Γ1 è deﬁnita da
La regione di
A1 = {(x1 , x2 , ..., xn ) : Yn < 4.6 o Yn > 5.9},
e la funzione di potenza è
℘1 (θ) = P(Yn < 4.6|θ ∈ Θ) + P(Yn > 5.9|θ ∈ Θ).
Si ricordi che, poiché Yn è il massimo di v.c. uniformi i.i.d., e poiché per X ∼ U(0, θ) si ha
FX (x) = P(X ≤ x) = x/θ,
risulta
P(Yn < x) = P(X1 < x, X2 < x, ..., Xn < x) =
n
∏
FXi (x) = (FX (x))n =
( x )n
i=1
e
P(Yn > x) = 1 − P(Yn < x) = 1 −
( x )n
θ
θ
,
.
Ma poiché Yn è deﬁnita in [0, θ], si ottiene
{
P(Yn < x) =
1
( x )n
θ
e
{
P(Yn > x) =
se x ≥ θ
se 0 ≤ x < θ,
se x > θ
0
1−
Nel caso considerato risulta allora
( x )n
se 0 ≤ x < θ.
θ
{
1
( 4.6 )n
P(Yn < 4.6|θ ∈ Θ) =
θ
se θ ≤ 4.6
se θ > 4.6
e
P(Yn > 5.9|θ ∈ Θ) = 1 − P(Yn ≤ 5.9|θ ∈ Θ)
{
0
se θ ≤ 5.9
=
( 5.9 )n
1− θ
se θ > 5.9

1



 ( )
4.6 n
℘1 (θ) =
θ



 ( 4.6 )n
da cui
θ
se θ ≤ 4.6
+1−
( 5.9 )n
θ
se 4.6 < θ ≤ 5.9
se θ > 5.9.
Per il test Γ2 , la regione di accettazione è deﬁnita da
A2 = {(x1 , x2 , ..., xn ) : x̄ < 2.30 o x̄ > 2.95},
e la funzione di potenza è
℘2 (θ) = P(X < 2.30|θ ∈ Θ) + P(X > 2.95|θ ∈ Θ).
Essendo le v.c. costituenti il campione i.i.d. uniformi in [0, θ], risulta E[Xi ] = θ/2 e Var[Xi ] = θ2 /12 per ogni
i ∈ {1, 2, ..., n}, e per n suﬃcientemente grande X ∼ N (θ/2, θ2 /(12n)). Pertanto risulta
℘2 (θ) = P(X < 2.30) + P(X > 2.95)
)
(
)
(
2.30 − θ/2
2.95 − θ/2
X − θ/2
X − θ/2
√
√
√
√
<
+P
>
=P
θ/ 12n
θ/ 12n
θ/ 12n
θ/ 12n
(
)
(
)
2.30 − θ/2
2.95 − θ/2
√
√
=Φ
+1−Φ
.
θ/ 12n
θ/ 12n
Nella ﬁgura 20.1 sono rappresentate le due funzioni di potenza per n = 30: è evidente che non c’è un test
preferibile poichè le funzioni stesse si intersecano.
M. Di Marzio
147
Primi elementi di inferenza statistica (ed. maggio 2012)
℘(θ)
℘1(θ)
1
℘ (θ)
2
0.6
0
4
4.5
5
5.5
6
6.5
θ7
Figura 20.1: Funzioni di potenza dei test Γ1 e Γ2 .
Esercizio 20.4. Per ottimizzare i tempi di produzione, un’azienda tratta l’acquisto di una nuova macchina.
Il fornitore sostiene che il tempo X impiegato dalla macchina per eseguire il ciclo di produzione si distribuisce
normalmente con media µ = 12 ore e s.q.m. σ = 2.5 ore.
Da indagini preliminari, l’azienda acquirente ha ragione di ritenere che il tempo X pur avendo distribuzione
normale con σ = 2.5 ore, ha media µ > 12. Si decide allora di monitorare i tempi di produzione del
macchinario facendogli ripetere n = 4 volte il ciclo produttivo. Così si osserva un tempo medio pari a x̄ = 16
ore.
Veriﬁcare al livello di signiﬁcatività α = 0.01 che il tempo impiegato dal macchinario per completare la
produzione sia superiore a quello dichiarato dal fornitore.
Soluzione Il problema decisionale aﬀrontato può essere formalizzato attraverso il seguente sistema di ipotesi
{
H0 : µ = 12
H1 : µ > 12.
Dato che il tempo X si distribuisce normalmente con σ noto, la statistica test da adottare per saggiare le
ipotesi del sistema è
X − µ0
√ ,
Z=
σ/ n
che ha distribuzione N (0, 1). Avendo l’ipotesi altenativa la seguente espressione H1 : µ > µ0 , ed al livello
α = 0.01 dalle tavole della normale standard risulta zα = z0.01 = 2.33, la regione di riﬁuto del test è deﬁnita
da
R = {z : z ≥ 2.33}.
Poiché la realizzazione campionaria della statistica test è
z=
16 − 12
√ = 3.2,
2.5/ 4
risulta z > zα , e si riﬁuta l’ipotesi nulla al livello di signiﬁcatività ﬁssato. Si conclude pertanto che il
tempo medio impiegato dal macchinario per completare il ciclo produttivo è superiore a quello dichiarato dal
fornitore.
Esercizio 20.5. In un’azienda di materiali per l’edilizia, una macchina per tagliare barre di acciaio è stata
programmata per una lunghezza pari a 150 cm. Un controllo sulle ultime n = 16 barre prodotte dalla macchina
rivela che la loro lunghezza media è x̄ = 144 cm con uno s.q.m. s = 5. Assumendo che la lunghezza delle
barre di acciaio prodotte dalla macchina si distribuisce normalmente, veriﬁcare, al livello di signiﬁcatività
α = 0.05, l’ipotesi che ci sia stato un errore di programmazione e, dunque, che la lunghezza media delle barre
da essa prodotte non sia di 150 cm.
Soluzione Il sistema di ipotesi da sottoporre a veriﬁca è
{
H0 : µ = 150
H1 : µ ̸= 150,
Primi elementi di inferenza statistica (ed. maggio 2012)
148
M. Di Marzio
20. ESERCIZI SVOLTI
e siccome X si distribuisce normalmente, σ è incognito e la numerosità del campione n = 16 è inferiore a 30,
la statistica test da utilizzare è
X − µ0
√
T=
s/ n
che ha distribuzione t di Student con n − 1 = 16 − 1 = 15 gradi di libertà.
Inoltre essendo l’ipotesi alternativa di tipo bidirezionale, dalla tavole della distribuzione t di Student risulta
tα/2,n−1 = t0.025,15 = 2.131, la regione di riﬁuto del test è
R = {t : |t| ≥ 2.131}.
Poiché la realizzazione campionaria della statistica test è
144 − 150
√
= −4.8,
5/ 16
t=
risulta |t| > 2.131 e si riﬁuta H0 al livello di signiﬁcatività prescelto. Si conclude pertanto che c’è stato un
errore nella programmazione della macchina.
Esercizio 20.6. Un’azienda sta pensando di interrompere i rapporti commerciali con un fornitore per i suoi
frequenti ritardi nell’eﬀettuare le consegne.
Su un campione di n = 100 ordini inviati al fornitore negli ultimi tempi, l’azienda ha registrato un ritardo
medio di consegna pari a x̄ = 8 giorni con uno s.q.m. s = 2.8. L’azienda è disposta a tollerare un ritardo
medio di 7 giorni.
Supponendo che il ritardo segua una distribuzione normale, veriﬁcare l’ipotesi a livello α = 0.05 che l’azienda
non interrompa i rapporti commerciali con il fornitore.
Soluzione Occorre un test riferito al seguente sistema di ipotesi
{
H0 : µ = 7
H1 : µ > 7,
e dato che si è ipotizzata una distribuzione normale dei ritardi nelle consegne da parte del fornitore, σ è
incognito e la numerosità del campione n = 100 è superiore a 30, la statistica test da utilizzare è:
Z=
X − µ0
√ ,
s/ n
che ha distribuzione N (0, 1).
Avendo l’ipotesi alternativa la seguente espressione H1 : µ > µ0 , dalle tavole della normale standard si ricava
il valore della soglia zα = z0.05 = 1.65, la regione di riﬁuto del test è
R = {z : z ≥ 1.65}.
La realizzazione della statistica test in corrispondenza del campione osservato è
z=
8−7
√
= 3.57,
2.8/ 100
ed essendo 3.57 > 1.65, si riﬁuta H0 . Si conclude pertanto che l’azienda deciderà di interrompere i rapporti
commerciali con il fornitore.
Esercizio 20.7. Un carattere X ha presso una popolazione distribuzione normale con media µ incognita
e varianza σ 2 = 16. Un campione casuale è estratto dalla popolazione e ﬁssato il livello di signiﬁcatività
α = 0.08, si vuole veriﬁcare il seguente sistema di ipotesi
{
H0 : µ = 5
H1 : µ = 6.
Determinare l’ampiezza campionaria n necessaria aﬃnché la funzione di potenza del test sia pari a 0.5.
M. Di Marzio
149
Primi elementi di inferenza statistica (ed. maggio 2012)
Soluzione Essendo nota la varianza della popolazione di appartenza del campione, la statistica test da
impiegare è
X −5
Z= √ ,
4/ n
che ha distribuzione N (0, 1). Poichè l’ipotesi alternativa ha espressione H1 : µ > µ0 , e poichè dalle tavole
della distribuzione normale standard in corrispondenza di α = 0.08 risulta zα = z0.08 = 1.41, la regione di
riﬁuto del test è deﬁnita da
R = {z : z ≥ 1.41}.
Quindi ﬁssato α, la funzione di potenza del test è data dalla probabilità di riﬁutare l’ipotesi nulla quando
questa è falsa, l’ampiezza campionaria necessaria aﬃnchè tale probabilità sia pari a 0.5 si determina a partire
dalla relazione seguente
)
(
X − µ0
√ ≥ 1.41 µ = 6 = 0.5.
P
4/ n
Siccome
(
P
risulta che
)
(
)
4
X − µ0
√ ≥ 1.41 µ = 6 = P X ≥ 1.41 √ + µ0 µ = 6
4/ n
n
(
)
4
= P X ≥ 1.41 √ + 5 µ = 6
n
(
)
√
1.41 × 4/ n + 5 − µ
√
=P Z≥
µ=6
σ/ n
(
)
√
1.41 × 4/ n + 5 − 6
√
=P Z≥
4/ n
(
)
1
= P Z ≥ 1.41 − √
4/ n
(
√ )
n
P Z ≥ 1.41 −
= 0.5.
4
E dato che P (Z ≥ z) = 0.5 se z = 0 si ottiene
1.41 −
da cui
√
√
n/4 = 0
n = 1.41 × 4 = 5.64
e quindi
n ≃ 32.
Esercizio 20.8. Al ﬁne di valutare l’opportunità di rinnovare il sistema di sicurezza dei suoi impianti,
un’azienda vuole confrontare il numero di incidenti annui occorsi ai suoi operai generici con quello degli
incidenti annui occorsi ai suoi operai specializzati. Su un campione di n1 = 36 operai generici si è rilevato
un numero medio di incidenti annui pari a x̄1 = 7, mentre su un campione di n2 = 34 operai specializzati si è
rilevato un numero medio di incidenti annui x̄2 = 6. Ammettendo che il numero di incidenti occorsi ogni anno
alle due categorie di operai si distribuisce normalmente con varianze rispettivamente pari a σ12 = 2 e σ22 = 4
veriﬁcare al livello α = 0.01 che il numero medio degli incidenti occorsi nell’azienda sia indipendente dalla
qualiﬁca degli operai.
Soluzione Il problema può essere formalizzato attraverso il seguente sistema di ipotesi
{
H0 : µ1 = µ2
H1 : µ1 ̸= µ2
supposta una distribuzione normale degli incidenti occorsi agli operai dell’azienda con varianze note, la
statistica test da adottare è
X1 − X2
Z=√ 2
σ1 /n1 + σ22 /n2
Primi elementi di inferenza statistica (ed. maggio 2012)
150
M. Di Marzio
20. ESERCIZI SVOLTI
che ha distribuzione N (0, 1). Poiché l’ipotesi alternativa è di tipo bidirezionale e in corrispondenza del livello
di signiﬁcatività α = 0.01, risulta zα/2 = z0.005 = 2.58, la regione di riﬁuto del test è deﬁnita da
R = {z : |z| > 2.58}.
Essendo la realizzazione campionaria della statistica test
7−6
z=√
= 2.4
2/36 + 4/34
risulta allora |z| < 2.58 e si accetta pertanto l’ipotesi di indipendenza del numero di incidenti dalla qualiﬁca
degli operai vittime di essi.
Esercizio 20.9. Un’azienda dispone di due magazzini localizzati in zone diﬀerenti; ci si chiede se ampliarli.
Così è necessario confrontare il numero di camion che arrivano settimanalmente. In n1 = n2 = 5 settimane
si è rilevato un numero medio di arrivi x̄1 = 20 e una varianza s21 = 1.2 per il magazzino 1, mentre per
il magazzino 2 si è avuto x̄2 = 18 e s22 = 1.6. Assumendo che durante la stagione di attività dell’azienda
gli arrivi settimanali dei camion merci presso i magazzini seguano una distribuzione normale con varianze
σ12 = σ22 = σ 2 , veriﬁcare l’ipotesi H0 : µ1 = µ2 contro l’ipotesi alternativa bidirezionale H1 : µ1 ̸= µ2 , al
livello di signiﬁcatività α = 0.01.
Soluzione Poiché la numerosità campionaria n = n1 + n2 = 5 + 5 = 10 è piccola ed i campioni generati da
popolazioni normali con uguale varianza incognita, la statistica test da utilizzare è
T=
X − X2
√ 1
,
Sp 1/n1 + 1/n2
che ha distribuzione t di Student con n1 + n2 − 2 = 8 gradi di libertà. Essendo l’ipotesi alternativa formulata
è bidirzionale e dalla tavola della distribuzione t di Student in corrispondenza del livello di signiﬁcatività
ﬁssato si ottiene t0.005,8 = 3.355, la regione di riﬁuto del test è deﬁnita da
R = {t : |t| > 3.355}.
Stimando la varianza incognita comune a partire dai dati campionari si ottiene
√
√
s21 (n1 − 1) + s22 (n2 − 1)
1.2 (5 − 1) + 1.6 (5 − 1)
sp =
=
= 1.18,
n1 + n2 − 2
5+5−2
e la realizzazione campionaria della statistica test risulta
t=
20 − 18
√
= 2.68.
1.18 1/5 + 1/5
Pertanto, risulta che |t| < 3.355, quindi si accetta l’ipotesi nulla di uguaglianza tra gli arrivi medi dei camion
merci presso i due magazzini.
Esercizio 20.10. Per decidere tra due potenziali localizzazioni di un nuovo centro commerciale, un imprenditore osserva due campioni casuali di abitanti delle due zone e ne rileva il reddito. In particolare, in un
campione di n1 = 50 abitanti della zona A si è rilevato un reddito medio annuo x̄1 = 20 mila euro e una
varianza s21 = 8 mila, mentre in un campione di n2 = 54 abitanti della zona B si è rilevato un reddito medio
annuo x̄2 = 24 mila euro e una varianza s22 = 6 mila.
Assumendo che i redditi degli abitanti delle due zone si distribuiscono con rispettive varianze σ12 e σ22 incognite ma supposte uguali, veriﬁcare, al livello α = 0.05, l’ipotesi H0 : µ1 = µ2 contro l’ipotesi alternativa
bidirezionale H1 : µ1 ̸= µ2 .
Soluzione Pur non essendo note le varianze σ12 e σ22 delle due popolazioni, né le distribuzioni dei redditi,
poiché la numerosità campionaria n = n1 + n2 = 50 + 54 = 104 è elevata, è possibile adottare la statistica
test
X1 − X2
Z= √
Sp 1/n1 + 1/n2
√
(n1 −1)S12 +(n2 −1)S22
dove, come si sa, Sp =
che ha distribuzione N (0, 1).
n1 +n2 −2
M. Di Marzio
151
Primi elementi di inferenza statistica (ed. maggio 2012)
L’ipotesi alternativa è bidirezionale quindi in corrispondenza del livello di signiﬁcatività ﬁssato risulta zα/2 =
z0.025 = 1.96, e la regione di riﬁuto del test è deﬁnita da
R = {z : |z| > 1.96}.
La realizzazione campionaria della statistica test è
z=√
20 − 24
(1
49×8+53×6
102
50
+
1
54
) = −7.72,
e poichè risulta |z| > 1.96 si rigetta l’ipotesi nulla di uguaglianza del reddito medio annuo degli abitanti delle
due zone.
Esercizio 20.11. Da un’indagine condotta sulla composizione del management delle aziende italiane è risultato che il 35% delle aziende italiane è gestito da donne. Inoltre, in un campione di n = 100 aziende
localizzate nel sud Italia è risultato che 15 sono gestite da donne. Veriﬁcare, al livello α = 0.1, se il campione
può ritenersi rappresentativo della realtà aziendale italiana.
Soluzione Il problema posto nell’esercizio è quello di veriﬁcare l’ipotesi sul parametro π di una popolazione
bernoulliana, essendo π la percentuale di aziende gestite da donne. In particolare, il sistema di ipotesi da
sottoporre a veriﬁca è
{
H0 : π = 0.35
H1 : π ̸= 0.35.
Poiché l’ampiezza del campione è superiore a 30, si giustiﬁca l’ approssimazione della popolazione di origine
del campione alla distribuzione normale di parametri π e π (1 − π) /n , per cui usiamo la statistica test
Z=√
P − π0
π0 (1 − π0 )
n
.
Siccome l’ipotesi alternativa è bidirezionale e dalle tavole della normale standard, in corrispondenza del livello
di signiﬁcatività ﬁssato, risulta zα/2 = z0.05 = 1.64, la regione di riﬁuto del test è deﬁnita da
R = {z : |z| > 1.64}.
Essendo la realizzazione campionaria della statistica test
0.15 − 0.35
z= √
= −4.19,
0.35×0.65
100
risulta |z| > 1.64 e si riﬁuta l’ipotesi che il campione di aziende osservato sia rappresentativo della realtà
aziendale italiana.
Esercizio 20.12. Un’azienda automobilistica, prima di immettere sul mercato un nuovo modello di un’auto
già in commercio, realizza un sondaggio di opinioni. In particolare, l’indagine rivela che su un campione di
n1 = 100 donne il 36% preferisce il nuovo modello di auto rispetto a quello già in commercio mentre, su un
campione di n2 = 100 uomini solo il 25% preferisce il nuovo modello. Veriﬁcare, al livello α = 0.01, l’ipotesi
che non ci sia diﬀerenza nelle preferenze in base al sesso dei potenziali acquirenti.
Soluzione Indicata con π1 (rispettivamente π2 ) la proporzione di soggetti che nella popolazione di donne
(risp. uomini) preferiscono il nuovo modello di auto, il sistema d’ipotesi da sottoporre a veriﬁca è
{
H0 : π 1 = π 2 = π
H1 : π1 ̸= π2 .
Le elevate numerosità campionarie giustiﬁcano il ricorso alla statistica test
P1 − P2
Z=√
p (1 − p) (1/n1 + 1/n2 )
che ha distribuzione N (0, 1).
Primi elementi di inferenza statistica (ed. maggio 2012)
152
M. Di Marzio
20. ESERCIZI SVOLTI
Poichè l’ipotesi alternativa è bidirezionale e dalle tavole della normale standard risulta zα/2 = z0.005 = 2.57,
la regione di riﬁuto del test è
R = {z : |z| > 2.57}.
La stima della proporzione, comune ad entrambe le popolazioni, di soggetti che preferiscono il nuovo modello
è ottenuta da
0.36 × 100 + 0.25 × 100
p1 × n1 + p2 × n2
=
= 0.305
p=
n1 + n2
100 + 100
e la realizzazione campionaria della statistica test risulta allora
0.36 − 0.25
z=√
( 1
0.305 × 0.695 × 100
+
1
100
) = 1.68.
Dato che |z| < 2.57 si accetta, al livello di signiﬁcatività prescelto, l’ipotesi nulla di indipendenza delle
preferenze dal sesso dei potenziali acquirenti.
Esercizio 20.13. Un produttore di batterie per auto ha immesso sul mercato un nuovo modello per il quale
il tempo di durata ha distribuzione normale con media µ = 3 anni. Il produttore sostiene che la varianza del
tempo di durata delle batterie è pari a 1 anno.
Su un campione di 5 batterie del nuovo tipo prodotto, sono stati registrati seguenti tempi (anni) di durata
1.9, 2.4, 3.0, 3.5, 4.2.
Veriﬁcare al livello α = 0.05, la veridicità dell’aﬀermazione del produttore.
Soluzione Il sistema da sottoporre a veriﬁca è il seguente
{
H0 : σ 2 = 1
H1 : σ 2 ̸= 1,
e essendo nota la media della popolazione generatrice del campione, la statistica test da utilizzare è
∑n
(Xi − µ)2
U = i=1 2
σ0
che si distribuisce come un chi-quadrato con n = 5 gradi di libertà. Poiché l’ipotesi alternativa è bidirezionale
ed in corrispondenza di α = 0.05 e n = 5 risulta χ21−α/2,n = χ20.975,5 = 0.831 e χ2α/2,n = χ20.025,5 = 12.832, la
regione di riﬁuto del test è deﬁnita da
R = {u : u ≤ 0.831 oppure u ≥ 12.832}.
La realizzazione campionaria della statistica test è
u=
(1.9 − 3)2 + (2.4 − 3)2 + (3 − 3)2 + (3.5 − 3)2 + (4.2 − 3)2
= 3.26,
1
risulta χ21−α/2,n < u < χ2α/2,n , e si accetta l’ipotesi nulla al livello di signiﬁcativita ﬁssato, concludendo che
l’aﬀermazione del produttore è vera.
Esercizio 20.14. In un’azienda che produce componenti meccaniche, è stato introdotto un nuovo macchinario
per la produzione di bulloni. Il diametro dei bulloni prodotti dalla nuova macchina segue una distribuzione
normale con media µ e varianza σ 2 entrambe incognite. Per valutare la qualità della produzione ottenuta
attraverso il nuovo macchinario si misura il diametro di un campione di 4 bulloni prodotti, ottenendo i
risultati seguenti
1.8, 2.4, 2.8 3.
Veriﬁcare al livello α = 0.01 il sistema di ipotesi seguente
{
H0 : σ 2 = 1.5
H1 : σ 2 > 1.5
M. Di Marzio
153
Primi elementi di inferenza statistica (ed. maggio 2012)
Soluzione Dato che la media della popolazione dei diametri dei bulloni prodotti dalla macchina è non nota,
la statistica test da utilizzare per veriﬁcare il sistema di ipotesi sulla varianza è
∑n
(Xi − X)2
V = i=1 2
,
σ0
che ha distribuzione chi-quadrato con n − 1 = 3 gradi di libertà. Poiché l’ipotesi alternativa è H1 : σ 2 > σ02
e poiché in corrispondenza del livello di signiﬁcatività ﬁssato e dei gradi di libertà risulta χ2α,n−1 = χ20.01,3 =
11.341, la regione di riﬁuto del test è deﬁnita da
R = {χ2 : χ2 > 11.341.}
Quindi risulta
1.8 + 2.4 + 2.8 + 3
= 2.5,
4
la realizzazione campionaria della statistica test è
x̄ =
v=
(1.8 − 2.5)2 + (2.4 − 2.5)2 + (2.8 − 2.5)2 + (3 − 2.5)2
= 0.56,
1.5
e essendo v < χ20.01,3 , si accetta l’ipotesi nulla al livello di signiﬁcativà ﬁssato.
Primi elementi di inferenza statistica (ed. maggio 2012)
154
M. Di Marzio
21
Test Chi-quadrato
21.1
Formulazione generale
I test su modelli distributivi illustrati nei capitoli precedenti riguardano ipotesi formulate sul valore dei
parametri di pdf la cui famiglia parametrica di appartenenza è nota. Test di questo tipo si deﬁniscono
test parametrici. I test non parametrici sono invece metodi di veriﬁca di modelli distributivi che non
richiedono di conoscere una famiglia parametrica che contiene la popolazione. Da ciò consegue che per essi
l’ipotesi nulla non riguarda semplicemente un parametro, ma un modello distributivo preso per intero.
Esempio 21.1. Seguono le descrizioni di uno scenario inferenziale parametrico e di alcuni scenari non parametrici.
• Scenario parametrico Sia A il carattere di interesse. E’ noto che fA è normale con σ 2 = 4. Testare l’ipotesi
distributiva secondo cui A ha pdf normale di parametri µ = 5 e σ 2 = 4, equivale a condurre un test parametrico
sulla media con ipotesi nulla H0 : µ = 5.
• Scenari non parametrici
i) Sia A il carattere di interesse. Non si hanno informazioni extracampionarie su fA , e si vuole testare
l’ipotesi nulla H0 : fA = N (5, 4).
ii) Sia A il carattere di interesse. Non si hanno informazioni extracampionarie su fA , e si vuole testare
l’ipotesi nulla H0 : fA ∈ {N (µ, σ 2 ), µ ∈ R, σ ∈ R+ }.
iii) Dati due caratteri A e B, non si hanno informazioni extracampionarie sulla loro distribuzione congiunta
fAB , e si vuole veriﬁcare l’ipotesi che essa sia uguale a fA fB , cioè che A e B siano indipendenti.
Appare chiaro che l’ottica del test non parametrico è completamente rovesciata. Qui il risultato rilevante è
l’accettazione dell’ipotesi nulla, mentre nel caso parametrico è il riﬁuto di essa.
In questo capitolo consideriamo un solo test non parametrico, il test Chi-quadrato. Come si vedrà, tale
test si presta ad essere applicato, con formulazioni diﬀerenti, a più di un problema inferenziale. Tuttavia è
semplice darne una illustrazione generale.
Si consideri una popolazione le cui unità sono classiﬁcate in base alle modalità A1 , A2 , ..., Ak assunte da un
carattere A. Qui le Ai , i ∈ {1, 2, ..., k}, possono essere categorie di un carattere qualitativo ordinabile, valori
di un carattere quantitativo discreto, o ancora classi di valori di un carattere quantitativo discreto o continuo.
Si vuole veriﬁcare un’ipotesi su fA in assenza di informazioni extracampionarie. La distribuzione di frequenze
di A osservata sui dati campionari è interpretabile come l’immagine statistica di fA . Così, per appurare la
(non) coincidenza di fA con la distribuzione suggerita dall’ipotesi nulla, è naturale confrontare le frequenze
della distribuzione ottenuta dal campione con quelle attese sotto l’ipotesi nulla, che sono chiamate teoriche.
Si noti che vengono coinvolte solo frequenze, così, a diﬀerenza dei test parametrici, il test Chi-quadrato è
applicabile anche nel caso di caratteri qualitativi.
In particolare, indicata con Oi , i = 1, 2, ..., k, la v.c. che descrive la frequenza assoluta campionaria associata
ad Ai , e indicata con Ei la rispettiva frequenza teorica, la statistica test adottata per tale confronto è
X2 =
∑k
i=1
(Oi − Ei )2
.
Ei
Si osservi
∑k che per il test in esame lo spazio campionario è rappresentato da tutte le k-uple o1 , o2 , ..., ok tali
che i=1 oi = N , ossia ogni possibile realizzazione campionaria è un punto in Nk che ha come coordinate i
valori delle k frequenze associabili alle modalità A1 , A2 , ..., Ak in un campione di ampiezza N . Pertanto le
M. Di Marzio
155
Primi elementi di inferenza statistica (ed. maggio 2012)
21.2. Test di conformità
regioni di accettazione (A) e di riﬁuto (R) sono sottoinsiemi di Nk . Al solito, speciﬁcando il test attraverso
la statistica X2 si realizza una riduzione delle regioni A e R nelle regioni A e R di punti unidimensionali, dove
ogni punto costituisce una possibile realizzazione χ2 di X2 .
Poiché la statistica X2 è una misura della discrepanza tra frequenze osservate e frequenze teoriche, l’ipotesi
nulla sarà scartata per valori alti di tale discrepanza, mentre non sarà scartata se il valore di tale discrepanza
è basso. Chiaramente, dato un certo valore del livello di signiﬁcatività, al ﬁne di stabilire la regione di riﬁuto
occorre conoscere la distribuzione della statistica X2 . In particolare, se oi ≥ 5 per ogni i ∈ {1, 2, ..., k} e:
a) è vera l’ipotesi nulla; e b) il campione è grande, si dimostra che X2 ha una distribuzione che può essere
ben approssimata da una distribuzione chi-quadrato con ν gradi di libertà, dove ν è il numero dei parametri
coinvolti.
Di seguito tale dimostrazione nel caso in cui fA abbia due soli valori, p1 e p2 . Indichiamo con N1 e N2 i valori
della distribuzione osservata sul campione e con p10 e p20 i valori espressi dall’ipotesi nulla. Risulta allora
2
2
X2 =
(N1 − N p10 )
(N2 − N p20 )
+
N p10
N p20
2
=
[N − N1 − N (1 − p10 )]2
(N1 − N p10 )
+
N p10
N (1 − p10 )
2
2
(N1 − N p10 )
(N1 − N p10 )
+
N p10
N (1 − p10 )
(1 − p10 + p10 )(N1 − N p10 )2
=
N p10 (1 − p10 )
(
)2
N1 − N p10
= √
.
N p10 (1 − p10 )
=
Ora supponiamo che sia vera l’ipotesi nulla. In questo caso avremo che E[N ] = N p10 e VAR[N ] = N p10 (1 −
p10 ). Di conseguenza la formula sopra rappresenta una v.c. standardizzata elevata al quadrato. Ma se N è
abbastanza grande, dal TCL per somme di vv.cc. indipendenti (sez. 11.5) discende che
(
N1 − N p10
)2
√
N p10 (1 − p10 )
∼ Z 2,
dove Z è una v.c. normale standard, ed essendo la v.c. X2ν la somma dei quadrati di ν vv.cc. normali
standard, segue che X2 ha distribuzione Chi-quadrato con un grado di libertà.
Come per i test parametrici, una volta ﬁssato il livello di signiﬁcatività α, la regione di riﬁuto del test sarà
deﬁnita dall’insieme delle realizzazioni χ2 di X2 che risultano meno probabili sotto l’ipotesi nulla ossia
R = {χ2 : χ2 > χ2α,ν }.
In altri termini, ﬁssato α si determina il livello di signiﬁcatività osservato
γ = P(X2 > χ2 )
e, se risulta γ < α, la discrepanza χ2 tra frequenze osservate e frequenze teoriche si giudica alta, con
conseguente rigetto dell’ipotesi nulla.
Studieremo il test chi-quadrato per la veriﬁca delle tre ipotesi seguenti:
⋄ ipotesi sulla forma distributiva di un carattere presso una popolazione;
⋄ ipotesi di indipendenza tra due caratteri;
⋄ ipotesi di omogeneità della distribuzione di uno stesso carattere presso più popolazioni.
21.2
Test di conformità
Sia A un carattere, discreto o continuo, con pdf fA non nota. Nella tabella 21.1 è rappresentata fA , dove
pi = P(A = Ai ) se A è un carattere discreto con k modalità, oppure pi = P(A ∈ Ai ) se il carattere A, discreto
o continuo, è stato diviso in k classi.
Primi elementi di inferenza statistica (ed. maggio 2012)
156
M. Di Marzio
21. TEST CHI-QUADRATO
A
A1
A2
...
Ai
...
Ak
P(Ai )
p1
p2
...
pi
...
pk
1
Tabella 21.1: Distribuzione di probabilità del carattere A.
Si vuole veriﬁcare che fA sia tale che pi = pi0 , i ∈ {1, 2, ..., k}, cioè
{
H0 : pi = pi0
con i = 1, 2, ..., k.
H1 : pi ̸= pi0
Si estrae un campione casuale di ampiezza N , e si osservano le frequenze assolute Ni corrispondenti a
ciascuna delle Ai . Per determinare le frequenze teoriche, cioè le frequenze attese sotto l’ipotesi nulla, occorre
distinguere tra i due casi seguenti.
◃ Caso 1 Se l’ipotesi nulla esprime un modello completamente speciﬁcato, ossia se le pi0 , i ∈ {1, 2, ..., k},
sono note, le frequenze attese sotto l’ipotesi nulla sono deﬁnite come
E[Ni |pi = pi0 ] = N pi0
con i = 1, 2, ..., k.
Infatti ciascuna osservazione campionaria può assumere oppure no il valore Ai , e poiché per deﬁnizione
la frequenza osservata Ni esprime il numero di unità del campione che presentano il valore Ai , allora
la v.c. Ni rappresenta il numero di successi in N prove indipendenti 1 , dove la probabilità di successo
nella singola prova è pi . Così Ni ha distribuzione binomiale ed il suo valore atteso sotto l’ipotesi nulla
è N pi0 . In questo caso la statistica test X2 si speciﬁca come segue
2
X =
k
∑
(Ni − N pi0 )2
i=1
N pi0
,
e ha distribuzione approssimativamente chi-quadrato con k − 1 gradi di libertà. Infatti,
questo caso
∑in
k−1
i parametri sono costituiti da k − 1 probabilità pi poiché per la k-sima si ha pk = 1 − i=1 pi .
Fissato il livello di signiﬁcatività α, la regione di riﬁuto del test è allora deﬁnita da
R = {χ2 : χ2 > χ2α,k−1 }.
◃ Caso 2 Se l’ipotesi nulla esprime un modello distributivo di cui non sono noti i parametri θ1 , θ2 , ..., θm ,
il sistema d’ipotesi è formulato speciﬁcando le probabilità pi in termini dei parametri incogniti:
{
H0 : pi = pi0 (θ1 , θ2 , ..., θm )
H1 : pi ̸= pi0 (θ1 , θ2 , ..., θm ),
e ovviamente per determinare le frequenze attese sotto l’ipotesi nulla sarà necessario stimare gli m
parametri incogniti della distribuzione ipotizzata. Così, ottenute le stime
p̂i0 = pi0 (θ̂1 , θ̂2 ..., θ̂m )
la statistica test adottata è
2
X =
i = 1, 2, ..., k,
k
∑
(Ni − N p̂i0 )2
i=1
N p̂i0
che ha distribuzione chi-quadrato con k − m − 1 gradi di libertà. I gradi di libertà sono k − m − 1 poiché
le m stime θ̂1 , θ̂2 , ..., θ̂m portano alla determinazione numerica di m probabilità2 .
Di conseguenza, ﬁssato il livello di signiﬁcatività α, la regione di riﬁuto del test risulta
R = {χ2 : χ2 > χ2α,k−m−1 }.
1 Le
prove sono indipendenti perché il campione è casuale.
θ̂1 , θ̂2 , ..., θ̂m si possono conoscere m probabilità risolvendo un sistema di m equazioni in m incognite. Ogni equazione
esprime una probabilità come incognita funzione dei valori noti θ̂1 , θ̂2 , ..., θ̂m .
2 Con
M. Di Marzio
157
Primi elementi di inferenza statistica (ed. maggio 2012)
21.3. Test di indipendenza
21.3
Test di indipendenza
Siano A e B due caratteri che presso una popolazione assumono rispettivamente r e t modalità o classi.
Assumendo che A e B siano caratteri discreti (rispettivamente continui), posto
pij = P(A = Ai , B = Bj ) (risp. P(A ∈ Ai , B ∈ Bj )),
pi• = P(A = Ai ) (risp. P(A ∈ Ai ))
p•j = P(B = Bj ) (risp. P(B ∈ Bj )),
e
la pdf della v.c. doppia (A, B) può essere rappresentata attraverso la tabella 21.2.
B
A
B1
B2
···
Bj
···
Bt
Totale
A1
p11
p12
···
p1j
···
p1t
p1•
A2
..
.
Ai
..
.
Ar
p21
..
.
pi1
..
.
pr1
p22
..
.
pi2
..
.
pr2
···
···
···
p2j
..
.
pij
..
.
prj
···
p2t
..
.
pit
..
.
prt
p2•
..
.
pi•
..
.
pr•
p•1
p•2
···
p•j
···
p•t
1
···
···
Tabella 21.2: Distribuzione doppia di probabilità dei caratteri A e B.
Si vuole veriﬁcare l’ipotesi di indipendenza tra i caratteri A e B. Si è appreso che una distribuzione doppia
discreta è a componenti indipendenti se e solo se per ogni coppia di modalità la pdf congiunta è data dal
prodotto delle pdf marginali. Così il sistema da sottoporre a veriﬁca è
{
H0 : pij = pi• p•j
per ogni coppia (i, j),
H1 : pij ̸= pi• p•j
per almeno una coppia (i, j).
I dati campionari sono rappresentati tramite la distribuzione doppia di frequenza riportata nella tabella 21.3.
B
A
B1
B2
···
Bj
···
Bt
Totale
A1
N11
N12
···
N1j
···
N1t
N1•
A2
..
.
Ai
..
.
Ar
N21
..
.
Ni1
..
.
Nr1
N22
..
.
Ni2
..
.
Nr2
···
···
···
N2j
..
.
Nij
..
.
Nrj
···
N2t
..
.
Nit
..
.
Nrt
N2•
..
.
Ni•
..
.
Nr•
N•1
N•2
···
N•j
···
N•t
N
···
···
Tabella 21.3: Distribuzione doppia di frequenza dei caratteri A e B.
Il generico elemento Nij interno alla tabella rappresenta la frequenza assoluta associata a (Ai , Bj ); i totali
∑t
di riga Ni• = j=1 Nij , i ∈ {1, 2, ..., r}, costituiscono la distribuzione delle frequenze osservate del carattere
∑r
A, mentre i totali di colonna N•j = i=1 Nij , j ∈ {1, 2, ..., t}, costituiscono la distribuzione delle frequenze
osservate del carattere B. Come per il test di conformità, si distingue tra i due seguenti casi.
Primi elementi di inferenza statistica (ed. maggio 2012)
158
M. Di Marzio
21. TEST CHI-QUADRATO
◃ Caso 1 Se le pdf di A e di B sono entrambe note, ossia se pi• e p•j sono date per ogni i ∈ {1, 2, ..., r}
e per ogni j ∈ {1, 2, ..., t}, le frequenze attese sotto l’ipotesi nulla, o teoriche, sono
E[Nij |pij = pi• p•j ] = N pi• p•j
con i = 1, 2, ..., r, e j = 1, 2, ..., t.
Infatti Nij fornisce il numero di successi in N prove indipendenti, dove la probabilità del singolo successo
è pij . Così vale il modello binomiale, e il valore atteso della frequenza associata alla coppia (Ai , Bj ) è
dato da
E[Nij ] = N pij
con i = 1, 2, ..., r, e j = 1, 2, ..., t.
Di conseguenza la statistica test da adottare per veriﬁcare l’ipotesi di indipendenza sarà
X2 =
r ∑
t
2
∑
(Nij − N pi• p•j )
N pi• p•j
i=1 j=1
che ha distribuzione asintotica chi-quadrato
con rt − 1 gradi di libertà. Essendoci infatti rt probabilità,
∑r ∑t
i parametri sono rt − 1 poiché i=1 j=1 pij = 1.
Fissato il livello di signiﬁcatività α, la regione di riﬁuto del test è allora deﬁnita da
R = {χ2 : χ2 > χ2α,rt−1 }.
◃ Caso 2 Se le probabilità pi• e p•j non sono note, si considerano le rispettive stime ottenute applicando
la concezione frequentista di probabilità
p̂i• =
Ni•
N
e
p̂•j =
N•j
.
N
Le frequenze attese sotto l’ipotesi nulla sono allora deﬁnite da
E[Nij |pij ] = N p̂i• p̂•j
Ni• N•j
=N
N N
Ni• N•j
=
.
N
Di conseguenza la statistica test adottata per veriﬁcare l’ipotesi di indipendenza risulta essere
(
)2
N N
r ∑
t
Nij − i•N •j
∑
X2 =
Ni• N•j
i=1 j=1
N
che ha approssimativamente distribuzione chi-quadrato con (r − 1)(t − 1) gradi di libertà. Il∑
numero di
r
gradi di libertà tiene conto del fatto che sono stimate r − 1 probabilità marginali pi• (poiché i=1 pi• =
∑t
1) e t − 1 probabilità marginali p•j (poiché j=1 p•j = 1). Così
ν = (rt − 1) − (r − 1 + t − 1) = rt − r − t + 1 = (r − 1)(t − 1).
Inﬁne, ﬁssato il livello di signiﬁcatività α, la regione di riﬁuto del test è
R = {χ2 : χ2 > χ2α,(r−1)(t−1) }.
21.4
Test di omogeneità
Si consideri un carattere A discreto o continuo, ripartito nelle modalità o classi A1 , A2 , ..., Ar , osservabile
su t popolazioni P1 , P2 , ..., Pt . Si vuole veriﬁcare l’ipotesi che le t popolazioni siano omogenee rispetto al
carattere A, nel senso che fA è la stessa in tutte le popolazioni.
Indicata con pij la probabilità che A assuma la modalità Ai nella popolazione Pj , la distribuzione del carattere
A (non nota) presso ciascuna popolazione può essere rappresentata come nella tabella 21.4.
Il sistema d’ipotesi è
{
H0 : pi1 = pi2 = ... = pit = pi0
per ogni i ∈ {1, 2, ..., r},
H1 : pij ̸= pi0
M. Di Marzio
per almeno una coppia (i, j).
159
Primi elementi di inferenza statistica (ed. maggio 2012)
21.4. Test di omogeneità
Popolazioni
A
P1
P2
···
Pj
···
Pt
A1
p11
p12
···
p1j
···
p1t
A2
..
.
Ai
..
.
Ar
p21
..
.
pi1
..
.
pr1
p22
..
.
pi2
..
.
pr2
···
..
.
···
..
.
···
p2j
..
.
pij
prj
···
..
.
···
..
.
···
p2t
..
.
pit
..
.
prt
1
1
···
1
···
1
Tabella 21.4: Distribuzione di probabilità del carattere A presso t popolazioni.
Campioni
A
C1
C2
···
Cj
···
Ct
A1
N11
N12
···
N1j
···
N1t
N1•
A2
..
.
Ai
..
.
Ar
N21
..
.
Ni1
..
.
Nr1
N22
..
.
Ni2
..
.
Nr2
···
..
.
···
..
.
···
N2j
..
.
Nij
···
Nrj
···
..
.
···
N2t
..
.
Nit
..
.
Nrt
N2•
..
.
Ni•
..
.
Nr•
N•1
N•2
···
N •j
···
N•t
N
Tabella 21.5: Distribuzione di frequenza del carattere A presso t campioni.
Si osservano allora le frequenze assolute associate alle modalità Ai , i = 1, 2, ..., r, nei campioni indipendenti
C1 , C2 , ..., Ct estratti rispettivamente dalle popolazioni P1 , P2 , ..., Pt . La distribuzione delle frequenze assolute
corrispendenti alle modalità di A rilevato sulle realizzazioni campionarie t è riportata nella tabella 21.5.
Il totale N rappresenta il numero di unità complessivamente osservate. Inoltre i totali di colonna, di generico
elemento N•j , indicano le ampiezze dei t campioni, mentre i totali di riga, di generico elemento Ni• , indicano
il numero di unità che su N osservazioni presentano modalità Ai , i ∈ {1, 2, ..., r}. Per la determinazione delle
frequenze teoriche occorre distinguere tra i due casi illustrati di seguito.
◃ Caso 1 Se le probabilità pi0 , i ∈ {1, 2, ..., r}, sono speciﬁcate nell’ipotesi nulla, allora le frequenze
teoriche sono deﬁnite dal valore atteso di una v.c. binomiale di parametri N•j e pi0 , ossia
E[Nij |pi1 = pi2 = ... = pit = pi0 ] = N•j pi0 .
La statistica test da adottare per veriﬁcare l’ipotesi di omogeneità è allora
X2 =
r ∑
t
∑
(Nij − N•j pi0 )2
N•j pi0
i=1 j=1
che ha approssimativamente distribuzione chi-quadrato con t(r − 1) gradi di ∑
libertà. Infatti per la
r
j-sima popolazione i parametri coinvolti sono le r − 1 probabilità pij (essendo i=1 pij = 1), e poiché
sono considerate t popolazioni, il numero totale dei parametri è t(r − 1).
Pertanto, ﬁssato il livello di signiﬁcatività α, la regione di riﬁuto del test è
R = {χ2 : χ2 > χ2α,t(r−1) }.
◃ Caso 2 Se le probabilità pi0 , i ∈ {1, 2, ..., r}, non sono speciﬁcate, allora bisogna stimarle nel solito
modo
Ni•
per i = 1, 2, ..., r.
p̂i0 =
N
Primi elementi di inferenza statistica (ed. maggio 2012)
160
M. Di Marzio
21. TEST CHI-QUADRATO
Le frequenze attese sotto l’ipotesi nulla sono allora
N•j Ni•
,
N
E[Nij |pi1 = pi2 = ... = pik ] = N•j p̂i0 =
e la statistica test adottata per veriﬁcare l’ipotesi di omogeneità è
X2 =
(
r ∑
t
Nij −
∑
i=1 j=1
N•j Ni•
N
)2
N•j Ni•
N
,
che ha approssimativamente distribuzione chi-quadrato con (r − 1)(t − 1) gradi di
Infatti sono
∑libertà.
r
coinvolti t(r − 1) parametri, ma sono state stimate r − 1 probabilità pi0 (poiché i=1 pi0 = 1); i gradi
di libertà sono allora
ν = t(r − 1) − (r − 1) = rt − t − r + 1 = (r − 1)(t − 1).
Fissato il livello di signiﬁcatività α, la regione di riﬁuto del test rimane deﬁnita come
R = {χ2 : χ2 > χ2α,(r−1)(t−1) }.
M. Di Marzio
161
Primi elementi di inferenza statistica (ed. maggio 2012)
22
Esercizi svolti
Esercizio 22.1. Un’indagine campionaria svolta su N = 50 conversazioni telefoniche interurbane eﬀettuate
dagli abbonati di una compagnia telefonica ha dato luogo alla seguente distribuzione di frequenza delle durate
in minuti
Durate (Ai )
<5
[5, 10)
[10, 15)
[15, 20)
≥ 20
N
Frequenze (Ni )
6
12
15
14
3
50
Veriﬁcare al livello α = 0.01 l’ipotesi che la durata A delle telefonate interurbane degli abbonati della
compagnia abbia distribuzione N (12, 16).
Soluzione Indicata con pi la probabilità che una conversazione telefonica casualmente selezionata abbia
durata appartenente all’intervallo Ai , dove Ai ∈ {(−∞, 5), [5, 10), [10, 15), [15, 20), [20, +∞)}, e ricordando
che se A ∼ N (µ, σ 2 ):
∫ c
2
2
1
√ e−(a−µ) /(2σ ) da
P (A ∈ (b, c)) =
b σ 2π
il sistema d’ipotesi da sottoporre a veriﬁca è

∫ ci 1 −(a−12)2 /(2×16)

da per ognii ∈ {1, 2, ..., 5},
 H0 : pi = bi 4√2π e


Hi : pi ̸=
∫ ci
2
√1 e−(a−12) /(2×16)
bi 4 2π
da,
per almeno un i ∈ {1, 2, ..., 5},
dove bi e ci sono gli estremi di Ai . Poiché l’ipotesi nulla speciﬁca completamente la pdf del carattere A, le
frequenze teoriche sono deﬁnite da
E[Nij |pi = pi0 ] = N pi0 .
Prima di deﬁnire la statistica test da adottare, poiché la classe [20, +∞) ha frequenza osservata inferiore a
5, si procede innanzitutto ad accorpare questa classe con la classe precedente. Le classi di durata diventano
allora 4 e la statistica test da adottare è
X2 =
4
∑
(Ni − N pi0 )2
N pi0
i=1
,
che ha distribuzione chi-quadrato con 4 − 1 = 3 gradi di libertà.
Poiché il livello di signiﬁcatività ﬁssato è α = 0.01 e dalla tavola della distribuzione chi-quadrato risulta
χ20.01,3 = 11.341, la regione di riﬁuto del test è
R = {χ2 : χ2 > 11.341}.
Per determinare le frequenze attese sotto l’ipotesi nulla occorre, come detto, moltiplicare l’ampiezza N del
campione per le probabilità pi0 . Queste probabilità possono essere facilmente calcolate utilizzando le tavole
della distribuzione normale standard. Così, ad esempio, per le prime due classi si ottiene
)
(
5 − 12
= P (Z < −1.75)
p10 = P (A < 5) = P Z <
4
= Φ(−1.75) = 1 − Φ(1.75) = 1 − 0.9599
= 0.0401,
Primi elementi di inferenza statistica (ed. maggio 2012)
162
M. Di Marzio
22. ESERCIZI SVOLTI
e
(
p20 = P (A ∈ [5, 10)) = P
5 − 12
10 − 12
<Z<
4
4
)
= P (−1.75 < Z < −0.5)
= Φ(−0.5) − Φ(−1.75) = (1 − Φ(0.5)) − (1 − Φ(1.75)) = Φ(1.75) − Φ(0.5)
= 0.9599 − 0.6915 = 0.2684.
Procedendo in modo analogo per le altre classi, è possibile determinare la realizzazione campionaria della
statistica test attraverso la tabella seguente
Classi A
Classi Z
Ni
pi0
N pi0
Ni − N pi0
(Ni − N pi0 )2 /N pi0
<5
(-∞, -1.75)
6
0.0401
2.005
3.995
7.960
[5, 10)
[-1.75, -0.5)
12
0.2684
13.420
-1.420
0.150
[10, 15)
[-0.5, 0.75)
15
0.4649
23.245
-8.245
2.925
≥ 15
[0.75, +∞)
17
0.2266
11.330
5.67
2.837
50
1
50
Totale
13.872
Poiché la realizzazione campionaria della statistica test è χ2 = 13.872, risulta χ2 > 11.341 e si riﬁuta l’ipotesi
nulla al livello di signiﬁcatività ﬁssato. Si conclude allora che la durata delle telefonate interurbane eﬀettuate
dagli abbonati della compagnia non ha distribuzione N (12, 16).
Esercizio 22.2. In un’azienda, il numero X di incidenti avvenuti agli addetti alla produzione nell’ultimo
anno ha dato luogo alla seguente distribuzione di frequenze
N. incidenti (xi )
0
1
2
3
4
≥5
Frequenze (Ni )
10
7
11
9
7
6
50
Veriﬁcare al livello α = 0.05 l’ipotesi che gli incidenti che colpiscono gli addetti alla produzione dell’azienda
seguono una distribuzione di Poisson.
Soluzione Indicata con pi la probabilità che un operaio casualmente selezionato abbia subito xi incidenti, il
sistema di ipotesi da sottoporre a veriﬁca è

(λt)xi e−λt



per ogni i ∈ {1, 2, ..., 6},
H0 : p i =


xi !





H1 : pi ̸=
(λt)xi e−λt
xi !
per almeno un i ∈ {1, 2, ..., 6}.
Poiché il parametro λt che caratterizza la distribuzione degli incidenti sotto l’ipotesi nulla è incognito, si
procede alla sua stima. In particolare, ricordando che la stima di massima verosimiglianza del parametro λt
di una distribuzione di Poisson è data dalla media campionaria, si ottiene
∑6
b = x̄ = i=1 xi Ni
λt
N
0 × 10 + 1 × 7 + 2 × 11 + 3 × 9 + 4 × 7 + 5 × 6
=
50
= 2.28.
La frequenza attesa sotto l’ipotesi nulla in corrispondenza dell’i-esima modalità è allora data da
N p̂i0 = 50
2.28xi e−2.28
,
xi !
e la statistica test da adottare per sottoporre a veriﬁca il sistema di ipotesi è
2
X =
6
∑
(Ni − N p̂i0 )2
N p̂i0
i=1
,
che ha approssimativamente distribuzione chi-quadrato con 6 − 1 − 1 = 4 gradi di libertà.
Poiché α = 0.05 e dalle tavole della distribuzione chi-quadrato risulta χ20.05,4 = 9.49, la regione di riﬁuto del
test è deﬁnita da
R = {χ2 : χ2 > 9.49}.
La realizzazione campionaria della statistica test è determinata attraverso la tabella seguente
M. Di Marzio
163
Primi elementi di inferenza statistica (ed. maggio 2012)
xi
Ni
p̂i0
N p̂i0
Ni − N p̂i0
(Ni − N p̂i0 )2 /N p̂i0
0
10
0.1023
5.115
4.885
4.665
1
7
0.2332
11.660
-4.660
1.862
2
11
0.2658
13.290
-2.290
0.394
3
9
0.2020
10.100
-1.100
0.120
4
7
0.1152
5.760
1.240
0.267
≥5
6
0.1838
9.190
-3.190
1.107
Totale
50
1
50
8.415
Poiché la realizzazione campionaria della statistica test è χ2 = 8.415, risulta χ2 < 9.49 e, al livello di
signiﬁcatività ﬁssato, i dati non smentiscono l’ipotesi nulla. Si conclude allora che il numero di incidenti
subiti dagli addetti alla produzione dell’azienda ha distribuzione di Poisson.
Esercizio 22.3. Presso la popolazione dei dipendenti di una grande azienda i caratteri sesso(A) e settore di
lavoro(B) presentano le seguenti distribuzioni di probabilità
A
p(A)
F
0.6
M
0.4
1
B
p(B )
Produzione (p)
0.6
Vendite (v)
0.3
Direzione (d)
0.1
1
Su un campione di N = 54 dipendenti dell’azienda, è stata rilevata la seguente distribuzione doppia di
frequenza dei caratteri A e B
A
p
B
v
d
Ni•
F
8
10
6
24
M
13
7
10
30
N•j
21
17
16
54
Veriﬁcare al livello α = 0.05 l’ipotesi che il settore di lavoro sia indipendente dal sesso degli impiegati
dell’azienda.
Soluzione Indicata con pij la probabilità che un dipendente dell’azienda casualmente selezionato abbia sesso
Ai e lavori nel settore Bj , il sistema di ipotesi da veriﬁcare è
{
H0 : pij = pi• p•j
per ogni (i, j) ∈ {1, 2} × {1, 2, 3},
H1 : pij ̸= pi• p•j
per almeno un (i, j) ∈ {1, 2} × {1, 2, 3},
dove pi• (rispettivamente p•j ) è la probabilità con cui il carattere A(risp. B) assume la modalità Ai (risp.
Bj ). Poiché le probabilità pi• e p•j sono note per ogni i ∈ {1, 2} e per ogni j ∈ {1, 2, 3}, le frequenze attese
sotto l’ipotesi nulla sono deﬁnite da
E[Nij |pij = pi• p•j ] = N pi• p•j ,
e la distribuzione doppia di frequenza dei caratteri A e B è riportata di seguito
A
p
B
v
F
19.44
9.72
3.24
32.4
M
12.96
6.48
2.16
21.6
N•j
32.4
16.2
5.4
54
Primi elementi di inferenza statistica (ed. maggio 2012)
164
d
Ni•
M. Di Marzio
22. ESERCIZI SVOLTI
La statistica test adottata per veriﬁcare l’ipotesi di indipendenza è
X2 =
2 ∑
3
2
∑
(Nij − N pi• p•j )
N pi• p•j
i=1 j=1
che ha approssimativamente distribuzione chi-quadrato con 2 × 3 − 1 = 5 gradi di libertà. Poiché α = 0.05,
e dalle tavole della distribuzione chi-quadrato risulta χ20.05,5 = 11.070, la regione di riﬁuto è deﬁnita da
R = {χ2 : χ2 > 11.070}.
La realizzazione campionaria della statistica test è determinata attraverso la seguente tabella
(Ai , Bj )
Nij
N pi• p•j
Nij − N pi• p•j
(Nij − N pi• p•j )2 /(N pi• p•j )
(F, p)
8
19.44
-11.44
6.7322
(F, v)
10
9.72
0.28
0.0081
(F, d)
6
3.24
2.76
2.3511
(M, p)
13
12.96
0.04
0.0001
(M, v)
7
6.48
0.52
0.0417
(M, d)
10
2.16
7.84
28.4563
54
54
37.5895
Poiché la realizzazione campionaria della statistica test è χ2 = 37.5895, risulta χ2 > 11.070 e si riﬁuta al
livello di signiﬁcatività ﬁssato l’ipotesi di indipendenza tra sesso e settore di lavoro.
Esercizio 22.4. Un’indagine svolta su un campione di N = 132 aziende italiane appartenenti a settori
produttivi diversi, ha evidenziato le seguenti percentuali di produzione esportata
Produzione esportata
Settore produttivo
< 20%
20% − 40%
> 40%
Ni•
Alimentare (A)
43
16
3
62
Siderurgico (S)
6
11
10
27
Tessile (T)
9
18
16
43
N•j
58
45
29
132
Veriﬁcare, al livello α = 0.001, che la percentuale di produzione esportata sia indipendente rispetto al settore
produttivo di appartenenza delle aziende italiane.
Soluzione Sia pij la probabilità che un’azienda casualmente selezionata abbia la percentuale i di produzione
esportata ed appartenga al settore produttivo j e sia pi• (rispettivamente p•j ) la probabilità che un’azienda
selezionata casualmente abbia percentuale i di produzione esportata (risp. appartenga al settore produttivo
j). Il sistema di ipotesi da sottoporre a veriﬁca è
{
H0 : pij = pi• p•j
per ogni (i, j) ∈ {1, 2, 3} × {1, 2, 3}
H1 : pij ̸= pi• p•j
per almeno un (i, j) ∈ {1, 2, 3} × {1, 2, 3}.
Poiché le distribuzioni marginali dei due caratteri considerati sono incognite, occorre determinarne le rispettive stime
N•j
Ni•
e p̂•j =
.
N
N
Le frequenze attese sotto l’ipotesi nulla risultano pertanto deﬁnite da
p̂i• =
E[Nij |pij = p̂i• p̂•j ] =
M. Di Marzio
165
Ni• N•j
,
N
Primi elementi di inferenza statistica (ed. maggio 2012)
e la statistica test adottata per saggiare l’ipotesi di indipendenza è
(
)2
N N
3 ∑
3
Nij − i•N •j
∑
X2 =
,
Ni• N•j
i=1 j=1
N
che ha distribuzione chi-quadrato con (3 − 1)(3 − 1) = 4 gradi di libertà.
Poiché α = 0.001 e dalla tavola della distribuzione chi-quadrato risulta χ20.001,4 = 18.47, la regione di riﬁuto
del test è deﬁnita da
R = {χ2 : χ2 > 18.47}.
La realizzazione campionaria della statistica test è determinata allora attraverso la tabella seguente
(
)2 /
Ni• N•j
Ni• N•j
Ni• N•j
Ni• N•j
Modalità
Nij
N
−
N
−
ij
ij
N
N
N
N
(A, 20%)
43
27.24
15.76
9.11
(A, 20% − 40%)
16
21.14
-5.14
1.25
(A, > 40%)
3
13.62
-10.62
8.28
(S, 20%)
6
11.86
-5.86
2.90
(S, 20% − 40%)
11
9.20
1.80
0.35
(S, > 40%)
10
5.93
4.07
2.79
(T, 20%)
9
18.89
-9.89
5.18
(T, 20% − 40%)
18
14.66
3.34
0.76
(T, > 40%)
16
9.45
6.55
4.55
132
132
35.17
Poiché la realizzazione campionaria della statistica test è χ2 = 35.17, risulta χ2 > 18.47 e si rigetta, al
livello di signiﬁcativà prescelto, l’ipotesi di indipendenza tra percentuale di produzione esportata e settore di
appartenenza delle aziende italiane.
Esercizio 22.5. Su due campioni di persone rispettivamente residenti in regioni del nord e del sud dell’
Italia, è stato condotto un sondaggio su una nuova proposta di legge, ottenendo i risultati seguenti
Aree
Pareri
Sud
N ord
Ni•
Favorevole (f)
60
40
100
Contrario (c)
80
100
180
N•j
140
140
280
Veriﬁcare al livello α = 0.01 che in entrambe le aree geograﬁche italiane la proposta di legge raccolga il 50%
di pareri favorevoli.
Soluzione Nel problema in esame le popolazioni di interesse sono rappresentate dai residenti nel Nord e
nel Sud Italia. L’ipotesi da veriﬁcare è se tali popolazioni siano omogenee rispetto al giudizio su una nuova
proposta di legge ed in particolare se in entrambe ci sia la stessa percentuale (50%) di persone favorevoli e di
persone contrarie alla nuova proposta. Pertanto, indicata con pij la probabilità che selezionato casualmente
un individuo questo sia residente nella zona j-sima e presenti la preferenza i-sima, il sistema di ipotesi da
veriﬁcare è
{
H0 : pi1 = pi2 = 0.5
per ogni i ∈ {1, 2},
H1 : pi1 ̸= pi2
per almeno un i ∈ {1, 2}.
Le frequenze attese sotto l’ipotesi nulla sono allora deﬁnite da
E[Nij |pi1 = pi2 = 0.5] = N•j pi0 = N•j × 0.5.
La distribuzione delle frequenze teoriche è riportata nella tabella seguente
Primi elementi di inferenza statistica (ed. maggio 2012)
166
M. Di Marzio
22. ESERCIZI SVOLTI
Aree
Pareri
Sud
Nord
Ni•
Favorevole (f)
70
70
140
Contrario (c)
70
70
140
N•j
140
140
280
La statistica test da usare per saggiare l’ipotesi di indipendenza è
X2 =
2
2 ∑
∑
(Nij − N•j pi0 )2
N•j pi0
i=1 j=1
che ha distribuzione chi-quadrato con 2 (2 − 1) = 2 gradi di libertà.
Poiché α = 0.01 e dalla tavola della distribuzione chi-quadrato risulta χ20.01,2 = 9.210, la regione di riﬁuto
del test è
R = {χ2 : χ2 > 9.210}.
La realizzazione campionaria della statistica test è determinata come segue
Nij
N•j pi0
Nij − N•j pi0
(Nij − N•j pi0 )2 /N•j pi0
(f, S)
60
70
-10
1.4286
(f, N)
40
70
-30
12.8571
(c, S)
80
70
10
1.4286
(c, N)
100
70
30
12.8571
280
280
28.5714
Poiché χ2 = 28.5714 risulta χ2 > 9.210, e si riﬁuta al livello α = 0.01 l’ipotesi che in entrambe le aree
geograﬁche il 50% dei residenti sia favorevole alla nuova proposta di legge.
Esercizio 22.6. Un’azienda produttrice di componenti elettronici realizza gli assemblaggi necessari all’ottenimento di un certo tipo di trasformatori attraverso quattro macchinari A, B, C e D. Si estrae un campione
dalla produzione di ciascuna macchina ottenendo i risultati seguenti.
Macchinari
Assemblaggi
A
B
C
D
Ni•
Difettosi (d)
10
16
14
20
60
Non difettosi (nd)
50
34
46
50
180
N•j
60
50
60
70
240
Veriﬁcare al livello α = 0.05 che tra i macchinari dell’azienda non c’è diﬀerenza di prestazioni.
Soluzione Nel problema in esame le popolazioni di interesse sono rappresentate dalle produzioni dei 4 macchinari dell’azienda. L’ipotesi da veriﬁcare è se tali popolazioni siano omogenee rispetto alle caratteristiche di
difettosità. In particolare, indicata con pij la probabilità che scelto casualmente un prodotto dalla produzione
della j-sima macchina esso presenti la caratteristica i-sima, il sistema da veriﬁcare è
{
H0 : pi1 = pi2 = pi3 = pi4 = pi0
per ogni i ∈ {1, 2},
per almeno un i ∈ {1, 2}.
H1 : H0 non vera
Poiché le probabilità pi0 comuni sotto l’ipotesi nulla sono incognite, si procede alla loro stima come segue
N1•
60
N2•
180
=
= 0.25, p̂20 =
=
= 0.75.
N
240
N
240
Le frequenze attese sotto l’ipotesi nulla sono allora deﬁnite da
p̂10 =
E[Nij |pi1 = pi2 = pi3 = pi4 = p̂i0 ] = N•j p̂i0 =
N•j Ni•
,
N
per i ∈ {1, 2},
e se ne riporta la distribuzione nella tabella che segue
M. Di Marzio
167
Primi elementi di inferenza statistica (ed. maggio 2012)
Macchinari
Assemblaggi
A
B
C
D
Ni•
Difettosi (d)
15
12.5
15
17.5
60
Non difettosi (nd)
45
37.5
45
52.5
180
N•j
60
50
60
70
240
La statistica test da impiegare per veriﬁcare l’ipotesi di omogeneità tra le prestazioni dei macchinari è allora
deﬁnita da
(
)2
N N
2 ∑
4
Nij − •jN i•
∑
X2 =
,
N•j Ni•
i=1 j=1
N
che ha distribuzione chi-quadrato con (2 − 1) (4 − 1) = 3 gradi di libertà.
Poiché α = 0.05 e dalla tavola della distribuzione chi-quadrato risulta χ20.05,3 = 7.815, la regione di riﬁuto
del test è
R = {χ2 : χ2 > 7.815}.
La realizzazione campionaria della statistica test è determinata attraverso la tabella seguente
(
)2 /
N•j Ni•
N•j Ni•
N•j Ni•
N•j Ni•
Nij
N
−
N
−
ij
ij
N
N
N
N
(d, A)
10
15
-5
1.6667
(d, B)
16
12.5
3.5
0.9800
(d, C)
14
15
-1
0.0667
(d, D)
20
17.5
2.5
0.3571
(nd, A)
50
45
5
0.5555
(nd, B)
34
37.5
-3.5
0.3266
(nd, C)
46
45
1
0.0222
(nd, D)
50
52.5
-2.5
0.1190
240
240
4.094
Poiché χ2 = 4.094 risulta χ2 < 7.815, e si accetta l’ipotesi di omogeneità tra le prestazioni dei quattro
macchinari dell’azienda.
Primi elementi di inferenza statistica (ed. maggio 2012)
168
M. Di Marzio
23
Predizione
Indice
23.1 Predittori ottimi non condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . 169
23.2 Predittori ottimi condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
23.3 Due modelli di media condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . 171
23.1
Predittori ottimi non condizionati
Supponiamo di sapere come un carattere Y si distribuisce presso una popolazione, cioè di conoscere fY . Spesso
è di interesse prevedere, sulla base di fY , il valore y associato a un individuo estratto a caso. La predizione
di y produce un numero il piu possibile prossimo a y. Si noti che la predizione può essere considerata una
procedura logicamente contraria a quella della stima. Infatti l’obiettivo non è conoscere una caratteristica di
una pdf ignota sulla base dei dati, come accade per la stima, ma predire i dati che verranno estratti da una
pdf completamente nota. Poiché la predizione, che indichiamo con cfY , sfrutta solo la conoscenza di fY , non
avrà natura casuale, ma sarà sempre la stessa ogni volta che y dovrà essere previsto.
Chiamiamo la v.c. E = Y − cfY errore di approssimazione o predizione. Per errore quadratico medio (o
rischio) di predizione si intende il valore atteso del quadrato dell’errore di predizione
EQMP[cfY ] = E[E 2 ] = E[(Y − cfY )2 ].
Come valore atteso della funzione di v.c. (Y − cfY )2 , il rischio avrà le seguenti espressioni1
E[E 2 ] =
∑t
2

 j=1 (yj − cfY ) p(yj ) se Y è discreta con t modalità,

 ∫ +∞
−∞
(y − cfY )2 fY dy
se Y è continua.
La predizione ottima di y è quel numero c∗fY per cui il rischio è minimo, in formule
c∗fY = arg min E[(Y − cfY )2 ].
cfY
È facile dimostrare che c∗fY = E[Y ]. Infatti
EQMP[cfY ] = E[(Y − cfY )2 ]
= E[(Y − E[Y ] + E[Y ] − cfY )2 ]
= E[(Y − E[Y ])2 ] + E[(E[Y ] − cfY )2 ] + 2E[(Y − E[Y ])(E[Y ] − cfY )]
= E[(Y − E[Y ])2 ] + E[(E[Y ] − cfY )2 ] + 2(E[Y ] − cfY )E[(Y − E[Y ])]
= E[(Y − E[Y ])2 ] + E[(E[Y ] − cfY )2 ]
= Var[Y ] + E[(E[Y ] − cfY )2 ]
1 Nel
resto del capitolo X e Y saranno supposte continue.
M. Di Marzio
169
Primi elementi di inferenza statistica (ed. maggio 2012)
23.2. Predittori ottimi condizionati
ora, Var[Y ] non dipende da cfY , così E[(E[Y ] − cfY )2 ] ≥ 0, la predizione ottima c∗fY di y è quella che annulla
E[(E[Y ] − cfY )2 ]. Di conseguenza
c∗fY = E[Y ]
e
EQMP[c∗fY ] = Var[Y ].
Un’altra evidente proprietà di c∗fY è che in media essa produce previsioni esatte, infatti
E[Y − c∗fY ] = E[Y ] − E[Y ] = 0.
23.2
Predittori ottimi condizionati
Sia data una v.c. doppia (X, Y ) di cui conosciamo fXY . Assumiamo di voler predire i valori di Y sapendo
che essa è correlata con X, e che x può essere usata per predire y.
Con riferimento al loro diﬀerente ruolo, X è chiamata variabile esplicativa e Y variabile risposta.
Esempio 23.1. Alcune coppie di variabili esplicative e risposta: il prezzo e il fatturato; l’altezza e il peso; la quantità
di studio e il rendimento; il titolo di studio e la retribuzione; i prezzi del sottostante di un’opzione e dell’opzione. Se, come è naturale, scegliamo di utilizzare anche l’informazione contenuta in x, allora∫il nostro predittore
si deve basare sulla pdf condizionata fY |x , non semplicemente sulla marginale fY (y) = fXY (x, y) dx. Tale
problema è chiamato predizione condizionata, qui il predittore, che indichiamo come gfY |x , è una funzione
di x, così come lo sarà pure il rischio
EQMP[gfY |x ] = E[(Y − gfY |x )2 ],
dove il valore atteso è preso rispetto alla densità condizionata fY |x . Per le stesse ragioni viste nel caso non
condizionato, anche qui il predittore ottimo di y, cioè la funzione che minimizza EQMP[gfY |x ], è il valore
atteso, che in questo caso è condizionato. Tale valore atteso può essere inteso come funzione deterministica o
come v.c.. Infatti dopo l’osservazione di x esso è una funzione deterministica di x, cioè µY |x = E[Y |X = x].
Ma prima di osservare x la media condizionata è una v.c., poiché applicata alla v.c. X, cioè µY |X = E[Y |X];
in quest’ultimo caso il valore atteso è preso rispetto alla pdf fXY . Così, osservato x, abbiamo le seguenti
espressioni di media condizionata e relativo rischio ottimo
µY |x = E[Y |X = x],
EQMP[µY |x ] = Var[Y |X = x]
dove valore atteso e varianza sono entrambi calcolati usando la pdf condizionata fY |x .
Prima di osservare x abbiamo invece le seguenti espressioni
µY |X = E[Y |X],
E[EQMP[µY |X ]] = E[Var[Y |X]]
dove valore atteso e varianza sono entrambi calcolati usando la pdf congiunta fXY . Prima di osservare x il
rischio è naturalmente deﬁnito come il valore atteso di EQMP[µY |X ]. Infatti se esiste un rischio condizionato
per ogni valore x, allora il rischio prima di osservare x sarà una media di tutti quelli condizionati.
Ora è facile dimostrare che il rischio ottimo condizionato prima di osservare x è minore del rischio ottimo
non condizionato visto nella sezione precedente, per cui sarà sempre conveniente fare predizioni condizionate.
In formule:
E[EQMP[µY |X ]] = E[Var[Y |X]] ≤ EQMP[E[Y]] = Var[Y]
così da concludere che una predizione condizionata ha rischio non maggiore di quello di una predizione non
condizionata E[Y ], risultando formalmente giustiﬁcata la scelta – operata prima di osservare x – di usare
l’informazione contenuta in x per predire il valore di Y .
Infatti ricordando che Var[X] = E[X 2 ] − (E[X]2 ) si ha che
Var[Y |X] = E[(Y − E[Y ])2 |X]
= E[Y 2 |X] − (E[Y |X])2 ,
e risulta
E[Var[Y |X]] = E[E[Y 2 |X] − (E[Y |X])2 ]
= E[E[Y 2 |X]] − E[(E[Y |X])2 ]
= E[Y 2 ] − E[(E[Y |X])2 ] + (E[Y ])2 − (E[Y ])2
= Var[Y ] − E[(E[Y |X])2 ] + (E[Y ])2
= Var[Y ] − E[(E[Y |X])2 ] + (E[E[Y |X])2
= Var[Y ] − Var[E[Y |X]] ≤ Var[Y ]
Primi elementi di inferenza statistica (ed. maggio 2012)
170
M. Di Marzio
23. PREDIZIONE
nei passaggi dalla seconda alla terza equazione e dalla quarta alla quinta abbiamo usato la proprietà delle
medie iterate (sez. 9.4). Così E[Var[Y |X]] ≤ Var[Y ]. La funzione µY |· è chiamata in molti modi diversi. In
questa sede i termini predittore ottimo di Y tramite X, linea delle medie condizionate di Y rispetto
a X e funzione di regressione di Y su X saranno usati come sinonimi.
Esempio 23.2. Data una v.c. doppia (X, Y ), con la seguente pdf di Y condizionata a x:
per x ∈ [0, 21 ]
mentre per x ∈

 1
fY |x (y) = 2x

0
( 12 , 1]
fY |x (y) =
0 ≤ y ≤ 2x
altrimenti

1
0≤y≤1

0
altrimenti.
Ricavare:
a) il predittore ottimo di Y tramite X;
b) il rischio di predizione.
a) Poichè la v.c. Y si distribuisce uniformente, la funzione di regressione di Y dato X è la seguente
µY |x
b) Mentre il rischio di predizione è

x
= 1

2
1
2
se 1/2 ≤ x ≤ 1.
se 0 ≤ x ≤
 2
x



3
Var[Y |X = x] =

1



12
0≤x≤
1
2
1
≤ x ≤ 1.
2
La ﬁgura 23.1 rappresenta sia la la linea delle medie (in grassetto), sia tutti i possibili valori della coppia (x, y) (area
ombreggiata).
Y
0000000000000000
1111111111111111
1111111111111111
0000000000000000
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0
1
1/2
X
Figura 23.1: Predittore ottimo dell’esempio 23.2.
23.3
Due modelli di media condizionata
La speciﬁcazione della media condizionata µY |· richiede la conoscenza della pdf congiunta fXY . Infatti da
fXY si ricava fY |X , e con rispetto a quest’ultima essa si calcola la media condizionata. Nella trattazione che
segue ci limiteremo studiare il caso in cui è noto che (X, Y ) ha pdf normale doppia. Esso somma la semplicità
di trattazione a una notevole applicabilità negli studi pratici.
Sarà inoltre presentato un secondo rilevante caso, dove la speciﬁcazione di µ[Y |·] non richiede l’uso della pdf
congiunta, infatti spesso si può aﬀermare che il predittore ha forma lineare indipendentemente da quale sia
la pdf di (X, Y ).
M. Di Marzio
171
Primi elementi di inferenza statistica (ed. maggio 2012)
23.3. Due modelli di media condizionata
⋄ Modello normale Come si è appreso nella sezione 9.9, se (X, Y ) ha pdf normale doppia di parametri
2
µ X , σX
, µY , σY2 , e ρXY , allora la pdf condizionata fY |x è anch’essa normale. Il suo valore atteso
µY |X = µY + ρXY
σY
(X − µX )
σX
è, come si è visto nella sezione precedente, il predittore ottimo di Y condizionato a X. Si deve sottolineare che esso è lineare in X. Mentre la sua varianza, cioè Var[Y |X] = σY2 (1 − ρ2XY ), ne costituisce il
rischio condizionato, che evidentemente è lo stesso per ogni valore di X. Per cui, eccezionalmente, nel
caso di normalità i rischi prima e dopo l’ossevazione di X sono gli stessi, formalmente
E[Var[Y |X]] = E[EQMP[µY |X ]] = E[σY2 (1 − ρ2XY )] = σY2 (1 − ρ2XY ) = Var[Y |X].
Come si vede, il rischio è inversamente proporzionale al quadrato del coeﬃciente di correlazione, così
più al crescere della correlazione dimuinuisce il rischio (migliora la precisione) del predittore µY |· . Ciò
è intuitivo se si considera che l’informazione su Y contenuta in X è proporzionale al valore del loro
coeﬃciente di correlazione ρXY . Ad esempio, se le vv.cc. sono incorrelate sono anche indipendenti per
l’ipotesi di normalità, così ci aspettiamo che l’uso di x per predire Y sia superﬂuo. In questo caso il
rischio del predittore condizionato raggiunge il suo massimo che è σY2 . Si noti che tale massimo coincide
con il rischio del predittore non condizionato, ciò conferma che il predittore condizionato ha rischio
non maggiore di quello non condizionato. Se al contrario la correlazione è molto alta, il rischio è molto
basso, infatti i dati tendono ad ammassarsi intorno a una retta (si veda la ﬁgura 9.3), e di conseguenza
un predittore lineare fornisce approssimazioni soddisfacenti.
Esempio 23.3. Abbia (X, Y ) pdf normale con σY2 = 10 e ρXY = 0.25. Se si ignora la v.c. X, e si operano
predizioni su Y attraverso E[Y ], il rischio è
EQMP[E[Y ]] = Var[Y ] = 10.
Se invece si ricorre alla funzione di regressione di Y su X, allora
EQMP[µY |X ] = (1 − ρ2XY )σY2 = (1 − 0.0625)10 = 9.9375.
Sfruttando l’informazione ausiliaria contenuta in X si riduce il rischio di oltre il 6%.
⋄ Linearità Spesso non si conosce la pdf congiunta, ma si può ragionevolmente supporre che la media
condizionata è funzione lineare di X, ossia che
E[Y |X] = µY |X = β0 + β1 X.
Questa speciﬁcazione esprime una famiglia di rette indicizzata dalla coppia di parametri (β0 , β1 ). Si
deve comunque conoscere quale particolare retta costituisce il predittore ottimo. A tale scopo occorre
speciﬁcare i parametri β0 e β1 che caratterizzano la funzione di regressione come segue. Poiché β0 +β1 X
dovrà essere il predittore ottimo di Y dato X, i parametri (β0 , β1 ) devono essere tali da minimizzare il
rischio. Anzitutto troviamo una espressione conveniente per quest’ultimo
EQMP[µY |X ] = E[(Y − (β0 + β1 X))2 ]
= E[Y 2 + (β0 + β1 X)2 − 2Y (β0 + β1 X)]
= E[Y 2 + β02 + β12 X 2 + 2β0 β1 X − 2β0 Y − 2β1 XY ]
= E[Y 2 ] + β02 + β12 E[X 2 ] + 2β0 β1 E[X] − 2β0 E[Y ] − 2β1 E[XY ],
per determinare β0 e β1 si procede al calcolo delle derivate parziali rispetto a β0 e β1 , ottenendo il
seguente sistema

 ∂EQMP[µY |X ] = 2β + 2β E[X] − 2E[Y ]

0
1


∂β0


∂EQMP[µY |X ]


= 2β1 E[X 2 ] + 2β0 E[X] − 2E[XY ]
∂β1
ed eguagliando a 0 le equazioni del sistema si ricava
{
β0 + β1 E[X] = E[Y ]
β0 E[X] + β1 E[X 2 ] = E[XY ] .
Primi elementi di inferenza statistica (ed. maggio 2012)
172
M. Di Marzio
23. PREDIZIONE
Moltiplicando la prima equazione per E[X], e sottraendo l’equazione così ottenuta dalla seconda equazione
del sistema si determina β1
E[XY ] − E[X]E[Y ]
E[X 2 ] − (E[X])2
Cov[X, Y ]
=
,
Var[X]
β1 =
e di conseguenza, speciﬁcando β1 nella prima equazione del sistema si ottiene
β0 = E[Y ] − β1 E[X]
= E[Y ] −
Cov[X, Y ]
E[X].
Var[X]
Il predittore lineare ottimo è allora
Cov[X, Y ]
Cov[X, Y ]
E[X] +
X
Var[X]
Var[X]
Cov[X, Y ]
= E[Y ] +
(X − E[X])
Var[X]
µY |X = E[Y ] −
e l’errore quadratico medio di previsione ad esso corrispondente, che è il minimo possibile, si calcola
come segue
EQMP[µY |X ] = E[(Y − µY |X )2 ]
[{
}2 ]
Cov[X, Y ]
(X − E[X])
= E Y − E[Y ] −
Var[X]
[
{
}2
{
}]
Cov[X,
Y
]
Cov[X,
Y
]
= E (Y − E[Y ])2 +
(X − E[X]) − 2(Y − E[Y ])
(X − E[X])
Var[X]
Var[X]
(
)2
Cov[X, Y ]
(Cov[X, Y ])2
= Var[Y ] +
Var[X] − 2
Var[X]
Var[X]
(Cov[X, Y ])2
= Var[Y ] −
Var[X]
(
)
(Cov[X, Y ])2
= Var[Y ] 1 −
Var[Y ]Var[X]
Avviene, senza alcuna sorpresa, che il predittore lineare ottimo coincide con quello ottenuto nel caso
della normale, dove si era constatato che il predittore ottimo è lineare.
Esempio 23.4. Nella ﬁgura 23.2 osserviamo un modello di predittore lineare ottimo. Si possono osservare le tre
previsioni µY |x1 , µY |x2 , µY |x3 operate dal predittore ottimo µY |x = β0 + β1 x. I Rispettivi valori di Y veriﬁcatisi sono
y1 , y2 , y3 , mentre gli errori di previsione sono e1 , e2 , e3 .
Riassumendo, abbiamo discusso le seguenti speciﬁcazioni del predittore lineare ottimo:
2
⋄ se (X, Y ) ha pdf normale con parametri µX , µY , σX
, σY2 , ρXY :
µY |X = µY + ρXY
σY
(X − µX );
σX
⋄ se la media di Y è funzione lineare di X:
µY |X = E[Y ] +
Cov[X, Y ]
(X − E[X]).
Var[X]
)
σY (
]
risp. Cov[X,Y
misura di quanto varia la media di Y per variazioni marginali di X ed è
Var[X]
σX
(
)
σY
]
anche chiamata coeﬃciente di regressione; la quantità µY + ρXY
− µX risp. E[Y ] + Cov[X,Y
−
E[X]
Var[X]
σX
rappresenta l’intercetta verticale.
La quantità ρXY
M. Di Marzio
173
Primi elementi di inferenza statistica (ed. maggio 2012)
23.3. Due modelli di media condizionata
Figura 23.2: Esempio di modello predittivo lineare ottimo.
Primi elementi di inferenza statistica (ed. maggio 2012)
174
M. Di Marzio
24
Inferenza su medie condizionate
Indice
24.1
24.2
24.3
24.4
24.1
Stima . . . . . . . . . . . . . . .
Proprietà degli stimatori B0 e
Stime intervallari e test su β1
Test di linearità . . . . . . . .
. .
B1
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
175
179
181
182
Stima
Data la v.c. doppia (X, Y ), immaginiamo di voler determinare la media di Y condizionata ad un certo valore di
X, cioè µY |x = E[Y |X = x], quando non abbiamo completa conoscenza di fXY . Tale predittore non può essere
calcolato, quanto meno perché, come detto, fXY non è del tutto nota. Comunque si può sempre stimarlo sulla
base di una realizzazione (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) di un campione casuale (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn )
generato da fXY .
Di seguito sono illustrati alcuni metodi di costruzione di stimatori di µY |x , ognuno di essi presuppone un
diﬀerente grado conoscenza di fXY : naturalmente più ipotesi si possono fare a priori, più accurato1 risulterà
lo stimatore che ne verrà fuori. In breve, si può aﬀermare quanto segue sui metodi che presenteremo.
Un metodo che non richiede informazioni extra-campionarie è quello non parametrico. Ovviamente esso non
può incorrere nell’errore di errata speciﬁcazione, ma è poco eﬃcace. Il metodo dei minimi quadrati presuppone
più informazione a priori poichè richiede che il predittore ottimo sia una retta. Il metodo della massima
verosimiglianza fa uso del massimo dell’informazione a priori, infatti richiede sia l’epressione parametrica
della media condizionata µY |x sia la conoscenza della famiglia parametrica di appartenenza della densità
congiunta fXY . Al termine della sezione 24.2 si vedrà che il metodo della massima verosimiglianza ha proprietà
migliori del metodo dei minimi quadrati. Inﬁne il metodo dell’analogia svolge un ruolo assai mediocre poichè,
sebbene semplice e intuitivo, richiede la conoscenza della funzione di regressione avendo particolari proprietà
di accuratezza.
Nella tabella 24.1 è mostrata la notazione usata per la distribuzione di frequenza rilevata sul campione (X
ha r modalità, Y ne ha t). In particolare, data una numerosità n, sono riportate le seguenti frequenze
assolute: nij che è associata alla coppia (xi , yj ), ni• che è associata a xi e inﬁne n•j che è associata a
yj . I dati campionari sono di solito graﬁcamente rappresentati attraverso il diagramma di dispersione,
cioè un sistema di assi cartesiani dove ogni asse indica un carattere e ogni punto una delle r × t coppie
{(xi , yj ), i = 1, ..., r, j = 1, ..., t} di modalità osservate.
◃ Metodo non parametrico Un metodo non parametrico per la stima di medie condizionate consiste
nel calcolo diretto delle stesse sui dati campionari, in corrispondenza dei diversi valori assunti da X:
mY |xi
t
1 ∑
=
yj nij .
ni• j=1
Inoltre, congiungendo attraverso segmenti i punti di coordinate (xi , mY |xi ) si ottiene una spezzata,
detta spezzata di regressione. Sebbene la spezzata dia un’idea dell’andamento globale del fenomeno,
1 Esattamente come nel resto dell’inferenza, un metodo si intende tanto più accurato quanto migliori sono le proprietà
possedute.
M. Di Marzio
175
Primi elementi di inferenza statistica (ed. maggio 2012)
24.1. Stima
Y
X
y1
y2
···
yj
···
yt
Totale
x1
n11
n12
···
n1j
···
n1t
n1•
x2
..
.
n21
..
.
n22
..
.
···
n2j
..
.
···
n2t
..
.
n2•
..
.
xi
..
.
ni1
..
.
ni2
..
.
···
nij
..
.
···
nit
..
.
ni•
..
.
xr
nr1
nr2
···
nrj
···
nrt
nr•
n•1
n•2
···
n•j
···
n•t
n
Tabella 24.1: Notazione per la distribuzione doppia di frequenza dei caratteri X e Y .
chiaramente i valori della spezzata diversi dai punti di coordinate (xi , mY |xi ) non possono in alcun modo
essere considerati come stime di medie condizionate.
Esempio 24.1. Abbiamo osservato un campione casuale di numerosità n = 51 con la seguente distribuzione
doppia di frequenze
Y
X
1
2
3
4
5
6
7
8
9
10
11
12
1
1
2
3
2
1
0
0
0
0
0
0
0
9
2
0
0
0
2
3
5
5
3
2
1
0
0
22
3
0
0
0
0
1
4
4
1
0
0
0
0
10
4
0
0
0
0
0
0
1
2
2
2
2
1
10
1
2
4
4
5
9
10
6
4
3
2
1
51
Nella ﬁgura 24.1 di sinistra i dati sono rappresentati attraverso il diagramma di dispersione. Ogni coppia (xi , yi )
è rappresentata da un punto; ma essendo molte coppie uguali molti punti sono sovrapposti così nel graﬁco non
ne possiamo contare 51.
Consideriamo adesso le stime dei previsori ottimi in corrispondenza dei valori di X osservati:
X
1
2
3
4
mY |xi
3
6.36
6.50
9.50
Nella ﬁgura 24.1 di destra possiamo notare la spezzata di regressione.
◃ Metodo dell’analogia Nel caso non comune che la formula del predittore sia nota una strategia molto
intuitiva per ottenere uno stimatore del predittore consiste nel sostituire le quantità del campione alle
quantità della popolazione contenute nella formula.
(x − µX ), inoltre sia
(1.1, 1.7), (0.9, 2), (1.3, 2.3) la realizzazione di un campione casuale estratto dalla pdf incognita della v.c. (X, Y ).
Sulla base dei dati campionari risulta
Esempio 24.2. Immaginiamo di sapere che il predittore ottimo abbia forma µy + ρXY
σX
σY
(1.1 − 1.1)2 + (0.9 − 1.1)2 + (1.3 − 1.1)2
1.1 + 0.9 + 1.3
= 1.1, s2X =
= 0.0267,
3
3
(1.7 − 2)2 + (2 − 2)2 + (2.3 − 2)2
1.7 + 2 + 2.3
ȳ =
= 2, s2Y =
= 0.06
3
3
x̄ =
e
rXY =
(1.1 − 1.1)(1.7 − 2) + (0.9 − 1.1)(2 − 2) + (1.3 − 1.1)(2.3 − 2)
√
= 0.5.
0.0267 × 0.06
Primi elementi di inferenza statistica (ed. maggio 2012)
176
M. Di Marzio
24. INFERENZA SU MEDIE CONDIZIONATE
Figura 24.1: Rappresentazione graﬁca di dati bidimensionali.
Pertanto la stima del predittore lineare ottimo, ottenuta con il metodo dell’analogia, è data da
√
0.0267
mY |x = 2 + 0.5 √
(x − 1.1) = 1.175 + 0.33x.
0.06
◃ Metodo dei minimi quadrati Nella sezione 23.3 è stato deﬁnito il predittore lineare ottimo µY |· =
β0 + β1 ·, ottimo perchè β0 e β1 sono stati determinati in modo da rendere minimo l’errore quadratico
atteso di predizione.
Se fXY è ignota, ma si sa che la media condizionata è funzione lineare di X, non resta che stimare
β0 e β1 . A tal ﬁne una strategia ragionevole appare il trattare la realizzazione campionaria come
popolazione, ed applicare ad essa il metodo descritto nella sezione 23.3 per la determinazione di β0 e
β1 .
Così, data la realizzazione (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) di un campione casuale estratto da fXY , i
parametri della retta delle medie condizionate vengono stimati tramite il metodo dei minimi quadrati,
secondo il quale le stime di β0 e β1 minimizzano
EQMP[β0 + β1 xi ] =
n
∑
(yi − (β0 + β1 xi ))2 ,
i=1
cioè la versione empirica dell’errore quadratico di predizione.
Poichè risulta
n
∑
(yi − (β0 + β1 xi ))2 =
i=1
n
∑
(yi2 + (β0 + β1 xi )2 − 2yi (β0 + β1 xi ))
i=1
=
n
∑
(yi2 + β02 + β12 x2i + 2β0 β1 xi − 2β0 yi − 2β1 xi yi )
i=1
=
n
∑
i=1
yi2 + nβ02 + β12
n
∑
i=1
x2i + 2β0 β1
n
∑
xi − 2β0
i=1
n
∑
yi − 2β1
i=1
n
∑
xi yi ,
i=1
le derivate parziali rispetto a β0 e β1 sono

∑n
∑n
∂EQMP[β0 + β1 xi ]


= 2nβ0 + 2β1 i=1 xi − 2 i=1 yi


∂β0


∑
∑
∑

 ∂EQMP[β0 + β1 xi ] = 2β1 ni=1 x2i + 2β0 ni=1 xi − 2 ni=1 xi yi ,
∂β1
da cui eguagliando a 0 si ottiene

∑n
∑n

 nβ0 + β1 i=1 xi = i=1 yi
∑n
∑n
∑n

 β0 i=1 xi + β1 i=1 x2i = i=1 xi yi .
M. Di Marzio
177
Primi elementi di inferenza statistica (ed. maggio 2012)
24.1. Stima
∑n
x
i
Moltiplicando per i=1
la prima equazione del sistema e sottraendo l’equazione così ottenuta dalla
n
seconda equazione del sistema, si ottiene
∑n
∑n
∑n
n i=1 xi yi − i=1 xi i=1 yi
∑
∑
b1 =
n
n
n i=1 x2i − ( i=1 xi )2
=
∑n
(x − x̄)(yi − ȳ)
i=1
∑n i
2
i=1 (xi − x̄)
= rXY
e di conseguenza
sY
sX
∑n
i=1
b0 =
∑n
yi
− b1
n
= ȳ − rXY
i=1
xi
n
sY
x̄.
sX
◃ Metodo della massima verosimiglianza Se oltre all’ipotesi di linearità vale anche l’ipotesi di normalità della v.c. (X, Y ), allora la distribuzione condizionata di Y sarà normale (sez. 9.9) con media
β0 + β1 x e varianza incognita che indichiamo con σ 2 . In questo caso è possibile stimare β0 , β1 e σ 2
ricorrendo al metodo della massima verosimiglianza. La funzione di verosimiglianza è data dal prodotto
delle densità condizionate:
L(β0 , β1 , σ 2 ) =
n
∏
i=1
√
1
2πσ 2
(yi − (β0 + β1 xi ))2
2σ 2
e
−
∑n
2 −n/2
= (2πσ )
−
i=1 (yi
e
e la corrispondente funzione di log-verosimiglianza è
n
n
L(β0 , β1 , σ ) = − log 2π − log σ 2 −
2
2
2
∑n
− (β0 + β1 xi ))2
,
2σ 2
i=1 (yi
− (β0 + β1 xi ))2
.
2σ 2
La stima di massima verosimiglianza per σ 2 è ottenuta da
∑n
2
∂L(β0 , β1 , σ 2 )
n
i=1 (yi − (β0 + β1 xi ))
=
−
+
=0
∂σ 2
2σ 2
2σ 4
moltiplicando entrambi i membri dell’equazione per 2σ 4 e risolvendo. Si ottiene inﬁne:
∑n
(yi − (β0 + β1 xi ))2
2
s = i=1
.
n
Le stime di massima verosimiglianza di β0 e β1 si ottengono invece risolvendo il seguente sistema
∑n
∑n

nβ0 + β1 i=1 xi − i=1 yi
∂L(β0 , β1 , σ 2 )


=0
=−


∂β0
σ2
∑n
∑n
∑n

2
2


 ∂L(β0 , β1 , σ ) = − β1 i=1 xi + β0 i=1 xi − i=1 xi yi = 0,
∂β1
σ2
a questo punto si osservi che moltiplicando entrambi i membri di ciascuna equazione del sistema per
σ 2 si ritrovano le equazioni proprie del metodo dei minimi quadrati. Quindi il metodo di massima
verosimiglianza e il metodo dei minimi quadrati producono stime identiche se fXY ha pdf normale.
Si noti, inﬁne, che le stesse stime sono generate anche dal metodo dell’analogia. Così in tutti i casi
parametrici abbiamo ottenuto
∑n
∑n
2
(xi − x̄)(Yi − Y )
i=1 (Yi − mY |xi )
2
i=1
∑
Y
−
B
x̄
;
S
=
.
;
B
=
B1 =
1
0
n
2
n
i=1 (xi − x̄)
Si noti che gli stimatori sono espressi come funzione del campione casuale (x1 , Y1 ), (x2 , Y2 ), ..., (xn , Yn )
che proviene dalla pdf condizionata fY |x .
Primi elementi di inferenza statistica (ed. maggio 2012)
178
M. Di Marzio
24. INFERENZA SU MEDIE CONDIZIONATE
Esempio 24.3. Sia (2, 4), (0, 0.9), (1, 2) la realizzazione di un campione casuale estratto dalla pdf della v.c.
(X, Y ). Poiché risulta
4 + 0.9 + 2
2+0+1
x̄ =
=1
ȳ =
= 2.3,
3
3
le stime dei minimi quadrati b0 e b1 , risultano
∑n
(xi − x̄)(yi − ȳ)
(2 − 1)(4 − 2.3) + (0 − 1)(0.9 − 2.3) + (1 − 1)(2 − 2.3)
i=1
∑n
b1 =
=
= 1.55;
2
(2 − 1)2 + (0 − 1)2 + (1 − 1)2
i=1 (xi − x̄)
b0 = ȳ − b1 x̄ = 2.3 − (1.55)1 = 0.75.
Le stime b0 e b1 così ottenute coincidono con le stime di massima verosimiglianza dei parametri β0 e β1 , nel
caso in cui (X, Y ) è una v.c. normale. Pertanto la stima del predittore ottimo in entrambi i casi è
mY |x = 0.75 + 1.55x.
24.2
Proprietà degli stimatori B0 e B1
Disponiamo di un campione casuale (x1 , Y1 ), (x2 , Y2 ), ..., (xn , Yn ) che proviene dalla pdf condizionata fY |x .
Così i valori attesi saranno presi rispetto alla pdf condizionata fY |x , di conseguenza: E[Yi ] = β0 + β1 xi . Il
nostro scopo adesso è ricavare due importanti proprietà degli stimatori B0 e B1 , e cioé la correttezza e la
linearità. Vedremo inﬁne che, sulla base di queste due, sarà possibile stabilire anche la proprietà dell’eﬃcienza
relativa tramite il teorema di Gauss-Markov.
⋄ Correttezza Gli stimatori B0 e B1 sono stimatori corretti rispettivamente per i parametri β0 e β1 .
Infatti, posto Var[Yi ] = σ 2 , risulta
[ ∑n
(x − x̄)(Yi −
i=1
∑n i
2
i=1 (xi − x̄)
E[B1 ] = E
[ ∑n
i=1 (xi
=E
Y)
]
∑n
]
− x̄)Yi − i=1 (xi − x̄)Y
∑n
2
i=1 (xi − x̄)
[ ∑n
]
(xi − x̄)Yi
i=1
= E ∑n
2
i=1 (xi − x̄)
∑n
(xi − x̄)(β0 + β1 xi )
i=1∑
n
2
i=1 (xi − x̄)
=
=
=
β0
∑n
∑n
− x̄) + β1
i=1 (xi ∑
n
i=1 (xi −
i=1 (xi
− x̄)xi
x̄)2
∑n
β1 i=1 (xi − x̄)xi
∑n
2
i=1 (xi − x̄)
ora
∑ntroviamo una espressione conveniente per il numeratore sottraendo da esso la quantità nulla
x̄ i=1 (xi − x̄). Così si ha
∑n
i=1
(xi − x̄)xi =
=
=
da cui si ottiene
M. Di Marzio
∑n
i=1
∑n
i=1
∑n
i=1
(xi − x̄)xi − x̄
∑n
i=1
(xi − x̄)
(xi − x̄)(xi − x̄)
(xi − x̄)2 ,
∑n
β1 i=1 (xi − x̄)2
E[B1 ] = ∑n
= β1 .
2
i=1 (xi − x̄)
179
Primi elementi di inferenza statistica (ed. maggio 2012)
24.2. Proprietà degli stimatori B0 e B1
e di conseguenza
E[B0 ] = E[Y − B1 x̄]
[ ∑n
i=1
=E
Yi
]
n
− E[B1 x̄]
1∑
E[Yi ] − x̄E[B1 ]
n i=1
n
=
1
=
n
(
nβ0 + β1
n
∑
)
xi
− β1 x̄
i=1
= β0 + β1 x̄ − β1 x̄
= β0 .
⋄ Linearità Gli stimatori B0 e B1 sono stimatori lineari, nel senso che essi sono funzioni lineari delle
vv.cc. Y1 , Y2 , . . . , Yn . Per provarlo basta porre
x̄(xi − x̄)
1
− ∑n
2
n
i=1 (xi − x̄)
∑n
∑n
risultando B0 = i=1 ci Yi e B1 = i=1 di Yi . Infatti
ci =
n
∑
c i Yi =
i=1
n (
∑
1
x̄(xi − x̄)
− ∑n
2
n
i=1 (xi − x̄)
i=1
=
n (
∑
Yi
=Y −
∑n
i=1 (xi
)
x̄(xi − x̄)Yi
− ∑n
2
n
i=1 (xi − x̄)
i=1
ma essendo Y
xi − x̄
2
i=1 (xi − x̄)
di = ∑n
x̄
Yi
)
∑n
Y (x − x̄)
∑ni=1 i i 2
i=1 (xi − x̄)
− x̄) = 0, si può sottrarlo al numeratore della frazione ottenendo
(∑n
)
∑n
n
∑
x̄
i=1 Yi (xi − x̄) − Y
i=1 (xi − x̄)
∑n
ci Yi = Y −
2
i=1 (xi − x̄)
i=1
∑n
x̄ i=1 (xi − x̄)(Yi − Y )
∑n
=Y −
2
i=1 (xi − x̄)
= Y − B1 x̄
= B0 .
Inoltre procedendo in modo simile si dimostra anche la linearità di B1 :
∑n
n
∑
(xi − x̄)Yi
di Yi = ∑i=1
n
2
i=1 (xi − x̄)
i=1
∑n
=
i=1
∑n
Yi (xi − x̄) − Y i=1 (xi − x̄)
∑n
2
i=1 (xi − x̄)
∑n
=
(x − x̄)(Yi −
i=1
∑n i
2
i=1 (xi − x̄)
Y)
= B1 .
Primi elementi di inferenza statistica (ed. maggio 2012)
180
M. Di Marzio
24. INFERENZA SU MEDIE CONDIZIONATE
Un notevole risultato relativo agli stimatori dei minimi quadrati B0 e B1 è fornito dal seguente teorema di
Gauss–Markov: All’interno della classe degli stimatori lineari e corretti, gli stimatori dei minimi quadrati
sono quelli con varianza minima.
Inﬁne, se vale l’ipotesi di normalità B0 e B1 possono essere considerati stimatori di massima verosimiglianza,
e di conseguenza sono coerenti, asintoticamente normali e a varianza asinoticamente minima nella classe di
tutti gli stimatori. Evidentemente le proprietà degli stimatori di massima verosimiglianza sono migliori di
quelle dei minimi quadrati (riassunte nel teorema di Gauss–Markov).
24.3
Stime intervallari e test su β1
Sappiamo che la costruzione di stimatori intervallari e test statistici per β1 richiede la conoscenza di adatte
quantità pivotali.
Ora nei casi dove (X, Y ) è normale bivariata oppure semplicemente µY |X (x) = β0 + β1 x, siamo giunti allo
stimatore puntuale B1 . Di tale stimatore conosciamo il valore atteso. Se riusciamo ad ottenerne la varianza
e la pdf, allora abbiamo prodotto ulteriori informazioni per costruire una quantità pivotale. Iniziamo con la
varianza. A tale scopo, ricordando che si tratta di una varianza condizionata, assumiamo che quest’ultima
sia costante per tutte le xi . Questa ipotesi, molto sempliﬁcatrice, viene detta omoschedasticità. Si noti che
non è necessario assumere esplicitamente l’omoschedasticità se si assume che fXY è normale, infatti in questo
caso essa è già una caratteristica
del modello, come già osservato nella sezione 9.9.
∑n
Ricordando che B1 = i=1 di Yi , dove di = ∑n xi(x−x̄
2 , si ottiene
i −x̄)
i=1
[
Var[B1 ] = Var
n
∑
]
d i Yi = σ 2
i=1
=σ
2
n (
∑
i=1
n
∑
d2i
i=1
x − x̄
∑n i
2
i=1 (xi − x̄)
)2
∑n
(xi − x̄)2
= σ 2 ∑ni=1
{ i=1 (xi − x̄)2 }2
σ2
.
2
i=1 (xi − x̄)
= ∑n
Riguardo il calcolo della pdf dobbiamo introdurre l’ipotesi di normalità di fXY . Infatti in tal caso la pdf
marginale fY è anche normale (sez. 9.9). Ma B1 è una somma ponderata delle {Yi , i = 1, ..., n} che, a loro
volta, sono i.i.d.. Così B1 ha distribuzione normale (sez. 11.4). Così nel caso di normalità di (X, Y )
(
)
σ2
B1 ∼ N β1 ,
.
devx
Da qui sarà facile costruire quantità pivotali sia se σ 2 è nota, sia se non lo è. Si deve tuttavia osservare che
nella pratica quasi mai ricorre il caso di varianza nota.
◃ σ 2 nota Abbiamo la seguente quantità pivotale
B1 − β1
√
σ/ devx
che ha pdf normale standard.
√∑
◃ σ 2 non nota Stimiamo σ con Ṡ =
n
i=1 (mY |xi
− Yi )2
n−2
. Si ha la quantità pivotale
B1 − β1
√
Ṡ/ devx
che ha pdf t di Student con n − 2 gradi di libertà. Una formula di calcolo spesso conveniente è
∑n
∑n
2
(mY |xi − Yi )2 =
Yi2 − nY − B12 devx .
i=1
M. Di Marzio
i=1
181
Primi elementi di inferenza statistica (ed. maggio 2012)
24.4. Test di linearità
Sulla base di queste quantità pivotali possiamo inferire circa β1 .
⋄ Stima intervallare Dato un livello di conﬁdenza α, a seconda che la varianza sia nota oppure no,
abbiamo le seguenti due inversioni
◃ σ 2 nota
(
)
)
(
z α2 σ
z α2 σ
B1 − β1
α
α
√
√
√
P −z 2 <
< z 2 = P B1 −
< β1 < B1 +
= 1 − α.
σ/ devx
devx
devx
◃ σ 2 non nota
(
)
(
)
t α2 ,n−2 Ṡ
t α2 ,n−2 Ṡ
B1 − β1
< t α2 ,n−2 = P B1 − √
= 1 − α.
P −t α2 ,n−2 <
< β1 < B1 + √
√
devx
devx
Ṡ/ devx
⋄ Test statistici Siamo interessati a sapere se l’evidenza empirica sostiene oppure no l’ipotesi che β1
abbia un certo valore β10 (che va letta come ‘beta-uno-zero’). Così mettiamo alla prova i seguenti
sistemi di ipotesi
{
{
{
H0 : β1 = β10
H0 : β1 = β10
H0 : β1 = β10
H1 : β1 > β10
H1 : β1 < β10
H1 : β1 ̸= β10 .
Anche qui, preﬁssato il livello di signiﬁcatività α, abbiamo due casi a seconda che la varianza sia nota
o meno.
◃ σ 2 nota Sotto l’ipotesi nulla lo stimatore puntuale ha distribuzione normale con parametri β10 e
σ 2 /devx . Così la statistica test
B1 − β10
√
σ/ devx
ha distribuzione normale standard se è vera l’ipotesi nulla.
◃ σ 2 non nota Sotto l’ipotesi nulla si si ha la seguente statistica test
B1 − β10
√
Ṡ/ devx
che ha distribuzione t di Student con n − 2 gradi di libertà.
Le zone di riﬁuto dei test Z e T sono riportate nella tabella seguente a seconda di H1 :
H0
β1 = β10
24.4
Regioni di riﬁuto R
Z
T
H1
β1 > β10
{z : z > zα }
{t : t > tα,n−2 }
β1 < β10
{z : z < zα }
{t : t < tα,n−2 }
β1 ̸= β10
{z : |z| > z α2 }
{t : |t| > t α2 ,n−2 }
Test di linearità
Data una popolazione fXY ci chiediamo se il predittore ottimo sia lineare. Ovviamente se il predittore lineare
è quello ottimo, allora il suo rischio presso la densità fXY deve essere basso. Uno stimatore del rischio è Ṡ 2 .
Partendo da
n
n
∑
∑
(Yi − mY |xi + mY |xi − Y )2 ,
(Yi − Y )2 =
i=1
i=1
si ottiene facilmente che
n
∑
(Yi − Y )2 =
i=1
Primi elementi di inferenza statistica (ed. maggio 2012)
n
∑
(mY |xi − Yi )2 +
i=1
n
∑
(mY |xi − Y )2
i=1
182
M. Di Marzio
24. INFERENZA SU MEDIE CONDIZIONATE
cioè la devianza di Y , chiamata totale si scompone in devianza dell’errore o residua e devianza spiegata dalla
regressione. Il rapporto
∑n
2
i=1 (mY |xi − Y )
F = ∑
n
2
(m
−Y )
i=1
Y |xi
i
(n−2)
è chiaramente una misura empirica della bontà di accostamento e quindi del rischio. Infatti, poiché la
loro somma è ﬁssa e pari alla devianza totale, all’aumentare del numeratore il denominatore diminuisce e
viceversa. Se allora F è molto grande l’accostamento è buono, viceversa è molto scarso se F assume valori
inferiori all’unità. Si dimostra inoltre che F sotto l’ipotesi H0 : β1 = 0 (che signiﬁca assenza di linearità) ha
distribuzione F di Fisher con 1 e n − 2 gradi di libertà. Così il test F per la veriﬁca della linearità a livello
α si riferisce al sistema di ipotesi
{
H0 : β1 = 0
H1 : β1 ̸= 0 ,
e ha zona di riﬁuto pari a R = {f : f ≥ fα,1,n−2 }. Dove la soglia va calcolata per 1 e (n − 2) gradi di libertà.
Allora F è una statistica test per veriﬁcare la presenza di legame lineare tra Y da X. Se F assume un valore
elevato e quindi la statistica cade nella zona di riﬁuto, i dati smentiscono l’ipotesi nulla di indipendenza e
consideriamo valido il modello di regressione ipotizzato.
Si deve osservare che nel caso di una unica variabile esplicativa il test F equivale a un test T con ipotesi nulla
H0 : β1 = 0.
Esempio 24.4. Considerata la realizzazione del campione casuale utilizzata nell’ esempio 24.3 si vuole condurre un
test di linearità al livello α = 0.05. Il sistema di ipotesi da veriﬁcare è allora

H0 : β1 = 0
H1 : β1 ̸= 0 ,
e la statistica test da adottare è
∑3
(mY |xi − Y )2
.
F = ∑3 i=1
2
i=1 (mY |xi − Yi ) /1
Essendo f0.05,1,1 = 161.4, la regione di riﬁuto del test è
R = {f : f ≥ 161.4}.
I dati a disposizione possono riassumersi come segue
yi
mY |xi = 0.75 + 1.55xi
2
4
3.85
0
1
0.9
2
0.75
2.3
xi
e poiché ȳ = 2.3, risulta
n
∑
(mY |xi − ȳ)2 = (3.85 − 2.3)2 + (0.75 − 2.3)2 + (2.3 − 2.3)2 = 4.805,
i=1
e
n
∑
(mY |xi − yi )2 = (4 − 3.85)2 + (0.9 − 0.75)2 + (2 − 2.3)2 = 0.135,
i=1
così la realizzazione della statistica test è
f=
4.805
= 35.59.
0.135/1
Essendo 35.59 < 161.4, si riﬁuta l’ipotesi di non linearità (indipendenza lineare) e quindi di buon adattamento del
modello lineare ai dati osservati.
M. Di Marzio
183
Primi elementi di inferenza statistica (ed. maggio 2012)
25
Esercizi svolti
Esercizio 25.1. Data una v.c. doppia (X, Y ) con la seguente pdf condizionata:
per x ∈ [0, 21 ]

1


0 ≤ y ≤ 2x
fY |x (y) = 2x

0
altrimenti
mentre per x ∈ ( 12 , 1]
{
1
fY |x (y) =
e date le seguenti pdf marginali
fX (x) =
1≤y≤0
0
altrimenti,
 8


 3 x se 0 ≤ x ≤ 1/2


 4
3
se 1/2 ≤ x ≤ 1,
determinare:
a) la stima del predittore lineare ottimo di Y tramite X;
b) l’errore di predizione.
Soluzione a) Per determinare la stima del predittore lineare ottimo occorre stimare i parametri β0 e β1 che
compaiono nella sua espressione. Quindi, procediamo con il calcolare i valori attesi delle vv.cc. X ed Y
∫
∫
1
xfX (x)dx =
E[X] =
0
0
e
∫
E[Y ] =
∫
1
1
yfY (y)dy =
0
0
1/2
8
x xdx +
3
∫
1
x
1/2
81
1 1
11
dx = + =
32
9 2
18
(
)
∫ 1
∫ 1
4 2
2 2
4
4
2 2
y
− y dy =
ydy −
y dy = − = ,
3 3
3 9
9
0 3
0 3
e le varianze
Var[X] = E[X 2 ] − (E[X])2 =
31 121
37
−
=
;
72 324
648
Var[Y ] = E[Y 2 ] − (E[Y ])2 =
16
13
5
−
=
.
18 81
162
e
Primi elementi di inferenza statistica (ed. maggio 2012)
184
M. Di Marzio
25. ESERCIZI SVOLTI
Occorre ora calcolare la covarianza tra X e Y . Poiché la pdf congiunta è fXY (x, y) = fY |x (y)fX (x),
quest’ultima risulta essere pari a 34 per 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Allora abbiamo che
∫
E[XY ] =
=
=
=
=
∫ 1 ∫ 1
4
4
xy dydx +
xy dydx
3
3
0
0
1/2 0
∫ 1/2 ( 2 2x )
∫ 1 ( 2 1)
4
y
4
y
x
x
dx +
dx
3 0
2 0
3 1/2
2 0
(
(
1/2 )
1 )
2 x4
2 x2
4
+
3
4 0
3 2 1/2
(
)
2 1
2 1 1
+
−
3 16 3 2 8
1
7
1
+ =
.
24 4
24
1/2
∫
2x
La covarianza risulta allora
7
22
13
−
=
.
24 81
648
Cov[X, Y ] = E[XY ] − E[X]E[Y ] =
Si ottiene quindi
β1 =
Cov[XY ]
13
648
13
=
×
=
Var[X]
648
37
37
e
4 13 11
17
−
×
=
.
9 37 18
74
β0 = E[Y ] − β1 E[X] =
Così la stima del predittore lineare ottimo è
13
17
x+ .
37
74
mY |x =
b) L’errore di predizione è ricavato come segue
EQMP[µY |x ] = Var[Y | x]
(
)
(Cov[X, Y ])2
= Var[Y ] 1 −
Var[Y ]Var[X]
(
(
)2
)
13
162 648
13
1−
×
= 0.073.
=
162
648
13
37
Esercizio 25.2. L’uﬃcio vendite di una grande azienda concede dilazioni di pagamento ai clienti in base al
numero di ordini da essi mensilmente eﬀettuati. La direzione dell’azienda, per valutare la corretta gestione
della clientela da parte dell’uﬃcio, rileva il numero X di ordini eﬀettuati da ciascun cliente nell’ultimo mese
e la durata Y (giorni) delle dilazioni ad essi concesse. I dati sono riportati nella tabella seguente:
Y
(1, 3]
(3, 5]
X
(5, 7]
7
8
4
2
0
14
14
4
6
0
0
10
21
0
5
4
11
20
28
0
0
6
10
16
12
15
12
21
60
(7, 9]
a) Rappresentare i dati in tabella attraverso il diagramma di dispersione e tracciare la spezzata di regressione;
M. Di Marzio
185
Primi elementi di inferenza statistica (ed. maggio 2012)
b) determinare la stima del predittore lineare ottimo delle dilazioni tramite il numero degli ordini mensili
eﬀettuati;
c) qual è la durata della dilazione di pagamento che ci si aspetta l’azienda concederà ad un cliente che
eﬀettua 10 ordini al mese?
Soluzione a) Per la rappresentazione graﬁca dei dati è necessario determinare, preventivamente, il valore
centrale delle classi di modalità del carattere X. Si ottiene, pertanto:
X
Y
2
4
6
8
7
8
4
2
0
14
14
4
6
0
0
10
21
0
5
4
11
20
28
0
0
6
10
16
12
15
12
21
60
Le stime del predittore lineare ottimo mY |xi risultano
mY |xi
X
9.334
2
14.467
4
22.167
6
24.334
8
Il diagramma di dispersione dei dati e la spezzata di regressione sono rappresentanti nella ﬁgura 25.1.
30
25
20
15
10
5
0
0
2
4
6
8
Figura 25.1: Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo dell’esercizio
25.2.
b) Poiché x̄ = 5.4, ȳ = 18.434, devx = 314.4, e codxy = 803.556, le stime dei parametri β1 e β0 del predittore
lineare ottimo risultano rispettivamente:
803.556
codxy
=
= 2.56,
devx
314.4
e quindi la stima del predittore lineare ottimo è
b1 =
b0 = ȳ − b1 x̄ = 18.434 − 2.56 × 5.4 = 4.61,
mY |x = 4.61 + 2.56x.
Sempre nella 25.1 si può osservare il graﬁco del predittore lineare ottimo.
c) Quindi, se un cliente eﬀettua x = 10 ordini mensili, si può prevedere che gli verrà concessa una dilazione
della durata di
mY |10 = 4.61 + 2.56 × 10 = 30.21 ≃ 30 giorni.
Primi elementi di inferenza statistica (ed. maggio 2012)
186
M. Di Marzio
25. ESERCIZI SVOLTI
Esercizio 25.3. Una multinazionale, al ﬁne di valutare l’eﬃcienza nella gestione delle risorse umane impiegate nella produzione, rileva il numero X di addetti ai macchinari nel settore produzione e la quantità
prodotta Y da ciascuna macchina per completare il ciclo produttivo. I dati raccolti sono riportati nella tabella
seguente:
X
Y
6
7
8
9
38
8
5
3
0
16
44
3
4
0
0
7
51
3
5
3
4
15
57
1
1
2
3
7
60
0
0
2
3
5
15
15
10
10
50
a) Rappresentare i dati in tabella attraverso il diagramma di dispersione e stimare l’andamento delle medie
del carattere Y condizionate alle modalità di X attraverso la spezzata di regressione;
b) stimare il predittore lineare ottimo della quantità prodotta tramite il numero di addetti ai macchinari;
c) qual è la quantità che un macchinario produrrà se il numero di addetti è pari a 10?
Soluzione a) Per la costruzione della spezzata di regressione occorre determinare le medie condizionate
mY |xi :
mY |xi
X
43.067
6
45.200
7
50.100
8
55.500
9
Diagramma di dispersione dei dati e la spezzata di regressione sono riportati nella ﬁgura 25.2.
65
60
55
50
45
40
35
30
5
6
7
8
9
10
Figura 25.2: Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo.
b) Poiché x̄ = 7.3, ȳ = 47.6, devx = 60.5 e codxy = 251, le stime dei parametri del predittore lineare ottimo
sono rispettivamente:
b1 =
codxy
251
=
= 4.15;
devx
60.5
b0 = ȳ − b1 x̄ = 47.6 − 4.15 × 7.3 = 17.3.
Così abbiamo
mY |x = 17.3 + 4.15x.
M. Di Marzio
187
Primi elementi di inferenza statistica (ed. maggio 2012)
Sempre nella ﬁgura 25.2 è riportato il graﬁco del predittore lineare ottimo.
c) Quindi, se il numero di addetti a un macchinario è x = 10, la quantità che si prevede sarà prodotta dal
macchinario è
mY |10 = 17.3 + 4.15 × 10 = 58.8.
Esercizio 25.4. Un centro di ricerca, nell’ambito di un’indagine sui livelli dei salari degli operai metalmeccanici, ha intervistato 20 operai di una grande azienda automobilistica, rilevando gli anni di lavoro X ed il
salario Y annualmente percepito (migliaia di euro). L’elaborazione dei dati raccolti ha dato luogo ai seguenti
risultati:
x̄ = 10.5;
ȳ = 20;
codxy = 340.6;
devx = 234.4.
Stimare il predittore lineare ottimo del salario percepito dagli operai tramite gli anni di lavoro X.
Soluzione Le stime dei parametri del predittore lineare ottimo sono rispettivamente
b1 =
codxy
340.6
= 1.45;
=
devx
234.4
b0 = ȳ − b1 x̄ = 20 − 1.45 × 10.5 = 4.775.
Pertanto, la stima del predittore ottimo lineare risulta essere
mY |x = 4.775 + 1.45x;
si prevede quindi che una variazione di un anno nell’anzianità lavorativa degli operai determini un incremento
in media di 1450 euro nel salario annualmente percepito.
Esercizio 25.5. Nell’ambito di un’indagine sulla presenza delle aziende italiane nei mercati esteri, sono
stati rilevati, su un campione di 10 aziende, il numero X di clienti esteri e l’ammontare Y delle esportazioni
(migliaia di euro). L’indagine ha prodotto i risultati seguenti:
X
18
26
28
34
36
42
48
52
54
60
Y
54
64
54
62
68
70
76
66
76
74
a) Stimare il predittore lineare ottimo dell’ammontare delle esportazione tramite il numero di clienti esteri.
b) Assumendo che fY |xi = N (β0 + β1 xi , 16), costruire l’intervallo di conﬁdenza per il coeﬃciente di
regressione dell’ammontare delle esportazione sul numero di clienti esteri al livello 1 − α = 90%.
Soluzione a) Poiché x̄ = 39.8, ȳ = 66.4, devx = 1683.6 e codxy = 840.8, le stime dei parametri del predittore
lineare ottimo dell’ammontare delle esportazioni tramite il numero dei clienti esteri risultano rispettivamente:
b1 =
codxy
840.8
=
= 0.4994
devx
1638.6
e
b0 = ȳ − b1 x̄ = 66.4 − 0.4994 × 39.8 = 46.52.
Pertanto, la stima del predittore lineare ottimo delle esportazioni tramite il numero dei clienti esteri è
mY |x = 46.52 + 0.4994x.
b) L’ assunzione di normalità distributiva delle Yi equivale ad assumere che
(
)
σ2
B1 ∼ N β1 ,
.
devx
Essendo nota la varianza condizionata σ 2 , la quantità pivotale cui ricorrere per la stima intervallare del
coeﬃciente di regressione di Y su X è data da
B1 − β1
√
∼ N (0, 1) .
σ/ devx
Pertanto, l’intervallo di conﬁdenza per il coeﬃciente β1 , al livello 1 − α = 90% risulta:
)
(
(
)
√
√
B1 − β1
√
P −zα/2 <
< zα/2 = P B1 − zα/2 σ/ devx < β1 < B1 + zα/2 σ/ devx = 0.90.
σ/ devx
essendo 1 − α = 0.90 e, dunque, α = 0.1, dalle tavole della normale standardizzata si ricavano i valori delle
soglie
±zα/2 = ±z0.05 = ±1.64.
Primi elementi di inferenza statistica (ed. maggio 2012)
188
M. Di Marzio
25. ESERCIZI SVOLTI
Essendo
√
√
devx =
10
∑
2
(xi − x̄) = 41.03, sostituendo allo stimatore B1 la stima b1 = 0.4994 ottenuta
i=1
considerando le realizzazioni yi in precedenza osservate sul campione di aziende, l’intervallo di conﬁdenza al
livello del 90% per il coeﬃciente di regressione di Y su X risulta:
(
)
4
4
iβ1 = 0.4994 − 1.64
, 0.4994 + 1.64
= (0.3395, 0.6593) .
41.03
41.03
Esercizio 25.6. La società capogruppo di un gruppo aziendale, al ﬁne di veriﬁcare la corretta applicazione di
una strategia di rinnovamento della struttura tecnico-produttiva dettata alle sue controllate, ha rilevato per 5
di esse il numero X di nuovi macchinari acquistati e l’incremento Y della produzione realizzato nell’ultimo
mese:
X
1
2
3
5
10
Y
102
192
270
410
760
a) Stimare il predittore lineare ottimo dell’incremento della quantità prodotta tramite il numero dei macchinari introdotti.
b) Posto fY |xi = N (β0 + β1 xi , σ 2 ), costruire l’intervallo di conﬁdenza per il coeﬃciente di regressione della
quantità prodotta sul numero di macchinari introdotti dalle aziende al livello 1 − α = 95%.
Soluzione a) Poiché x̄ = 4.2, ȳ = 346.8, devx = 50.8 e codxy = 3663.2, le stime dei parametri del predittore
lineare ottimo dell’incremento della quantità prodotta risultano, rispettivamente,
b1 =
codxy
3663.2
=
= 72.11
devx
50.8
e
b0 = ȳ − b1 x̄ = 346.8 − 72.11 × 4.2 = 43.937.
Pertanto, la stima del predittore lineare ottimo dell’ incremento della quantità prodotta tramite il numero
dei macchinari introdotti è
mY |x = 43.937 + 72.11x.
b) Accogliendo l’ipotesi di normalità distributiva delle v.c. Yi lo stimatore B1 avrà distribuzione:
(
)
σ2
B1 ∼ N β1 ,
devx
e la quantità pivotale cui ricorrere per la costruzione dell’ intervallo di conﬁdenza del coeﬃciente di regressione,
essendo incognito σ 2 , risulta:
B1 − β1
,
√
Ṡ/ devx
che ha approssimativamente distribuzione t di Student con n − 2 gradi di libertà, con
√∑
n
2
i=1 (mY |xi − Yi )
Ṡ =
n−2
lo stimatore dell s.q.m. condizionato.
Pertanto, l’intervallo di conﬁdenza per il coeﬃciente β1 , al livello 1 − α = 95% risulta:
(
)
)
(
√
√
B1 − β1
P −tα/2,n−2 <
< tα/2,n−2 = P B1 − tα/2,n−2 Ṡ/ devx < β1 < B1 + tα/2,n−2 Ṡ/ devx = 0.95.
√
Ṡ/ devx
Sulle tavole della t di Student, in corrispondenza del valore α/2 = 0.025 e dei gradi di libertà n−2 = 5−2 = 3,
si individuano i valori ±tα/2,n−2 = ±t0.025,3 = ±3.182.
Essendo
√∑
√
n
2
364.3133
i=1 (mY |xi − yi )
ṡ =
=
= 11.02
n−2
5−2
e
v
u n
u∑
2
devx = t
(xi − x̄) = 7.127,
i=1
sostituendo allo stimatore B1 la stima b1 = 72.11, l’intervallo di conﬁdenza al livello del 95% per il coeﬃciente
di regressione di Y su X risulta:
)
(
11.02
11.02
, 72.11 + 3.182
= (67.19, 77.03) .
iβ1 = 72.11 − 3.182
7.127
7.127
M. Di Marzio
189
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 25.7. Un’azienda, al ﬁne di valutare l’entità delle risorse monetarie da destinare alla pubblicità
dei suoi prodotti, ha riconsiderato l’ammontare X (migliaia di euro) degli investimenti eﬀettuati in campagne
pubblicitarie e l’incremento Y (migliaia di euro) di fatturato realizzato con riferimento agli ultimi 5 anni di
attività:
X
2
4
6
8
10
Y
18
26
16
34
36
Sulla base delle osservazioni compiute, l’azienda ritiene che l’incremento di fatturato potenzialmente realizzabile sia legato all’entità degli investimenti eﬀettuati in campagne pubblicitarie da una relazione di dipendenza
lineare.
a) Determinare la stima del coeﬃciente di regressione dell’incremento di fatturato sull’entità degli investimenti in pubblicità.
b) Assumendo che fY |xi = N (β0 + β1 xi , 36), veriﬁcare l’ipotesi H0 : β1 = 4 contro l’ipotesi alternativa
bidirezionale H1 : β1 ̸= 4, al livello di signiﬁcatività α = 0.01.
Soluzione a) Essendo devx = 40 e codxy = 88, la stima del coeﬃciente di regressione dell’incremento di
fatturato sull’ammontare degli investimenti in campagne pubblicitarie risulta:
b1 =
88
codxy
=
= 2.2.
devx
40
b) Essendo nota la devianza condizionata σ 2 , la statistica test da impiegare per saggiare l’ipotesi nulla è:
B1 − β10
√
σ/ devx
che ha distribuzione N (0, 1).
√
n
√
√
√
∑
2
Essendo σ = 36 = 6 e devx =
(xi − x̄) = 40 = 6.32, la realizzazione campionaria della statistica
i=1
test sotto l’ipotesi nulla risulta:
z=
2.2 − 4
= −1.89.
6/6.32
Dalle tavole della normale standard si ricava zα/2 = z0.005 = 2.57 e, poiché |z| < zα/2 si accetta, al livello
di signiﬁcatività prescelto, l’ipotesi nulla in base alla quale l’incremento di 1000 euro degli investimenti in
pubblicità determina in media un incremento di 4000 euro nell’ammontare di fatturato annuo.
Esercizio 25.8. L’uﬃcio vendite di una grande azienda ha rilevato, con riferimento ad un campione di
ordini di acquisto, il valore X (migliaia di euro) delle forniture richieste ed il ritardo Y (giorni) nel relativo
pagamento da parte dei clienti.
X
9
6
8
5
Y
5
3
5
3
L’uﬃcio vendite ritiene che i ritardi nel pagamento degli ordini di acquisto sia legato al loro ammontare da
una relazione di dipendenza lineare.
a) Determinare la stima del coeﬃciente di regressione del ritardo nei pagamenti da parte dei clienti
sull’ammontare degli ordini di acquisto.
b) Assumendo che fY |xi = N (β0 + β1 xi , σ 2 ), veriﬁcare l’ipotesi H0 : β1 = 0.5 contro l’ipotesi alternativa
unidirezionale H1 : β1 > 0.5, al livello di signiﬁcatività α = 0.2.
Soluzione a) Poiché devx = 10 e codxy = 6, la stima dei minimi quadrati del coeﬃciente di regressione che
descrive la dipendenza lineare tra il ritardo nei pagamenti da parte dei clienti e l’ammontare degli ordini di
acquisto risulta:
6
codxy
=
= 0.6.
b1 =
devx
10
b) Essendo incognito σ 2 la statistica test da adottare per saggiare l’ipotesi nulla è:
β1∗ − β10
√
Ṡ/ devx
Primi elementi di inferenza statistica (ed. maggio 2012)
190
M. Di Marzio
25. ESERCIZI SVOLTI
che si distribuisce come una t di Student con n − 2 = 4 − 2 = 2 gradi di libertà.
Essendo
v
u n
√
u∑
√
2
devx = t
(xi − x̄) = 10 = 3.16
i=1
√∑
e
n
i=1 (mY |xi
ṡ =
− Yi )2
n−2
√
=
0.4
= 0.447
2
la realizzazione campionaria della statistica test sotto l’ipotesi nulla risulta:
0.6 − 0.5
= 0.7.
0.447/3.16
t=
Dalle tavole della t di Student si ricava il valore soglia della regione di riﬁuto tα,n−2 = t0.2,2 = 1.061, e poiché
risulta t < 1.061, si accetta l’ipotesi nulla al livello di signiﬁcatività prescelto.
Esercizio 25.9. Una multinazionale, al ﬁne di valutare le politiche di gestione del personale adottate dalle
sue ﬁliali, ha rilevato per 5 di esse l’ammontare X (migliaia di euro) degli investimenti in nuove tecnologie
ed il numero Y di dipendenti licenziati con riferimento all’ultimo anno. I risultati ottenuti sono riportati di
seguito:
X
10
15
20
25
30
Y
2
4
3
6
5
a) Stimare il predittore lineare ottimo del numero dei dipendenti licenziati tramite l’ammontare degli
investimenti in nuove tecnologie.
b) Veriﬁcare a livello 1 − α = 0.95 l’ipotesi di indipendenza lineare del numero dei licenziamenti dall’entità
degli investimenti in nuove tecnologie.
Soluzione a) Poiché x̄ = 20, ȳ = 4, devx = 250 e codxy = 40, le stime dei parametri del predittore lineare
ottimo del numero dei licenziamenti risultano rispettivamente:
b1 =
codxy
40
=
= 0.16
devx
250
b0 = ȳ − b1 x̄ = 4 − 0.16 × 20 = 0.8.
e
Pertanto, la stima della funzione di regressione del numero dei licenziamenti sull’ammontare degli investimenti
in nuove tecnologie è
mY |x = 0.8 + 0.16x,
ottenendo:
xi
10
15
20
25
30
yi
2
4
3
6
5
mY |xi
2.4
3.2
4
4.8
5.6
b) L’ipotesi da sottoporre a veriﬁca è H0 : β1 = 0. La statistica test cui ricorrere per la veriﬁca di ipotesi è:
∑n
(mY |xi − ȳ)2
F = ∑n i=1
2
i=1 (mY |xi − yi ) /(n − 2)
che sotto l’ipotesi di indipendenza formulata ha distribuzione F di Fisher con 1 e n − 2 = 5 − 2 = 3 gradi di
libertà.
Quindi la statistica test, in corrispondenza del campione osservato, risulta:
f=
6.4/1
= 5.333.
3.6/3
Dalle tavole della F di Fisher, in corrispondenza di 1 e 3 gradi di libertà e del livello α = 0.05, si ricava il valore
della soglia della zona di riﬁuto f0.05;1;3 = 10.13. Poiché f < f0.05;1;3 , si accetta l’ipotesi di indipendenza
lineare del numero di licenziamenti dall’ammontare degli investimenti in nuove tecnologie.
M. Di Marzio
191
Primi elementi di inferenza statistica (ed. maggio 2012)
Esercizio 25.10. Dimostrare che lo stimatore dei minimi quadrati B0 è il più eﬃciente nella classe degli
stimatori lineari e corretti di β 0 .
Soluzione Per dimostrare che B0 è il più eﬃciente nella classe degli stimatori lineari non distorti occorre
dimostrare che Var[B0 ] è uniformemente minima rispetto alla varianza di ogni stimatore lineare non distorto
di β0 . Chiaramente, poichè le Yi sono vv.cc. indipendenti e Var[Yi ] = σ 2 per oni i ∈ {1, 2, ..., n} risulta
[∑
]
n
n
∑
2
Var[B0 ] = Var
ci Yi = σ
c2i .
Si consideri ora un generico stimatore T =
i=1
∑n
i=1
ui Yi tale che E[T ] = β0 . Siccome
]
ui Yi
i=1
E[T ] = E
[∑
n
i=1
n
∑
=
n
∑
ui E[Yi ] =
i=1
= β0
n
∑
i=1
n
∑
u i + β1
i=1
allora dovrà risultare
n
∑
Ricordando che B0 =
n
∑
e
ui = 1
ui xi = 0.
i=1
[∑
]
n
n
∑
2
Var[T ] = Var
ui Yi = σ
u2 .
i=1
∑n
i=1 ci Yi ,
n
∑
i=1
i=1
e posto
per ogni i ∈ {1, 2, ..., n},
ui = ci + ∆i
dovrà aversi
ui xi ,
i=1
i=1
La varianza di T è invece
ui (β0 + β1 xi )
ci +
n
∑
∆i = 1
n
∑
e
i=1
ci xi +
i=1
n
∑
∆i xi = 0,
i=1
ma poiché, essendo B0 corretto, si ha
n
∑
ci = 1
e
i=1
dovrà risultare
n
∑
n
∑
ci xi = 0
i=1
∆i = 0
n
∑
e
i=1
∆i xi = 0.
i=1
Si ha allora
n
∑
u2i =
i=1
n
∑
(ci + ∆i )2
i=1
=
n
∑
c2i
+
i=1
e essendo
n
∑
i=1
∆2i
+2
n
∑
ci ∆i ,
i=1
)
x̄(xi − x̄)
2
ci ∆ i =
− ∑n
∆i
2
n
i=1 (xi − x̄)
i=1
i=1
∑n
n
x̄
(xi − x̄)∆i
n∑
=
∆i − ∑ni=1
2
n i=1
i=1 (xi − x̄)
∑n
∑n
xi ∆i − x̄ i=1 ∆i
= 0 − x̄ i=1∑n
2
i=1 (xi − x̄)
0−0
= −x̄ ∑n
= 0,
2
i=1 (xi − x̄)
n
∑
Primi elementi di inferenza statistica (ed. maggio 2012)
n (
∑
1
192
M. Di Marzio
25. ESERCIZI SVOLTI
risulta
n
∑
u2i
=
i=1
e quindi
c2i ≤
i=1
∑n
c2i
+
i=1
n
∑
Ricordando allora che Var[T ] = σ 2
n
∑
n
∑
∆2i
i=1
n
∑
i=1
2
2
i=1 ui e Var[B0 ] = σ
u2i .
∑n
2
i=1 ci ,
si conclude che
Var[B0 ] ≤ Var[T ],
e quindi B0 ha varianza minima nella classe degli stimatori lineari corretti di β0 .
Esercizio 25.11. Determinare le varianze degli stimatori dei minimi quadrati B0 e B1 dei parametri β0 e
β1 del predittore lineare ottimo.
Soluzione Poiché B0 =
n
∑
ci Yi e B1 =
i=1
ci =
n
∑
di Yi , dove
i=1
x̄(xi − x̄)
1
− ∑n
2
n
i=1 (xi − x̄)
xi − x̄
,
2
i=1 (xi − x̄)
di = ∑n
e
ed essendo Var[Yi ] = σ 2 , si ha
[∑
]
n
n
∑
Var[B0 ] = Var
ci Yi = σ 2
c2i
i=1
=σ
2
i=1
n (
∑
1
i=1
x̄(x − x̄)
− ∑n
2
n
i=1 (xi − x̄)
)2
)
n (
∑
1
x̄2 (x − x̄)2
2x̄(x − x̄)
2
=σ
+ ∑n
− ∑n
4
n2
n i=1 (xi − x̄)2
i=1 (xi − x̄)
i=1
∑n
∑
(
)
n
2x̄ i=1 (x − x̄)
x̄2 i=1 (xi − x̄)2
n
2
=σ
− ∑n
+ ∑n
4
n2
n i=1 (xi − x̄)2
i=1 (xi − x̄)
(
)
2
1
x̄
= σ2
+ ∑n
2
n
i=1 (xi − x̄)
)
( ∑n
(x − x̄)2 + nx̄2
i=1
∑ni
= σ2
(xi − x̄)2
n
∑n
( ∑n i=1
)
2
2
− 2x̄ i=1 xi + nx̄2
i=1 xi + nx̄
∑n
= σ2
n i=1 (xi − x̄)2
∑n
)
( ∑n
2
+ 2nx̄2 − 2x̄ i=1 xi
2
i=1 xi ∑
=σ
n
n i=1 (xi − x̄)2
∑n
( ∑n
)
2
+ 2x̄(nx̄ − i=1 xi )
2
i=1 xi ∑
=σ
n
n i=1 (xi − x̄)2
∑n
x2
= σ 2 ∑n i=1 i 2
n i=1 (xi − x̄)
e
[∑
]
n
n
∑
Var[B1 ] = Var
di Yi = σ 2
d2i
i=1
=σ
2
n (
∑
i=1
xi − x̄
2
i=1 (xi − x̄)
)2
∑n
i=1
∑n
(xi − x̄)2
= σ 2 ∑i=1
n
4
i=1 (xi − x̄)
σ2
.
2
i=1 (xi − x̄)
= ∑n
M. Di Marzio
193
Primi elementi di inferenza statistica (ed. maggio 2012)
26
Aﬃdabilità
Indice
26.1
26.2
26.3
26.4
26.5
26.6
26.7
26.8
26.9
26.1
Deﬁnizioni . . . . . . . . . . . . . . . . . . . . . . . . . . .
Andamenti tipici del tasso di guasto . . . . . . . . . . .
Tasso di guasto di alcune variabili casuali continue . .
Stima della durata media . . . . . . . . . . . . . . . . . .
Sistemi complessi . . . . . . . . . . . . . . . . . . . . . .
Sistemi in serie . . . . . . . . . . . . . . . . . . . . . . . .
Sistemi in parallelo . . . . . . . . . . . . . . . . . . . . .
Sistemi in serie con parti positivamente correlate . . .
Sistemi in parallelo con parti positivamente correlate .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
194
195
196
198
200
200
201
201
202
Deﬁnizioni
L’aﬃdabilità di un prodotto si deﬁnisce come l’attitudine dello stesso a svolgere una certa funzione sotto
preﬁssate condizioni operative, e per un dato periodo di tempo. Obiettivo primario della teoria dell’aﬃdabilità
è lo studio della durata di funzionamento.
Dal punto di vista statistico la durata di funzionamento – cioè il tempo di attesa di un guasto – può essere
concepito come la realizzazione di una variabile casuale T continua e non negativa. La pdf di T , fT , è chiamata
funzione di densità di guasto. Inoltre la funzione di ripartizione di T è chiamata funzione di inaﬃdabilità,
infatti FT (t) = P(T ≤ t) esprime la probabilità di durata inferiore o uguale a t. Per converso la (funzione
di) aﬃdabilità è deﬁnita come
R(t) = 1 − FT (t),
essa fornisce la probabilità di sopravvivere al tempo t.
Consideriamo il caso di funzionamento senza guasti ﬁno al tempo t, vogliamo conoscere la probabilità che
il guasto avvenga entro un brevissimo intervallo di tempo (t, t + dt). Chiaramente stiamo cercando una
probabilità condizionata che può esprimersi come:
P(T ∈ (t, t + dt) ∩ T > t)
P(T > t)
P(T ∈ (t, t + dt))
=
1 − FT (t)
fT (t)dt
=
1 − FT (t)
= λ(t)dt.
P(T ∈ (t, t + dt)|T > t) =
La funzione di densità condizionata
λ (t) =
fT (t)
1 − FT (t)
è chiamata tasso (istantaneo) di guasto, ed esprime l’attitudine al guasto al tempo t a condizione che
ﬁno ad allora non se ne sia veriﬁcato alcuno. Ciò a diﬀerenza di fT (t), che è proporzionale alla probabilità di
guasto in t indipendentemente da quanto avvenuto in precedenza.
Primi elementi di inferenza statistica (ed. maggio 2012)
194
M. Di Marzio
26. AFFIDABILITÀ
Ricaviamo adesso una relazione importante per cui a partire da λ(t) si ottiene FT (t). Per deﬁnizione
fT (s)
1 − FT (s)
F′T (s)
=
1 − FT (s)
d
= − log(1 − FT (s)).
ds
λ (s) =
Integrando entrambi i membri tra 0 e t, si ottiene
∫ t
λ(s)ds = − log(1 − FT (t)) + log(1 − FT (0))
0
= − log(1 − FT (t))
infatti log(1 − FT (0)) = 0 poché la durata è descritta da una v.c. positiva per cui FT (0) = 0. Moltiplicando
per −1 e risolvendo rispetto a 1 − FT (t) si ha
{ ∫ t
}
exp −
λ(s)ds = 1 − FT (t).
0
Così abbiamo che
{ ∫ t
}
R(t) = exp −
λ(s)ds
{ ∫ t
}
FT (t) = 1 − exp −
λ(s)ds .
e
0
0
Quindi se conosciamo il tasso di guasto possiamo risalire alla relativa funzione di ripartizione.
Inﬁne un’altra grandezza molto importante è la durata media di funzionamento deﬁnita come il valore
atteso della funzione di densità di guasto
∫ +∞
E[T ] =
t fT (t)dt.
0
Nell’ambito della teoria dell’aﬃdabilità l’inferenza si basa su un campione casuale reperito da una popolazione
di oggetti le cui durate sono considerabili vv.cc. i.i.d.. La distribuzione comune delle durate di tutti gli
oggetti si suppone nota a meno di un parametro θ. L’obiettivo è stimare θ, infatti questo renderà possibile
approssimare importanti caratteristiche incognite di T come λ(t) e E[T ].
26.2
Andamenti tipici del tasso di guasto
Il tasso di guasto è uno strumento molto adatto per valutare un oggetto lungo l’intero periodo di funzionamento. Spesso vengono utilizzate rappresentazioni graﬁche del tasso di guasto poiché oﬀrono una visione
semplice e intuitiva del comportamento del prodotto. Infatti grazie a queste è possibile stabilire, in modo
visivo, se il prodotto invecchia prematuramente, se ha alta probabilità di guasto all’inizio della propria vita
utile, ecc.. Una tipica curva tasso di guasto per componenti elettronici (che hanno un periodo di funzionamento in assenza di usura) è rappresentata nella ﬁgura 26.1, dove si può osservare che durante tutta la
Figura 26.1: Tipica funzione tasso di guasto per componenti elettronici.
vita del prodotto esiste una probabilità costante di guasto dovuta a fattori casuali esterni. Inoltre nella
M. Di Marzio
195
Primi elementi di inferenza statistica (ed. maggio 2012)
26.3. Tasso di guasto di alcune variabili casuali continue
fase iniziale si aggiunge la probabilità di guasto prematuro dovuta a difetti di produzione, chiaramente tale
probabilità decresce col tempo ﬁno ad annullarsi dopo poco. Nella fase centrale (o di maturità) si veriﬁca
il funzionamento in assenza di difetti produttivi e nel pieno dell’eﬃcienza: il guasto è solo dovuto a fattori
casuali esterni. Inﬁne nella fase ﬁnale, quando il pezzo comincia ad invecchiare, al danneggiamento casuale
si aggiunge una probabilità di guasto crescente perché l’usura aumenta al passare del tempo.
Rispetto ai componenti elettronici, la curva del tasso di guasto per componenti meccanici può essere diversa,
la ﬁgura 26.2 ne riporta un esempio tipico. La seconda fase ha una durata molto minore, e la fase di usura
inizia presto ma determina una pendenza meno accentuata, infatti per il componente meccanico l’usura
insorge molto presto ma non porta troppo velocemente all’ineﬃcienza.
Figura 26.2: Tipica funzione tasso di guasto per componenti meccanici.
26.3
Tasso di guasto di alcune variabili casuali continue
Abbiamo appreso che la durata di vita T è una v.c. continua e non negativa. Così ogni v.c. continua la
cui funzione di densità fornisce probabilità non nulle solo per valori positivi, può essere usata come modello
teorico della durata di vita. Di conseguenza per ognuna di tali densità si possono ricavare funzione di tasso
di guasto e durata media. Di seguito studiamo le vv.cc. normale, uniforme e esponenziale come modelli di
durata.
⋄ Se T ∼ N (µ, σ 2 ), allora T può assumere anche valori negativi: questo comporta che una probabilità
di guasto positiva risulta deﬁnita anche per tempi negativi. Così non tutte le possibili vv.cc. normali
costituiscono un modello ammissibile, ma solo quelle che hanno una media suﬃcientemente più grande
della varianza di modo che la quasi totalità della densità risulti distribuita sul semiasse positivo dei
reali. La funzione di tasso di guasto associata alla densità normale è così deﬁnita
{
}
√
(t − µ)2
(σ 2π)−1 exp −
fT (t)
2σ 2
λ(t) =
=
.
1 − FT (t)
1 − Φ(t)
In quanto sempre crescente, il tasso di guasto della normale può essere utilizzato se il guasto è dovuto
esclusivamente a fenomeni di usura. Nella ﬁgura 26.3 è rappresentata la funzione tasso di guasto per
1
σ=1
0.8
λ(t)
0.6
0.4
0.2
σ = 1.5
σ =0.5
0
t
µ
Figura 26.3: Funzioni tasso di guasto per la densità normale con σ = 0.5, 1, 1.5.
la densità normale al variare dello s.q.m.. Se lo s.q.m. è molto basso, ﬁno a poco prima della media il
Primi elementi di inferenza statistica (ed. maggio 2012)
196
M. Di Marzio
26. AFFIDABILITÀ
tasso di guasto è quasi piatto poiché la probabilità di rottura ﬁno a quel punto è molto ridotta, mentre
in corrispondenza di un suo intorno aumenta drasticamente. Se invece lo s.q.m. è alto i tempi di rottura
non sono concentrati e si possono veriﬁcare anche molto prima o molto dopo la media. Questo genera
una funzione più o meno lineare. In deﬁnitiva, la forma complessiva della funzione descrive una curva
tanto meno concava quanto più lo s.q.m. è basso.
⋄ Se T ∼ E(θ), la corrispondente funzione tasso di guasto è:
λ(t) =
fT (t)
θe−θt
=
= θ.
1 − FT (t)
1 − (1 − e−θt )
Nella ﬁgura 26.4 è rappresentata la funzione tasso di guasto per la densità esponenziale al variare del
λ(t)
2
θ=1.5
1.5
θ=1
1
θ=0.5
0.5
0
t
Figura 26.4: Funzioni tasso di guasto per la densità esponenziale con θ = 0.5, 1, 1.5.
parametro θ. Come si vede, essa è costante, così rappresenta perfettamente una fase di vita del prodotto
dove solo i danneggiamenti casuali hanno inﬂuenza sulla durata (spesso si tratta della fase centrale).
Certamente un tasso di guasto costante è un modo alternativo di deﬁnire l’assenza di memoria della
pdf esponenziale. L’ampio uso pratico della pdf esponenziale è teoricamente giustiﬁcato dal teorema di
Drenick, che in aﬃdabilità è l’analogo del teorema centrale del limite. Esso stabilisce che per un sistema
costituito da numerosi oggetti le cui curve di aﬃdabilità sono diverse, all’aumentare del numero dei
componenti il tasso di guasto di lungo periodo dell’intero sistema tende ad essere costante nel tempo,
per cui la durata del sistema è rappresentabile da una distribuzione esponenziale.
⋄ Se T ∼ U(a, b), la funzione di tasso di guasto corrispondente è:
λ(t) =
fT (t)
1/(b − a)
1
=
=
.
1 − FT (t)
1 − (t − a)/(b − a)
b−t
Nella ﬁgura 26.5 è rappresentata la funzione tasso di guasto per la densità U(0, b) al variare di b. Nel
λ(t)
120
100
80
b=3
b=2
b=1
60
40
20
0
−20
0
0.5
1
1.5
2
2.5
3
t 3.5
Figura 26.5: Funzioni tasso di guasto per la densità uniforme con b = 1, 2, 3.
caso della uniforme il tasso di guasto presenta un asintoto verticale in corrispondenza dell’estremo
superiore del supporto; questo perché se la durata è uniforme con parametri a e b, e se ﬁno a prima di b
l’oggetto non si è ancora guastato, in b si deve per forza guastare. Così viene modellata la circostanza
insolita di avere una durata massima nota a priori. Per via della sua forma, questo modello di tasso di
guasto detiene scarsa rilevanza pratica.
M. Di Marzio
197
Primi elementi di inferenza statistica (ed. maggio 2012)
26.4. Stima della durata media
26.4
Stima della durata media
Consideriamo una popolazione di oggetti che hanno durate descritte da vv.cc. i.i.d.. Ipotizziamo che le
conoscenze a priori permettano di speciﬁcare una data famiglia parametrica di pdf per la v.c. durata. In particolare una speciﬁcazione spesso ricorrente riguarda la famiglia esponenziale {θe−θt , θ > 0, t ≥ 0}. L’obiettivo
è stimare il parametro θ e di conseguenza la durata media 1/θ. Esistono diversi metodi di campionamento,
in corrispondenza di ciascuno dei quali è deﬁnito uno stimatore di massima verosimiglianza di θ.
⋄ Campionamento con prove simultanee La realizzazione campionaria si ottiene mettendo a funzionare n oggetti simultaneamente, registrando i tempi di durata ad ogni guasto, e interrompendo
l’esperimento quando si siano guastati r oggetti. Le durate ottenute si dispongono in ordine non decrescente, di conseguenza in questo caso l’i-esimo oggetto del campione è quello che si guasta al tempo ti ,
che a sua voltà è l’i-esimo tempo più breve. Otteniamo ora uno stimatore della durata media col metodo della massima verosimiglianza. La funzione di verosimiglianza è la probabilità della realizzazione
campionaria intesa come funzione del parametro, e quindi, in questo caso, il prodotto dei seguenti due
fattori
∏r
1) La densità associata a r oggetti che abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr , cioè j=1 θe−θtj ,
2) La probabilità che i restanti n − r durino più di tr cioè (1 − FT (tr ))n−r = (e−θtr )n−r .
In deﬁnitiva si ha:
−θtr n−r
L(θ; t1 , t2 , ..., tr ) = (e
)
r
∏
j=1
θe−θtj
∑r
= θr e−(n−r)θtr e−θ j=1 tj
 

r


∑
= θr exp −θ 
tj + (n − r)tr  ;


j=1
per cui
L(θ; t1 , t2 , ..., tr ) = r log θ − θ
[∑
r
]
tj + (n − r)tr ,
j=1
derivando e uguagliando a zero si ha
∂L(θ; t1 , t2 , ..., tr )
r ∑
= −
tj − (n − r)tr = 0
∂θ
θ j=1
r
risolvendo per 1/θ si ottiene la stima di massima verosimiglianza della media
r
∑
1
θ̂
=
tj + (n − r)tr
j=1
.
r
⋄ Campionamento con interruzione preﬁssata Questo caso è simile al precedente, l’unica diﬀerenza
è che l’esperimento si interrompe ad un tempo preﬁssato T. La realizzazione campionaria utile per
stimare θ è generata facendo funzionare n oggetti contestualmente, a diﬀerenza di prima, però, il
campionamento termina al tempo T. Qui la funzione di verosimiglianza è il prodotto tra
∏r
1) la densità che r oggetti abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr ≤ T, cioè j=1 θe−θtj ,
2) la probabilità che i restanti n − r durino più di T, cioè e−θT(n−r) .
In deﬁnitiva si ha:
L(θ; t1 , t2 , ..., tr ) =
r
∏
θe−θtj × e−θT(n−r)
j=1
= θr exp{−θ
r
∑
tj + (n − r)T},
j=1
Primi elementi di inferenza statistica (ed. maggio 2012)
198
M. Di Marzio
26. AFFIDABILITÀ
per cui
L(θ; t1 , t2 , ..., tr ) = r log θ − θ
[∑
r
]
tj + (n − r)T .
j=1
Derivando e uguagliando a zero si ricava
[∑
]
r
r
∂L(θ; t1 , t2 , ..., tr )
= −
tj + (n − r)T = 0
∂θ
θ
j=1
così, risolvendo per 1/θ, si perviene alla stima di massima verosimiglianza
r
∑
1
θ̂
=
tj + (n − r)T
j=1
.
r
⋄ Campionamento con prove sequenziali A diﬀerenza dei due casi precedenti, dove le prove sono
contestuali, in questo caso il campionamento impone prove successive. Immaginiamo di disporre di una
riserva inﬁnita di oggetti e di esaminarli uno dopo l’altro, mettendone in funzione uno nuovo ogni volta
che il precedente si guasta; l’esperimento termina al tempo preﬁssato T. Se entro T si sono guastati r
oggetti, i nostri dati sono le durate t1 , t2 , ..., tr . Si noti che, a diﬀerenza di prima, qui l’i-esimo oggetto
non è l’oggetto dalla i-esima durata più breve, ma l’ i-esimo messo in funzione.
r
∑r
∑
Anzitutto se il numero di guasti è pari ad r, allora i=1 ti < T e tr+1 > T −
ti . Così i due fattori
i=1
sono:
1) la densità
∏r associata a r oggetti che abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr tali che
cioè j=1 θe−θtj ,
∑r
r
∑
2) la probabilità che tr+1 > T −
ti , cioè e−θ(T− j=1 tj ) .
∑r
i=1 ti
< T,
i=1
Di conseguenza la funzione di verosimiglianza è:
L(θ; t1 , t2 , ..., tr ) =
r
∏
θe−θtj × e−θ(T−
j=1
= θr e−θ
∑r
j=1 tj −θT+θ
∑r
j=1 tj
)
∑r
j=1 tj
= θr e−θT ,
di conseguenza
L(θ; t1 , t2 , ..., tr ) = r log θ − θT.
Derivando e uguagliando a zero si ha
r
∂L(θ; t1 , t2 , ..., tr )
= −T=0
∂θ
θ
quindi risolvendo per 1/θ si ottiene la stima di massima verosimiglianza
1
θ̂
=
T
.
r
quando la durata è descritta da una densità esponenziale, a seconda del disegno campionario considerato, gli
stimatori di massima verosimiglianza del tempo medio di funzionamento nei casi trattati sono:
 ∑r

j=1 tj + (n − r)tr




r
 ∑r
1 
tj + (n − r)T
j=1
=
θ̂ 
r




T

 .
r
Il numeratore di ciascuna espressione è chiamato total time on test cioè, a ben vedere, indica il tempo
totale di funzionamento degli oggetti considerati nell’esperimento. In questo senso tutte le stime di massima
verosimiglianza condividono una stessa logica: il tempo medio di funzionamento è espresso come il tempo
totale di funzionamento degli oggetti considerati nel campione diviso per il numero r dei guasti osservati.
M. Di Marzio
199
Primi elementi di inferenza statistica (ed. maggio 2012)
26.5. Sistemi complessi
26.5
Sistemi complessi
Per sistema complesso si intende un insieme di elementi interconnessi. Il problema che ci poniamo è misurare
l’aﬃdabilità del sistema complesso. Appare generalmente indicato basarsi sullo studio dell’aﬃdabilità delle
singole componenti. La rappresentazione del legame aﬃdabilistico tra queste ultime avviene tramite lo
strumento del diagramma a blocchi. Il diagramma è sempre formato da un insieme di blocchi collegati da
ponti tale che esiste almeno un cammino blocchi-ponti che collega due blocchi particolari, detti rispettivamente
ingresso e uscita.
L’interpretazione del diagramma a blocchi è la seguente. Se una componente è guasta ogni cammino che la
include è interrotto in quel punto, mentre il sistema funziona ﬁno a che vi sia un cammino non interrotto tra
il punto di ingresso e il punto di uscita.
Il diagramma può anche essere interpretato come un sistema elettrico dove i singoli componenti sono interruttori. Se un interruttore è aperto, di lì l’elettricità non passa. Così l’elettricità attraversa il sistema solo se
esiste un cammino tra l’ingresso e l’uscita formato da interruttori chiusi.
Esempio 26.1. Come esempio si consideri il sistema complesso rappresentato nella ﬁgura 26.6 dove le linee rappresentano i ponti, i rettangoli i blocchi, la ﬁgura circolare a sinistra l’entrata e quella a destra l’uscita. Il sistema
Figura 26.6: Sistema complesso con 6 componenti.
non funziona se è guasto almeno uno dei componenti con etichetta appartenente all’insieme {1, 2, 3, 6}, oppure se sia
il blocco 4 sia il blocco 5 sono guasti. Se invece è guasto solo il blocco 5, oppure è guasto solo il blocco 4 il sistema
funziona.
26.6
Sistemi in serie
Una relazione aﬃdabilistica molto ricorrente tra componenti di sistemi complessi è la disposizione in serie.
In questo caso perché il sistema non funzioni è suﬃciente che uno solo dei componenti sia guasto. Nella
ﬁgura 26.7 è rappresentato il diagramma a blocchi relativo a un sistema con quattro componenti in serie.
Come detto, il sistema in serie funziona solo se tutte le parti funzionano. Pertanto, se le durate in vita delle
Figura 26.7: Sistema in serie con 4 componenti.
componenti sono indipendenti, allora l’aﬃdabilità del sistema è pari al prodotto delle rispettive aﬃdabilità
RS (t) = R1 (t) × R2 (t) × ... × Rn (t),
dove RS (t) è l’aﬃdabilità al tempo t del sistema S, e Ri (t) l’aﬃdabilità al tempo t della i-esima tra le n
componenti.
Si noti che se t > 0, allora Ri (t) < 1, quindi con l’aumentare delle parti l’aﬃdabilità del sistema diminuisce.
Così per aumentare l’aﬃdabilità del sistema o si utilizzano componenti maggiormente aﬃdabili, oppure si
riduce il numero delle componenti.
Chiaramente, se le singole funzioni di aﬃdabilità sono diverse tra loro, RS (t) può rivelarsi complessa. Tuttavia,
se vale l’assunzione che le funzioni di densità di guasto sono esponenziali, allora si ottiene una formulazione
molto semplice. Infatti, se abbiamo un sistema in serie con n componenti le cui rispettive densità di guasto
sono fi (t) = λi e−λi t per i = 1, 2, ..., n, allora la i-esima aﬃdabilità è pari a
Ri (t) = 1 − Fi (t)
= 1 − (1 − e−λi t )
= e−λi t
Primi elementi di inferenza statistica (ed. maggio 2012)
200
M. Di Marzio
26. AFFIDABILITÀ
di conseguenza l’aﬃdabilità del sistema sarà
RS (t) = e−λ1 t × e−λ2 t × ... × e−λn t
(
)
n
∑
= exp −t
λi .
i=1
Essendo FS (t) = 1 − RS (t), la funzione di densità di guasto del sistema è pari a
dFS (t)
dt
)
(
n
∑
d
λi
=0−
exp −t
dt
i=1
(
)
n
n
∑
∑
=
λi exp −t
λi
fS (t) =
i=1
che è una pdf esponenziale con parametro λS =
i=1
∑n
i=1
λi pertanto il tasso di guasto è
λS (t) =
n
∑
λi
i=1
(la notazione dell’equazione sopra potrebbe essere un po’ fuorviante poiché in eﬀetti in questo caso particolare
il tasso
∑n di guasto non dipende dal tempo). Inﬁne si deduce facilmente il tempo medio di funzionamento, cioè
1/ i=1 λi .
26.7
Sistemi in parallelo
Un sistema è deﬁnito in parallelo se può considerarsi non funzionante solo quando tutti i blocchi tra entrata
e uscita sono guasti. In ﬁgura 26.8 è rappresentato il diagramma a blocchi di un sistema in parallelo di 3
componenti. In un sistema in parallelo ogni componente garantisce le prestazioni richieste al sistema anche
Figura 26.8: Sistema in parallelo con 3 componenti.
se tutti gli altri componenti sono guasti. Ovviamente è molto costoso, infatti ad una funzione che è in grado
di svolgere un singolo componente sono dedicati più componenti. La formula dell’aﬃdabilità di un sistema in
parallelo può esprimersi come il complemento a 1 della probabilità che tutti i componenti siano guasti. Così,
se le durate sono indipendenti si ha:
n
∏
RS (t) = 1 −
Fi (t),
i=1
dove RS (t) è l’aﬃdabilità del sistema S al tempo t, e Fi (t) la probabilità di guasto entro tempo t associata
alla i-esima tra le n componenti. Per deﬁnizione Fi (t) < 1, quindi l’aﬃdabilità di S aumenta col numero
delle componenti o con l’aﬃdabilità delle singole.
26.8
Sistemi in serie con parti positivamente correlate
Consideriamo un sistema con due componenti, a e b, e indichiamo con A e B i rispettivi eventi di rottura.
Se abbiamo una conﬁgurazione in serie l’aﬃdabilità del sistema è deﬁnita come P(Ā ∩ B̄). Ora indichiamo le
probabilità di guasto come segue:
pA = P(A) e pB = P(B).
M. Di Marzio
201
Primi elementi di inferenza statistica (ed. maggio 2012)
26.9. Sistemi in parallelo con parti positivamente correlate
Se i due componenti sono positivamente correlati, la probabilità condizionata che a si guasti quando si è già
guastato b deve essere maggiore o uguale alla probabilità che a si guasti, cioè
P(A|B) ≥ P(A).
Egualmente, la correlazione positiva implica che P(Ā|B̄) ≥ P(Ā), ma dato che P(Ā ∩ B̄) = P(Ā | B̄)P(B̄), di
conseguenza
P(Ā ∩ B̄) ≥ P(Ā)P(B̄) = (1 − pA )(1 − pB ),
questo signiﬁca che l’aﬃdabilità P(Ā ∩ B̄) di un sistema in serie è maggiore o uguale il prodotto delle
aﬃdabilità individuali delle parti. Notando che il membro di destra rappresenta l’aﬃdabilità nel caso di
indipendenza, se ne deduce che la presenza di correlazione aumenta l’aﬃdabilità del sistema. Al contrario,
poiché Ā ∩ B̄ ⊂ B̄ e Ā ∩ B̄ ⊂ Ā
P(Ā ∩ B̄) ≤ min{P(Ā), P(B̄)} = min{1 − pA , 1 − pB },
in deﬁnitiva si ottiene
min{1 − pA , 1 − pB } ≥ P(Ā ∩ B̄) ≥ (1 − pA )(1 − pB ).
Tale conclusione si estende al caso di un sistema di n componenti, se Ai indica la rottura della i-esima
componente, i limiti per l’aﬃdabilità del sistema sono
( n
)
n
∩
∏
min{1 − pi , i = 1, ..., n} ≥ P
Āi ≥
(1 − pi ).
i=1
26.9
i=1
Sistemi in parallelo con parti positivamente correlate
Utilizzando la notazione della sezione precedente, la rottura per un sistema a due componenti in parallelo è
indicata dall’evento A ∩ B. Si è visto che la correlazione positiva implica che P(A | B) ≥ P(A), e ricordando
che P(A ∩ B) = P(A | B)P(B), allora
P(A ∩ B) ≥ P(A)P(B) = pA pB
questo è un limite inferiore per la probabilità di rottura quando A e B sono correlate positivamente. Per
converso, il limite superiore è dato da
P(A ∩ B) ≤ min{P(A), P(B)} = min{pA , pB }.
In deﬁnitiva
min{pA , pB } ≥ P(A ∩ B) ≥ pA pB .
Il caso generale esteso a n componenti correlate con eventi di rottura individuali {Ai , i = 1, ..., n} si esprime
come
(n
)
n
∩
∏
Ai ≥
min{pi , i = 1, ..., n} ≥ P
pi .
i=1
i=1
La prima delle due disuguaglianze rivela che, a diﬀerenza del caso di sistemi in serie, la correlazione positiva
implica una diminuzione dell’aﬃdabilità anche per sistemi in parallelo.
Primi elementi di inferenza statistica (ed. maggio 2012)
202
M. Di Marzio
27
Esercizi svolti
Esercizio 27.1. Un esperimento di prova simultanea di 30 transistor viene interrotto al decimo guasto. Si
sa che il tempo di vita di ogni transistor è descritto da una v.c. esponenziale di parametro incognito θ. Si
osservano, per i componenti che si guastano, le ore di vita seguenti:
t1 = 4.1
t2 = 7.3
t3 = 13.2
t4 = 18.8
t5 = 24.5
t6 = 30.8 t7 = 38.1 t8 = 45.5 t9 = 53 t10 = 62.2.
Qual è la stima di massima verosimiglianza per la vita media dei transistor?
Soluzione La stima di massima verosimiglianza della durata media dei transistor nel caso di prove simultanee
con interruzione all’r-esimo guasto è
∑r
1
j=1 tj + (n − r)tr
=
r
θ̂
nel nostro caso r = 10 e n = 30. Per cui:
1
297.5 + 20 × 62.2
=
= 154.15.
10
θ̂
Si noti come la stima di massima verosimiglianza si discosti molto dai tempi di guasto registrati perché al
denominatore troviamo il numero di guasti r mentre al numeratore abbiamo la somma di n > r durate.
Esercizio 27.2. Si tengono in prova contemporaneamente 30 oggetti per stimarne il tempo di vita decidendo di interrompere l’esperimento alla centesima ora. Alla ﬁne dell’esperimento si sono avuti 20 guasti,
rispettivamente ai tempi
1.2
29
1.8
41
2.2
42
4.1
42.4
5.6
49.3
8.4
60.5
11.8
61
13.4
94
16.2
98
21.7
99.2
qual è la stima di massima verosimiglianza della durata media se si ipotizza che le durate si distribuiscono
come v.c. esponenziali i.i.d. di parametro θ?
Soluzione In questo caso abbiamo avuto l’interruzione ad un tempo preﬁssato che è di 100 ore. Allora la
stima di massima verosimiglianza della durata media è
∑r
1
j=1 tj + (n − r)T
=
r
θ̂
nel nostro caso r = 20, n = 30 e T = 100. Per cui:
1
θ̂
=
702.8 + 10 × 100
= 85.14.
20
Esercizio 27.3. Il rischio di contrarre un tumore ai polmoni per un fumatore almeno quarantenne può essere
approssimato dalla funzione:
(
λ (t) = 0.027 + 0.025
t − 40
40
)4
,
t > 40
dove t rappresenta l’età in anni. Supponendo che un fumatore di 40 anni non muoia per altre cause e che
non smetta mai di fumare, qual è la probabilità che giunga a 50 anni di età senza contrarre questa malattia?
M. Di Marzio
203
Primi elementi di inferenza statistica (ed. maggio 2012)
Soluzione Se T è l’età in cui il fumatore muore, abbiamo:
P (T > 50) = 1 − P (T ≤ 50) = R(50)
da cui, sfruttando la relazione
{ ∫ t
}
R(t) = exp −
λ(s)ds
0
otteniamo
{ ∫ 50
}
0.025
4
R(50) = exp −
0.027 +
(t − 40) dt
404
{ (40
)}
5 50
0.025 (t − 40)
= exp − 0.027t +
404
5
40
}
{
5
0.025 (50 − 40)
− 0.027 × 40
= exp 0.027 × 50 +
404
5
≃ e−0.27
= 0.7632.
Esercizio 27.4. Il tempo T di vita di un prodotto ha tasso di guasto pari a:
λ (t) = t3 ,
t > 0.
Calcolare:
a) la funzione di ripartizione e la funzione di densità di T ;
b) la probabilità che un esemplare funzioni tra gli istanti 0.4 e 1.4;
c) la probabilità che un esemplare di età 1 funzioni almeno per un’altra unità di tempo.
Soluzione a) La funzione di ripartizione di T si ottiene applicando la relazione tra FT e λ.
{ ∫ t
}
FT (t) = 1 − exp −
λ(s)ds
0
{ ∫ t
}
3
= 1 − exp −
s ds
{ (0
)}
t
1 4
= 1 − exp −
s
4 0
{ 4}
t
= 1 − exp −
4
la funzione di densità si ottiene derivando
fT (t) = F′T (t)
{ 4 }(
)
t
1
= 0 − exp
− × 4t3
4
4
= t3 e−t
4
/4
.
b)
P(0.4 < T < 1.4) = FT (1.4) − FT (0.4)
{
} (
{
})
1.44
−0.44
= 1 − exp −
− 1 − exp
4
4
= 0.6109.
Primi elementi di inferenza statistica (ed. maggio 2012)
204
M. Di Marzio
27. ESERCIZI SVOLTI
c) In questo caso bisogna calcolarsi una probabilità condizionata:
{ ∫
}
2 3
exp
−
s
ds
0
R(2)
{ ∫
}
=
P(T ≥ 2|T > 1) =
1
R(1)
exp − s3 ds
{ ∫
= exp −
0
2
∫
3
s ds +
0
{ (∫
= exp −
}
1
3
s ds
0
) ∫ 1
}
3
s ds +
s ds +
s ds
0
1
0
{
(
)}
{ ∫ 2
}
2
s4
3
= exp −
s ds = exp −
4 1
1
)}
{ ( 4
1
2
−
= exp −
4
4
∫
1
3
2
3
= 0.0235.
Esercizio 27.5. Gli interruttori {a, b, c, d} sono collegati ai cavi elettrici A e B.
La corrente attraversa un interruttore se esso è chiuso, nella ﬁgura 27.1 sono tutti aperti. Gli interruttori si
aprono o si chiudono tutti contemporaneamente; inoltre la probabilità di malfunzionamento (non chiudersi)
per ogni interruttore sia π.
a) Qual è la probabilità che il circuito da A a B si chiuda?
b) Se si aggiunge un cavo {e}, qual è la probabilità che il circuito non si chiuda?
c) Se si aggiunge un interruttore ad {e}, con che probabilità il circuito da A a B non si chiuda?
Soluzione a) Il caso è rappresentato nella ﬁgura 27.1, dove il collegamento tra A e B può essere descritto
come una coppia di sistemi in serie disposti in parallelo. Un sistema in serie composto dagli interruttori
Figura 27.1: Sistema dell’esercizio 27.5 punto a).
{a, b}, e l’altro dagli interruttori {c, d}. La probabilità di funzionare per un singolo interruttore è 1 − π
2
così la probabilità di funzionare per uno dei due sistemi in serie è (1 − π) mentre quella di non funzionare
2
1 − (1 − π) . Essendo le due linee in parallelo, almeno una deve funzionare. La probabilità che almeno una
[
]2
2
funzioni è data dalla diﬀerenza tra 1 e probabilità che entrambe non funzionino, cioè 1 − 1 − (1 − π)
.
b) L’inserimento del cavo {e} porta a una nuova conﬁgurazione del circuito, come è illustrato nella ﬁgura
27.2. In particolare si hanno due sistemi in serie, uno formato dagli interruttori {a, e, c}, e un altro formato
Figura 27.2: Sistema dell’esercizio 27.5 punto b).
dagli interruttori {b, e, d}. Ciascuno dei due sistemi è in parallelo. Ognuno dei due sistemi ha probabilità di
non funzionare π 2 e quella di funzionare 1 − π 2 . Essendo a loro volta i due sistemi in serie, l’intero circuito
funziona con probabilità (1 − π 2 )2 . La probabilità cercata, quella di non funzionare, è allora 1 − (1 − π 2 )2 .
M. Di Marzio
205
Primi elementi di inferenza statistica (ed. maggio 2012)
c) L’inserimento di un interruttore al cavo {e} porta ad una ulteriore conﬁgurazione del circuito, come si
può vedere in ﬁgura 27.3. In particolare, se l’interruttore {e} non funziona, anch’esso con probabilità π,
Figura 27.3: Sistema dell’esercizio 27.5 punto c).
allora il sistema diventa come nella domanda a). Se invece l’interruttore {e} funziona, con probabilità 1 − π,
si è esattamente nel caso della domanda b). Così, applicando il teorema delle probabilità totali per eventi
incompatibili si ha:
P(circuito funziona) = P(circuito funziona ∩ {e} funziona) + P(circuito funziona ∩ {e} non funziona)
= P({e} funziona)P(circuito funziona|{e} funziona)
+ P({e} non funziona)P(circuito funziona|{e} non funziona)
= (1 − π)(1 − π 2 )2 + π{1 − [1 − (1 − π)2 ]2 }
mentre quella complementare è la probabilità cercata
1 − π{1 − [1 − (1 − π)2 ]2 } − (1 − π)(1 − π 2 )2 = 2π 5 − 5π 4 + 2π 3 + 2π 2 .
Esercizio 27.6. Un componente elettronico è formato da tre elementi in serie ciascuno con tempi di vita
indipendenti ed esponenziali di parametri rispettivamente λ = 0.3, µ = 0.1, γ = 0.2 rispettivamente, come
si può vedere in ﬁgura 27.4. Indichiamo con T la v.c. ‘tempo di vita del componente’.
Figura 27.4: Sistema dell’esercizio 27.6 punto a).
a) Come si distribuisce T ? Qual è la sua vita media?
b) Per aumentare l’aﬃdabilità e ridurre gli interventi di sostituzione, viene proposto di aggiungere un
componente identico in parallelo. Come si distribuisce la vita del nuovo complesso?
c) Un’altra possibilità consiste nel considerare un complesso triplicando il primo componente e raddoppiando
il terzo. Qual è la probabilità che questo nuovo complesso sopravviva al tempo t = 1?
Soluzione a) Se indichiamo con T1 , T2 e T3 i tempi di vita dei singoli elementi, essendo il sistema è in serie,
è chiaro che T = min(T1 , T2 , T3 ) per cui:
1 − FT (t) = P{min(T1 , T2 , T3 ) > t}
= P(T1 > t ∩ T2 > t ∩ T3 > t)
= P(T1 > t)P(T2 > t)P(T3 > t)
= R1 (t)R2 (t)R3 (t)
= (1 − (1 − e−λt ))(1 − (1 − e−µt ))(1 − (1 − e−γt ))
= e−(λ+µ+γ)t .
Questo implica che
FT (t) = 1 − e−(λ+µ+γ)t ,
così la v.c. T si distribuisce come una esponenziale con parametro λ + µ + γ. La media di T vale dunque:
E[T ] =
1
= 1.67.
λ+µ+γ
b) Se T e W sono i tempi di vita dei componenti in parallelo, come è rappresentato nella ﬁgura 27.5, il tempo
di vita dell’intero complesso è X = max{T, W }. Calcoliamo la funzione di ripartizione GX (t) di X
Primi elementi di inferenza statistica (ed. maggio 2012)
206
M. Di Marzio
27. ESERCIZI SVOLTI
Figura 27.5: Sistema dell’esercizio 27.6 punto b).
GX (t) = P{max{T, W } ≤ t} = P(T ≤ t ∩ W ≤ t) = P(T ≤ t)P(W ≤ t)
(
)2
= 1 − e−(λ+µ+γ)t
la pdf di X è data dalla derivata, gX (t) = G′T (t):
(
)
gX (t) = 2 1 − e−(λ+µ+γ)t e−(λ+µ+γ)t (λ + µ + γ),
da cui sostituendo si ha
(
)
gX (t) = 2 1 − e−(0.3+0.1+0.2)t e−(0.3+0.1+0.2)t (0.3 + 0.1 + 0.2)
(
)
= 2 1 − e−(0.6)t e−(0.6)t (0.6)
(
)
= 1.2 1 − e−0.6t e−0.6t
= 1.2e−0.6t − 1.2e−1.2t .
c) Il tempo di vita dell’intero complesso è min{T1 , T2 , T3 } dove T1 è il tempo di vita del complesso dei primi
tre componenti, T2 il tempo di vita del quarto componente e T3 il tempo di vita del complesso del quinto e
sesto componente, come si può vedere in ﬁgura 27.6.
Figura 27.6: Sistema dell’esercizio 27.6 punto c).
P(T1 ≤ t) = (1 − e−λt )3 ,
P(T2 ≤ t) = 1 − e−µt , ,
P(T3 ≤ t) = (1 − e−γt )2 ;
per cui, molto semplicemente, si ha:
P(T > t) = P(T1 > t)P(T2 > t)P(T3 > t)
= (1 − (1 − e−λt )3 )e−µ t (1 − (1 − e−γ t )2 ),
da cui, andando a sostituire i rispettivi valori, si ha
P(T1 ≤ 1) = (1 − (1 − e−0.3×1 )3 )e−0.1×1 (1 − (1 − e−0.2×1 )2 )
≃ 0.97.
Esercizio 27.7. Un deposito d’acqua è localizzato in una regione semiarida. Il clima locale è caratterizzato
da tempeste alluvionali che hanno luogo casualmente durante tutto l’anno. Inoltre ci può essere insuﬃcienza
di acqua se alla ﬁne della primavera il livello di acqua immagazzinato è basso e la successiva estate si rivela
secca. Si indichi con F l’evento di una alluvione catastroﬁca, con D l’evento di una estate secca, e con L
un livello basso delle riserve idriche a ﬁne primavera. Da analisi idrogeologiche si sono stimate le relative
probabilità πF , πD e πL . Inﬁne, sia E un guasto del sistema, cioè il deposito riceve più acqua di quella che
può trattenere, oppure non riesce a soddisfare la domanda. Così E = F ∪ DL. I dati climatici mostrano
correlazione positiva tra D e L, ma correlazione negativa tra F e DL. Studiare l’aﬃdabilità del sistema
Ē = F̄ ∩ DL.
M. Di Marzio
207
Primi elementi di inferenza statistica (ed. maggio 2012)
Soluzione F e DL sono correlate negativamente, allora P(F | DL) ≤ P(F ). Per cui:
P(Ē) ≤ (1 − πF )(1 − P(DL)).
P(DL) non è nota, quindi vanno stimati il suo minimo e il suo massimo dati da:
min(1 − πD , 1 − πL ) ≤ P(DL) ≤ 1 − πD πL ⇒ P(DL) ≥ πD πL
di conseguenza
P(Ē) ≤ (1 − πF )(1 − πD πL ).
Per esempio, se πF = 0.01, πD = 0.15 e πL = 0.1, allora
P(Ē) ≤ (1 − 0.01)(1 − 0.15 × .1) = 0.99 × 0.985 = 0.975.
Il che signiﬁca che il sistema ha una probabilità di guasto di almeno il 2.5%.
Esercizio 27.8. Due rifugi montani sono connessi dalle due strade a e b. Durante una tempesta di neve
c’è una probabilità di 0.2 che il traﬃco venga interrotto in a (evento A), e una probabilità pari a 0.1 che il
traﬃco venga interrotto in b (evento B). Studiare l’aﬃdabilità del collegamento stradale tra i due rifugi sia
nell’ipotesi di indipendenza delle occorrenze di interruzioni e sia nell’ipotesi che una limitata dotazione di
attrezzature permette la rimozione della neve su entrambe le strade.
Soluzione Il collegamento stradale tra i due rifugi può essere considerato un sistema in parallelo con probabilità di guasti individuali πA = 0.2, e πB = 0.1. Assumendo l’indipendenza dei guasti, il rischio di interruzione
della comunicazione stradale πf è semplicemente
πf = πA πB = 0.2 × 0.1 = 0.02.
Se le attrezzature permettono di rimuovere la neve, allora bisogna considerare gli eventi di guasto positivamente correlati. Per cui l’aﬃdabilità πf¯ del sistema può essere stimata attraverso limiti inferiori e superiori
nel seguente modo. Siccome
πf = P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) ≤ min(πA , πB )
allora
1 − πf = πf¯ ≥ 1 − min(πA , πB ) = max(1 − πA , 1 − πB ) ≥ min(1 − πA , 1 − πB ).
Inoltre, siccome le componenti sono correlate
πf = P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) ≥ P(A)P(B) = πA πB ;
di conseguenza
1 − πA πB ≥ πf¯ ≥ min(1 − πA , 1 − πB );
cioè
0.98 ≥ πf¯ ≥ 0.80 e 0.10 ≥ πf ≥ 0.02.
Primi elementi di inferenza statistica (ed. maggio 2012)
208
M. Di Marzio
A
Analisi matematica
Indice
A.1
A.2
A.3
A.4
A.5
A.6
A.7
A.8
A.9
A.10
A.11
A.12
A.13
A.14
A.15
A.1
Insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estremo superiore, estremo inferiore, massimo e minimo
Intervalli di numeri reali . . . . . . . . . . . . . . . . . . . .
Valore assoluto . . . . . . . . . . . . . . . . . . . . . . . . . .
Simboli di sommatoria e produttoria . . . . . . . . . . . . .
Doppia sommatoria . . . . . . . . . . . . . . . . . . . . . . .
Lo spazio Rn . . . . . . . . . . . . . . . . . . . . . . . . . . .
Funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Funzioni esponenziale e logaritmo . . . . . . . . . . . . . .
Funzioni limitate . . . . . . . . . . . . . . . . . . . . . . . . .
Limiti di funzioni e continuità . . . . . . . . . . . . . . . .
Derivata di una funzione . . . . . . . . . . . . . . . . . . . .
Derivate parziali . . . . . . . . . . . . . . . . . . . . . . . . .
Integrali indeﬁniti e integrali deﬁniti . . . . . . . . . . . . .
Calcolo di integrali doppi . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
209
210
211
211
211
212
213
213
214
215
216
217
218
218
220
Insiemi
Un insieme è una collezione di oggetti distinti detti elementi dell’insieme. Un insieme è generalmente indicato
con una lettera maiuscola, mentre il suo generico elemento è indicato con una lettera minuscola. Per indicare
in simboli che a è un elemento dell’insieme A si scrive a ∈ A.
Un insieme può essere indicato elencando i suoi elementi oppure speciﬁcando, se esiste, una proprietà che
accomuna questi elementi.
Esempio A.1. Seguono alcuni esempi di insiemi.
⋄ Insieme dei numeri naturali compresi tra 1 e 5:
{1, 2, 3, 4, 5}
{x ∈ N : 1 ≤ x ≤ 5}.
o
⋄ Insieme dei numeri interi negativi maggiori di −7:
{−1, −2, −3, −4, −5, −6}
o
{x ∈ Z− : x > −7}.
⋄ Insieme delle prime 4 lettere dell’alfabeto latino:
{a, b, c, d}.
Dati due insiemi A e B, A è un sottoinsieme di B, in simboli A ⊆ B (o B ⊇ A), se tutti gli elementi di A
sono anche elementi di B, ovvero:
A ⊆ B se e solo se a ∈ B per ogni a ∈ A.
M. Di Marzio
209
Primi elementi di inferenza statistica (ed. maggio 2012)
A.2. Estremo superiore, estremo inferiore, massimo e minimo
Si noti che se A ⊆ B e B ⊆ A, allora A e B hanno gli stessi elementi, ovvero A = B. Se non si ha A = B,
allora si avrà A ̸= B e si dirà che A è diverso da B. Se invece A ⊆ B e A ̸= B, si scrive A ⊂ B (o B ⊃ A), e
A è detto sottoinsieme proprio di B.
Esempio A.2. L’insieme dei numeri naturali N = {0, 1, 2, ...} è sottoinsieme proprio dell’insieme dei numeri interi
Z = {..., −2, −1, 0, 1, 2, ...}.
L’insieme Z è sottoinsieme proprio dell’insieme dei numeri razionali Q = {p/q : p ∈ Z, q ∈ Z, q ̸= {0}}.
L’insieme Q è sottoinsieme proprio del’insieme R dei numeri reali. In deﬁnitiva, valgono le seguenti relazioni di
inclusione
N ⊂ Z ⊂ Q ⊂ R.
Si deﬁnisce cardinalità di un insieme A, e si indica con ♯A, il numero di elementi dell’insieme A. Un insieme
A si deﬁnisce ﬁnito se ha un numero ﬁnito di elementi o, in simboli, se ♯A < ∞. Se A non è ﬁnito, allora si
dice inﬁnito. Un insieme inﬁnito si deﬁnisce numerabile se può essere posto in corrispondenza biunivoca con
l’insieme N dei numeri naturali.
Esempio A.3. Gli insiemi dell’esempio A.1 sono tutti insiemi ﬁniti aventi rispettivamente cardinalità 5, 6 e 4. Esempio A.4. Sono esempi di insiemi inﬁniti:
⋄ l’insieme N dei numeri naturali,
⋄ l’insieme Z dei numeri interi,
⋄ l’insieme R dei numeri reali.
Esempio A.5. Seguono alcuni esempi di insiemi numerabili
⋄ L’insieme N dei numeri naturali è ovviamente un insieme numerabile;
⋄ l’insieme dei numeri naturali dispari è numerabile, poichè esiste una corrispondenza biunivoca tra ogni n ∈ N
ed ogni numero naturale dispari 2n + 1;
⋄ gli insiemi dell’esempio A.1 sono tutti insiemi numerabili.
Si dimostra, inﬁne, che l’insieme R dei numeri reali non è numerabile.
A.2
Estremo superiore, estremo inferiore, massimo e minimo
Un insieme A ⊂ R si deﬁnisce limitato superiormente se esiste un numero che risulta maggiore di tutti gli
elementi dell’insieme. Si deﬁnisce estremo superiore di un insieme A limitato superiormente, e si indica
con sup A, un numero M tale che:
i) per ogni a ∈ A risulta a ≤ M ;
ii) per ogni ϵ > 0 esiste almeno un elemento a di A tale che M − ϵ < a ≤ M.
Un insieme A ⊂ R si deﬁnisce limitato inferiormente se esiste un numero che risulta minore di tutti gli
elementi dell’insieme. Si deﬁnisce estremo inferiore di un insieme A limitato inferiormente, e si indica con
inf A, un numero m tale che:
i) per ogni a ∈ A risulta a ≥ m;
ii) per ogni ϵ > 0 esiste almeno un elemento a di A tale che m < a ≤ m + ϵ.
Segue un’ importante proprietà degli insiemi di numeri reali, anche nota come proprietà della completezza di
R.
Ogni insieme non vuoto di numeri reali limitato superiormente (rispettivamente inferiormente) è dotato di
estremo superiore (risp. estremo inferiore).
Pertanto se A ⊂ R è un insieme non vuoto limitato superiormente (risp. inferiormente) esiste sempre
sup A ∈ R (risp. inf A ∈ R). Inﬁne, se sup A è un elemento di A, allora esso deﬁnisce il massimo di A che si
indica con max A; se inf A è un elemento di A, allora esso deﬁnisce il minimo di A che si indica con min A.
Primi elementi di inferenza statistica (ed. maggio 2012)
210
M. Di Marzio
A. ANALISI MATEMATICA
A.3
Intervalli di numeri reali
Dati due numeri reali a e b, tali che a < b, è possibile deﬁnire i seguenti intervalli limitati di estremi a e b:
[a, b] = {x ∈ R : a ≤ x ≤ b}
[a, b) = {x ∈ R : a ≤ x < b}
(a, b] = {x ∈ R : a < x ≤ b}
(a, b) = {x ∈ R : a < x < b}.
Quando uno degli estremi dell’intervallo non è ﬁnito, l’intervallo si dice illimitato e possono aversi i seguenti
casi:
[a, +∞) = {x ∈ R : x ≥ a}
(a, +∞) = {x ∈ R : x > a}
(−∞, b] = {x ∈ R : x ≤ b}
(−∞, b) = {x ∈ R : x < b}.
Inﬁne
R = (−∞, +∞).
Dato x0 ∈ R, si deﬁnisce intorno di x0 di raggio δ > 0 l’intervallo (x0 − δ, x0 + δ). Dalla deﬁnizione di intorno
discende che ogni intervallo aperto in R contiene un intorno di ciascuno dei sui punti.
A.4
Valore assoluto
Si deﬁnisce valore assoluto di un numero reale x, il numero reale
{
x se x ≥ 0
|x| =
−x se x < 0.
Esempio A.6. | − 3| = 3; |1.2| = 1.2.
Dalla deﬁnizione di valore assoluto discende che, dato un numero reale positivo a, la disuguaglianza
|x| < a
equivale a x < a, se x ≥ 0 e −x < a se x < 0; quindi le seguenti tre espressioni sono intercambiabili
|x| < a,
−a < x < a,
x ∈ (−a, a).
Esempio A.7. Dati due numeri reali x e y, dove y ∈ R+ la relazione
|x − 3| < y
può essere riscritta come
3 − y < x < 3 + y.
Infatti per x − 3 ≥ 0 si ha x − 3 < y e quindi x < 3 + y; per x − 3 < 0 si ha −(x − 3) < y e quindi 3 − y < x.
A.5
Simboli di sommatoria e produttoria
Si consideri un insieme ﬁnito di n numeri reali {x1 , x2 , ..., xn }. La
∑somma dei numeri x1 , x2 , ..., xn può essere
scritta in forma compatta utilizzando il simbolo di sommatoria
n
∑
xi = x1 + x2 + ... + xn .
i=1
Dato un numero reale k, si hanno le identità seguenti
n
∑
i=1
M. Di Marzio
k = k + k + ... + k = nk,
{z
}
|
n volte
211
Primi elementi di inferenza statistica (ed. maggio 2012)
A.6. Doppia sommatoria
e
n
∑
kxi = kx1 + kx2 + ... + kxn
i=1
= k(x1 + x2 + ... + xn )
n
∑
=k
xi .
i=1
Il
∏prodotto tra i numeri x1 , x2 , ..., xn può essere scritto in forma compatta, ricorrendo al simbolo di produttoria
n
∏
xi = x1 × x2 × ... × xn .
i=1
Inoltre, dato un numero reale k, risulta
n
∏
i=1
k = k × k × ... × k = k n ,
|
{z
}
n volte
e
n
∏
kxi = kx1 × kx2 × ... × kxn
i=1
= k n (x1 × x2 × ... × xn )
n
∏
= kn
xi .
i=1
Se non c’è equivoco su quali siano
∏ gli estremi
∑ della produttoria (sommatoria), questi possono anche essere
omessi, scrivendo, ad esempio, xi oppure
xi .
A.6
Doppia sommatoria
Considerato l’insieme di numeri reali con doppio indice
{xij , i ∈ {1, 2, ..., n}, j ∈ {1, 2, ..., m}},
che può essere rappresentato in forma di tabella come

x11 x12 · · ·
 x21 x22 · · ·

 ..
..
..
 .
.
.
x1m
x2m
..
.
···
xnm
xn1
xn2



 ,

la somma degli elementi xij può essere scritta ricorrendo al simbolo di doppia sommatoria
n ∑
m
∑
∑∑
xij = x11 + x12 + ... + x1m + x21 + x22 + ... + x2m + .... + xn1 + xn2 + ... + xnm .
i=1 j=1
Dato un numero reale k si ha inoltre
n ∑
m
∑
kxij = k
i=1 j=1
e
n ∑
m
∑
xij ,
i=1 j=1
n ∑
m
∑
k = nmk.
i=1 j=1
Primi elementi di inferenza statistica (ed. maggio 2012)
212
M. Di Marzio
A. ANALISI MATEMATICA
Dati due insiemi di numeri reali {x1 , x2 , ..., xn } e {y1 , y2 , ..., ym }, la somma dei prodotti tra ciascun elemento
del primo insieme e ciascun elemento del secondo, può scriversi come
m
n ∑
∑
xi yj = x1 y1 + x1 y2 + ... + x1 ym + x2 y1 + x2 y2 + ... + x2 ym + ... + xn y1 + xn y2 + ... + xn ym .
i=1 j=1
Risulta inoltre
n ∑
m
∑
xi yj = (x1 + x2 + ... + xn )(y1 + y2 + ... + ym )
i=1 j=1
=
n
∑
i=1
xi
m
∑
yj
j=1
Inﬁne, per l’insieme di numeri reali
{zij , i ∈ {1, 2, ..., n}, j ∈ {1, 2, ..., m}},
si ha
n ∑
m
∑
xi zij = x1 z11 + x1 z12 + ... + x1 z1m + x2 z21 + x2 z22 + ... + x2 z2m + ... + xn zn1 + xn zn2 + ... + xn znm
i=1 j=1
=
n
∑

xi
i=1
A.7
m
∑

zij  .
j=1
Lo spazio Rn
Fissato un intero n ≥ 1, l’insieme Rn , anche detto spazio dei reali in n dimensioni, è l’insieme deﬁnito dal
prodotto cartesiano 1 dell’insieme R per se stesso n volte; in formule
Rn = R × R × ... × R .
|
{z
}
n volte
L’insieme R ha quindi per elementi tutte le possibili n-uple di numeri reali x deﬁnite come
n
x = (x1 , x2 , ..., xn )
con xi ∈ R per ogni i ∈ {1, 2, ..., n}.
Gli elementi x ∈ Rn si deﬁniscono numeri reali in n dimensioni. Geometricamente x ∈ Rn individua le
coordinate di un punto in un iperspazio n-dimensionale.
Esempio A.8. Seguono alcuni esempi di numeri reali in n dimensioni:
⋄ x = 0.4 è un numero reale (in una dimensione);
⋄ x = (0, 0, 0) è un numero reale in 3 dimensioni;
⋄ x = (0.2, 0.4, 1, 1, 66) è un numero reale in 5 dimensioni.
A.8
Funzioni
Siano X ed Y due insiemi di numeri reali. Una funzione f da X in Y è una legge che associa ad ogni x ∈ X
uno e un solo y ∈ Y ; y è detto valore della funzione f in x, in simboli
y = f (x).
Gli insiemi X e Y sono detti rispettivamente dominio e codominio di f , mentre l’insieme f (X) = {f (x) :
x ∈ X} ⊆ Y è detto insieme delle immagini di f .
1 Dati due insiemi A e B, si deﬁnisce prodotto cartesiano di A e B, e si indica con A × B, l’insieme di tutte le coppie
ordinate (a, b) con a ∈ A e b ∈ B.
M. Di Marzio
213
Primi elementi di inferenza statistica (ed. maggio 2012)
A.9. Funzioni esponenziale e logaritmo
La corrispondenza univoca che f realizza dall’insieme X all’insieme Y è espressa in simboli da
f : X → Y.
Se f esprime una corrispondenza biunivoca tra X ed Y , ossia se ad ogni elemento y ∈ Y corrisponde uno ed
un solo elemento x ∈ X tale che f (x) = y e viceversa, allora f deﬁnisce una funzione biettiva.
Se il dominio di f è deﬁnito dal prodotto cartesiano tra n insiemi di numeri reali, ossia se X ⊂ Rn , allora f
è detta funzione di n variabili reali.
Esempio A.9. Sia f una funzione deﬁnita in R da f (x) = x, allora
f :R→R
è una funzione di una variabile reale che associa ad ogni elemento di R se stesso ed è detta funzione identità.
Esempio A.10. Sia f una funzione deﬁnita nello spazio R2 da
per ogni x = (x1 , x2 ).
f (x) = x1 + x2
Allora
f : R2 → R
è una funzione di due variabili reali, che associa ad ogni elemento di R2 , cioè ad ogni coppia di numeri reali, il numero
reale dato dalla loro somma.
Dati due numeri interi positivi m e n, tali che m < n, si dice che la funzione f opera una riduzione dello
spazio dei reali in n dimensioni nello spazio dei reali in m dimensioni se
f : Rn → Rm ,
o equivalentemente se
f : X → Y,
dove X ⊆ Rn e Y ⊆ Rm .
Esempio A.11. La funzione f dell’esempio 7, associando ad ogni coppia di numeri reali (x1 , x2 ) il numero reale
x1 + x2 , opera una riduzione dello spazio R2 nello spazio R.
Esempio A.12. Sia f una funzione deﬁnita nello spazio R3 da
f (x) = (x1 + x2 , x3 )
per ogni x = (x1 , x2 , x3 ).
La funzione f opera una riduzione dello spazio R3 nello spazio R2 . Infatti poichè (x1 + x2 , x3 ) è un numero reale in
2 dimensioni, si ha
f : R3 → R2 .
A.9
Funzioni esponenziale e logaritmo
La funzione esponenziale f (x) = ex (dove e indica il numero di Nepero 2.7182845... ) è una funzione che
associa ad ogni numero reale x il numero reale ex che può anche scriversi come exp(x) o exp{x}. Di seguito
sono elencate alcune proprietà della funzione esponenziale:
i) per ogni numero reale x, ex > 0;
ii) se x > 0, ex > 1 e e−x = 1/(ex ) < 1;
iii) data una coppia di reali a e b, vale la seguente identità
ea eb = ea+b ,
e più, in generale, considerati i numeri reali x1 , x2 , ..., xn ,
ex1 ex2 ...exn =
n
∏
∑n
exi = e(x1 +x2 +...+xn ) = e
i=1
xi
.
i=1
Primi elementi di inferenza statistica (ed. maggio 2012)
214
M. Di Marzio
A. ANALISI MATEMATICA
La funzione logaritmo in base b è deﬁnita per ogni numero reale positivo x da
f (x) = logb x,
dove b è la base del logaritmo e x > 0 è l’argomento del logaritmo. Il logaritmo di x è l’esponente da dare a
b per ottenere x; in simboli
f (x) = logb x ⇔ x = bf (x) .
Se b = e, ossia quando il logaritmo ha come base e, si ha la funzione f (x) = loge x deﬁnita logaritmo naturale:
loge x è spesso indicato semplicemente come log x o come ln x. Dalla deﬁnizione di logaritmo discende che
log 1 = 0, log e = 1;
poiché e0 = 1 e e1 = e.
Nel seguito sono enunciate alcune proprietà della funzione logaritmo.
i) Per ogni coppia di numeri reali positivi a e b risulta
log(ab) = log a + log b.
In generale, dati n numeri reali positivi x1 , x2 , ..., xn si ha
(n )
n
∏
∑
log(x1 × x2 × ... × xn ) = log
xi = log x1 + log x2 + ... + log xn =
log xi .
i=1
i=1
ii) Dato il numero reale positivo a e il numero naturale n risulta
log an = n log a.
iii) Per ogni coppia di numeri reali positivi a e b risulta
(a)
log
= log a − log b.
b
Si osservi che la proprietà iii) discende dalla i) e dalla ii). Infatti, poichè a/b = ab−1 per la i) si ha log(a/b) =
log a+log b−1 e applicando la ii) al secondo addendo a destra dell’uguglianza si ottiene log(a/b) = log a−log b.
A.10
Funzioni limitate
Sia X ⊆ R e f : X → R. La funzione f si dice limitata superiormente (rispettivamente limitata
inferiormente) in un insieme A ⊆ X se esiste un numero reale M (risp. m) tale che f (x) ≤ M (risp.
f (x) ≥ m) per ogni x ∈ A. La funzione f si deﬁnisce limitata in A se e solo se è limitata sia superiormente
sia inferiormente in A.
Se f è una funzione limitata superiormente in A ⊆ X, allora l’insieme delle immagini f (A) ⊆ R è limitato
superiormente e dalla proprietà della completezza enunciata nella sezione A.2 discende che l’insieme f (A) è
dotato di estremo superiore. L’estremo superiore di f (A) è anche detto estremo superiore di f in A e si
indica con
sup f
o
sup f (x).
A
x∈A
Pertanto, se f è limitata superiormente in A, supA f = sup f (A). Se supA f ∈ f (A) allora esso deﬁnisce il
massimo di f in A che si indica con
max f
o
max f (x).
A
x∈A
Sia f una funzione limitata inferiormente in A ⊆ X, allora l’insieme f (A) ⊆ R è limitato inferiormente e
dalla proprietà della completezza discende che f (A) è dotato di estremo inferiore. L’estremo inferiore di f (A)
è anche detto estremo inferiore di f in A e si indica con
inf f
A
o
inf f (x).
x∈A
Pertanto, se f è limitata inferiormente in A, inf A f = inf f (A). Se inf A f ∈ f (A) allora esso deﬁnisce il
minimo di f in A che si indica con
min f
o
min f (x).
A
M. Di Marzio
x∈A
215
Primi elementi di inferenza statistica (ed. maggio 2012)
A.11. Limiti di funzioni e continuità
A.11
Limiti di funzioni e continuità
Sia f una funzione di una variabile reale deﬁnita in tutti i punti di un intervallo [a, b] escluso al più il punto
c anch’esso interno all’intervallo. Si dice che, per x che tende a c, la funzione f ha per limite il numero reale
l e si scrive
lim f (x) = l
x→c
se comunque scelto un numero ϵ > 0, arbitrariamente piccolo, si può determinare in corrispondenza ad esso,
un intorno completo di c tale che, per ogni x appartenente a tale intorno (escluso al più x = c), si ha
|f (x) − l| < ϵ.
Esempio A.13. Si consideri la funzione f (x) = x2 . Poichè al tendere di x a 0 si può sempre scegliere un numero
reale ϵ > 0, arbitrariamente piccolo, tale che |x2 − 0| < ϵ, risulta limx→0 x2 = 0.
Si dice che per x che tende a c la funzione f (x) ha per limite inﬁnito e si scrive
lim f (x) = ∞,
x→c
se comunque ﬁssato un numero reale M > 0, arbitrariamente grande, si può determinare in corrispondenza
ad esso, un intorno di c tale che per ogni x appartenente a tale intorno (escluso al più c), si ha
|f (x)| > M.
Esempio A.14. Si consideri la funzione f (x) = 1/x, deﬁnita per ogni numero reale x ̸= 0. Al tendere di x a 0
la funzione assume valori sempre più grandi in valore assoluto e quindi, è sempre possibile scegliere un numero M
arbitrariamente grande, per il quale |f (x)| > M. Si conclude pertanto che limx→0 1/x = ∞.
Si dice che per x che tende all’inﬁnito la funzione f (x) ha limite ﬁnito l e si scrive
lim f (x) = l,
x→∞
se comunque scelto un numero reale ϵ > 0, arbitrariamente piccolo, si può determinare in corrispondenza ad
esso, un intorno di inﬁnito tale che, per ogni x appartenente a questo intorno, si ha
|f (x) − l| < ϵ.
Esempio A.15. Si consideri la funzione introdotta nell’esempio A.14. Poichè per x che tende all’inﬁnito è sempre
possibile scegliere un numero ϵ > 0, arbitrariamente piccolo, tale che |1/x − 0| < ϵ, risulta limx→∞ 1/x = 0.
Si dice che per x che tende all’inﬁnito, la funzione f (x) ha limite inﬁnito e si scrive
lim f (x) = ∞,
x→∞
se, comunque si scelga un numero reale M > 0, arbitrariamente grande, si può determinare, in corrispondenza
ad esso, un intorno di inﬁnito tale che, per ogni x appartenente a detto intorno, si ha
|f (x)| > M.
Esempio A.16. Si consideri la funzione f (x) = x3 . Poichè al tendere di x ad inﬁnito si può sempre scegliere un
numero reale M > 0, arbitrariamente grande, tale che |x3 | > M , risulta limx→∞ x3 = ∞.
Sia f una funzione deﬁnita in un intorno di x0 ∈ R. La funzione f è continua in x0 se il limite di f (x) per
x che tende ad x0 è pari a f (x0 ), in simboli
lim f (x) = f (x0 ).
x→x0
In altri termini, f è continua in x0 se per ogni ϵ > 0 esiste un numero reale δ > 0 tale che |f (x) − f (x0 )| < ϵ
quando |x − x0 | < δ.
Una funzione continua in ogni punto di un insieme I ⊆ R, si deﬁnisce continua in I.
Primi elementi di inferenza statistica (ed. maggio 2012)
216
M. Di Marzio
A. ANALISI MATEMATICA
A.12
Derivata di una funzione
Sia f una funzione deﬁnita in un intervallo I ⊆ R ed x0 un punto interno ad I. Diamo ad x0 un incremento
arbitrario ∆x0 = h, positivo o negativo, tale che (x0 + h) ∈ I. La diﬀerenza
∆f (x0 ) = f (x0 + h) − f (x0 ),
rappresenta l’incremento che subisce la funzione quando si passa dal valore x0 al valore x0 + h. Il rapporto
f (x0 + h) − f (x0 )
∆f (x0 )
=
∆x0
h
è deﬁnito rapporto incrementale della funzione f relativo al punto x0 e all’incremento h. Se esiste ed è ﬁnito,
il limite per h che tende a zero di tale rapporto incrementale deﬁnisce la derivata della funzione f in x = x0 .
In simboli
f (x0 + h) − f (x0 )
f ′ (x0 ) = lim
.
h→0
h
Nel seguito sono riportate alcune funzioni elementari f (x) e le loro funzioni derivate f ′ (x).
f (x) = k
per ogni k ∈ R
f ′ (x) = 0
f (x) = kx
per ogni k ∈ R
f ′ (x) = k
f (x) = xk
per ogni k ∈ R
f ′ (x) = kxk−1
f (x) = k x
per ogni k > 0, k ̸= 1
f ′ (x) = k x log k
f (x) = ex
f ′ (x) = ex
f ′ (x) =
f (x) = log x
f (x) =
1
x
f ′ (x) = − x12
1
x
Seguono ora alcune tra le regole di derivazione che consentono il calcolo di derivate di funzioni costruite a
partire dalle funzioni elementari.
Siano f (x) e g(x) due funzioni che ammettono derivate f ′ (x) e g ′ (x). Allora:
a) se h(x) = f (x) + g(x), h′ (x) = f ′ (x) + g ′ (x);
b) se h(x) = f (x)g(x), h′ (x) = f ′ (x)g(x) + f (x)g ′ (x);
c) se h(x) = f (x)/g(x), h′ (x) =
f ′ (x)g(x)−f (x)g ′ (x)
;
(g(x))2
d) se h(x) = f (g(x)), h′ (x) = f ′ (g(x))g ′ (x).
Esempio A.17. Sia h(x) = x2 + 3x. Posto f (x) = x2 e g(x) = 3x, dalla a) discende che h′ (x) = 2x + 3.
′
Esempio A.18. Sia h(x) = 3x. Posto f (x) = 3 e g(x) = x, dalla b) discende che h (x) = 3.
M. Di Marzio
217
Primi elementi di inferenza statistica (ed. maggio 2012)
A.13. Derivate parziali
2
Esempio A.19. Sia h(x) = e−x . Considerate le funzioni f (x) = ex e g(x) = −x2 , risulta h(x) = f (g(x)) e poiché
′
2
′
2
f (x) = e e g (x) = −2x, dalla c) discende che h′ (x) = e−x (−2x) = −2xe−x .
x
2
2
Esempio A.20. Sia h(x) = log(1−x ). Considerate le funzioni f (x) = log x e g(x) = 1−x , risulta h(x) = f (g(x)),
ed essendo f ′ (x) = 1/x e g ′ (x) = −2x, dalla c) discende che
1
2x
(−2x) = −
.
1 − x2
1 − x2
h′ (x) =
A.13
Derivate parziali
Sia f una funzione di due variabili reali, deﬁnita in un intervallo I ⊆ R2 e sia (x0 , y0 ) un punto interno ad I.
Si dice che f è derivabile rispetto alla variabile x nel punto (x0 , y0 ) se esiste ed è ﬁnito il limite seguente
lim
x→x0
f (x, y0 ) − f (x0 , y0 )
.
x − x0
Tale limite deﬁnisce la derivata parziale di f rispetto ad x e si indica con
∂f (x0 , y0 )
.
∂x
Analogamente f è derivabile rispetto alla variabile y in (x0 , y0 ) se esiste ed è ﬁnito
lim
y→y0
f (x0 , y) − f (x0 , y0 )
.
y − y0
Tale limite è la derivata parziale di f rispetto a y nel punto (x0 , y0 ) e si indica con
∂f (x0 , y0 )
.
∂y
Se f è derivabile rispetto ad x (rispettivamente rispetto ad y) in ogni punto di I, si dice allora che f è
derivabile rispetto ad x (risp. y) in I.
Il calcolo della derivata parziale di f rispetto ad x (risp. y) avviene considerando y (risp. x) costante e
calcolando la derivata di f come funzione della sola variabile x (risp. y).
Esempio A.21. Sia f (x, y) = xy. Le derivate parziali della funzione f rispetto alle due variabili sono ripettivamente
∂f (x, y)
=y
∂x
∂f (x, y)
= x.
∂y
e
Esempio A.22. Considerata la funzione f deﬁnita in R da f (x, y) = x + 2xy − y + 3x + 2y − 1, le derivate
2
2
2
parziali della funzione rispetto alle variabili x ed y sono rispettivamente
∂f (x, y)
= 2x + 2y + 3
∂x
e
∂f (x, y)
= 2x − 2y + 2.
∂y
A.14
Integrali indeﬁniti e integrali deﬁniti
Sia f una funzione di una variabile, deﬁnita nell’intervallo [a, b]. Una funzione F derivabile in [a, b] si deﬁnisce
primitiva della funzione f se
F ′ (x) = f (x) per ogni x ∈ [a, b].
Si noti che se F è una primitiva di f , anche F + c, dove c è un qualsiasi numero reale, è una primitiva di
f . L’insieme {F + c, c ∈ R} di tutte le primitive di f è detto integrale indeﬁnito di f e si indica con il
simbolo
∫
f (x)dx,
e si scrive anche
∫
f (x)dx = F (x) + c.
Nel seguito sono riportate alcune funzioni elementari f (x) e le loro funzioni primitive F (x).
Primi elementi di inferenza statistica (ed. maggio 2012)
218
M. Di Marzio
A. ANALISI MATEMATICA
f (x) = k
per ogni k ∈ R
F (x) = kx
f (x) = xn
per ogni n ∈ R
F (x) =
f (x) = ex
f (x) =
xn+1
n+1
F (x) = ex
1
x
F (x) = log x
f (x) = − x12
F (x) =
1
x
Esempio A.23. Sia f (x) = x/3 + 2. Risulta allora
∫
f (x)dx =
x2
+ 2x + c.
6
Infatti dalle regole di derivazione enunciate nella sezione precedente discende che data la funzione F (x) = x2 /6+2x+c,
si ha F ′ (x) = (2x)/6 + 2 = x/3 + 2.
Esempio A.24. Sia f (x) = e−x . Risulta allora
∫
f (x)dx = −e−x + c.
Se infatti si considera la funzione F (x) = −e−x + c, si ha F ′ (x) = (−e−x )(−1) = e−x .
Esempio A.25. Sia f (x) = 1/(1 − x). Risulta allora
∫
f (x)dx = − log(1 − x) + c,
poichè data la funzione F (x) = − log(1 − x) + c si ha F ′ (x) = −1/(1 − x) × −1 = 1/(1 − x).
Sia f una funzione continua in un intervallo [a, b]. L’area sottesa al graﬁco di f nell’intervallo [a, b] è misurata
dall’ integrale deﬁnito di f nell’intervallo [a, b] che in simboli è indicato come
∫
b
f (x)dx,
a
dove a e b sono anche detti estremi di integrazione. Di seguito sono enunciate alcune tra le principali proprietà
degli integrali deﬁniti
i)
∫
a
f (x)dx = 0;
a
ii) dato un numero reale k
∫
∫
b
b
kf (x)dx = k
a
f (x)dx;
a
iii) se f e g sono due funzioni continue nell’intervallo [a, b] si ha
∫
∫
b
(f (x) + g(x))dx =
a
M. Di Marzio
f (x)dx +
a
219
∫
b
b
g(x)dx.
a
Primi elementi di inferenza statistica (ed. maggio 2012)
A.15. Calcolo di integrali doppi
Se f è integrabile in [a, b], la funzione integrale di f in x ∈ [a, b] è deﬁnita da
∫ x
F(x) =
f (t)dt.
a
Dalle proprietà prima enunciate discende che
∫ a
F(a) =
f (x)dx = 0
∫
e
F(b) =
a
b
f (x)dx.
a
Teorema A.1. (Teorema fondamentale del calcolo integrale) Se f è una funzione continua nell’intervallo
[a, b], la corrispondente funzione integrale è derivabile in [a, b] e per ogni x ∈ [a, b] si ha
F′ (x) = f (x).
Dal teorema fondamentale del calcolo integrale discende che la funzione integrale è una primitiva della
funzione f .
Data una primitiva F di f , l’integrale di f deﬁnito in [a, b] è uguale alla diﬀerenza tra il valore assunto da F
nell’estremo superiore ed il valore di F nell’estremo inferiore di integrazione; in simboli
∫ b
f (x)dx = F (b) − F (a).
a
b
Il numero F (b) − F (a) viene generalmente scritto in forma simbolica come F (x)
e perciò si ha
a
∫
b
b
f (x)dx = F (x) .
a
a
Esempio A.26. Sia f (x) = x. Poichè una primitiva di f (x) è F (x) = (x2 )/2, si ha
∫
1
1
f (x)dx =
0
x2
1
1
= −0= .
2 0 2
2
x
x
Esempio A.27. Sia f (x) = e . Poichè una primitiva di f (x) è F (x) = e , risulta
∫
1
1
f (x)dx = ex = e1 − e0 = e − 1.
0
0
Esempio A.28. Sia f (x) = 1/(2x). Poichè una primitiva di f (x) è F (x) = log(2x)/2, risulta
∫
2
2
f (x)dx =
1
log(2x)
log 4 − log 2
log 2
=
=
.
2
2
2
1
A.15
Calcolo di integrali doppi
Sia f una funzione di due variabili reali x e y. Il volume racchiuso dalla regione D del piano sotto il graﬁco
di f (x, y) è ottenuto ricorrendo al calcolo dell’integrale doppio di f (x, y) su D.
Formalmente, data la funzione f di variabili reali x e y, e la regione
D = {(x, y) ∈ R2 : a ≤ x ≤ b, g1 (x) ≤ y ≤ g2 (x)},
dove g1 e g2 sono funzioni continue in [a, b], se esiste l’integrale
∫ g2 (x)
F(x) =
f (x, y)dy,
per ogni x ∈ [a, b],
g1 (x)
ed F è integrabile in [a, b], allora
∫ b
∫
I=
F(x)dx =
a
a
b
[∫
]
g2 (x)
∫ ∫
f (x, y)dy dx =
f (x, y)dxdy
D
g1 (x)
è l’integrale doppio di f (x, y). La regione D è detta anche dominio di integrazione.
Primi elementi di inferenza statistica (ed. maggio 2012)
220
M. Di Marzio
A. ANALISI MATEMATICA
Esempio A.29. Data la funzione f (x, y) = ex−y e il dominio di integrazione
D = {(x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1},
l’integrale doppio di f (x, y) su D è deﬁnito da
∫
1
[∫
]
ex−y dy dx,
1
I=
0
0
e poichè risulta
∫
1
1
ex−y dy = −ex−y = −ex−1 − (−ex−0 ) = ex − ex−1 ,
0
0
si ha
∫
1
I=
1
ex − ex−1 dx = ex − ex−1 = e − 1 − (1 − e−1 ) = e + e−1 − 2.
0
0
Esempio A.30. Consideriamo la funzione f (x, y) = xy con dominio di integrazione
D = {(x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}.
L’integrale doppio di f (x, y) su D è deﬁnito da
∫
1
∫
1−x
I=
xy dydx.
0
Poiché risulta
∫
1−x
xy dy = x
0
si ha
∫
1
I=
0
y2
2
0
1−x
=
0
x(1 − x)2
x3 − 2x2 + x
=
,
2
2
x3 − 2x2 + x
1
dx =
2
2
(
x4
x3
x2
−2
+
4
3
2
)
1
=
0
1
.
24
Seguono alcune proprietà degli integrali doppi.
Dato un numero reale k, si ha
∫ ∫
∫ ∫
kf (x, y) dxdy = k
f (x, y) dxdy.
D
D
Date le funzioni g(x) e h(y) continue, rispettivamente, negli intervalli [a, b] e ∈ [c, d] si ha
∫
b
∫
∫
d
g(x)h(y)dxdy =
a
c
∫
b
d
g(x)dx
h(y)dy.
a
c
Inﬁne, data una funzione m(x), continua in [a, b], e data la regione
D = {(x, y) ∈ R2 : a ≤ x ≤ b, c ≤ y ≤ d},
risulta
∫ ∫
∫
b
∫
m(x)f (x, y) dxdy =
D
M. Di Marzio
∫
d
m(x)f (x, y) dxdy =
a
c
d
m(x)
a
221
[∫
b
]
f (x, y) dy dx.
c
Primi elementi di inferenza statistica (ed. maggio 2012)
B
Calcolo combinatorio
Indice
B.1 Disposizioni e permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
B.2 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
B.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
B.1
Disposizioni e permutazioni
Scegliamo r oggetti da un insieme di n oggetti (r ≤ n) estraendoli uno dopo l’altro. Ogni possibile sequenza
così ottenuta viene chiamata disposizione (o disposizione semplice). In generale, due disposizioni si
distinguono per la presenza di almeno un oggetto o per l’ordine. Se n = r le disposizioni sono anche dette
permutazioni e sono tra loro diﬀerenti solo per l’ordine.
Ci si può chiedere quante sono le possibili disposizioni. A tale scopo basta fare il seguente ragionamento.
Nella prima estrazione scegliamo dall’intero insieme di oggetti. Così, se r = 1, abbiamo n possibili scelte
di un oggetto. Per la seconda estrazione l’oggetto scelto non è più disponibile (è diventato il primo oggetto
della disposizione) e così il numero di oggetti da cui si sceglie è n − 1. Così, se r = 2, abbiamo n(n − 1)
possibili disposizioni. Per la terza estrazione gli oggetti scelti nella prima e nella seconda prova non sono più
disponibili e così il numero di oggetti da cui scegliere è n − 2, allora le disposizioni possibili di r = 3 oggetti
saranno n(n − 1)(n − 2). In generale, il numero di possibili disposizioni di n oggetti presi a r alla volta è:
n Dr
= n(n − 1) · · · (n − r + 1),
ma poiché
n! = n(n − 1) · · · (n − r + 1)(n − r)(n − r − 1) · · · (3)(2)(1)
moltiplicando e dividendo per (n − r)! si ottiene una più comoda rappresentazione:
n Dr
= n(n − 1) · · · (n − r + 1)
n(n − 1) · · · (n − r + 1)(n − r)(n − r − 1) · · · (3)(2)(1)
=
(n − r)(n − r − 1) · · · (3)(2)(1)
n!
=
.
(n − r)!
Si noti che se n = r, poichè 0!=1, si ha
Pn =n Dn =
n!
n!
=
= n!
(n − n)!
0!
Esempio B.1. Marco, Agnese e Fabiola si sﬁdano in una maratona. Il numero dei possibili diversi ordini di arrivo
è pari al numero di permuatazioni dell’insieme {Marco, Agnese, Fabiola}. Quindi i possibili ordini di arrivo sono
3! = 6, ossia:
{M AF, M F A, F M A, F AM, AM F, AF M }.
Primi elementi di inferenza statistica (ed. maggio 2012)
222
M. Di Marzio
B. CALCOLO COMBINATORIO
B.2
Combinazioni
Se da un insieme di n oggetti scegliamo r oggetti distinti (r ≤ n), senza tener conto dell’ordine in cui essi
saranno disposti, allora ogni gruppo di r oggetti così ottenuto è chiamato combinazione.
Si noti che, a diﬀerenza delle disposizioni, due combinazioni si possono distinguere solo per la presenza di un
oggetto e non per l’ordine.
La formula delle combinazioni si evince da quella delle disposizioni, tenendo presente che, in corrispondenza
di r! disposizioni che hanno gli stessi oggetti e che quindi diﬀeriscono solo per l’ordine, abbiamo una sola
combinazione. Allora le combinazioni di n oggetti presi r alla volta, indicate con n Cr , saranno pari a:
n Cr
=
n Dr
r!
=
n!
.
(n − r)!r!
(n)
Il rapporto a destra dell’uguaglianza è generalmente indicato con
coeﬃciente binomiale.
r
che si legge n sopra r ed è detto
Esempio B.2. Si determini quante disposizioni e combinazioni di tre lettere si possono formare con W, X, Y, Z.
4 D3
=
4!
= 24;
(4 − 3)!
4 C3
=
4 D3
3!
=
4!
= 4,
(4 − 3)!3!
inoltre si considerino le 24 disposizioni come rappresentate nella tabella seguente
WXY
WXZ
WZY
XYZ
WYX
WZX
WYZ
XZY
XWY
XWZ
ZWY
YXZ
XYW
XZW
ZYW
YZX
YWX
ZWX
YWZ
ZXY
YXW
ZXW
YZW
ZYX
subito emerge che ad ogni riga di 6 = (3!) disposizioni corrisponde una sola combinazione.
B.3
Disposizioni con ripetizione
Sia nel caso delle disposizioni, sia nel caso delle combinazioni scegliamo r oggetti da un insieme di n oggetti
(r ≤ n) senza reinserimento. Un caso diverso si ha quando ogni volta che estraiamo un oggetto lo reinseriamo.
Il reinserimento rende possibile la presenza di un oggetto ﬁno a r volte nel gruppo.
Chiamiamo disposizioni con ripetizione, tutti quei gruppi di r oggetti che si possono formare a partire
da n oggetti, dove due gruppi sono diversi per la presenza di un elemento o per l’ordine, e dove un elemento
può presentarsi più di una volta. Ma quante sono le possibili disposizioni? La risposta è molto semplice.
Poichè operiamo il reinserimento, al primo posto del gruppo può esserci qualunque oggetto degli n, ma anche
al secondo, al terzo e così via, così per gruppi da un elemento avremmo n disposizioni, per gruppi da due
elementi avremmo n × n disposizioni, per gruppi da tre elementi n × n × n disposizioni, e così via.
In generale abbiamo il seguente numero di disposizioni con ripetizione
n Dr
= n × n · · · × n = nr .
|
{z
}
r volte
Esempio B.3. Si consideri il seguente gruppo di n = 4 oggetti {a, b, c, d}. Quali sono le disposizioni semplici, le
combinazioni e le disposizioni con ripetizione di ampiezza r = 2?
Si hanno le seguenti 4!/(4 − 2)! = 12 disposizioni semplici
{ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc};
inoltre si hanno le seguenti 4!/[(4 − 2)!2!] = 6 combinazioni
{ab, ac, ad, bc, bd, cd};
inﬁne si hanno le seguenti 42 = 16 disposizioni con ripetizione
{aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd}.
M. Di Marzio
223
Primi elementi di inferenza statistica (ed. maggio 2012)
C
Tavole statistiche
Funzione di ripartizione della distribuzione normale standard
Centili superiori della distribuzione t di Student
Centili superiori della distribuzione Chi-quadrato
Centili superiori della distribuzione F di Fisher
Primi elementi di inferenza statistica (ed. maggio 2012)
224
M. Di Marzio
C. TAVOLE STATISTICHE
Funzione di ripartizione della distribuzione normale standard
La tavola fornisce i valori della v.c. Z e rispettiva funzione di ripartizione Φ(z) = P(Z ≤ z).
Φ(z)
z *
M. Di Marzio
z
0
0.1
0.2
0.3
0.4
0.0
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
2.5
2.6
2.7
2.8
2.9
0.9938
0.9953
0.9965
0.9974
0.9981
0.9940
0.9955
0.9966
0.9975
0.9982
0.9941
0.9956
0.9967
0.9976
0.9982
0.9943
0.9957
0.9968
0.9977
0.9983
0.9945
0.9959
0.9969
0.9977
0.9984
0.9946
0.9960
0.9970
0.9978
0.9984
0.9948
0.9961
0.9971
0.9979
0.9985
0.9949
0.9962
0.9972
0.9979
0.9985
0.9951
0.9963
0.9973
0.9980
0.9986
0.9952
0.9964
0.9974
0.9981
0.9986
3.0
3.1
3.2
3.3
3.4
0.9987
0.9990
0.9993
0.9995
0.9997
0.9987
0.9991
0.9993
0.9995
0.9997
0.9987
0.9991
0.9994
0.9995
0.9997
0.9988
0.9991
0.9994
0.9996
0.9997
0.9988
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9997
0.9998
225
Primi elementi di inferenza statistica (ed. maggio 2012)
Centili superiori della distribuzione t di Student
Dati γ ed r, la tavola fornisce le soglie tγ,r tali che P(Tr > tγ,r ) = γ. Per i test bidirezionali γ = α/2, per gli unidirezionali γ = α.
γ
*
tγ,r
r
1
2
3
4
5
0.40
0.325
0.289
0.277
0.271
0.267
0.30
0.727
0.617
0.584
0.569
0.559
0.20
1.376
1.061
0.978
0.941
0.920
0.10
3.078
1.886
1.638
1.533
1.476
γ
0.050
6.314
2.920
2.353
2.132
2.015
0.025
12.706
4.303
3.182
2.776
2.571
0.010
31.821
6.965
4.541
3.747
3.365
0.005
63.657
9.9250
5.8410
4.604
4.032
0.001
318.309
22.327
10.215
7.173
5.893
6
7
8
9
10
0.265
0.263
0.262
0.261
0.260
0.553
0.549
0.546
0.543
0.542
0.906
0.896
0.889
0.883
0.879
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.208
4.785
4.501
4.297
4.144
11
12
13
14
15
0.260
0.259
0.259
0.258
0.258
0.54
0.539
0.538
0.537
0.536
0.876
0.873
0.870
0.868
0.866
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.025
3.930
3.852
3.787
3.733
16
17
18
19
20
0.258
0.257
0.257
0.257
0.257
0.535
0.534
0.534
0.533
0.533
0.865
0.863
0.862
0.861
0.860
1.337
1.333
1.330
1.328
1.325
1.746
1.740
1.734
1.729
1.725
2.120
2.110
2.101
2.093
2.086
2.583
2.567
2.552
2.539
2.528
2.921
2.898
2.878
2.861
2.845
3.686
3.646
3.610
3.579
3.552
21
22
23
24
25
0.257
0.256
0.256
0.256
0.256
0.532
0.532
0.532
0.531
0.531
0.859
0.858
0.858
0.857
0.856
1.323
1.321
1.319
1.318
1.316
1.721
1.717
1.714
1.711
1.708
2.080
2.074
2.069
2.064
2.060
2.518
2.508
2.500
2.492
2.485
2.831
2.819
2.807
2.797
2.787
3.527
3.505
3.485
3.467
3.450
26
27
28
29
30
0.256
0.256
0.256
0.256
0.256
0.531
0.531
0.530
0.530
0.530
0.856
0.855
0.855
0.854
0.854
1.315
1.314
1.313
1.311
1.310
1.706
1.703
1.701
1.699
1.697
2.056
2.052
2.048
2.045
2.042
2.479
2.473
2.467
2.462
2.457
2.779
2.771
2.763
2.756
2.750
3.435
3.421
3.408
3.396
3.385
31
32
33
34
35
0.256
0.255
0.255
0.255
0.255
0.530
0.530
0.530
0.529
0.529
0.853
0.853
0.853
0.852
0.852
1.309
1.309
1.308
1.307
1.306
1.696
1.694
1.692
1.691
1.690
2.040
2.037
2.035
2.032
2.030
2.453
2.449
2.445
2.441
2.438
2.744
2.738
2.733
2.728
2.724
3.375
3.365
3.356
3.348
3.340
36
37
38
39
40
0.255
0.255
0.255
0.255
0.255
0.529
0.529
0.529
0.529
0.529
0.852
0.851
0.851
0.851
0.851
1.306
1.305
1.304
1.304
1.303
1.688
1.687
1.686
1.685
1.684
2.028
2.026
2.024
2.023
2.021
2.434
2.431
2.429
2.426
2.423
2.719
2.715
2.712
2.708
2.704
3.333
3.326
3.319
3.313
3.307
41
42
43
44
45
0.255
0.255
0.255
0.255
0.255
0.529
0.528
0.528
0.528
0.528
0.850
0.850
0.850
0.850
0.850
1.303
1.302
1.302
1.301
1.301
1.683
1.682
1.681
1.680
1.679
2.020
2.018
2.017
2.015
2.014
2.421
2.418
2.416
2.414
2.412
2.701
2.698
2.695
2.692
2.690
3.301
3.296
3.291
3.286
3.281
46
47
48
49
50
∞
0.255
0.255
0.255
0.255
0.255
0.253
0.528
0.528
0.528
0.528
0.528
0.524
0.850
0.849
0.849
0.849
0.849
0.842
1.300
1.300
1.299
1.299
1.299
1.282
1.679
1.678
1.677
1.677
1.676
1.645
2.013
2.012
2.011
2.010
2.009
1.690
2.410
2.408
2.407
2.405
2.403
2.326
2.687
2.685
2.682
2.680
2.678
2.576
3.277
3.273
3.269
3.265
3.261
3.090
Primi elementi di inferenza statistica (ed. maggio 2012)
226
M. Di Marzio
C. TAVOLE STATISTICHE
Centili superiori della distribuzione Chi-quadrato
Dati α ed r, la tavola fornisce i valori χ2α,r tali che P(X2r > χ2α,r ) = α.
α
*χ2
α,r
r
1
2
3
4
5
6
7
8
9
10
0.995
0.00
0.01
0.07
0.21
0.41
0.68
0.99
1.34
1.73
2.16
0.99
0.00
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56
0.9750
0.00
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25
0.95
0.00
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
0.90
0.02
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87
0.75
0.10
0.58
1.21
1.92
2.67
3.45
4.25
5.07
5.90
6.74
0.50
0.45
1.39
2.37
3.36
4.35
5.35
6.35
7.34
8.34
9.34
α
0.25
1.32
2.77
4.11
5.39
6.63
7.84
9.04
10.22
11.39
12.55
0.10
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
0.05
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
0.0250
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
0.01
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
0.005
7.88
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
0.001
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59
11
12
13
14
15
16
17
18
19
20
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
7.58
8.44
9.30
10.17
11.04
11.91
12.79
13.68
14.56
15.45
10.34
11.34
12.34
13.34
14.34
15.34
16.34
17.34
18.34
19.34
13.70
14.85
15.98
17.12
18.25
19.37
20.49
21.60
22.72
23.83
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
21
22
23
24
25
26
27
28
29
30
8.03
8.64
9.26
9.89
10.52
11.16
11.81
12.46
13.12
13.79
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60
16.34
17.24
18.14
19.04
19.94
20.84
21.75
22.66
23.57
24.48
20.34
21.34
22.34
23.34
24.34
25.34
26.34
27.34
28.34
29.34
24.93
26.04
27.14
28.24
29.34
30.43
31.53
32.62
33.71
34.80
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
41.40
42.80
44.18
45.56
46.93
48.29
49.64
50.99
52.34
53.67
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
31
32
33
34
35
36
37
38
39
40
14.46
15.13
15.82
16.50
17.19
17.89
18.59
19.29
20.00
20.71
15.66
16.36
17.07
17.79
18.51
19.23
19.96
20.69
21.43
22.16
17.54
18.29
19.05
19.81
20.57
21.34
22.11
22.88
23.65
24.43
19.28
20.07
20.87
21.66
22.47
23.27
24.07
24.88
25.70
26.51
21.43
22.27
23.11
23.95
24.80
25.64
26.49
27.34
28.20
29.05
25.39
26.30
27.22
28.14
29.05
29.97
30.89
31.81
32.74
33.66
30.34
31.34
32.34
33.34
34.34
35.34
36.34
37.34
38.34
39.34
35.89
36.97
38.06
39.14
40.22
41.30
42.38
43.46
44.54
45.62
41.42
42.58
43.75
44.90
46.06
47.21
48.36
49.51
50.66
51.81
44.99
46.19
47.40
48.60
49.80
51.00
52.19
53.38
54.57
55.76
48.23
49.48
50.73
51.97
53.20
54.44
55.67
56.90
58.12
59.34
52.19
53.49
54.78
56.06
57.34
58.62
59.89
61.16
62.43
63.69
55.00
56.33
57.65
58.96
60.27
61.58
62.88
64.18
65.48
66.77
61.10
62.49
63.87
65.25
66.62
67.99
69.35
70.70
72.05
73.40
45
50
55
60
65
70
75
80
85
90
95
100
24.31
27.99
31.73
35.53
39.38
43.28
47.21
51.17
55.17
59.20
63.25
67.33
25.90
29.71
33.57
37.48
41.44
45.44
49.48
53.54
57.63
61.75
65.90
70.06
28.37
32.36
36.40
40.48
44.60
48.76
52.94
57.15
61.39
65.65
69.92
74.22
30.61
34.76
38.96
43.19
47.45
51.74
56.05
60.39
64.75
69.13
73.52
77.93
33.35
37.69
42.06
46.46
50.88
55.33
59.79
64.28
68.78
73.29
77.82
82.36
38.29
42.94
47.61
52.29
56.99
61.70
66.42
71.14
75.88
80.62
85.38
90.13
44.34
49.33
54.33
59.33
64.33
69.33
74.33
79.33
84.33
89.33
94.33
99.33
50.98
56.33
61.66
66.98
72.28
77.58
82.86
88.13
93.39
98.65
103.90
109.14
57.51
63.17
68.80
74.40
79.97
85.53
91.06
96.58
102.08
107.57
113.04
118.50
61.66
67.50
73.31
79.08
84.82
90.53
96.22
101.88
107.52
113.15
118.75
124.34
65.41
71.42
77.38
83.30
89.18
95.02
1.84
106.63
112.39
118.14
123.86
129.56
69.96
76.15
82.29
88.38
94.42
1.43
106.39
112.33
118.24
124.12
129.97
135.81
73.17
79.49
85.75
91.95
98.11
104.21
110.29
116.32
122.32
128.30
134.25
140.17
80.08
86.66
93.17
99.61
105.99
112.32
118.60
124.84
131.04
137.21
143.34
149.45
M. Di Marzio
227
Primi elementi di inferenza statistica (ed. maggio 2012)
Centili superiori della distribuzione F di Fisher
r1
r2
1
1
2
2
3
3
3
4
4
4
5
5
5
6
6
6
7
7
7
8
8
8
9
9
9
10
10
10
11
11
11
161.45
4052.2
18.51
98.5
10.13
34.12
167.03
7.71
21.2
74.14
6.61
16.26
47.18
5.99
13.75
35.51
5.59
12.25
29.25
5.32
11.26
25.41
5.12
10.56
22.86
4.96
10.04
21.04
4.84
9.65
19.69
1
199.5
4999.5
19
99
9.55
30.82
148.5
6.94
18
61.25
5.79
13.27
37.12
5.14
10.92
27
4.74
9.55
21.69
4.46
8.65
18.49
4.26
8.02
16.39
4.1
7.56
14.91
3.98
7.21
13.81
2
215.71
5403.4
19.16
99.17
9.28
29.46
141.11
6.59
16.69
56.18
5.41
12.06
33.2
4.76
9.78
23.7
4.35
8.45
18.77
4.07
7.59
15.83
3.86
6.99
13.9
3.71
6.55
12.55
3.59
6.22
11.56
3
224.58
5624.6
19.25
99.25
9.12
28.71
137.1
6.39
15.98
53.44
5.19
11.39
31.09
4.53
9.15
21.92
4.12
7.85
17.2
3.84
7.01
14.39
3.63
6.42
12.56
3.48
5.99
11.28
3.36
5.67
10.35
4
230.16
5763.6
19.3
99.3
9.01
28.24
134.58
6.26
15.52
51.71
5.05
10.97
29.75
4.39
8.75
20.8
3.97
7.46
16.21
3.69
6.63
13.48
3.48
6.06
11.71
3.33
5.64
10.48
3.2
5.32
9.58
5
233.99
5859
19.33
99.33
8.94
27.91
132.85
6.16
15.21
50.53
4.95
10.67
28.83
4.28
8.47
20.03
3.87
7.19
15.52
3.58
6.37
12.86
3.37
5.8
11.13
3.22
5.39
9.93
3.09
5.07
9.05
6
236.77
5928.4
19.35
99.36
8.89
27.67
131.58
6.09
14.98
49.66
4.88
10.46
28.16
4.21
8.26
19.46
3.79
6.99
15.02
3.5
6.18
12.4
3.29
5.61
10.7
3.14
5.2
9.52
3.01
4.89
8.66
7
α
8
240.54
6022.5
19.38
99.39
8.81
27.35
129.86
6
14.66
48.47
4.77
10.16
27.24
4.1
7.98
18.69
3.68
6.72
14.33
3.39
5.91
11.77
3.18
5.35
10.11
3.02
4.94
8.96
2.9
4.63
8.12
9
241.88
6055.9
19.4
99.4
8.79
27.23
129.25
5.96
14.55
48.05
4.74
10.05
26.92
4.06
7.87
18.41
3.64
6.62
14.08
3.35
5.81
11.54
3.14
5.26
9.89
2.98
4.85
8.75
2.85
4.54
7.92
10
243.91
6106.3
19.41
99.42
8.74
27.05
128.32
5.91
14.37
47.41
4.68
9.89
26.42
4
7.72
17.99
3.57
6.47
13.71
3.28
5.67
11.19
3.07
5.11
9.57
2.91
4.71
8.45
2.79
4.4
7.63
12
245.95
6157.3
19.43
99.43
8.7
26.87
127.37
5.86
14.2
46.76
4.62
9.72
25.91
3.94
7.56
17.56
3.51
6.31
13.32
3.22
5.52
10.84
3.01
4.96
9.24
2.85
4.56
8.13
2.72
4.25
7.32
15
248.01
6208.7
19.45
99.45
8.66
26.69
126.42
5.8
14.02
46.1
4.56
9.55
25.39
3.87
7.4
17.12
3.44
6.16
12.93
3.15
5.36
10.48
2.94
4.81
8.9
2.77
4.41
7.8
2.65
4.1
7.01
20
250.1
6260.6
19.46
99.47
8.62
26.5
125.45
5.75
13.84
45.43
4.5
9.38
24.87
3.81
7.23
16.67
3.38
5.99
12.53
3.08
5.2
10.11
2.86
4.65
8.55
2.7
4.25
7.47
2.57
3.94
6.68
30
252.2
6313
19.48
99.48
8.57
26.32
124.47
5.69
13.65
44.75
4.43
9.2
24.33
3.74
7.06
16.21
3.3
5.82
12.12
3.01
5.03
9.73
2.79
4.48
8.19
2.62
4.08
7.12
2.49
3.78
6.35
60
*
,r
238.88
5981.1
19.37
99.37
8.85
27.49
130.62
6.04
14.8
49
4.82
10.29
27.65
4.15
8.1
19.03
3.73
6.84
14.63
3.44
6.03
12.05
3.23
5.47
10.37
3.07
5.06
9.2
2.95
4.74
8.35
1 2
fα,r
Per livelli di α pari a 0.05, 0.01, 0.001, e le coppie (r1 , r2 ), la tavola fornisce i valori fα,r1 ,r2 tali che P(Fr1 ,r2 > fα,r1 ,r2 ) = α.
α
0.05
0.01
0.05
0.01
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
120
∞
253.25
254.32
6339.4
6365.6
19.49
19.5
99.49
99.5
8.55
8.53
26.22
26.13
123.97
123.46
5.66
5.63
13.56
13.46
44.4
44.05
4.4
4.37
9.11
9.02
24.06
23.79
3.7
3.67
6.97
6.88
15.98
15.75
3.27
3.23
5.74
5.65
11.91
11.7
2.97
2.93
4.95
4.86
9.53
9.33
2.75
2.71
4.4
4.31
8
7.81
2.58
2.54
4
3.91
6.94
6.76
2.45
2.4
3.69
3.36
6.186
6
-continua-
M. Di Marzio
228
Primi elementi di inferenza statistica (ed. maggio 2012)
M. Di Marzio
α
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
-seguer1
r2
12
12
12
13
13
13
14
14
14
15
15
15
16
16
16
17
17
17
18
18
18
19
19
19
20
20
20
21
21
21
22
22
22
23
23
23
24
24
24
25
25
25
4.75
9.33
18.64
4.67
9.07
17.82
4.6
8.86
17.14
4.54
8.68
16.59
4.49
8.53
16.12
4.45
8.4
15.72
4.41
8.29
15.38
4.38
8.18
15.08
4.35
8.1
14.82
4.32
8.02
14.59
4.3
7.95
14.38
4.28
7.88
14.2
4.26
7.82
14.03
4.24
7.77
13.88
1
3.89
6.93
12.97
3.81
6.7
12.31
3.74
6.51
11.78
3.68
6.36
11.34
3.63
6.23
10.97
3.59
6.11
10.66
3.55
6.01
10.39
3.52
5.93
10.16
3.49
5.85
9.95
3.47
5.78
9.77
3.44
5.72
9.61
3.42
5.66
9.47
3.4
5.61
9.34
3.39
5.57
9.22
2
3.49
5.95
10.8
3.41
5.74
10.21
3.34
5.56
9.73
3.29
5.42
9.34
3.24
5.29
9.01
3.2
5.18
8.73
3.16
5.09
8.49
3.13
5.01
8.28
3.1
4.94
8.1
3.07
4.87
7.94
3.05
4.82
7.8
3.03
4.76
7.67
3.01
4.72
7.55
2.99
4.68
7.45
3
3.26
5.41
9.63
3.18
5.21
9.07
3.11
5.04
8.62
3.06
4.89
8.25
3.01
4.77
7.94
2.96
4.67
7.68
2.93
4.58
7.46
2.9
4.5
7.27
2.87
4.43
7.1
2.84
4.37
6.95
2.82
4.31
6.81
2.8
4.26
6.7
2.78
4.22
6.59
2.76
4.18
6.49
4
3.11
5.06
8.89
3.03
4.86
8.35
2.96
4.69
7.92
2.9
4.56
7.57
2.85
4.44
7.27
2.81
4.34
7.02
2.77
4.25
6.81
2.74
4.17
6.62
2.71
4.1
6.46
2.68
4.04
6.32
2.66
3.99
6.19
2.64
3.94
6.08
2.62
3.9
5.98
2.6
3.85
5.89
5
3
4.82
8.38
2.92
4.62
7.86
2.85
4.46
7.44
2.79
4.32
7.09
2.74
4.2
6.8
2.7
4.1
6.56
2.66
4.01
6.35
2.63
3.94
6.18
2.6
3.87
6.02
2.57
3.81
5.88
2.55
3.76
5.76
2.53
3.71
5.65
2.51
3.67
5.55
2.49
3.63
5.46
6
2.91
4.64
8
2.83
4.44
7.49
2.76
4.28
7.08
2.71
4.14
6.74
2.66
4.03
6.46
2.61
3.93
6.22
2.58
3.84
6.02
2.54
3.77
5.85
2.51
3.7
5.69
2.49
3.64
5.56
2.46
3.59
5.44
2.44
3.54
5.33
2.42
3.5
5.23
2.4
3.46
5.15
7
2.85
4.5
7.71
2.77
4.3
7.21
2.7
4.14
6.8
2.64
4
6.47
2.59
3.89
6.19
2.55
3.79
5.96
2.51
3.71
5.76
2.48
3.63
5.59
2.45
3.56
5.44
2.42
3.51
5.31
2.4
3.45
5.19
2.37
3.41
5.09
2.36
3.36
4.99
2.34
3.32
4.91
8
2.8
4.39
7.48
2.71
4.19
6.98
2.65
4.03
6.58
2.59
3.89
6.26
2.54
3.78
5.98
2.49
3.68
5.75
2.46
3.6
5.56
2.42
3.52
5.39
2.39
3.46
5.24
2.37
3.4
5.11
2.34
3.35
4.99
2.32
3.3
4.89
2.3
3.26
4.8
2.28
3.22
4.71
9
2.75
4.3
7.29
2.67
4.1
6.8
2.6
3.94
6.4
2.54
3.8
6.08
2.49
3.69
5.81
2.45
3.59
5.58
2.41
3.51
5.39
2.38
3.43
5.22
2.35
3.37
5.08
2.32
3.31
4.95
2.3
3.26
4.83
2.27
3.21
4.73
2.25
3.17
4.64
2.24
3.13
4.56
10
2.69
4.16
7
2.6
3.96
6.52
2.53
3.8
6.13
2.48
3.67
5.81
2.42
3.55
5.55
2.38
3.46
5.32
2.34
3.37
5.13
2.31
3.3
4.97
2.28
3.23
4.82
2.25
3.17
4.7
2.23
3.12
4.58
2.2
3.07
4.48
2.18
3.03
4.39
2.16
2.99
4.31
12
2.62
4.01
6.71
2.53
3.82
6.23
2.46
3.66
5.85
2.4
3.52
5.54
2.35
3.41
5.27
2.31
3.31
5.05
2.27
3.23
4.87
2.23
3.15
4.7
2.2
3.09
4.56
2.18
3.03
4.44
2.15
2.98
4.33
2.13
2.93
4.23
2.11
2.89
4.14
2.09
2.85
4.06
15
2.54
3.86
6.4
2.46
3.66
5.93
2.39
3.51
5.56
2.33
3.37
5.25
2.28
3.26
4.99
2.23
3.16
4.78
2.19
3.08
4.59
2.16
3
4.43
2.12
2.94
4.29
2.1
2.88
4.17
2.07
2.83
4.06
2.05
2.78
3.96
2.03
2.74
3.87
2.01
2.7
3.79
20
2.47
3.7
6.09
2.38
3.51
5.63
2.31
3.35
5.25
2.25
3.21
4.95
2.19
3.1
4.7
2.15
3
4.48
2.11
2.92
4.3
2.07
2.84
4.14
2.04
2.78
4
2.01
2.72
3.88
1.98
2.67
3.78
1.96
2.62
3.68
1.94
2.58
3.59
1.92
2.54
3.52
30
2.38
3.54
5.76
2.3
3.34
5.3
2.22
3.18
4.94
2.16
3.05
4.64
2.11
2.93
4.39
2.06
2.83
4.18
2.02
2.75
4
1.98
2.67
3.84
1.95
2.61
3.7
1.92
2.55
3.58
1.89
2.5
3.48
1.86
2.45
3.38
1.84
2.4
3.29
1.82
2.36
3.22
60
∞
2.34
2.3
3.45
3.36
5.59
5.42
2.25
2.21
3.25
3.17
5.14
4.97
2.18
2.13
3.09
3
4.77
4.6
2.11
2.07
2.96
2.87
4.47
4.31
2.06
2.01
2.84
2.75
4.23
4.06
2.01
1.96
2.75
2.65
4.02
3.85
1.97
1.92
2.66
2.57
3.84
3.67
1.93
1.88
2.58
2.49
3.68
3.51
1.9
1.84
2.52
2.42
3.54
3.38
1.87
1.81
2.46
2.36
3.42
3.26
1.84
1.78
2.4
2.31
3.32
3.15
1.81
1.76
2.35
2.26
3.22
3.05
1.79
1.73
2.31
2.21
3.14
2.97
1.77
1.71
2.27
2.17
3.06
2.89
-continua-
120
C. TAVOLE STATISTICHE
229
Primi elementi di inferenza statistica (ed. maggio 2012)
-segueα
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
0.05
0.01
0.001
r1
r2
26
26
26
27
27
27
28
28
28
29
29
29
30
30
30
35
35
35
40
40
40
50
50
50
60
60
60
70
70
70
80
80
80
90
90
90
100
100
100
∞
∞
∞
4.23
7.72
13.74
4.21
7.68
13.61
4.2
7.64
13.5
4.18
7.6
13.39
4.17
7.56
13.29
4.12
7.42
12.9
4.08
7.31
12.61
4.03
7.17
12.22
4
7.08
11.97
3.98
7.01
11.8
3.96
6.96
11.67
3.95
6.93
11.57
3.94
6.9
11.5
3.84
6.63
10.83
1
3.37
5.53
9.12
3.35
5.49
9.02
3.34
5.45
8.93
3.33
5.42
8.85
3.32
5.39
8.77
3.27
5.27
8.47
3.23
5.18
8.25
3.18
5.06
7.96
3.15
4.98
7.77
3.13
4.92
7.64
3.11
4.88
7.54
3.1
4.85
7.47
3.09
4.82
7.41
3
4.61
6.91
2
2.98
4.64
7.36
2.96
4.6
7.27
2.95
4.57
7.19
2.93
4.54
7.12
2.92
4.51
7.05
2.87
4.4
6.79
2.84
4.31
6.59
2.79
4.2
6.34
2.76
4.13
6.17
2.74
4.07
6.06
2.72
4.04
5.97
2.71
4.01
5.91
2.7
3.98
5.86
2.6
3.78
5.42
3
2.74
4.14
6.41
2.73
4.11
6.33
2.71
4.07
6.25
2.7
4.04
6.19
2.69
4.02
6.12
2.64
3.91
5.88
2.61
3.83
5.7
2.56
3.72
5.46
2.53
3.65
5.31
2.5
3.6
5.2
2.49
3.56
5.12
2.47
3.53
5.06
2.46
3.51
5.02
2.37
3.32
4.62
4
2.59
3.82
5.8
2.57
3.78
5.73
2.56
3.75
5.66
2.55
3.73
5.59
2.53
3.7
5.53
2.49
3.59
5.3
2.45
3.51
5.13
2.4
3.41
4.9
2.37
3.34
4.76
2.35
3.29
4.66
2.33
3.26
4.58
2.32
3.23
4.53
2.31
3.21
4.48
2.21
3.02
4.10
5
2.47
3.59
5.38
2.46
3.56
5.31
2.45
3.53
5.24
2.43
3.5
5.18
2.42
3.47
5.12
2.37
3.37
4.89
2.34
3.29
4.73
2.29
3.19
4.51
2.25
3.12
4.37
2.23
3.07
4.28
2.21
3.04
4.2
2.2
3.01
4.15
2.19
2.99
4.11
2.1
2.8
3.74
6
2.39
3.42
5.07
2.37
3.39
5
2.36
3.36
4.93
2.35
3.33
4.87
2.33
3.3
4.82
2.29
3.2
4.59
2.25
3.12
4.44
2.2
3.02
4.22
2.17
2.95
4.09
2.14
2.91
3.99
2.13
2.87
3.92
2.11
2.84
3.87
2.1
2.82
3.83
2.01
2.64
3.47
7
2.32
3.29
4.83
2.31
3.26
4.76
2.29
3.23
4.69
2.28
3.2
4.64
2.27
3.17
4.58
2.22
3.07
4.36
2.18
2.99
4.21
2.13
2.89
4
2.1
2.82
3.86
2.07
2.78
3.77
2.06
2.74
3.7
2.04
2.72
3.65
2.03
2.69
3.61
1.94
2.51
3.27
8
2.27
3.18
4.64
2.25
3.15
4.57
2.24
3.12
4.5
2.22
3.09
4.45
2.21
3.07
4.39
2.16
2.96
4.18
2.12
2.89
4.02
2.07
2.78
3.82
2.04
2.72
3.69
2.02
2.67
3.6
2
2.64
3.53
1.99
2.61
3.48
1.97
2.59
3.44
1.88
2.41
3.10
9
2.22
3.09
4.48
2.2
3.06
4.41
2.19
3.03
4.35
2.18
3
4.29
2.16
2.98
4.24
2.11
2.88
4.03
2.08
2.8
3.87
2.03
2.7
3.67
1.99
2.63
3.54
1.97
2.59
3.45
1.95
2.55
3.39
1.94
2.52
3.34
1.93
2.5
3.3
1.83
2.32
2.96
10
2.15
2.96
4.24
2.13
2.93
4.17
2.12
2.9
4.11
2.1
2.87
4.05
2.09
2.84
4
2.04
2.74
3.79
2
2.66
3.64
1.95
2.56
3.44
1.92
2.5
3.32
1.89
2.45
3.23
1.88
2.42
3.16
1.86
2.39
3.11
1.85
2.37
3.07
1.75
2.18
2.74
12
2.07
2.81
3.99
2.06
2.78
3.92
2.04
2.75
3.86
2.03
2.73
3.8
2.01
2.7
3.75
1.96
2.6
3.55
1.92
2.52
3.4
1.87
2.42
3.2
1.84
2.35
3.08
1.81
2.31
2.99
1.79
2.27
2.93
1.78
2.24
2.88
1.77
2.22
2.84
1.67
2.04
2.51
15
1.99
2.66
3.72
1.97
2.63
3.66
1.96
2.6
3.6
1.94
2.57
3.54
1.93
2.55
3.49
1.88
2.44
3.29
1.84
2.37
3.14
1.78
2.27
2.95
1.75
2.2
2.83
1.72
2.15
2.74
1.7
2.12
2.68
1.69
2.09
2.63
1.68
2.07
2.59
1.57
1.88
2.27
20
1.9
2.5
3.44
1.88
2.47
3.38
1.87
2.44
3.32
1.85
2.41
3.27
1.84
2.39
3.22
1.79
2.28
3.02
1.74
2.2
2.87
1.69
2.1
2.68
1.65
2.03
2.55
1.62
1.98
2.47
1.6
1.94
2.41
1.59
1.92
2.36
1.57
1.89
2.32
1.46
1.7
1.99
30
1.8
2.33
3.15
1.79
2.29
3.08
1.77
2.26
3.02
1.75
2.23
2.97
1.74
2.21
2.92
1.68
2.1
2.72
1.64
2.02
2.57
1.58
1.91
2.38
1.53
1.84
2.25
1.5
1.78
2.16
1.48
1.75
2.1
1.46
1.72
2.05
1.45
1.69
2.01
1.32
1.47
1.66
60
1.75
2.23
2.99
1.73
2.2
2.92
1.71
2.17
2.86
1.7
2.14
2.81
1.68
2.11
2.76
1.62
2
2.56
1.58
1.92
2.41
1.51
1.8
2.21
1.47
1.73
2.08
1.44
1.67
1.99
1.41
1.63
1.92
1.39
1.6
1.87
1.38
1.57
1.83
1.22
1.32
1.45
120
1.69
2.13
2.82
1.67
2.1
2.75
1.65
2.06
2.69
1.64
2.03
2.64
1.62
2.01
2.59
1.56
1.89
2.38
1.51
1.8
2.23
1.44
1.68
2.03
1.39
1.6
1.89
1.35
1.54
1.79
1.32
1.49
1.72
1.3
1.46
1.66
1.28
1.43
1.62
1
1
1
∞
M. Di Marzio
230
Primi elementi di inferenza statistica (ed. maggio 2012)
D
Elenco delle abbreviazioni e dei simboli
v.c.
pdf
vv.cc. i.i.d.
TCL
=
̸
=
<
≤
>
≥
±
≃
∝
⇒
⇔
f :X →Y
lim
∞
e
ex ; exp{x}
log x
min
max
sup A
∀
N
Z
Z+
Z−
R
R+
R−
Rk
∈
∈
/
⊂
⊆
A∪B
A∩B
A−B
A×B
∅
A
♯A
Ω
ω
P(A)
P(A|B)
P(A, B)
f ′ (x0 )
∫
∫ bf (x)dx
∫a∫f (x)dx
f (x, y)dxdy
variabile casuale
funzione di distribuzione (densità) di probabilità di una v.c. discreta (continua)
variabili casuali indipendenti e identicamente distribuite
teorema centrale del limite
uguale
diverso
minore
minore o uguale
maggiore
maggiore o uguale
più e meno
approssimativamente uguale
proporzionale a
implica
se e solo se
funzione f da X in Y
limite
inﬁnito
numero di Nepero
funzione esponenziale di variabile x
logaritmo di x in base e, logaritmo naturale di x
minimo
massimo
estremo superiore dell’insieme A
per ogni
insieme dei numeri naturali
insieme dei numeri interi
insieme dei numeri interi positivi
insieme dei numeri interi negativi
insieme dei numeri reali
insieme dei numeri reali positivi
insieme dei numeri reali negativi
spazio dei numeri reali in k dimensioni
appartiene a, è elemento di
non appartiene a, non è elemento di
è un sottoinsieme proprio di
è incluso in, è un sottoinsieme di
unione degli insiemi A e B
intersezione degli insiemi A e B
diﬀerenza tra gli insiemi A e B
prodotto cartesiano tra gli insiemi A e B
insieme vuoto
insieme complementare dell’insieme A
cardinalità dell’insieme A
spazio fondamentale
evento elementare
probabilità dell’evento A
probabilità dell’evento A condizionata all’evento B
probabilità dell’evento A ∩ B
derivata della funzione f nel punto x0
integrale indeﬁnito della funzione f (x)
integrale deﬁnito della funzione f (x) nell’intervallo [a, b]
integrale della funzione f (x, y) nel dominio D
D
M. Di Marzio
231
Primi elementi di inferenza statistica (ed. maggio 2012)
Pn
pX
fX
FX
pXY
fXY
pY |x
fY |x
E[X]
E[Y |x]
Var[X]
Var[Y |x]
Dev[X]
Cov[X, Y ]
Cod[X, Y ]
ρXY
n!
k Dn ( )
n
k Cn ; k
X ∼ B(n, π)
X ∼ G(π)
X ∼ I(T, S, n)
X ∼ P(λt)
X ∼ U (a, b)
X ∼ E(λ)
X ∼ N (µ, σ 2 )
Z
Φ(·)
Tn
tα,n
X2n
χ2α,n
Fn,m
fα,n,m
X
θ
Θ
Θ̂
θ̂
EQM[Θ̂]
dist[Θ̂]
X
x̄
S2
s2
P
p
R; RXY
r; rxy
COD; CODXY
cod; codxy
DEV ; DEVX
dev; devx
pX1 X2 ...Xn
fX1 X2 ...Xn
L
L
Iθ
iθ
Err
A
R
H0
H1
R
α(θ)
β(θ)
℘(θ)
γ
zα
Nij
Ni•
N•j
nij
ni•
n•j
E
EQMP[Y ]
µY |x
mY |x
β0 , β1
B0 , B1
b0 , b1
R(t)
λ(t)
T
permutazioni di n oggetti
pdf della v.c. discreta X
pdf della v.c. continua X
funzione di ripartizione della v.c. X
pdf della v.c. discreta (X, Y )
pdf della v.c. continua (X, Y )
pdf della v.c. discreta Y dato X = x
pdf della v.c. continua Y dato X = x
valore atteso della v.c. X
valore atteso della distribuzione della v.c. Y condizionata ad X = x
varianza della v.c. X
varianza della distribuzione della v.c. Y condizionata ad X = x
devianza della v.c. X
covarianza tra le vv .cc. X e Y
codevianza tra le vv.cc. X e Y
coeﬃciente di correlazione tra X e Y
fattoriale di n
disposizioni di n oggetti a k a k
combinazioni di n oggetti a k a k
la v.c. X ha distribuzione binomiale di parametri n e π
la v.c. X ha distribuzione geometrica di parametro π
la v.c. X ha distribuzione ipergeometrica di parametri T , S e n
la v.c. X ha distribuzione di Poisson di parametro λt
la v.c. X ha distribuzione uniforme in (a, b)
la v.c. X ha distribuzione esponenziale di parametro λ
la v.c. X ha distribuzione normale con media µ e varianza σ 2
v.c. normale standard
funzione di ripartizione della v.c. normale standard
v.c. t di Student con n gradi di libertà
valore della v.c. Tn tale che P(Tn > tα,n ) = α
v.c. Chi-quadrato con n gradi di libertà
2
valore della v.c. X2n tale che P(Xn
> χ2α,n ) = α
v.c. F di Fisher con n e m gradi di libertà
valore della v.c. Fn,m tale che P(Fn,m > fα,n,m ) = α
spazio campionario
parametro generico di una distribuzione
spazio parametrico
stimatore per punti di θ
stima per punti di θ
errore quadratico medio di Θ̂
distorsione di Θ̂
v.c. media campionaria
realizzazione della v.c. media campionaria
varianza campionaria
realizzazione della v.c. varianza campionaria
v.c. proporzione campionaria
realizzazione della v.c. proporzione campionaria
coeﬃciente di correlazione tra X e Y in funzione di un campione casuale
valore di R (RXY ) in corrispondenza della realizzazione campionaria
codevianza tra X e Y in funzione di un campione casuale
valore di COD (CODXY ) in corrispondenza della realizzazione campionaria
devianza di X in funzione di un campione casuale
valore di DEV (DEVX ) in corrispondenza della realizzazione campionaria
funzione di distribuzione di probabilità congiunta del campione casuale X1 , X2 , ..., Xn
funzione di densità di probabilità congiunta del campione casuale X1 , X2 , ..., Xn
funzione di verosimiglianza
funzione di log-verosimiglianza
intervallo di conﬁdenza per il parametro θ
stima intervallare del parametro θ
errore campionario
regione di accettazione di un test statistico
regione di riﬁuto di un test statistico
ipotesi nulla
ipotesi alternativa
regione di riﬁuto indotta da una statistica test
probabilità dell’errore di I tipo nella veriﬁca di ipotesi su θ
probabilità dell’errore di II tipo nella veriﬁca di ipotesi su θ
funzione di potenza di un test sul parametro θ
livello di signiﬁcatività osservato
valore della v.c. Z tale che P(Z > zα ) = α
frequenza congiunta delle modalità Ai e Bj
frequenza della modalità Ai
frequenza della modalità Bj
frequenza congiunta delle modalità xi e yj
frequenza della modalità xi
frequenza della modalità yj
errore di predizione
errore quadratico medio di predizione associato a Y
funzione di regressione di Y su X
stima della funzione di regressione di Y su X
parametri del predittore lineare ottimo
stimatori di β0 e β1
stime di β0 e β1
funzione di aﬃdabilità
funzione tasso di guasto
tempo di interruzione del campionamento con prove simultanee o sequenziali
Primi elementi di inferenza statistica (ed. maggio 2012)
232
M. Di Marzio
Elenco delle ﬁgure
1.1
1.2
1.3
1.4
1.5
Alcune operazioni tra insiemi rappresentate attraverso diagrammi di Venn. .
Leggi di De Morgan tramite diagrammi di Venn. . . . . . . . . . . . . . . . .
Andamento della frequenza relativa di teste su 1000 lanci di una moneta. . .
Riduzione dello spazio fondamentale per eﬀetto del veriﬁcarsi di A (risp. B).
Scomposizione di E indotta dalla partizione {A, B, C}. . . . . . . . . . . . .
.
.
.
.
.
4
4
6
7
10
3.1
Rappesentazioni di vv.cc. discrete e continue con relative pdf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
5.1
5.2
5.3
5.4
Distribuzioni
Distribuzioni
Distribuzioni
Distribuzioni
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
40
41
42
7.1
7.2
7.3
7.4
7.5
7.6
7.7
Una funzione di densità di una v.c. normale con relativa funzione di ripartizione.
Distribuzioni normali con diﬀerenti valori di µ: −3, 0, 3. . . . . . . . . . . . . . .
Distribuzioni normali con diﬀerenti valori di σ: 0.6, 1, 3. . . . . . . . . . . . . . .
Standardizzazione di vv.cc. normali. . . . . . . . . . . . . . . . . . . . . . . . . .
L’area ombreggiata indica la quantità P(X > 1). . . . . . . . . . . . . . . . . . .
Pdf e funzione di ripartizione di una v.c. uniforme. . . . . . . . . . . . . . . . . .
Pdf e funzione di ripartizione di vv.cc. esponenziali per diversi valori di λ : 0.5, 1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
48
48
48
49
50
51
9.1
9.2
9.3
Graﬁco della pdf dell’esempio 9.3. . . . . . . . . . . . .
Graﬁco della pdf dell’esempio 9.13. . . . . . . . . . . .
Graﬁci di normali bivariate. Tutte hanno parametri µX
seconda ρXY = 0.8 e nella terza ρXY = −0.8. I pannelli
. . . .
. . . .
nella
. . . .
58
62
Funzioni di densità della v.c.
per diversi valori di r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Funzioni di densità della v.c.
per diversi valori di r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Funzioni di densità della v.c. Fr1 ,r2 per alcune coppie (r1 , r2 ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribuzioni di varie somme di vv.cc. uniformi indipendenti di parametri 0 e 1 con rispettive approssimazioni normali
date dal teorema centrale del limite (linea tratteggiata). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.5 Distribuzioni delle medie di n vv.cc. esponenziali indipendenti di parametro 1. Nel caso n = 30 è anche riportata la
rispettiva approssimazione normale data dal teorema centrale del limite (linea tratteggiata). . . . . . . . . . . . . . . . .
82
83
83
12.1 Istogrammi dei dati campionari. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.2 fX (·; θ) e fX (·; θ) (curva più concentrata). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
94
13.1 Funzioni di verosimiglianza dell’esempio 13.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.2 Funzione di log-verosimiglianza dell’esempio 13.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
99
binomiali con diversi valori dei parametri n e π. . . . . . .
geometriche con diversi valori del parametro π. . . . . . .
ipergeometriche con diversi valori dei parametri T , n e S.
di Poisson con diversi valori del parametro λ. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
= 0, µY = 0, σX = 1, σY = 1; nella prima riga ρXY = 0,
di destra sono rappresentazioni tramite curve di livello. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X2r
Tr
11.1
11.2
11.3
11.4
68
84
86
15.1 Stime di µ = 0 tramite la media campionaria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
15.2 Errori quadratici medi degli stimatori W1 e W2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
15.3 Funzioni di verosimiglianza per diversi campioni da una pdf binomiale di parametri 1 e π . . . . . . . . . . . . . . . . . . 116
19.1
19.2
19.3
19.4
Funzioni
Funzioni
Funzioni
Funzioni
di
di
di
di
potenza
potenza
potenza
potenza
dei test Γ1 e Γ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
dei test dell’esempio 19.6. . . . . . . . . . . . . . . . . . . . . . .
di due test per l’ipotesi H0 : θ ≤ −7 contro H1 : θ > −7. . . . . .
del test dell’esempio 19.5 per varie numerosità campionarie. . . .
20.1 Funzioni di potenza dei test Γ1 e Γ2 .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
136
137
138
139
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
23.1 Predittore ottimo dell’esempio 23.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
23.2 Esempio di modello predittivo lineare ottimo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
24.1 Rappresentazione graﬁca di dati bidimensionali.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
25.1 Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo dell’esercizio 25.2. . . . . . . . . 186
25.2 Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo. . . . . . . . . . . . . . . . . . . 187
26.1
26.2
26.3
26.4
Tipica funzione tasso di guasto per componenti elettronici. . . . . . .
Tipica funzione tasso di guasto per componenti meccanici. . . . . . . .
Funzioni tasso di guasto per la densità normale con σ = 0.5, 1, 1.5. . .
Funzioni tasso di guasto per la densità esponenziale con θ = 0.5, 1, 1.5.
M. Di Marzio
233
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
195
196
196
197
Primi elementi di inferenza statistica (ed. maggio 2012)
Elenco delle ﬁgure
26.5
26.6
26.7
26.8
Funzioni tasso di guasto per la densità uniforme con
Sistema complesso con 6 componenti. . . . . . . . .
Sistema in serie con 4 componenti. . . . . . . . . . .
Sistema in parallelo con 3 componenti. . . . . . . .
b=
. .
. .
. .
1, 2, 3.
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
197
200
200
201
27.1
27.2
27.3
27.4
27.5
27.6
Sistema
Sistema
Sistema
Sistema
Sistema
Sistema
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
205
205
206
206
207
207
dell’esercizio
dell’esercizio
dell’esercizio
dell’esercizio
dell’esercizio
dell’esercizio
27.5
27.5
27.5
27.6
27.6
27.6
punto
punto
punto
punto
punto
punto
a).
b).
c).
a).
b).
c).
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Primi elementi di inferenza statistica (ed. maggio 2012)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
234
.
.
.
.
.
.
.
.
.
.
.
.
M. Di Marzio
Elenco delle tabelle
1.1
1.2
Insiemi, probabilità ed esperimenti casuali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Incompatibilità ed indipendenza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
9
12.1 Alcune statistiche campionarie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
19.1
19.2
19.3
19.4
19.5
19.6
19.7
19.8
19.9
Possibili esiti della veriﬁca di ipotesi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regioni di riﬁuto per test sulla media di popolazioni normali con σ 2 noto. . . . . . . . . . . . . . . . .
Regioni di riﬁuto per test sulla media di popolazioni normali con σ 2 non noto. . . . . . . . . . . . . .
Regione di riﬁuto per test sulla diﬀerenza tra medie di due popolazioni normali con varianze note. . . .
Regioni di riﬁuto per test sulla diﬀerenza tra medie di due popolazioni normali con varianze non note.
Regioni di riﬁuto per test sulla proporzione per grandi campioni. . . . . . . . . . . . . . . . . . . . . .
Regioni di riﬁuto per test sulla diﬀerenza di proporzioni per grandi campioni. . . . . . . . . . . . . . .
Regioni di riﬁuto per test sulla varianza di popolazioni normali con µ noto. . . . . . . . . . . . . . . .
Regioni di riﬁuto per test sulla varianza di popolazioni normali con µ non noto. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
136
141
142
143
143
144
144
145
145
21.1
21.2
21.3
21.4
21.5
Distribuzione
Distribuzione
Distribuzione
Distribuzione
Distribuzione
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
157
158
158
160
160
di probabilità del carattere A. . . . . . . . . . . .
doppia di probabilità dei caratteri A e B. . . . . .
doppia di frequenza dei caratteri A e B. . . . . . .
di probabilità del carattere A presso t popolazioni.
di frequenza del carattere A presso t campioni. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24.1 Notazione per la distribuzione doppia di frequenza dei caratteri X e Y .
M. Di Marzio
235
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Primi elementi di inferenza statistica (ed. maggio 2012)