formato file: - Dipartimento di Matematica

annuncio pubblicitario
i
U NIVERSITÀ DEGLI S TUDI DI PAVIA
FACOLTÀ DI S CIENZE MM FF NN
C ORSO DI L AUREA IN M ATEMATICA
E UGENIO R EGAZZINI
E
F EDERICO B ASSETTI
INTRODUZIONE ALLA PROBABILITA’ E ALLA STATISTICA
A PPUNTI
PER LA
L AUREA
TRIENNALE IN
M ATEMATICA
ii
Indice
1 Definizione di probabilità
1.1 Esperimenti ed eventi
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 Definizione di probabilità su algebre di eventi . . . . . . . . . . . . . . . . .
4
1.3 Probabilità su spazi finiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.3.1 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4 Probabilità su spazi infiniti e definizione di probabilità su σ-algebre . . . .
14
2 Numeri aleatori - Distribuzioni di probabilità
19
2.1 Considerazioni introduttive al concetto di variabile aleatoria . . . . . . . .
19
2.2 Distribuzione di probabilità di una variabile aleatoria . . . . . . . . . . . .
21
2.2.1 Distribuzione di probabilità e funzione di ripartizione di un numero
aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.2.2 Perché la funzione di ripartizione merita attenzione . . . . . . . . .
24
2.2.3 Funzioni di ripartizione di numeri aleatori discreti . . . . . . . . .
26
2.2.4 Funzioni di ripartizione assolutamente continue . . . . . . . . . . .
29
2.2.5 Funzioni di ripartizione di natura qualunque. Cenni . . . . . . . .
34
2.3 Interpretazioni di una distribuzione sull’asse reale . . . . . . . . . . . . . .
37
3 Probabilità condizionata e indipendenza stocastica
39
3.1 Considerazioni introduttive . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
3.2 Principio delle probabilità composte e teorema di Bayes . . . . . . . . . . .
41
3.2.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.3 Correlazione fra eventi e indipendenza stocastica . . . . . . . . . . . . . .
46
3.3.1 Ancora la distribuzione binomiale . . . . . . . . . . . . . . . . . . .
48
3.3.2 Successioni di eventi indipendenti e, ancora, distribuzione binomiale negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
3.3.3 Indipendenza condizionata . . . . . . . . . . . . . . . . . . . . . . . .
49
iii
INDICE
iv
3.4 Osservazioni complementari . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Vettori aleatori
50
53
4.1 Generalità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.2 Distribuzione di un vettore aleatorio discreto . . . . . . . . . . . . . . . . .
54
4.3 Somma di variabili aleatorie indipendenti discrete . . . . . . . . . . . . . .
59
4.3.1 Somma di variabili bernoulliane . . . . . . . . . . . . . . . . . . . .
59
4.3.2 Passeggiate aleatorie, barriere assorbenti (problema della rovina
del giocatore) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.3.3 Somma di variabili di Poisson indipendenti . . . . . . . . . . . . . .
63
4.3.4 Tempi di attesa in una successione di prove bernoulliane . . . . . .
64
4.4 Distribuzioni condizionate (il caso discreto) . . . . . . . . . . . . . . . . . .
65
4.5 Distribuzione di vettore aleatorio in generale . . . . . . . . . . . . . . . . .
66
4.5.1 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . .
68
4.5.2 Distribuzioni assolutamente continue di vettore aleatorio . . . . . .
69
4.5.3 Caratterizzazione dell’indipendenza tramite fattorizzazione della
funzione di densità . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
4.5.4 Distribuzione di funzione di vettore aleatorio dotato di legge assolutamente continua . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
4.6 Distribuzione condizionata quando il vettore aleatorio ha legge assolutamente continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Caratteristiche sintetiche di una distribuzione
74
77
5.1 Qualche considerazione generale . . . . . . . . . . . . . . . . . . . . . . . .
77
5.2 Valore atteso, o speranza matematica, di numero aleatorio discreto . . . .
78
5.2.1 Proprietà elementari del valore atteso . . . . . . . . . . . . . . . . .
79
5.3 Valore atteso di un numero aleatorio qualunque . . . . . . . . . . . . . . .
80
5.4 Valore atteso di una distribuzione condizionata . . . . . . . . . . . . . . . .
86
5.5 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
5.5.1 Varianza di una somma di numeri aleatori . . . . . . . . . . . . . .
91
5.5.2 Esempi di momenti di distribuzioni notevoli . . . . . . . . . . . . .
92
5.6 Caratteristiche sintetiche di una distribuzione a più dimensioni . . . . . .
96
5.6.1 Concordanza, discordanza e covarianza . . . . . . . . . . . . . . . .
96
5.6.2 Correlazione lineare e coefficiente di correlazione lineare . . . . . .
98
5.6.3 Regressione di secondo tipo (regressione lineare) . . . . . . . . . . . 100
INDICE
6 Trasformazioni integrali di leggi di probabilità
v
105
6.1 Definizione di funzione caratteristica e di funzione generatrice dei momenti106
6.2 Proprietà della funzione caratteristica . . . . . . . . . . . . . . . . . . . . . 111
6.3 Estensione a vettori aleatori. . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.4 Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.4.1 Proprietà della legge gaussiana d-dimensionale . . . . . . . . . . . 120
6.4.2 Legge di somma di numeri aleatori (esempi notevoli) . . . . . . . . 120
6.4.3 Applicazioni alla statistica . . . . . . . . . . . . . . . . . . . . . . . . 122
6.5 Funzione caratteristica e momenti . . . . . . . . . . . . . . . . . . . . . . . 125
7 Teoremi limite del calcolo delle probabilità. Brevi cenni
129
7.1 Qualche disuguaglianza notevole . . . . . . . . . . . . . . . . . . . . . . . . 130
7.2 Leggi (deboli) dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . 131
7.3 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8 Elementi di inferenza statistica
137
8.1 Stime di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . 141
8.2 Stime dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
8.3 Stime per intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . 144
8.4 Cenno ai criteri di significatività . . . . . . . . . . . . . . . . . . . . . . . . 147
A Elementi di calcolo combinatorio
149
A.1 Campioni e urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
A.1.1 Campioni ordinati con restituzione . . . . . . . . . . . . . . . . . . . 152
A.1.2 Campioni ordinati senza restituzione (n 6 M ) . . . . . . . . . . . . 152
A.1.3 Campioni non ordinati senza restituzione (n 6 M ) . . . . . . . . . . 153
A.1.4 Campioni non ordinati con restituzione . . . . . . . . . . . . . . . . 154
A.2 Problemi di occupazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A.3 Formula di Tartaglia–Newton . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A.3.1 Una conseguenza della formula di Tartaglia–Newton . . . . . . . . 156
B Funzioni generatrici
157
vi
INDICE
Elenco delle figure
1.1 Incontro di I e II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1 Funzione di ripartizione di una distribuzione discreta . . . . . . . . . . . .
26
2.2 Densità uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.3 Funzione di ripartizione della densità uniforme . . . . . . . . . . . . . . .
31
2.4 Diagramma risarcimento–importo del sinistro . . . . . . . . . . . . . . . .
35
2.5 Funzione di ripartizione della densità di Pareto . . . . . . . . . . . . . . . .
36
3.1 Condizionamento di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
4.1 Passeggiata aleatoria (Random walk)
61
. . . . . . . . . . . . . . . . . . . . .
4.2 La regione sfumata ha probabilità Q uguale a F (x, y).
. . . . . . . . . . .
4.3 La regione sfumata a probabilità F (x + h, y + k) − F (x + h, y) − F (x, y +
67
k) + F (x, y) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
4.4 Distribuzione beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.1 Approssimazioni di una funzione assolutamente continua . . . . . . . . . .
81
5.2 Il valore di h(m) è dato dalla differenza dell’area con tratteggio obliquo
meno quella con tratteggio verticale . . . . . . . . . . . . . . . . . . . . . . .
85
5.3 Le crocette corrispondono alle determinazioni di (ξ1 , ξ2 ). . . . . . . . . . . .
89
5.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
8.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
vii
viii
ELENCO DELLE FIGURE
Capitolo 1
Definizione di probabilità
1.1 Esperimenti ed eventi
Il termine esperimento è qui usato per designare un qualunque processo il cui risultato
non sia generalmente noto a priori. Si assume, d’altro canto, che siano ben determinati
a priori i risultati possibili, i cosiddetti casi elementari. L’aggregato di tutti i casi elementari di un dato esperimento è detto spazio dei casi elementari di quell’esperimento.
È invalso l’uso di indicare con Ω quest’ultimo insieme e con ω il suo generico elemento,
ovvero il generico caso elementare. Diamo qualche esempio semplice di esperimento,
tratto dai giochi d’azzardo, il campo d’applicazione originario della probabilità ma non
il più importante oggidì.
Esempio 1.1.1. (a) Si lancia una moneta e la si lascia cadere sul pavimento. Generalmente le monete hanno un volto umano su un lato, che si dice Testa, e qualche altro
segno sul secondo lato, che si dice Croce. Il generico caso elementare del lancio è il nome
della faccia, o lato, della moneta rivolta verso l’alto: T, C. Quindi Ω = {T, C}.
(b) Si lancia un dado con sei facce regolari, numerate da 1 a 6. Per risultato del lancio
s’intende la faccia che il dado rivolge, una volta fermatosi, verso l’alto. Caratterizzando
la faccia col punteggio che essa porta, i casi elementari son dati dagli interi 1, 2, 3, 4, 5, 6
e Ω = {1, 2, 3, 4, 5, 6}.
(c) Se uno stesso dado viene lanciato due volte, successivamente, allora lo spazio dei
casi elementari è dato da Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4),
(2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1),
(5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}. La cardinalità di Ω è
1
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
2
quindi il numero delle disposizioni con ripetizione di classe 2, di 6 oggetti. Cf. Sottosezione A.1.1 dell’Appendice A.
z
Ogni sottoinsieme di Ω si dice evento. Si dice che un evento E si verifica quando il
risultato dell’esperimento è un qualunque caso elementare ω appartenente ad E. Ad
esempio, nel caso del lancio della moneta, la proposizione “la faccia rivolta verso l’alto
della moneta è Testa” designa l’evento {T }. Con riferimento al lancio successivo dei due
dadi, la proposizione “la somma dei (due) punteggi ottenuti è uguale a 9” corrisponde
all’evento {(3, 6), (4, 5), (5, 4), (6, 3)}. Accolta la precedente definizione di evento, le operazioni su eventi sono operazioni su insiemi descritte con un linguaggio adatto alla
situazione specifica.
Allora Ω si dice evento certo e l’insieme vuoto, indicato solitamente con ∅, si dice
evento impossibile.
L’ unione di due o più eventi è l’evento che è verificato se e solo se almeno uno dei
riunendi è verificato; analogamente, l’intersezione di due o più eventi è l’evento che è
verificato se e solo se tutti gli intersecandi sono verificati. Se due eventi non possono
verificarsi simultaneamente, non hanno cioè casi elementari in comune, ovvero la loro
intersezione è l’evento impossibile, allora i due eventi si dicono incompatibili.
Data una classe {Ei : i ∈ I} di eventi, dove I è un certo insieme di indici, la loro
S
T
unione si indica – come al solito – con i∈I Ei e la loro intersezione con i∈I Ei . Il
complementare [rispetto a Ω] di un evento E – indicato con E c – si dice evento contrario
di E.
Oltre alle operazioni principali, è utile accennare ad altre che dalle prime derivano
in modo semplice. Dati gli eventi A e B, la differenza di A meno B [in simboli A \ B] è
l’evento che si verifica se e solo se si verifica A e non B. Si noti che la differenza non è
commutativa. Verificare per esercizio che vale la relazione A \ B = A ∩ B c . La differenza
simmetrica di A e B, A △ B, è l’evento che è vero se e solo se tale risulta uno e uno solo
dei due eventi considerati: A △ B = (A \ B) ∪ (B \ A).
Se A e B sono eventi tali che A ⊂ B si dice che l’evento A implica B.
Esempio 1.1.2. Due individui, I e II, hanno convenuto di incontrarsi, in un luogo ben
definito, fra mezzogiorno e l’una. L’accordo è stato stipulato nei termini seguenti: il primo che arriva aspetta l’altro per 20 minuti e, quindi, se ne va. Introdurre un opportuno
spazio di casi elementari in modo che il fatto “I e II riescono a incontrarsi” possa essere
1.1. ESPERIMENTI ED EVENTI
3
rappresentato da un sottoinsieme di tale spazio. Assumiamo che entrambi arrivino al
luogo convenuto e che l’arrivo di ciascuno avvenga fra mezzogiorno e l’una. Sotto queste
condizioni, l’istante (aleatorio) dell’arrivo di I, x, e quello dell’arrivo di II, y, possono
essere rappresentati con la coppia (x, y) nel quadrato [0, 60]2 ; cf. Figura 1.1. Quindi,
Ω = [0, 60]2 . Inoltre, I e II si incontrano se e solo se risulta |x − y| 6 20 e, perciò, l’evento
che ci interessa è rappresentato dalla parte ombreggiata della Figura 1.1.
z
Figura 1.1: La parte di piano ombreggiata corrisponde all’evento ”I e II si incontrano”.
Esempio 1.1.3. Una moneta può essere lanciata un numero indefinitamente grande di
volte e, spesso, si considerano eventi come, ad esempio, “la frequenza di testa converge
al divergere del numero delle prove (lanci)”, che dipendono dai risultati lungo l’intera
successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la
comparsa di Testa, lo spazio Ω coincide con quello delle successioni (xn )n>1 a valori in
{0, 1}, ovvero: xn ∈ {0, 1}, ∀n > 1. Con x indichiamo la generica di tali successioni.
La frequenza di testa nei primi n lanci, corrispondente alla specifica successione x, è
Pn
fn (x) = k=1 xk /n. Quindi, dato ε > 0,
En,m := {x ∈ Ω : |fn (x) − fm (x)| 6 ε}
è l’evento che si verifica se e solo se le frequenze di testa relative ai primi n e ai primi m
lanci non differiscono per più di ε. Fissato n0 in N,
\
L(n0 , ε) :=
En,m
n,m>n0
è l’evento che si verifica se tutte le frequenze di testa non differiscono per più di ε a
partire da un certo posto n0 in poi. Quindi, l’evento
[
M (ε) :=
L(n0 , ε)
n0 >1
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
4
si verifica se e solo se esiste un posto n0 a partire dal quale le frequenze non differiscono
per più di ε e l’evento
\
M (ε)
ε>0
risulta verificato se e solo se la frequenza converge. Ricordare, a questo proposito, il
criterio di convergenza delle successioni numeriche dovuto a Cauchy.
1.2 Definizione di probabilità su algebre di eventi
Il problema della definizione di probabilità è piuttosto delicato, soprattutto quando si
voglia coniugare rigore formale e aderenza ad un significato concreto del termine che
abbia riguardo per le applicazioni. Prova ne siano: (a) il ritardo con cui la probabilità è stata accettata nella famiglia delle discipline matematiche; (b) gli innumerevoli
saggi e trattati scritti sui fondamenti della probabilità; (c) il persistere, con sempre
rinnovato vigore, del dibattito sul significato della probabilità nei suoi rapporti con la
scienza e la pratica. A partire dagli anni Trenta del secolo scorso, e segnatamente
dall’apparizione dei Grundbegriffe, nel 1933, di Andrei N. Kolmogorov (1903-1987), i
matematici hanno accettato una definizione assiomatica che assimila la probabilità a
una misura finita, in accordo con l’estensione, dovuta a Maurice Fréchet (1878-1973),
della teoria della misura e dell’integrazione di Henri Lebesgue (1875-1941), a spazi astratti. L’eccezione più interessante al consenso quasi universale per la definizione di
Kolmogorov è rappresentata dalla teoria di Bruno de Finetti (1906-1985).
La definizione di Kolmogorov richiede che la probabilità sia definita sopra un’algebra
di eventi. Una classe A di sottoinsiemi di Ω è un’algebra se soddisfa i requisiti seguenti:
(a) Ω ∈ A;
(b) A ∈ A ⇒ Ac ∈ A;
Sn
(c) A1 , ..., An ∈ A ⇒ k=1 Ak ∈ A (n < +∞).
Sarebbe un utile esercizio per lo studente verificare che (c) può essere sostituita con:
A1 , . . . , An ∈ A ⇒ ∩nk=1 Ak ∈ A
(n < +∞).
Esempio 1.2.1. (a) Se A è un sottoinsieme di Ω, la classe A = {∅, A, Ac , Ω} è un’algebra.
(b)La classe P(Ω) di tutti i sottoinsiemi di Ω è un’algebra.
(c) Con riferimento all’Esempio 1.1.3, preso A ⊂ {0, 1}n per qualche n ∈ N, si denoti
con C(A) il cilindro di base A, ovvero l’insieme di tutte le successioni x = (xn )n>1 le cui
prime n coordinate, prese nell’ordine, fissano un punto di A:
C(A) = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ A}.
1.2. DEFINIZIONE DI PROBABILITÀ SU ALGEBRE DI EVENTI
5
Fissato n ∈ N, la classe di eventi (cilindri con base di dimensione n)
An := {C(A) : A ⊂ {0, 1}n}
è un’algebra. Infatti, Ω = C({0, 1}n); inoltre, se A ⊂ {0, 1}n, allora C(A)c = {x ∈ {0, 1}∞ :
(x1 , . . . , xn ) ∈ A}c = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ Ac } = C(Ac ) e quindi C(A)c è contenuto
in An ; infine, se A, B ⊂ {0, 1}n, allora C(A)∪C(B) = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ A}∪{x ∈
{0, 1}∞ : (x1 , . . . , xn ) ∈ B} = {x ∈ {0, 1}∞ : (x1 , . . . , xn ) ∈ A ∪ B} = C(A ∪ B), e quindi
C(A) ∪ C(B) è contenuto in An . Naturalmente, An+1 ⊃ An , ∀n, e, quindi, è immediato
verificare che anche
A :=
[
n>1
è un’algebra di sottoinsiemi di Ω = {0, 1}∞ .
An
z
Per l’ultimo esempio di algebra di eventi che intendiamo presentare si rende necessaria qualche premessa. Dati n eventi E1 , . . . , En con Ek ⊂ Ω per k = 1, . . . , n, si
considerano le intersezioni del tipo
Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩ Ejcn−k
al variare del sottoinsieme {i1 , . . . , ik } in {1, . . . , n}, essendo {j1 , . . . , jn−k } := {1, . . . , n} \
{i1 , . . . , ik }. Sono le intersezioni di k eventi scelti fra gli n dati con i contrari dei rima-
nenti. Le intersezioni non vuote (in numero di s 6 2n ) si dicono costituenti della classe
E = {E1 , . . . , En }. Ogni costituente descrive una particolare realizzazione degli eventi
E1 , . . . , En . Si noti che i costituenti sono a due a due incompatibili e la loro unione è
l’evento certo. Inoltre, un evento E ⊂ Ω si dice logicamente dipendente dalla classe E
se il suo valore logico (vero o falso) risulta essere determinato in corrispondenza ad ogni realizzazione possibile degli eventi E1 , . . . , En . Quindi, la classe U degli eventi che
dipendono logicamente da E coinciderà con quella di tutte le unioni di costituenti. In
particolare, ogni Ei dipende logicamente da E in quanto unione dei costituenti nella cui
definizione E è affermato. Nell’esempio seguente si mostra che U è un algebra, anzi la
più piccola algebra che contiene E; per questo si chiama l’algebra generata da E.
Esempio 1.2.2. La classe U delle unioni dei costituenti di E = {E1 , . . . , En } è la più
piccola algebra di parti di Ω che contiene E. Per verificarlo, indichiamo con C(E) la
classe dei costituenti di E. Prima di tutto l’insieme vuoto appartiene a U e, come già
osservato, Ω appartiene a U in quanto esprimibile come unione di tutti i costituenti. Si
consideri, quindi, A in U; in corrispondenza ad A gli elementi di C(E) vengono ripartiti
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
6
in due classi: nella prima si trovano quelli la cui unione coincide con A e, nella seconda,
si collocano quelli la cui unione coincide con Ac ; pertanto Ac appartiene a U. Inoltre, se
A, B appartengono a U, ricaviamo che A ∪ B è l’unione di tutti gli elementi di C(E) che
implicano A oppure B e, di conseguenza: A ∪ B ∈ U. Perció U è un algebra. Ora, se
F è un’algebra contenente E, è immediato convincersi che E ∈ U, otteniamo che C(E)
è contenuta in F (per la definizione di algebra e di costituente). Inoltre, ogni E ∈ U è
unione di particolari elementi di C(E), quindi E appartiene a F e, pertanto, U ⊂ F .
z
Una funzione P , definita su un’algebra A di parti di Ω e a valori in R, si dice misura
di probabilità se
(a’) P (Ω) = 1;
(b’) P (A1 ∪ A2 ) = P (A1 ) + P (A2 ), ∀A1 , A2 ∈ A tali che A1 ∩ A2 = ∅;
(c’) per ogni successione di eventi contenuti in A a due a due incompatibili A1 , . . . , An , . . . ,
P
tali che ∪k>1 Ak ∈ A, si ha P (∪k>1 Ak ) = k>1 P (Ak ).
La proprietà (b’), detta di additività, si estende (per induzione matematica) a ogni
famiglia finita di elementi a due a due incompatibili di A. Infatti, se A1 , . . . , An sono
elementi di A, allora A1 ∪ · · · ∪ An−1 ∈ A [per la (c)] e se A1 , . . . , An sono a due a due
incompatibili, anche A1 ∪ · · · ∪ An−1 e An sono incompatibili; quindi, per (b’), vale
P (A1 ∪ · · · ∪ An−1 ∪ An ) = P (A1 ∪ · · · ∪ An−1 ) + P (An ).
Fatta l’ipotesi (induttiva) che la proprietà additiva valga per ogni famiglia disgiunta di
cardinalità 6 n − 1, otteniamo dalla precedente
P (A1 ∪ · · · ∪ An−1 ∪ An ) = P (A1 ) + · · · + P (An−1 ) + P (An )
e, quindi, la tesi per induzione completa.
La stessa (b’) non si estende automaticamente a classi infinite di eventi a due a
due incompatibili. Perció, è necessario imporre la (c’), detta σ–additività o additività
completa, se si desidera che l’additività valga almeno nel caso di classi numerabilmente
infinite.
Da A∪Ac = Ω congiuntamente a (a’)-(b’) ricaviamo P (A)+P (Ac ) = P (Ω) = 1 e quindi
P (Ac ) = 1 − P (A).
In particolare, P (∅) + P (Ω) = 1, ovvero
P (∅) = 0.
(1.1)
1.2. DEFINIZIONE DI PROBABILITÀ SU ALGEBRE DI EVENTI
7
Inoltre, se A, B ∈ A con A ⊂ B, si ha A ∩ (B \ A) = ∅ e, quindi, P (B) = P (A) + P (B \ A);
poiché P (B \ A) > 0, risulta dimostrata l’implicazione
A, B ∈ A tali che A ⊂ B
⇒
P (A) 6 P (B).
(1.2)
Un’altra conseguenza degli assiomi, assai utile per il calcolo, è la formula della probabilità di una unione finita di eventi (non necessariamente a due a due incompatibili).
Siano, dunque, A e B elementi qualunque di A; per essi vale
A ∪ B = (A △ B) ∪ (A ∩ B) = (A \ (A ∩ B)) ∪ (B \ (A ∩ B)) ∪ (A ∩ B)
e, per (b’),
P (A ∪ B) = P (A \ (A ∩ B)) + P (B \ (A ∩ B)) + P (A ∩ B)
dove, sempre per (b’),
P (A \ (A ∩ B)) = P (A) − P (A ∩ B),
P (B \ (A ∩ B)) = P (B) − P (A ∩ B).
Quindi,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
(1.3)
Anche questa notevole proprietà può essere estesa a un numero qualunque di eventi:
P (A1 ∪ · · · ∪ An ) =
n
X
i=1
P (Ai ) −
X
+
16i<j<k6n
X
16i<j6n
P (Ai ∩ Aj )
P (Ai ∩ Aj ∩ Ak )
(1.4)
+ · · · + (−1)n+1 P (A1 ∩ · · · ∩ An ).
Possiamo convincerci della validità di questa formula procedendo per induzione matematica. Supponiamo, perciò, che essa sia vera per ogni n 6 ν e verifichiamola per
n = ν + 1.
P (A1 ∪ · · · ∪ Aν ∪ Aν+1 ) = P (A1 ∪ · · · ∪ Aν ) + P (Aν+1 )
− P (∪νk=1 (Ak ∩ Aν+1 ))
=
ν+1
X
i=1
+
P (Ai ) −
X
16i<j<k6ν
X
16i<j6ν
[per la (1.3)]
P (Ai ∩ Aj )
P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)ν+1 P (A1 ∩ · · · ∩ Aν )
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
8
−
−
ν
X
P (Ai ∩ Aν+1 ) +
i=1
X
16i<j<k6ν
X
16i<j6ν
P (Ai ∩ Aj ∩ Aν+1 )
P (Ai ∩ Ai ∩ Ak ∩ Aν+1 ) + · · · +
[per l’ipotesi induttiva]
+ (−1)ν+2 P (A1 ∩ · · · ∩ Aν ∩ Aν+1 )
=
ν+1
X
P (Ai ) −
i=1
X
+
16i<j<k6ν+1
X
16i<j6ν+1
P (Ai ∩ Aj )+
P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)ν+2 P (A1 ∩ · · · ∩ Aν ∩ Aν+1 ).
1.3 Probabilità su spazi finiti
Le applicazioni più elementari della probabilità, e storicamente più antiche, riguardano
spazi finiti di casi elementari. Ad esempio, ricade in questo ambito la gran parte dei
problemi elementari posti dai giuochi di azzardo o dalla ripartizione (casuale), nelle
celle dello spazio delle fasi, di un certo numero di particelle. Si tratta, in definitiva, di
considerare Ω = {ω1 , . . . , ωN } e A = P(Ω). Si vede facilmente che il numero degli ele
menti di A [eventi] è, in questo caso, 2N . Infatti, per ogni k = 0, 1, . . . N , esistono Nk
eventi contenenti esattamente k casi elementari; perciò, il numero degli elementi di A
N
è N0 + N1 + · · · + N
N = 2 ; cf. (A.1) in Appendice A con a = b = 1. La generica pro-
babilità su A si può caratterizzare a partire dall’assegnazione di N numeri non negativi
p1 , . . . , pN a somma 1 (p1 + · · · + pN = 1), da interpretarsi come probabilità degli eventi
elementari
è la probabilità di {ωk },
pk
per k = 1, . . . , N.
Quindi, per rispettare (b’), la probabilità di E in A deve coincidere con la somma delle
probabilità pk degli eventi elementari {ωk } inclusi in E.
Poniamo, quindi,
P (E) :=
X
pk
{k:ωk ∈E}
(E ∈ A).
(1.5)
P
Evidentemente, P (E) > 0 per ogni E; inoltre, P (E) 6 N
k=1 pk = 1 per ogni E. ChiaraPN
mente, P (Ω) = k=1 pk = 1 e, se E1 , E2 appartengono ad A con E1 ∩ E2 = ∅, otteniamo
P (E1 ∪ E2 ) :=
=
X
pk
{k:ωk ∈E1 ∪E2 }
X
{k:ωk ∈E1 }
pk +
X
{k:ωk ∈E2 }
= P (E1 ) + P (E2 ).
pk
[poiché E1 , E2 sono disgiunti]
1.3. PROBABILITÀ SU SPAZI FINITI
9
In buona sostanza, si è dimostrato che ogni funzione P : A → [0, 1] definita da (1.5), con
p1 + · · · + pn = 1, è una probabilità su A [sotto la condizione che A sia l’insieme delle
parti di Ω = {ω1 , . . . , ωN }].
Un esempio notevolissimo di assegnazione di probabilità conforme a (1.5) è rappre-
sentato dalla posizione pk = 1/N , per ogni k = 1, . . . , N : tutti i casi elementari sono
considerati ugualmente probabili (valutazione simmetrica). Allora da (1.5) discende
X
P (E) =
pk =
{k:ωk ∈E}
|E|
N
dove |E| denota la cardinalità di E: il numero dei casi elementari contenuti in E. In
questo esempio, la probabilità di E è dunque data dal rapporto fra il numero dei casi
favorevoli a E e quello totale dei casi possibili. Classicamente, alcuni autori pensarono
di far coincidere la definizione di probabilità col metodo di valutazione testé ricordato, il
quale, nella moderna teoria della probabilità, riguarda solo situazioni molto particolari
incui si ritiene ch i casi possibili siano ugualmente possibili. Comunque, una valutazione siffatta riduce il calcolo a quello delle numerosità certi insiemi finiti. A tal fine
rivestono un ruolo particolarmente importante i primi elementi del calcolo combinatorio,
per i quali si rinvia all’ Appendice A.
1.3.1
Esempi
Esempio 1.3.1 (Lotto). Si giuochi su una sola ruota. Dei 90 numeri, compresi fra 1 e
90, ne vengono estratti 5 a caso. Con questo modo di dire si intende che le cinquine
possibili sono ritenute tutte ugualmente probabili. Il numero di tali cinquine è N =
90
5 , cf. Sottosezione A.1.3 in Appendice A, e, quindi, Ω = {ω1 , . . . , ωN }, dove ωk è la
generica cinquina [=sottoinsieme, di 5 elementi, dell’insieme {1, . . . , 90}]. L’ipotesi di
equiprobabilità dei casi elementari si traduce nel fatto che
−1
90
P ({ωk }) =
5
90
k = 1, . . . ,
.
5
Indichiamo con E2 l’evento “si vince giocando un ambo particolare”. E2 è un sottoinsieme
di Ω di cardinalità 88
3 e, perciò,
88
3
P (E2 ) = ≃ 0, 00258.
90
5
Per l’evento E3 “si vince giocando un particolare terno” si ha
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
10
87
2
P (E3 ) = ≃ 0, 000085.
90
5
Si considerino 10 ruote, allora i casi possibili sono
(10)
E2
90 10
.
5
Si gioca uno stesso ambo
su tutte le ruote e si indica con
l’evento “si vince almeno su una ruota”. Poiché
(10)
(10)
= 1 − P (E2 )c , calcoliamo
P E2
(10)
P (E2 )c =
Quindi
P
(10)
E2
10
10

90
88
88
−

5
3
3 
10
=
1 − 
10
 = (1 − P (E2 )) .

90
90
5
5
10
= 1 − (1 − P (E2 ))
10 X
10
=1−
(−1)k P (E2 )k
k
cf. (A.1)
k=0
10
= 10P (E2 ) −
P (E2 )2 + ... ≃ 10P (E2 ).
2
[(numero delle ruote)×(probabilità di vincere su ciascuna di esse)].
z
Esempio 1.3.2 (Testa e Croce). Si gettano n monete. I risultati possibili sono 2n , di cui
n
k con k teste e (n − k) croci. La probabilità che, delle n monete, k mostrino testa è
n
n
k /2 . Poiché il rapporto
n−k
n
n
:
=
k+1
k+1
k
è maggiore (minore, rispettivamente) di uno per k <
il massimo della suddetta probabilità si ha per k =
k=
n+1
2
n
2
n−1
2
(k >
n−1
2 ,
rispettivamente),
se n è pari e per k =
n−1
2
e per
se n è dispari.
Delle n monete, r pezzi siano da 1 euro e s pezzi da 2 euro (n = r + s). La probabilità
di avere testa per h delle prime e k delle seconde è
r
s
/2n
h k
e la probabilità di avere testa lo stesso numero di volte fra le monete da 1 euro e da 2
euro è
1 n
1 n
1 r+s
s
1 X r
=
=
.
=
2n
2n
2n r
2n s
r
i
i
i>0
Per calcolare la somma precedente, si può ricorrere al trucco che consiste nell’indicare
come faccia A sia la testa della moneta da 1 euro che la croce della moneta da 2 euro, e
come faccia B sia la testa della moneta da 2 euro che la croce della moneta da 1 euro.
1.3. PROBABILITÀ SU SPAZI FINITI
11
Allora, avere lo stesso numero di teste nei due gruppi significa avere, nel complesso, s
P
volte la faccia A e r volte la faccia B. Quindi, i>0 ri si = r+s
r . Per una dimostrazione
più formale si veda l’Appendice A.
Ritrornando alla prima parte dell’esempio, valutiamo ora la probabilità di ottenere,
su n lanci, h volte consecutive testa. Indichiamo con An il numero delle successioni di
n lanci non contenenti alcuna sequenza di h teste consecutive. Per tale valutazione,
osserviamo che da ciascuna di queste successioni si ottengono due successioni di (n + 1)
elementi, facendo seguire un’ulteriore prova: una termina con testa, l’altra con croce.
Quindi An+1 è uguale a 2An meno il numero delle successioni – chiamiamolo ν – che con
l’ulteriore prova vengono a contenere una sequenza di h teste consecutive. Ciascuna
delle ν successioni proviene da un elemento di An così caratterizzato: le ultime (h − 1)
prove presentano testa; queste sono precedute da una croce; questa croce è preceduta da
una qualunque successione di (n − h) prove non contenente alcuna sequenza di h teste
consecutive. Pertanto, ν = An−h e vale la relazione ricorrente
An+1 = 2An − An−h ,
con le condizioni iniziali:
A0 = 1,
Ak = 2k , per k < h,
Ah = 2h − 1.
Ricaviamo An con h = 2. Intanto si osserva che, per h = 2, la relazione ricorrente si può
scrivere come
δn+1 = δn + δn−1
con δn := An − An−1 , e che le condizioni iniziali si traducono nelle seguenti
δ1 = A1 − A0 = 1,
δ2 = A2 − A1 = 1.
Perciò, la ricorrenza si può estendere a ogni n > 1,
δn+1 = δn + δn−1
con δ0 = 0, δ1 = 1.
La successione delle differenze coincide, quindi, con quella dei numeri di Fibonacci:
ciascuno è somma dei due precedenti. Ricorrendo al metodo delle funzioni generatrici,
esposto anche nell’Appendice B di queste dispense, si trova


√ !j
√ !j 

1+ 5
1− 5
1
−
,
δj = √


2
2
5
j > 1.
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
12
Combinando questo risultato con la definizione di An , si ha
An = A0 +
n
X
δk
k=1


√ !k
√ !k
n
X
1− 5 
1  1+ 5
√
−
= A0 +

2
2
5
k=1


√ !k
√ !k
n
X
1− 5 
1  1+ 5
√
−
.
= 1+

2
2
5
k=1
In conclusione, la probabilità di ottenere, su n lanci di una moneta, 2 volte consecutive testa è:


√ !k
n

X
|An |
1  1+ 5
1
√
1− n =1− n 1+
−
2
2 
2
5
k=1

√ !k 
1− 5
.

2
z
Esempio 1.3.3. [Estrazioni da un’urna] Un’urna contiene N palle distinte, di cui R
bianche ed S nere. Si estraggono n palle in blocco. Si vuole calcolare la probabilità che
k di esse siano bianche e n − k nere. I casi possibili sono i sottoinsiemi, di n elementi,
estraibili da un insieme di N elementi; il loro numero è, perciò, N
n . Se assumiamo che
i sottoinsiemi in questione hanno la stessa probabilità di essere estratti, allora basta
determinare il numero di quei sottoinsiemi che contengono k bianche e n−k nere, ovvero
S R
k n−k . Allora, la probabilità richiesta è uguale a
R
S
k
n−k
N
n
con la convenzione che tale rapporto è considerato nullo quando qualche coefficente binomiale perde di significato algebrico. Lo stesso vale se le n palle si estraggono una per
volta senza però reimbussolare quelle già estratte e se le n-uple ottenibili sono supposte
ugualmente probabili.
Si estraggono successivamente tutte le palle; qual è la probabilità che non si presentino mai due bianche di seguito? Tale evento è impossibile se R > S. I casi possibili
sono N ! successioni e, supposto R 6 S, il numero dei casi favorevoli si ottiene intercalando, in ciascuna delle S! permutazioni delle nere, le R bianche in R punti (compreso
il punto avanti la prima e il punto dopo l’ultima). Per ogni singola permutazione delle
nere, la suddetta operazione si può fare in R! S+1
modi. Quindi, se ciascuna delle N !
R
1.3. PROBABILITÀ SU SPAZI FINITI
13
permutazioni è giudicata con probabilità 1/N !, la probabilità che non si presentino mai
due bianche di seguito è:
S+1
S+1
R!S!
R
R
= .
N
N!
R
Invece se estraiamo dalla stessa urna con restituzione [registrato il colore della palla estratta, la si rimette nell’urna e si procede all’estrazione successiva], i casi possibili sono
le disposizioni con ripetizione, di classe n, di oggetti da un insieme che ne contiene N .
Vogliamo ancora calcolare la probabilità di ottenere k bianche e (n − k) nere. Il primo
estratto può essere uno qualunque di questi oggetti, il secondo estratto, parimenti, può
essere uno qualunque degli N oggetti dati, ecc.; perciò, il numero delle suddette disposizioni è N n . Quelle favorevoli sono le disposizioni che contengono k bianche e n−k nere.
Ciascuno dei k posti può essere riempito in R modi possibili (numero delle bianche) e i
restanti n − k possono essere riempiti singolarmente in S modi possibili (numero delle
nere). Inoltre, poiché i k posti delle bianche sono tanti quanti i sottoinsiemi di k ele
menti di un insieme di n elementi [= nk ], il numero dei casi favorevoli è nk Rk S n−k .
Dunque, la probabilità di avere k bianche in n estrazioni è
n−k
k k n−k
R
n
n R S
R
1
−
.
=
Nn
N
N
k
k
Si noti che R/N si può vedere come probabilità di osservare bianca in ogni singola
estrazione, e (1 − R/N ) come probabilità di nera.
z
Esempio 1.3.4. Sia Ω l’insieme delle n! permutazioni di (1, . . . , n). Su Ω si consideri la
misura di probabilità uniforme, ossia P {ω} = 1/n! per ogni ω in Ω. Data una permutazione ω = (σ1 , . . . , σn ) diciamo che tale permutazione è completamente disordinata se
σi 6= i per ogni i = 1, . . . , n, ossia se nessun numero resta fissato da ω. Calcoliamo la probabilità dell’insieme E delle permutazioni completamente disordinate. Se indichiamo
con Ei l’insieme delle permutazioni che fissano i, ossia tali che σi = i, si ha
E = (∪ni=1 Ei )c
e quindi
P (E) = 1 − P (∪ni=1 Ei ).
Gli eventi Ei non sono a due a due incompatibili quindi per calcolare P (∪ni=1 Ei ) si può
applicare il principio di inclusione esclusione (1.4). Il numero delle permutazioni in cui
sono fissati i numeri (i1 , . . . , ik ) è (n − k)! e, per l’ipotesi di uniformità della probabilità
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
14
fissata, si ha P (Ei1 ∩ . . . , ∩Eik ) = (n − k)!/n!, per k = 1, . . . , n. Notando che questa probaP
bilità non dipende dalla scelta di (i1 , . . . , ik ) e che il numero di addendi in 16i1 <···<ik 6n
è nk , la (1.4) porge
P (∪ni=1 Ei )
n
X
n (n − 1)!
1
1
3 n (n − 2)!
=
(−1)k+1 .
−1
+ · · · + (−1)n+1 =
1
n!
n!
n!
k!
2
k=1
Concludendo,
P (E) = 1 −
n
X
n
k+1
(−1)
X
1
1
=
(−1)k .
k!
k!
k=0
k=1
Se ne deduce che P (E) ∼ 1/e per n → +∞.
1.4 Probabilità su spazi infiniti e definizione di probabilità su σ-algebre
Non di rado si presentano situazioni nelle quali lo spazio dei casi elementari non è
finito o, più precisamente, conviene considerarlo come infinito. Ad esempio, il numero
(aleatorio) delle persone che si presentano a un certo posto di servizio durante una ben
determinata futura giornata lavorativa sarà certamente finito ma, non potendo essere
predetto in anticipo, sarà opportuno identificarne, almeno in una prima approsimazione,
tutte le realizzazioni possibili con l’insieme degli interi non negativi N0 := {0, 1, 2, . . .}.
Incominciamo, quindi, a trattare della probabilizzazione delle parti di un insieme Ω
numerabilmente infinito:
Ω = {ω1 , ω2 , . . .}.
Procediamo, imitando quanto si è fatto nel caso di Ω finito, col fissare una successione
P
di numeri non negativi pk (k = 1, 2, . . .) tali da soddisfare
k>1 pk = 1. Quindi,
proseguiamo definendo, per ogni evento A ⊂ Ω,
P (A) =
X
pk .
{k:ωk ∈A}
Si verifica facilmente che P soddisfa le condizioni (a’)-(b’) assegnate nel Paragrafo 1.3. Si
S
può altresì provare che P è σ–additiva, soddisfa cioè (c’). I Infatti, posto A0 = n>1 An ,
1.4. PROBABILITÀ SU SPAZI INFINITI E DEFINIZIONE DI PROBABILITÀ SU σ -ALGEBRE15
dalla definizione di P segue
P(
[
X
An ) =
n>1
pk
{k:ωk ∈A0 }
=
X
X
pk
per l’incompatibilità a coppie degli eventi An
n>1 {k:ωk ∈An }
e le proprietà delle serie convergenti a termini > 0
=
X
P (An ).
n>1
E’ interessante notare che si possono dare esempi di probabilità che soddisfano (a’)–(b’)
ma non (c’), come nel seguente .
Esempio 1.4.1. Si consideri come Ω l’insieme N degli interi positivi e si fissi la classe
A dei sottoinsiemi di N che sono finiti o cofiniti; quindi A ∈ A se e solo se A contiene
un numero finito di casi elementari oppure il complementare di A presenta la stessa
caratteristica. Lo studente può verificare, per esercizio, che A è un’algebra. Su A si
definisca la funzione

 0
P (E) =
 1
se E ⊂ N è finito
se E ⊂ N è cofinito
.
Si controlla facilmente che questa P soddisfa (a’)-(b’) e che, dunque, è una probabilità.
P
z
Tuttavia, si ha 1 = P (Ω) > 0 = n>0 P ({n}).
Ritornando alle considerazioni generali svolte nel paragrafo 1.2, si deve notare che,
in numerose trattazioni, le misure di probabilità vengono presentate in modo (solo formalmente) diverso, coinvolgendo il concetto di σ-algebra di parti di Ω: un’algebra di
parti di Ω, S, che sia stabile per unione numerabile (se A1 , A2 , . . . appartengono a S,
allora la loro unione appartiene a S) si dice σ-algebra. Pertanto, P : S → [0, 1] si dice
(misura di) probabilità su (Ω, S) se, oltre a doddisfare (a′ ) e (b′ ) della definizione di
Sezione 1.2, verifica la condizione
P
(c′′ ) P (∪n>1 An ) = n>1 P (An ) per ogni successione di eventi A1 , A2 , . . . in S a due a
due incompatibili.
Quest’ultima definizione di misura di probabilità non è più restrittiva di quella riferita, più genericamente, a un’algebra, e questo segue da un fondamentale teorema dovuto
a Carathéodory:
Teorema 1.4.2. Se A è un’algebra di parti di Ω e P è una misura di probabilità su A,
allora esiste una e una sola misura di probabilità P ∗ sulla più piccola fra le σ-algebre
che contengono A, tale che P ∗ (A) = P (A) per ogni A in A.
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
16
Il valore della condizione (c′′ ) rispetto a probabilità definite tramite (a′ ) − (b′ ) si può
apprezzare ricordando che la richiesta di (c′′ ) equivale ad una condizione di continuità
di P lungo successioni monotone di eventi. Se (An )n>1 è una successione di insiemi
tali che An ⊂ An+1 per ogni n > 1, allora si dirà che la successione è monotona non
decrescente; analogamente, la successione (Bn )n>1 per cui Bn ⊃ Bn+1 , per ogni n > 1,
si dice monotona non crescente. Per tali successioni si definisce il limite come segue:
∪n>1 An nel primo caso, ∩n>1 Bn nel secondo; una probabilità P si dice continua lungo
(An )n>1 , [(Bn )n>1 , rispettivamente] se
lim P (An ) = P (∪n>1 An )
n→+∞
[limn→+∞ P (Bn ) = P (∩n>1 Bn ), rispettivamente]. La suddetta forma di continuità delle
misure di probabilità è completamente descritta dal
Teorema 1.4.3. Sia P una funzione da S in [0, 1] che soddisfa (a′ ) − (b′ ). Valgono allora
le due affermazioni seguenti:
(i) Se P è anche una misura di probabilità (soddisfa (c′′ )), allora P è continua lungo
ogni successione monotona.
(ii) Se P è continua lungo le successioni monotone di eventi decrescenti verso l’evento
impossibile, allora P è una misura di probabilità.
Di particolare interesse, nel terorema testé enunciato, è il punto (ii) il quale fornisce
un criterio comodo, in certi casi, per controllare se una misura è, anche, una misura di
probabilità. Approfondimenti e applicazioni di questi aspetti saranno trattati in corsi
più avanzati del biennio magistrale.
Concludiamo con la dimostrazione della fondamentale proprietà di subattività, finita
e σ–finita.
Teorema 1.4.4. Sia P una misura di probabilità su (Ω, S), e E1 , E2 , . . . siano eventi
appartenenti a S. Allora
(i) P (E1 ∪ · · · ∪ En ) 6
(ii) P (∪k>1 Ek ) 6
P
Pn
k>1
k=1
P (Ek ) per ogni n.
P (Ek ).
Dimostrazione. (i) Scriviamo E1 ∪ · · · ∪ En come unione di eventi a due a due
incompatibili
c
E1 ∪ · · · ∪ En = E1 ∪ (E2 ∩ E1c ) ∪ (E3 ∩ E1c ∩ E2c ) · · · ∪ (En ∩ E1c ∩ · · · ∩ En−1
).
1.4. PROBABILITÀ SU SPAZI INFINITI E DEFINIZIONE DI PROBABILITÀ SU σ -ALGEBRE17
Allora, dalla (b′ ) della definizione di probabilità,
c
P (E1 ∪ · · · ∪ En ) = P (E1 ) + P (E2 ∩ E1c ) + P (E3 ∩ E1c ∩ E2c ) + · · · + P (En ∩ E1c ∩ · · · ∩ En−1
)
6 P (E1 ) + . . . P (En )
(per la (1.2)).
18
CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ
Capitolo 2
Numeri aleatori - Distribuzioni
di probabilità
2.1 Considerazioni introduttive al concetto di variabile aleatoria
Supponiamo che un tiratore punti a un bersaglio circolare di raggio 3, e riceva punteggio 3,2,1 rispettivamente nei casi in cui colpisca il cerchio più interno di raggio 1, la
corona circolare di raggio non minore di 1 e minore di 2, la restante corona circolare. Il
tiratore non riceve alcun punto se non colpisce il cerchio di raggio 3. Si pone il problema di descrivere adeguatamente il guadagno del tiratore che, ovviamente, è di entità
aleatoria. Molti problemi concreti si presentano nella forma di quello testé descritto.
L’avverbio adeguatamente si riferisce alla proposta di un modello matematico aderente
alle situazioni concrete del tipo di quella considerata e, contemporaneamente, abbastanza generale. A questo fine, nella teoria delle probabilità moderna si procede fissando, dapprima, un opportuno spazio di casi elementari, tale che la grandezza aleatoria
in esame [punteggio, nel caso del tiratore] sia riprodotta da una conveniente funzione
definita sullo spazio dei casi elementari predisposto in partenza. Allora, nell’esempio
del tiratore possiamo identificare lo spazio dei casi elementari Ω con R2 .
Posto ciò, il punteggio si può scrivere come funzione X da Ω in R nel modo seguente. Si
pone ω = (x, y) e, quindi,
X = X(ω) = 11{2<kωk63} (ω) + 2 · 11{1<kωk62} (ω) + 3 · 11{kωk61} (ω),
19
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
20
dove con k(x, y)k si denota la radice quadrata, in senso aritmetico, di (x2 +y 2 ) e 11A indica
la funzione indicatrice di A, ossia la funzione definita da 11A (ω) = 1 se ω appartiene ad
A e 11A (ω) = 0 se ω non appartiene ad A.
Si prenda in considerazione un altro esempio, più realistico del precedente, concernente l’affidabilità di un sistema. Si esamina, per l’appunto, il funzionamento di un sistema costituito da n elementi detti componenti. Ciascuno di questi ultimi, in un certo istante, può risultare efficiente [situazione che si designa, convenzionalmente, con la cifra
1] oppure guasto [circostanza che si indica con la cifra 0]. Allora, lo stato del sistema si
può identificare , con riferimento a un dato istante, con un vettore ω = (x1 , . . . , xn ) con
componenti in {0, 1}: xi = 0 oppure 1 a seconda che l’i-esimo elemento del sistema sia,
all’epoca considerata, guasto oppure efficiente. Possiamo dunque riguardare l’insieme
Ω = {0, 1}n di tutti questi vettori come spazio dei casi elementari quando si voglia esam-
inare lo stato del sistema, che è generalmente aleatorio se riferito ad un istante futuro
come avviene, del resto, nelle applicazioni più interessanti della teoria e delle tecniche
dell’affidabilità. Si noti che Ω contiene 2n elementi. Dunque, per descrivere lo stato
del sistema alla data futura fissata, si introduce una variabile aleatoria detta, nel caso
specifico, funzione struttura del sistema, che vale 1 in corrispondenza agli elementi di Ω
per i quali il sistema è efficiente e vale 0 in corrispondenza ai restanti. Si possono citare
diversi tipi di funzione struttura. Ad esempio, per un sistema che funziona in serie [il
sistema è efficiente solo se tutti gli elementi sono efficienti], la funzione struttura sarà
definita come
ϕs = ϕs (ω) = min{x1 , . . . , xn } =
n
n
Y
k=1
xk
per ω = (x1 , . . . , xn ) ∈ {0, 1}n.
Invece, per un sistema funzionante in parallelo [il sistema è efficiente se almeno un suo
componente è tale], la funzione struttura è data da
ϕp = ϕp (ω) = max{x1 , . . . , xn },
n
per ω = (x1 , . . . , xn ) ∈ {0, 1}n.
Venendo alla presentazione generale, si dice elemento aleatorio o variabile aleatoria
ogni funzione definita su uno spazio di casi elementari. Se la funzione è costante, la
variabile non è, di fatto, aleatoria, e, per comodità espositiva, non si conia un apposito
simbolo per indicarla e si continua ad usare il simbolo della costante. Concretamente
ogni variabile aleatoria corrisponde a un fenomeno (aleatorio) osservabile del quale non
è generalmente possibile – per carenza d’informazione – predire la vera determinazione.
Tale determinazione è però fissata in corrispondenza a ogni caso elementare contenuto
in Ω.
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
21
2.2 Distribuzione di probabilità di una variabile aleatoria
Un fenomeno osservabile diviene rilevante dal punto di vista probabilistico quando se
ne fissi una legge di probabilità, ovvero, in parole molto povere, si stabiliscano dei gradi
di probabilità per le determinazioni possibili del fenomeno stesso. Quando il fenomeno
viene rappresentato nella forma di un elemento aleatorio, diciamo ξ, la sua legge di probabilità – indichiamola con Pξ – viene generalmente detta distribuzione di probabilità
di ξ. Essa si esprime per mezzo di una probabilità sopra una classe di parti del codominio di ξ. In particolare, se è fissata una probabilità P sopra una classe di parti di Ω –
tipicamente una σ-algebra S – la distribuzione di ξ viene a dipendere significativamente
da P .
Più precisamente, se C è una classe di sottoinsiemi del codominio – o di un insieme C
che contiene il codominio – di ξ, e se {ω ∈ Ω : ξ(ω) ∈ A} è un elemento di S per ogni A in
C [in questo caso, la funzione ξ è detta misurabile rispetto a S/C], allora la probabilità
che la variabile aleatoria ξ prenda una determinazione contenuta in A è pari al valore
di P in corrispondenza all’evento {ω ∈ Ω : ξ(ω) ∈ A}. Quindi vale
Pξ (A) = P {ω ∈ Ω : ξ(ω) ∈ A},
(A ∈ C).
(2.1)
Conviene far notare subito che nelle applicazioni concrete della probabilità l’assegnazione di Pξ precede, generalmente, quella di P . Può darsi il caso che vengano fissate
le leggi di probabilità di k variabili aleatorie, con k > 2, prima comunque che venga
precisata una probabilità P su una classe di parti di Ω. Quindi, se per esigenze di esposizione matematica si presentasse la necessità di ricondurre ciascuna della Pξ a una
medesima P sopra una classe di parti di Ω, allora si procederebbe – ove possibile – a
definire convenzionalmente sia S sia P in modo che la suddetta condizione di misurabil-
ità e la (2.1) valgano – con riferimento a tali S e P – per ogni ξ. Ora ci limitiamo a dare
qualche dettaglio della procedura indicata nel caso in cui C è un sottoinsieme di R e ξ,
perciò, è un numero aleatorio. Si tratta di una situazione particolarmente significativa
in vista delle applicazioni che se ne fanno. Prima di procedere, avvertiamo, una volta
per tutte, che le probabilità di cui si tratterà d’ora in poi sono da considerare misure
di probabilità, ovvero probabilità σ-additive, e le variabili aleatorie sono da supporre
funzioni misurabili.
22
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
2.2.1 Distribuzione di probabilità e funzione di ripartizione di
un numero aleatorio
Senza ledere seriamente la generalità del discorso, consideriamo ξ con C = R. In questo
caso, si usa fissare C coincidente con la più piccola σ-algebra (di parti di R) contenente
tutti i sottoinsiemi aperti di R. Essa è nota come σ-algebra di Borel su R e viene indicata
con B(R). E’ evidente che intervalli come (−∞, a) appartengono a B(R); inoltre poiché
(−∞, a] = ∩n>1 (−∞, a +
1
n ],
anche le semirette semichiuse (−∞, a] sono contenute in
B(R). Di conseguenza si scopre che tutti gli intervalli sono insiemi boreliani. Dati un
numero aleatorio ξ e la sua distribuzione Pξ , si considera la restrizione di Pξ all’insieme
delle semirette {(−∞, a] : a ∈ R}: (−∞, a] → Pξ ((−∞, a]) con a variabile in R. Si nota che
questa restrizione si può interpretare come funzione della variabile reale a e scrivere
Fξ (a) := Pξ ((−∞, a])
(a ∈ R).
La funzione di variabile reale a 7→ Fξ (a) si dice funzione di ripartizione di ξ. Essa gode
di talune proprietà che conviene porre in evidenza. La prima concerne la monotonia
di Fξ e, cioè, il fatto che Fξ è monotona non decrescente. Ciò è dovuto all’implicazione
(−∞, a] ⊂ (∞, a + h] se h > 0, la quale, unitamente alla monotonia della probabilità (cf.
1.2), implica
Fξ (a) = Pξ ((−∞, a]) 6 Pξ ((−∞, a + h]) = Fξ (a + h)
per ogni a in R e h > 0. In conseguenza della monotonia, gli eventuali punti di discontinuità di Fξ costituiscono un insieme numerabile (finito o numerabilmente infinito).
Fra le proprietà di Fξ vanno senz’altro annoverate quelle relative al comportamento ai
limiti:
lim Fξ (x) = 0,
x→−∞
lim Fξ (x) = 1,
x→+∞
(2.2)
e alla continuità da destra in eventuali punti a di discontinuità:
lim Fξ (x) = Fξ (a).
x→a+
(2.3)
Le (2.2), (2.3) sono conseguenza della continuità delle misure di probabilità (cf. Teorema
1.4.3) e della monotonia di Fξ . Infatti ∅ si può vedere come limite della successione
(−∞, −n], n = 1, 2, . . . , per n → +∞. Quindi,
0 = Pξ (∅) = lim Pξ ((−∞, −n]) = lim = Fξ (−n).
n→+∞
n→+∞
Per stabilire che vale la prima delle (2.2), basta ricordare che Fξ è monotona non decrescente, condizione che implica l’esistenza di limx→−∞ Fξ (x). Analogamente, si dimostra
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
23
la seconda delle (2.2) osservando che R si può vedere come limite della successione
crescente (−∞, n], n = 1, 2, . . . . Pertanto, per continuità,
1 = Pξ (R) = lim Pξ ((−∞, n]) = lim = Fξ (n)
n→+∞
n→+∞
e la tesi segue, ancora una volta, dalla monotonia di Fξ . Finalmente, per dimostrare
(2.3), si applica la continuità delle misure di probabilità onde ricavare
Fξ (a) = Pξ ((−∞, a]) = lim Pξ ((−∞, a +
n→+∞
1
1
]) = lim Fξ (a + );
n→+∞
n
n
allora, poiché limx→a+ Fξ (x) esiste in virtù della monotonia di Fξ , ricaviamo
Fξ (a) = lim Fξ (a +
n→+∞
1
) = lim Fξ (x).
n
x→a+
Si ha
Pξ {(a, b]} = Fξ (b) − Fξ (a)
purché si convenga di porre Fξ (−∞) = 0. Inoltre,
Pξ (a, +∞) = 1 − Fξ (a)
per −∞ 6 a < +∞.
In definitiva, data una funzione di ripartizione, si possono fissare immediatamente
le probabilità degli intervalli aperti a sinistra e chiusi a destra. D’altro canto, per la
continuità di Pξ (cfr. Paragrafo 1.4), poiché (a, b) = limn→+∞ (a, b − 1/n] vale per ogni a,
b per cui −∞ 6 a < b < +∞, si ha Pξ (a, b) = limn→+∞ Pξ (a, b − 1/n], ovvero
Pξ (a, b) = Fξ (b− ) − Fξ (a)
(2.4)
dove f (x−
0 ) indica limx→x− f (x) (purché il limite esista). Infatti, ((a, b − 1/n])n>1 costitu0
isce una successione crescente di insiemi verso l’aperto (a, b) e, pertanto, in virtù della
(i) del Teorema 1.4.3 si ha Fξ (b − 1/n) − Fξ (a) = Pξ ((a, b − 1/n]) → Pξ (a, b) per n → +∞
e, inoltre, essendo Fξ monotona non decrescente, limn Fξ (b − 1/n) = Fξ (b− ). Vale anche
Pξ {[a, b]} = Fξ (b) − Fξ (a− ) e, in particolare, per a = b = x0
Fξ (x0 ) − Fξ (x−
0 ) = Pξ {x0 }.
Ciò chiarisce che l’eventuale salto di Fξ in x0 coincide con la probabilità concentrata nel
singoletto {x0 }. Chiaramente, Pξ {x0 } = 0 se e solo se x0 è un punto di continuità per Fξ .
D’ora in poi caratterizzeremo spesso la distribuzione di probabilità di una variabile
aleatoria mediante la sua funzione di ripartizione.
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
24
2.2.2 Perché la funzione di ripartizione merita attenzione
L’importanza della funzione di ripartizione è legata ad un teorema in base al quale una
distribuzione di probabilità su (R, B(R)) (o, equivalentemente, la distribuzione di pro-
babilità di un numero aleatorio) è completamente determinata dalla conoscenza della
relativa funzione di ripartizione. Una formulazione precisa si ottiene introducendo la
definizione di funzione di ripartizione astraendo da quella di un numero aleatorio: si
dice funzione di ripartizione su R una qualunque funzione F : R → R monotona non
decrescente che soddisfa (2.2) e (2.3) con F al posto di Fξ . Allora, il risultato annunciato
si puó formulare come segue
Teorema 2.2.1. Data una funzione di ripartizione su R, F, esiste una ed una sola misura
di probabilità µ∗ su B(R) tale che µ∗ (−∞, x] = F (x) valga per ogni x ∈ R.
In preparazione alla dimostrazione consideriamo la classe di intervalli
I := {(a, b], (c, +∞) : −∞ 6 a < b < +∞, x > −∞}
e mostriamo che la classe U di tutte le unioni finite e disgiunte di tali intervalli è l’al-
gebra generata da I. Poiché ogni algebra contenente I deve contenere anche U, basta
Un
dimostrare che U è un’algebra. Infatti, se A = k=1 Ik 1 è una unione finita e disgiun-
ta di elementi di I, è evidente che Ac è dello stesso tipo e, quindi, è un elemento di
Un′
U. Se anche B = k=1 Ik′ è una unione finita e disgiunta di elementi di I, si verifica
facilemnte che tale rimane A ∩ B. Infine, R = (−∞, +∞) ∈ I ⊂ U e, con questo, si può
concludere che U è un’algebra. L’algebra U genera, a sua volta, la classe di Borel. Per
questo, basta dimostrare che ogni σ-algebra contenente U contiene tutti gli intervalli
aperti (a, b). A tal fine, si osserva che ogni σ-algebra siffatta deve contenere le unioni
∪n>1 (a, b − 1/n] = (a, b) essendo (a, b − 1/n] elementi di I ⊂ U per n = 1, 2, . . . .
Dimostrazione del Teorema 2.2.1. Per ogni elemento di I, poniamo µ((c, +∞)) =
Pn
Un
1 − F (c), µ((a, b]) = F (b) − F (a) con F (−∞) := 0 e, per A = k=1 Ik , µ(A) = k=1 µ(Ik ).
Verifichiamo che µ è una misura di probabilità su U. In primo luogo ci accertiamo che µ
è una funzione su U. Infatti, ogni elemento di U ammette più di una rappresentazione
– dovuta al fatto che ogni elemento di I può a sua volta essere decomposto nella unione
di due intervalli disgiunti – e noi dobbiamo verificare che µ è insensibile alle diverse
rappresentazioni di uno stesso elemento di U. A questo fine, basta appurare che tale
“insensibilità” sussiste se si considera (a, α] ∪ (α, b] al posto di (a, b] e (c, α] ∪ (α, +∞) al
posto di (c, +∞), con α in (a, b] nel primo caso e α in (c, +∞) nel secondo. In effetti, si ha
1
U
denota l’unione di insiemi disgiunti a dua a due
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
25
µ((a, α]∪(α, b]) = µ((a, α])+ µ((α, b]) = F (α)− F (a)+ F (b)− F (α) = F (b)− F (a) = µ((a, b])
e µ((c, α] ∪ (α, +∞)) = µ((c, α]) + µ((α, +∞)) = F (α) − F (c) + 1 − F (α) = µ((c, +∞)).
Ora, è immediato verificare che µ(R) = 1 e che µ è (grazie alla sua costruzione) finitamente additiva. Per completare la verifica, sarebbe sufficiente mostrare che per ogni (Ak )k>1 ⊂ U tale che Ak ց ∅ si ha µ(Ak ) ց 0 per k → +∞, cfr. Teorema 1.4.3
(ii). Il fatto che (µ(Ak ))k>1 sia monotona non crescente segue dall’addidività finita e
da (1.2). Verifichiamo subito che per ogni ε > 0 si può trovare un sottoinsieme limitato e non vuoto di A′k di Ak tale che Ak ⊃ A′k (chiusura di A′k ) e µ(Ak \ A′k ) 6 ǫ/2k
per k = 1, 2, . . . . Poiché ogni Ak è unione finita e disgiunta di elementi di I, possi-
amo limitarci a mostrare che la suddetta proprietà di approssimazione sussiste per
ogni singolo elemento di I. In effetti dati ε, (a, b], (c, +∞) si ha [α, b] ⊂ (a, b] per ogni a < α 6 b e [β, γ] ⊂ (c, +∞) per ogni c < β < γ < +∞. Quindi sfruttando
la continuità da destra della funzione di ripartizione F , possiamo fissare α abbastan-
za vicino ad a in modo che µ((a, b] \ (α, b]) = F (α) − F (a) sia minore di ε; inoltre, da
µ((c, +∞) \ (β, γ]) = µ((c, β]) + µ((γ, +∞)) = F (β) − F (c) + 1 − F (γ) vediamo che possiamo fissare β sufficientemente vicino a c (rispettivamente, γ abbastanza grande) in
modo che F (β) − F (c) 6 ε/2 (rispettivamente, 1 − F (γ) 6 ε/2, ricordando che F (γ) ր 1
se γ → +∞). Segue l’esistenza della successione (A′k )k>1 con la disiderata proprietà
di approssimazione. Ora, posto Ck = ∩kj=1 A′j per k = 1, 2, . . . , si ha che (Ck )k>1 è una
successione decrescente di compatti con Ck ⊂
overlineA′k ⊂ Ak e, quindi, Ck ց ∅ per k → +∞, ovvero ∩k>1 Ck = ∅. Per un classico
teorema (di Cantor) deve allora esistere un intero positivo N per il quali ∩N
k=1 Ck = ∅.
′
Ciò implica ∩N
k=1 Ak = ∅ e, per n > N , si ha
µ(An ) = µ(An \ ∩nk=1 A′k ) = µ(An ∩ (∪nj=1 (A′j )c ))
= µ(∪nj=1 (An \ A′j )) 6 µ(∪nj=1 (Aj \ A′j )) (perché An ⊃ Aj se j 6 n)
6
6
n
X
j=1
n
X
j=1
µ(Aj \ A′j )
(subadditività implicata dalla additività finita di µ su U)
ε
6 ε.
2j
Data l’arbitrarietà di ε, la precedente implica µ(An ) → 0, come restava da dimostrare
per concludere che µ è misura di probabilità su U. Ricorrendo al teorema di Carathéodory
(cfr. Teorema 1.4.2) si può allora affermare che esiste una ed una sola misura di proba-
bilità µ∗ sulla σ-algebra generata da U, ovvero B(R), per la quale µ∗ (A) = µ(A) su ogni
A in U e, in particolare µ∗ ((−∞, x]) = F (x) per ogni x in R. z
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
26
Come conseguenza del teorema si ottiene che, data una funzione di ripartizione F ,
esiste (almeno) un numero aleatorio ξ la cui funzione di ripartizione Fξ coincide con F
su R.
2.2.3 Funzioni di ripartizione di numeri aleatori discreti
Iniziamo con la caratterizzazione delle cosiddette distribuzioni discrete. Sia S un sottoinsieme numerabile di R e sia ξ un numero aleatorio il cui codominio è contenuto in
S. Allora, indicata come al solito la distribuzione di ξ con Pξ , risultano soddisfatte le
relazioni seguenti
Pξ (S c ) = 0,
Pξ {s} > 0
per ogni s ∈ S,
X
s∈S
Pξ {s} = 1.
La distribuzione, come pure la funzione di ripartizione di ξ e, a volte, la ξ stessa, in
questo caso viene detta, con leggero abuso di linguaggio, discreta.
Conviene osservare che il grafico di una funzione di ripartizione discreta in cui l’insieme {s ∈ S : Pξ {s} > 0} è formato da punti isolati, si presenta come un diagramma a
gradini; ovvero, se con xi si denotano gli elementi di S in ordine crescente, lo stralcio del-
la funzione di ripartizione attorno agli elementi consecutivi xi−1 < xi < xi+1 apparirà
come nella Figura 2.1 dove pi := Fξ (xi ) − Fξ (xi−1 ) rappresenta Pξ {xi }.
Figura 2.1: Funzione di ripartizione di una distribuzione discreta.
Diamo ora alcuni notevoli esempi di distribuzioni discrete.
Distribuzione binomiale
Siano n un intero positivo e θ un elemento fissato dell’intervallo [0, 1], ξ un numero
aleatorio che prende valori in S = {0, 1, 2, . . . n}. La distribuzione di ξ si dice binomiale
con parametro (n, θ) [in simboli Bn,θ ] se
n k
Pξ {k} =
θ (1 − θ)n−k
k
per k = 0, 1, 2, . . . , n.
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
27
Si osserva immediatamente che nk θk (1 − θ)n−k è non negativo. (Si faccia la convenzione
di assumere nk θk (1 − θ)n−k = 1 se θ = 0 e k = 0 oppure se θ = 1 e k = n.) Inoltre, per la
formula dello sviluppo del binomio, cf. (A.1), vale
n
n X
X
n k
Pξ {k} =
θ (1 − θ)n−k = [θ + (1 − θ)]n = 1.
k
k=0
k=0
Confrontando Pξ {k} con la parte finale dell’Esempio 1.3.3, si vede che per θ = R/N , Bn,θ
è la distribuzione del numero aleatorio ξ =′′ numero di bianche estratte in n estrazioni
con restituzione′′ . L’interpretazione di Bn,θ si arricchirà di nuovi elementi interessan-
ti dopo aver introdotto, nel Capitolo 3, la nozione di indipendenza stocastica; cf. la
Sottosezione 3.3.1.
Distribuzione ipergeometrica
Consideriamo ancora un numero aleatorio ξ con n ed S come nel paragrafo precedente.
Per quanto concerne θ si assume che esso coincide con R/N . La distribuzione di ξ si dice
ipergeometrica se





Pξ {k} =




n N θ(N θ−1)...(N θ−k+1)(N −N θ)(N −N θ−1)...(N −N θ−n+k+1)
N (N −1)...(N −n+1)
k
se n 6 N , N θ + n − N 6 k 6 N θ
0
altrove.
In seguito indicheremo tale distribuzione con H(k; θ, N, n). Si vede facilmente, con-
frontandola con la probabilità ottenuta nella prima parte dell’Esempio 1.3.3 che Pξ {k}
è la probabilità di avere k palline bianche in n estrazioni senza restituzione da un’urna
che contiene N palline di cui N θ = R bianche, quando tutte le n–uple estraibili siano
ritenute ugualmente probabili. Si può mostrare che la probabilità ipergeometrica si
avvicina uniformemente a quella binomiale al divergere a all’infinito del rapporto N/n.
In altre parole, se il numero delle palline contenute nell’urna è grande rispetto a quello
delle estratte, allora la probabilità ipergeometrica si può ben approssimare con quella
binomiale; l’approssimazione migliora uniformemente se il divario fra i due numeri n
ed N aumenta divergendo all’infinito. La validità di queste affermazioni segue dalle
seguenti disuguaglianze
1
n−k−1
)
n N θN (θ − N1 ) . . . N (θ − k−1
N )N (1 − θ)N (1 − θ − N ) . . . N (1 − θ −
N
H(k; θ, N, n) >
k
Nn
k−1
1
n−k−1
1
n
)(1 − θ)(1 − θ − ) . . . (1 − θ −
)
=
θ(θ − ) . . . (θ −
N
N
N
N
k
k n−k
k
n
n−k
>
θ−
1−θ−
;
k
N
N
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
28
Nn
n k
θ (1 − θ)n−k
k
N (N − 1) . . . (N − n + 1)
N θ . . . (N θ − k + 1)(N − N θ) . . . (N − N θ − (n − k) + 1)
(N θ)k (N − N θ)n−k
Nn
n k
1
n k
<
θ (1 − θ)n−k
.
<
θ (1 − θ)n−k
N (N − 1) . . . (N − n + 1)
(1 − n/N )n
k
k
H(k; θ, N, n) =
Distribuzione di Poisson
Sia ξ una variabile aleatoria tale che
Pξ {k} =
λk e−λ
k!
valga per ogni k intero non negativo con λ parametro strettamente positivo assegnato. La funzione k 7→ Pξ {k} genera una distribuzione di probabilità su B(R) in quanto
Pξ {k} > 0 per ogni k = 0, 1, 2, . . . e, inoltre,
X
k>0
Pξ {k} =
X λk e−λ
k!
k>0
= e−λ eλ = 1.
Tale distribuzione si dice di Poisson. Essa viene spesso utilizzata come legge del numero
aleatorio degli arrivi in una coda, o di un numero aleatorio di nascite in un’unità di
tempo. È interessante osservare che la si può leggere come limite di una successione di
distribuzioni binomiali. Più precisamente, per ogni n > 1 si definisca la distribuzione
binomiale Bn,θn con θn =
λ
n
+ o(1/n), n → +∞:
n k
Bn,θn {k} =
θ (1 − θn )n−k .
k n
Quindi, per k = 0, 1, . . . , n,
1
Bn,θn {k} = n(n − 1) · · · (n − k + 1)
k!
=
λ
+o
n
k n−k
λ
1
1
1− +o
=
n
n
n
k n−k
1
k−1
λ
1
1
1
n→+∞ 1
··· 1 −
λ+n·o
1− +o
−−−−−→ λk e−λ .
1 1−
k!
n
n
n
n
n
k!
Distribuzione binomiale negativa
I numeri
n+r−1 n
θ (1 − θ)r ,
r
r = 0, 1, . . .
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
29
sono ovviamente strettamente positivi quando n è un intero fissato maggiore di zero e θ
è un numero qualunque in (0, 1). Inoltre, sotto queste medesime condizioni,
X n + r − 1
r>0
r
θn (1 − θ)r =
X (n + r − 1) · · · n
r!
r>0
X
θn (1 − θ)r
(−n)(−n − 1) · · · (−n − r + 1) n
θ (1 − θ)r
r!
r>0
X
−n n
θ (1 − θ)r
=
(−1)r
r
=
(−1)r
r>0
= θn [1 − (1 − θ)]−n = 1.
Quindi,
Pξ {r} =
n+r−1 n
θ (1 − θ)r
r
r = 0, 1, . . .
definisce una distribuzione di probabilità discreta che è nota come legge binomiale negativa. Vedremo che nello schema di eventi indipendenti con probabilità fissa θ, descritto
n
nel prossimo capitolo, n+r−1
· ·θ (1 − θ)r fornisce la probabilità che l’n-esimo successo
r
si verifichi nella (n + r)-esima prova. Quando n = 1, la distribuzione è detta geometrica
o di Pascal; legge del tempo in cui si verifica il primo successo.
2.2.4
z
Funzioni di ripartizione assolutamente continue
Consideriamo ora una funzione non negativa f : R → R+ , integrabile su R e tale che
Rb
R +∞
f (x) dx = 1, ovvero lima→−∞,b→+∞ a f (x) dx = 1. A tale f associamo la funzione
−∞
integrale
F (x) =
Z
x
f (t) dt
−∞
(x ∈ R).
Si dimostra facilmente che F è monotona non decrescente, con limx→−∞ F (x) = 0 e
limx→+∞ F (x) = 1. Inoltre, F è continua ovunque e, da questo punto di vista, presenta
una forma di continuità speciale che si chiama assoluta continuità: F è derivabile quasi
ovunque e vale F ′ (x) = f (x) quasi ovunque. (Una proprietà si dice valida quasi ovunque
su R se l’eventuale insieme su cui non vale è ricopribile per ogni ε > 0 con una classe
numerabile di intervalli la somma delle cui lunghezze non supera ε.)
La funzione f è nota come funzione di densità della funzione di ripartizione F .
Proseguiamo con qualche esempio notevole di funzione di ripartizione assolutamente
continua.
30
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
Distribuzione uniforme
Fissato l’intervallo non vuoto e limitato (a, b) si consideri la funzione
f (x) =
che, ovviamente, vale
1
b−a
1
11(a,b) (x)
b−a
su (a, b) ed è nulla altrove. Tale funzione è non negativa e
Z +∞
Z b
1
dx = 1.
f (x) dx =
b
−
a
+∞
a
Quindi, f è una funzione di densità [cf. Figura 2.2] che, per la sua forma, è detta uniforme su (a, b).
1/(b−a)
a
b
Figura 2.2: Densità uniforme
La corrispondente funzione di ripartizione [cf. Figura 2.3] è data da
F (x) =
Z
x
−∞


0


 x−a
1
11(a,b) (t) dt =

b−a
b−a


 1
se
x6a
se
a<x6b .
se
x>b
Distribuzione esponenziale negativa e, più in generale, gamma
Si suddivida l’asse dei tempi nella successione d’intervalli contigui: [0, ∆], (∆, 2∆],
(2∆, 3∆], . . .. Al j-esimo di tali intervalli sia associato l’evento Ej,∆ “si verifica almeno un
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
31
Figura 2.3: Funzione di ripartizione con densità uniforme
guasto, in un certo impianto, nel j-esimo intervallo temporale”, j = 1, 2, . . . La probabilità
di ciascun Ej,∆ sia
λ∆ + o(∆)
(∆ → 0),
dove λ è un parametro positivo. Anticipando argomenti trattati nei Capitoli 3 e 4, se si
fa l’ipotesi che i numeri (aleatori) di eventi, che si verificano in intervalli disgiunti, sono
stocasticamente indipendenti con probabilità che dipendono solo dalle lunghezze degli
intervalli, allora l’espressione
(1 − λ∆ + o(∆))k
dà la probabilità che il primo evento (guasto) si manifesti dopo l’istante k∆. Fissiamo
t > 0 e consideriamo l’evento
At = ”nessun guasto si verifichi prima di t ”.
Considerato che la parte intera del rapporto (t/∆), [t/∆], corrisponde al numero di
intervalli completi contenuti in [0, t], si ha
A([t/∆]+1)∆ ⊂ At ⊂ A([t/∆])∆
e, per la monotonia della probabilità [vedi (1.2)]
P robA([t/∆]+1)∆ 6 P robAt 6 P robA([t/∆])∆ .
Si osservi ora che valgono
P robA([t/∆])∆ = (1 − λ∆ + o(∆))[t/∆] ,
P robA([t/∆]+1)∆ = (1 − λ∆ + o(∆))[t/∆]+1 ,
(2.5)
32
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
e che, per il limite notevole che definisce la base dei logaritmi neperiani, le (2.5), convergono, per ∆ tendente a 0, a e−λt . Quindi per il teorema del confronto, se ξ denota
l’istante in cui si verifica il primo guasto nel modello a tempo continuo, il valore sopra
determinato rappresenta Pξ (t, +∞). In altri termini Pξ (−∞, t] = 1 − e−λt fornisce, per
ogni t > 0, la probabilità che il primo guasto si verifichi non oltre t. Si vede agevolmente
che la funzione

 0
F (t) =
 1 − e−λt
t60
t>0
è di ripartizione. Inoltre, poiché
F (x) =
Z
x
λe−λt 11(0,+∞) (t) dt
−∞
vale per ogni x, ricaviamo che F è assolutamente continua con densità λe−λt 11(0,+∞) (t).
Essa è detta distribuzione esponenziale negativa.
Sotto le stesse condizioni d’indipendenza stocastica, ma con calcoli necessariamente
più elaborati, si trova che la probabilità di avere un numero di guasti non superiore a
(m − 1), nell’intervallo [0, t) è data da
1−
λm
(m − 1)!
Z
t
y m−1 e−λy .
0
Denotato allora con ξm l’istante aleatorio in cui si verifica l’m-esimo guasto, risulterà
Z t
λm
Pξn (t, +∞) = 1 −
y m−1 e−λy dy.
(m − 1)! 0
Nella teoria delle funzioni speciali si chiama funzione gamma la seguente
Z +∞
z 7→ Γ(z) :=
xz−1 e−x dx
(z > 0).
0
Integrando per parti, si scopre che essa soddisfa la relazione
Γ(z + 1) = zΓ(z)
(z > 0)
e, quindi, se z = m intero positivo, si ricava
Γ(m + 1) = m!.
Per quanto detto,
f (x) =


 0
λm m−1 −λx

x
e

Γ(m)
se x < 0
se x > 0
è una funzione di densità di probabilità la cui corrispondente funzione di ripartizione
(assolutamente continua)
Z
F (x) =
x
−∞
λm m−1 −λu
u
e
11(0,+∞) (u) du
Γ(m)
(x ∈ R)
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
33
si chiama funzione di ripartizione gamma, come la distribuzione di probabilità che essa
genera. Si è visto, dunque, che essa rappresenta, sotto opportune condizioni, la legge
dell’istante di accadimento dell’m-esimo di una successione di eventi. Notiamo che la
distribuzione esponenziale negativa è un caso particolare di distribuzione gamma (con
m = 1).
Completiamo le informazioni sulla funzione gamma aggiungendo che vale Γ(1/2) =
√
π. Infatti,
Z +∞
Z +∞
√
2
−1/2 −x
Γ(1/2) =
x
e dx = 2
e−t dt
(per il cambiamento di variabile t = x).
0
Ora, posto I :=
0
R +∞
0
2
e−t dt, si ottiene
2
I =
Z
0
+∞Z +∞
e−(x
2
+y 2 )
dxdy
0
e, passando a coordinate polari,
I2 =
Z
0
π/2Z +∞
2
e−ρ ρ dρdθ =
0
Z
π/2
0
√
√
Pertanto, I = π/2 e Γ(1/2) = 2I = π.
π
1
dθ = .
2
4
Distribuzione gaussiana
Si tratta di una distribuzione assolutamente continua avente densità
1
(x − m)2
f (x) = √ exp −
(x ∈ R)
2σ 2
σ 2π
con m, σ parametri: m ∈ R, σ > 0. Per convincersi che f è una densità basta osservare
che essa è strettamente positiva su R e che
Z +∞
Z +∞
√
1
√ exp(−y 2 ) dy
f (x) dx =
(col cambiamento di variabile y = (x − m)/σ 2 )
π
−∞
−∞
Z +∞
2
2
e−y dy
(per simmetria)
= √
π 0
=1
(cf. la fine della sottosezione precedente).
La corrispondente funzione di ripartizione è data da
F (x) =
1
√
σ 2π
Z
x
e−
−∞
(y−m)2
2σ2
1
dy = √
2π
Z
(x−m)/σ
−∞
La funzione di densità di probabilità
2
x
1
x 7→ √ exp −
2
2π
(x ∈ R)
e−
ξ2
2
dξ.
(2.6)
34
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
è la cosiddetta densità gaussiana standard la cui funzione di ripartizione si denota,
usualmente, con Φ. Allora, in virtù di (2.6), si ha
F (x) = Φ
x−m
σ
(x ∈ R).
L’importanza della distribuzione gaussiana è legata al teorema centrale del limite, teorema al quale accenneremo in una delle prossime lezioni. Cf. Capitolo 7.
z
2.2.5 Funzioni di ripartizione di natura qualunque. Cenni
Un teorema di Lebesgue permette di stabilire che ogni funzione di ripartizione si decompone, in un unico modo, nella combinazione convessa di funzioni di ripartizione di
tre tipi: discreta, assolutamente continua, continua–singolare. Più precisamente, data
una funzione di ripartizione F , esistono una terna di numeri non negativi c1 , c2 , c3
con c1 + c2 + c3 = 1 e una terna di funzioni di ripartizione Fd (discreta), Fac (assolutamente continua), Fcs (continua–singolare) tali che F = c1 Fd + c2 Fac + c3 Fcs . Qualche ci
potrebbe essere nulla; finora, ad esempio, ci siamo occupati di funzioni di ripartizione
con c2 = c3 = 0 oppure con c1 = c3 = 0. Illustriamo il significato del teorema di Lebesgue
ricorrendo a qualche esempio.
Esempio di funzione di ripartizione con componente discreta e componente
assolutamente continua
Si considera una tariffa adottata da una compagnia di assicurazione in base alla quale
se l’importo del sinistro (assicurato) è minore di un valore prestabilito, m, la compagnia
non effettua alcun risarcimento; se l’importo supera il valore M > m, allora la compagnia risarcisce M ; la compagnia rimborsa l’importo del sinistro se questo è compreso
nell’intervallo [m, M ]. Ai fini della determinazione del premio – da pagarsi all’atto della
stipulazione del contratto di assicurazione – la compagnia deve fissare la distribuzione
del numero aleatorio associato al risarcimento. In base all’esperienza ed alle caratteristiche specifiche dei contraenti e del sinistro assicurato, la compagnia può determinare la
distribuzione dell’importo del sinistro (si badi, non ancora quella del risarcimento). Supponiamo che la funzione di ripartizione di tale importo (x) sia assolutamente continua
con la cosiddetta densità di Pareto
p(s) =
βαβ
11(α,+∞) (s)
sβ+1
2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA
35
dove α, β sono parametri positivi noti, con α < m. Da essa si può dedurre la legge del
risarcimento (r) tenendo presente che vale
r = x11[m,M] (x) + M 11(M,+∞) (x).
Cf. Figura 2.4.
Figura 2.4: Diagramma del risarcimento in funzione dell’importo del sinistro.
Allora, indicata con F la funzione di ripartizione del risarcimento, F (z) = P {r 6 z},
si ha



0
se z < 0


Z m

β

βα


11
(x)dx se 0 6 z < m

β+1 (α,+∞)
x
Z0 z
F (z) =
βαβ



11
(x)dx se m 6 z 6 M

β+1 (α,+∞)


0 x


 1
se z > M


 0
se x < 0




 1 − (α/m)β se 0 6 x < m
.
=


1 − (α/x)β se m 6 x 6 M




 1
se x > M
Il diagramma di questa funzione di ripartizione è visualizzata nella Fig. 2.5
Esso pone in evidenza l’esistenza di due masse concentrate in 0 e in M , esse valgono,
rispettivamente, 1 − (α/m)β e (α/M )β . Consideriamo quindi la funzione di ripartizione
discreta ottenuta normalizzando queste masse, ossia
α β α β α β 1
+
1
1
(x)
1
−
.
1
1
(x)
1
−
+
Fd (x) =
[M,+∞)
[0,M)
1 − (α/m)β + (α/M )β
m
m
M
36
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
Figura 2.5: Funzione di ripartizione del risarcimento.
Quindi, si osservi che vale
α β α β α β − 11[M,+∞) (x) 1 −
=
F (x) − 11[0,M) (x) 1 −
+
m
m
M
α β α β
α β α β
= 11[m,M) (x)
+ 11[M,+∞) (x)
=
−
−
m
x
m
M
Z x
α β α β
β −β−1
βα u
11(m,M) (u) du =
=
Fac (x)
−
m
M
−∞
e, pertanto, per ogni x in R si ha
α β α β α β α β
Fd (x) +
Fac (x)
F (x) = 1 −
+
−
m
M
m
M
h i−1 R x
α β
α β
β −β−1
con Fac = m
11(m,M) (u) du.
− M
−∞ βα u
z
Esempio di funzione di ripartizione continua singolare.
Si dá un esempio di funzione di ripartizione su R che è ovunque continua ma (come nel
caso di funzioni di ripartizione discrete) ha derivata nulla quasi ovunque.
Una tale funzione di ripartizione non può allora essere assolutamente continua percheé,
in tal caso, essa coinciderebbe con l’integrale della propria derivata su (−∞, x] per ogni
x e, dunque, la derivata non potrebbe essere nulla quasi ovunque.
L’esempio viene costruito per mezzo di un passaggio al limite, per n → +∞, dopo
aver eseguito n “passi” come segue.
Al passo 1, si suddivide l’intervallo unitario in tre parti e si considera una qualunque
funzione F monotona non decrescente che sull’intervallo centrale [1/3, 2/3) prende valore costante = 1/2. Al passo 2, ciascuna delle parti restanti viene suddivisa in tre parti
2.3. INTERPRETAZIONI DI UNA DISTRIBUZIONE SULL’ASSE REALE
37
di uguale lunghezza e, fra le funzioni individuate nel passo 1 si considerano quelle che
sugli intervalli centrali [1/9, 2/9),[7/9, 8/9) prendono valore costante uguale, rispettivamente a 1/4 e 3/4. Al passo 3, ciascuna delle 4 parti rimanenti viene suddivisa in 3
parti uguali e, fra le sunzioni individuate al passo 2 si considerano soltanto quelle che,
sui tratti centrali [1/27, 2/27), [7/27, 8/27),[19/27, 20/27), [25/27, 26/27), prendono valore
costante uguale, rispettivamente, a 1/8, 3/8, 5/8, 7/8. Procedendo così, dopo n passi,
si considerano quelle funzioni monotone non decrescenti che prendono valore costante
uguale a 1/2n, 3/2n , . . . , (2n − 1)/2n , sugli intervalli centrali (in numero di 2n−1 ) di quelli
lasciati liberi dopo il passo (n − 1), ciascuno di luneghezza 1/3n. Pertanto le funzioni
da considerare prima del passo successivo hanno derivata nulla sull’unione di tutti gli
intervalli centrali definiti fino al passo n, unione che ha lunghezza
Ln =
2n−1
1 2
+ + ···+ n ;
3 9
3
inoltre, le funzioni non continue, fra quelle considerate, hanno salti di ampiezza massima αn 6 1/2n . Allora, mandando il numero dei passi a +∞, si viene ad isolare una
funzione non decrescente (passa da 0 a 1) F definita su [0, 1), che è continua (perché
αn → 0) e ha derivata nulla su un insieme unione di intervalli di lunghezza complessiva
L = lim Ln = 1
n
che è anche la lunghezza di [0, 1). Pertanto, prolungando F in una funzione G coincidendte con F su [0, 1), e che vale 0 su (−∞, 0) e 1 su [1, +∞), si ricava che G
è una funzione di ripartizione continua su R con derivata quasi ovunque nulla su R
e, di conseguenza, non assolutamente continua. Essa è crescente su un insieme (dei
“buchi” lasciati liberi dagli intervalli su cui è costante) di misura (di Lebesgue) nulla o
–equivalemntemente – distribuisce la massa unitaria in tale insieme di misura nulla.
Per questo, costituisce un esempio di funzione di ripartizione singolare (rispetto alla
misura di Lebesgue).
2.3 Interpretazioni di una distribuzione sull’asse reale
Abbiamo finora trattato di distribuzioni di probabilità. Nel caso più elementare, si è
considerato un numero aleatorio che può assumere un numero finito di determinazioni,
e , quindi, la sua distribuzione fissa le probabilità con cui esso prende le determinazioni
possibili.
Un concetto analogo si incontra in statistica. Dati N individui, da suddividere a
seconda di una certa caratteristica che ammette k modalità: µ1 , . . . , µk , si ottengono k
38
CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ
gruppi contenenti N1 , . . . , Nk individui, rispettivamente: N1 + · · ·+ Nk = N . Ad esempio,
nella “Relazione del Nucleo di Valutazione dell’Università di Pavia” per il 1998 si legge
che, per certi fini, i 1134 ricercatori vengono suddivisi per comitato; esistono 9 comitati
[01: Scienze matematiche, informatiche, Ingegneria elettrica, elettronica e meccanica (128); 02: Scienze fisiche (81); . . . ; 09: Scienze economiche e statistiche (107)]. Le
frazioni ϕk = Nk /N [nel caso dei ricercatori: ϕ1 = 0, 1129, ϕ2 = 0, 0714, . . .] si dicono
frequenze ed è evidente che esse danno luogo ad una distribuzione che ha le stesse proprietà di una distribuzione di probabilità. Essa si chiama distribuzione statistica perché
ha frequenze al posto di probabilità. Una distribuzione statistica ha comunque una interpretazione come distribuzione di probabilità: se scelgo a caso uno degli N individui
(ogni individuo può uscire con probabilità 1/N ), allora la probabilità che possegga la
modalità µi è ϕi .
Le probabilità o le frequenze ϕ1 , . . . , ϕk sulle ascisse µ1 , . . . , µk possono essere viste,
inoltre, come masse materiali, nel senso della meccanica, e la distribuzione si può allora
interpretare come suddivisione della massa unitaria fra i punti µ1 , . . . , µk .
Capitolo 3
Probabilità condizionata e
indipendenza stocastica
3.1 Considerazioni introduttive
Abbiamo trattato, finora, soltanto di probabilità di eventi che possono risultare Veri o
Falsi. Tuttavia, il calcolo delle probabilità si occupa, per soddisfare esigenze applicative concrete, anche di eventi il cui campo di possibilità è limitato da qualche specifica
condizione. Si parla, allora, di eventi condizionati o subordinati. Per esempio, relativamente a una partita di calcio che vedrà impegnate le squadre A e B, si può scommettere
sulla vittoria di A [ricevendo una somma di denaro prestabilita se A vince e perdendo la
posta se A non vince: perde o pareggia], ma si può scommettere sulla vittoria di A nell’ipotesi che la partita si chiuda con la vittoria di una delle squadre in campo. Dunque
l’evento “vittoria di A” viene subordinato alla condizione che una delle due squadre vinca. Di conseguenza, lo scommettitore incassa se A vince, perde se vince B, mentre vede
annullata la scommessa nel caso la partita non termini con la vittoria di una delle due
squadre. Si noti la differenza rispetto alla situazione precedente della scommessa sulla
vittoria di A.
Una situazione concettualmente analoga si presenta – con riferimento al cosiddetto
processo di apprendimento dall’esperienza – quando si debba valutare la probabilità di
una certa ipotesi H subordinatamente al fatto che un determinato esperimento abbia un
certo esito, fatto espresso a sua volta da un evento E. Si tratta di valutare la probabilità
di H condizionatamente a un ipotetico incremento d’informazione espresso dall’evento
39
40CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA
E.
Siano E, H, con E 6= ∅, eventi contenuti in una classe C di parti di Ω che includa an-
che l’intersezione E ∩ H. Ciò è automaticamente soddisfatto se C è un’algebra. L’evento
“H condizionato da E” (detto anche evento “H subordinato a E”) si può rappresentare,
come nella Figura 3.1, restringendo (come accennato all’inizio del paragrafo) le possibilità all’insieme dei casi elementari che costituiscono E e, quindi, considerando successo
[rispettivamente, insuccesso] il presentarsi di un caso elementare contenuto in H ∩ E
[rispettivamente, il presentarsi di un caso elementare contenuto in E \ H].
Si usa indicare l’evento “H condizionato da E” col simbolo H|E.
Si noti che vale H|E = H ∩ E|E ovvero, il generico evento condizionato H|E si può
scrivere in forma irriducibile come H ∩ E|E.
Figura 3.1: L’evento “H condizionato da E” è vero nella zona punteggiata, falso in quella
sfumata, indeterminato nella zona bianca.
Veniamo a fare qualche osservazione preliminare sulla valutazione della probabilità
di H|E. Supponiamo che un individuo giudichi P (E) = 0, 90 la probabilità che si verifichi E e P (H|E) = 0, 60 la probabilità che si verifichi H nell’ipotesi che E sia vero.
Possiamo reinterpretare questo sistema di valutazione così: l’individuo in questione si
impegna a pagare 0,60 euro nel caso si verifichi E, per ricevere 1 euro se si verifica
H ∩ E; per vincere 0,60 euro nel caso si verifichi E si impegna a pagare 0,60 · 0,90=0,54
euro. In definitiva, pagando 0,54 euro, il nostro giocatore acquista il diritto a ricevere 1
euro se si verificano simultaneamente H ed E; quindi, 0,54 si può riguardare come una
valutazione della probabilità di H ∩ E coerente con i valori di P (H|E) e P (E). Questo
punto di vista sarebbe in accordo con quanto suggerito dalla precedente immagine geometrica. Poiché, considerare H|E significa concentrare l’attenzione ai punti contenuti
in E (zona sfumata per l’insuccesso, punteggiata per il successo), allora la probabilità di
3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES
41
E va vista come nuova unità di misura, ovvero: P (H|E) = P (H ∩ E)/P (E), equivalente
a 0, 60 = P (H ∩ E)/0, 90.
3.2 Principio delle probabilità composte e teorema di
Bayes
Nell’impostazione assiomatica di Kolmogorov, la probabilità di H|E [nelle condizioni
dichiarate nella sezione precedente] viene definita, coerentemente alle osservazioni già
svolte, come un numero P (H|E) che soddisfa la relazione
(3.1)
P (H|E)P (E) = P (H ∩ E)
ossia il principio delle probabilità composte. Quando P (E) 6= 0, (3.1) determina la
probabilità di P (H|E),
P (H|E) = P (H ∩ E)/P (E),
prolungando P da C a C ∪ {H|E}.
A questo punto si pone in evidenza che, per un evento E fissato in un’algebra C con
P (E) > 0, la funzione
H 7→ P (H|E)
(H ∈ C)
è una misura di probabilità su C. Infatti, (1) P (H|E) = P (H ∩ E)/P (E) > 0; (2) se H
appartiene a C e contiene E, allora P (H|E) = P (H ∩ E)/P (E) = P (E)/P (E) = 1, da cui,
in particolare P (Ω|E) = 1; (3) se A1 , A2 , . . . e ∪n>1 An appartengono a C, con gli Ai a due
a due incompatibili, allora
1
P (E ∩ (∪n>1 An ))
P (E)
1
1 X
=
P (∪n>1 (E ∩ An )) =
P (E ∩ An )
P (E)
P (E)
P (∪n>1 An |E) =
n>1
=
X
n>1
X
1
P (E ∩ An ) =
P (An |E)
P (E)
n>1
In molti casi, praticamente significativi come quello dei procedimenti di apprendimento
(l’induzione statistica ne sarebbe esempio tipico), si suppongono assegnate le probabilità:
– P (E|H) del risultato sperimentale data l’ipotesi H, P (E|H c ) del risultato sperimentale data H c ,
– P (H) dell’ipotesi (probabilità iniziale)
42CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA
e si procede alla determinazione di P (H|E) (probabilità finale). Allora, dalla definizione
di P (E|H), cioè
P (E|H)P (H) = P (H ∩ E),
segue
P (E|H)P (H) = P (H|E)P (E)
ovvero
P (H|E) =
P (E|H)P (H)
P (E)
se
P (E) 6= 0
(3.2)
che fornisce l’espressione più elementare del teorema di Bayes.
Infatti, con considerazioni semplici è possibile generalizzare questo teorema a partizioni numerabili di ipotesi. Si dice che la famiglia di eventi {Hn : n > 1} è una
partizione dello spazio Ω dei casi elementari se Hn 6= ∅ per ogni n, Hn ∩ Hm = ∅ se
S
n 6= m, n>1 Hn = Ω. Quindi, per ogni (misura di ) probabilità P , vale

1 = P (Ω) = P 
[
n>1

Hn  =
Inoltre, per ogni evento E vale


[
[
E =E∩
(E ∩ Hn )
Hn  =
n>1
X
P (Hn ).
n>1
(proprietà distributiva).
n>1
Quindi, risultando gli eventi E ∩ Hn , n > 1, a due a due incompatibili, si ha [disinte-
grazione della probabilità di E su (Hn )n>1 ]
P (E) =
X
n>1
(3.3)
P (E ∩ Hn ).
Se in un problema sono assegnate le probabilità
– P (E|Hn ), n > 1 [n 7→ P (E|Hn ) è detta verosimiglianza delle ipotesi Hn , dato E],
– P (Hn ), n > 1 [n 7→ P (Hn ) è detta distribuzione iniziale],
si può determinare P (E) notando che (3.3) e il principio delle probabilità composte
implicano
P (E) =
X
P (E|Hn )P (Hn )
n>1
e, per il teorema “ristretto′′ di Bayes (3.2), a patto che P (E) sia strettamente positiva, si
perviene alla forma classica dello stesso teorema
P (E|Hn )P (Hn )
n>1 P (E|Hn )P (Hn )
P (Hn |E) = P
(n > 1).
(3.4)
3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES
3.2.1
43
Alcuni esempi
Concludiamo il paragrafo con qualche esempio nel quale si applicano i concetti e le
regole di calcolo esposti in precedenza.
Poker Si calcoli la probabilità di realizzare, in una data mano di poker, una scala reale
[la mano che comprende 10, J, Q, K, A dello stesso seme], nell’ipotesi che tutte le
mani possibili abbiano la stessa probabilità. Il numero delle mani possibili è 52
5 ;
quindi denotato con Ω l’insieme delle mani possibili e con ω la mano generica, si
ha
52
P (ω) = 1/
.
5
Indicato con R l’evento “la mano è una scala reale”, si vede che R è formato da 4
elementi di Ω e, quindi,
P (R) = 4/
52
.
5
Poniamo ora che il mazziere scopra l’ultima carta della tua mano (la quinta); valuta la probabilità di realizzare scala reale accettando la carta scoperta che, supponiamo, è l’asso di cuori. Se denotiamo con C l’evento “la quinta carta che ti si
distribuisce è l’asso di cuori”, l’evento di cui si chiede di valutare la probabilità è
l’evento condizionato R|C. Il numero delle mani con la caratteristica di avere l’asso
di cuori in quinta posizione (o una carta qualunque fissata in una data posizione)
è 51
4 e, pertanto,
51
52
P (C) =
/
4
5
e, perciò,
P (R ∩ C)
=
P (R|C) =
P (C)
51
52
P (R ∩ C)/
.
4
5
Inoltre, R ∩ C contiene un solo caso elementare: la scala reale di cuori. Pertanto,
−1
P (R ∩ C) = 52
e, di conseguenza,
5
51
13
P (R).
P (R|C) = 1/
=
5
4
44CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA
Probabilità di essere imbrogliati Un’industria automobilistica fabbrica uno stesso
modello in tre diversi stabilimenti: A, B, C. Si stima che A produce NA modelli, B produce NB modelli e C produce NC modelli, rispettivamente con una
frazione pA , pB , pC di difettosi. Se acquisti, presso un concessionario, un esemplare del modello, qual è la probabilità di trovarlo difettoso? Si possono formulare tre ipotesi, circa la provenienza dell’esemplare, che formano una partizione di
Ω: H1 =“l’esemplare proviene dallo stabilimento A”; H2 =“l’esemplare proviene dallo
stabilimento B”; H3 =“l’esemplare proviene dallo stabilimento C”. Indicato con D
l’evento “l’esemplare acquistato è difettoso”, si ha
P (D|H1 ) = pA ,
P (D|H2 ) = pB ,
P (D|H3 ) = pC .
Inoltre, è ragionevole valutare le P (Hi ) nel modo seguente
P (H1 ) =
NA
,
N
P (H2 ) =
NB
,
N
P (H3 ) =
NC
,
N
(N := NA + NB + NC )
Quindi,
P (D) = P (D ∩ H1 ) + P (D ∩ H2 ) + P (D ∩ H3 ) = pA
NA
NB
NC
+ pB
+ pC
.
N
N
N
Ora, nell’ipotesi che il modello acquistato sia difettoso, calcola la probabilità che
provenga, rispettivamente, da A, B, C:

NA


per i = 1
pA


N

1
1
NB
P (Hi ∩ D) =
×
P (Hi |D) =
pB
per i = 2 .
P (D)
P (D) 
N


N

 pC C per i = 3
N
Test clinico Si considera un test clinico ideato per rivelare una malattia rara che si
presenta in un caso su 100.000. Il test è abbastanza affidabile: per un individuo
affetto rivela la presenza della malattia con probabilità 0,95; per un individuo non
affetto segnala la malattia (sbagliando, dunque) con probabilità 0,005. Calcolare la
probabilità che un individuo, per il quale il test è positivo, sia affetto dalla malattia
in questione. Consideriamo gli eventi: M =“l’individuo è affetto dalla malattia”;
R=“il test è positivo”; dobbiamo valutare P (M |R), sapendo che P (R|M ) = 0.95,
P (R|M c ) = 0, 005, P (M ) = 0, 00001. Allora
P (R|M )P (M )
P (R|M )P (M ) + P (R|M c )P (M c )
0, 95 · 0, 00001
= 0, 0018964.
=
0, 95 · 0, 00001 + 0, 005 · 0.99999
P (M |R) =
3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES
45
Ancora i dadi. . . Una coppia di dadi equilibrati viene lanciata in aria. Nell’ipotesi che
la faccia presentata dal primo dado sia 3, qual è la probabilità che il punteggio
totale superi 6? Detto Ω lo spazio dei casi elementari (l’insieme delle coppie ordinate (i, j) con i=punteggio del primo dado e j=punteggio del secondo dado), si
ha |Ω| = 36. Indichiamo con E l’evento che si verifica se i = 3 e con F l’evento
{(i, j) ∈ Ω : 3 + j > 6}. La probabilità richiesta è
P (F |E) = P (F ∩ E)/P (E).
Mettendo a frutto la condizione espressa sui dadi, sarà ragionevole ritenere uguale
a 1/36 la probabilità di ogni caso elementare. Quindi: P (E) = 6/36, P (F ∩E) = 3/36
e, di conseguenza,
P (F |E) = 3/6 = 1/2.
Sesso dei figli Si considerano le famiglie con due figli. Questi ultimi, classificati in ordine di nascita e in base al sesso, danno luogo alle possibilità seguenti: {M M, M F,
F M, F F }. Nell’ipotesi che le quattro possibilità siano ugualmente probabili, si
chiede di calcolare la probabilità che i figli siano entrambi maschi, nell’ipotesi che
almeno uno sia maschio. Si ha
P (M M |M M ∨ M F ∨ F M ) =
1
1/4
= .
3/4
3
[Si badi, non 1/2] Calcolare la probabilità che i figli siano entrambi maschi nell’ipotesi che il più giovane sia maschio:
P (M M |M M ∨ M F ) =
1
1/4
= .
2/4
2
Urne Si considerano due urne contenenti palline colorate. La prima contiene 3 palline
bianche e 2 rosse, la seconda contiene 3 palline bianche e 4 rosse. Si estrae una
pallina a caso dalla prima urna e la si ripone nella seconda; quindi si estrae una
pallina a caso dalla seconda urna e si chiede di valutare che essa sia rossa. Indichiamo con R2 quest’ultimo evento, e con B1 e R1 , rispettivamente, l’estrazione
di bianca e di rossa dalla prima urna. Allora,
P (R2 ) = P (R2 ∩B1 )+P (R2 ∩R1 ) = P (R2 |B1 )P (B1 )+P (R2 |R1 )P (R1 ) =
22
43 52
+
=
.
85 85
40
46CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA
3.3 Correlazione fra eventi e indipendenza stocastica
Nel confronto fra P (H|E) e P (H) potrebbe presentarsi una delle circostanze seguenti:
(i)
P (H|E) > P (H),
(ii)
P (H|E) < P (H),
(iii)
P (H|E) = P (H).
La (iii) dice che assumere la verità di E non ha alcuna influenza sulla probabilità
di H; si dice allora che H non dipende stocasticamente da E. Analogamente, la (i)
[rispettivamente, la (ii)] dice che assumere la verità di E fa aumentare [rispettivamente, fa diminuire] la probabilità di H; quindi, si dice che H dipende positivamente
[rispettivemente, negativamente] da E. Ricordando le relazioni fondamentali
P (E ∩ H) = P (E|H)P (H) = P (H|E)P (E)
(3.5)
si scopre che la validità di (iii) implica
(3.6)
P (E ∩ H) = P (H)P (E)
e, se P (H) 6= 0, anche la validità di
(3.7)
P (E|H) = P (E)
(E non dipende stocasticamente da H). Da (3.6) segue (iii) quando P (E) > 0. Gli eventi
E, H si dicono (mutuamente o reciprocamente) stocasticamente indipendenti quando vale
(3.6). Questa è una delle proprietà più interessanti per gli sviluppi della teoria delle
probabilità. Si noti che si tratta di una proprietà di P , non degli eventi, a dispetto della
dizione. [N.B.: Non si confonda l’indipendenza stocastica di E ed H con la loro eventuale
incompatibilità. Gli eventi E,H possono essere indipendenti e non incompatibili, quando
P (E∩H) = P (E)P (H) con P (E∩H) > 0. Al contrario, gli eventi E ed H incompatibili con
P (E) > 0 e P (H) > 0 non possono, ovviamente, essere indipendenti, perché P (E ∩ H) =
0.]
Se E e H sono stocasticamente indipendenti, allora anche E e H c sono stocasticamente indipendenti (quindi, anche (E c , H c ) e (E c , H)). Infatti,
P (E ∩ H c ) = P (E) − P (E ∩ H)
= P (E) − P (E)P (H)
[per la (3.6)]
= P (E){1 − P (H)}
= P (E)P (H c ).
Quando si hanno n eventi E1 , . . . , En , con n > 2, essi si dicono stocasticamente indipendenti se lo sono a due a due, a tre a tre, ecc.; più precisamente, quando per ogni
3.3. CORRELAZIONE FRA EVENTI E INDIPENDENZA STOCASTICA
47
k = 2, . . . , n e per ogni sottoinsieme {j1 , . . . , jk } di {1, . . . , n} vale
P (Ej1 ∩ · · · ∩ Ejk ) = P (Ej1 ) · · · P (Ejk ).
Si dimostra facilmente che se E1 , . . . , En sono indipendenti, risultano indipendenti anche gli eventi Eic1 , . . . , Eick , Ei1 , . . . , Ein−k per ogni {i1 , . . . , ik } ⊂ {1, . . . , n} e {j1 , . . . , jn−k } =
{1, . . . , n} \ {i1 , . . . , ik }.
Come mostra il caso seguente, non basta l’indipendenza a due a due per avere, ad
esempio, quella a tre a tre. Si estrae una pallina da un’urna che ne contiene 4: una
bianca, una rossa, una verde, una bleu. Si scommette avendo diritto a scegliere due
colori, e tre individui scommettono scegliendo: il primo bianco o rosso (E1 ), il secondo
bianco o verde (E2 ), il terzo bianco o bleu (E3 ). Se la probabilità di ciascun colore è 1/4,
allora:
P (E1 ) = P (E2 ) = P (E3 ) = 1/2,
P (E1 ∩ E2 ) = P (E1 ∩ E3 ) = P (E2 ∩ E3 ) = 1/4 = P (Ei )P (Ej )
(i 6= j).
Così gli eventi E1 , E2 , E3 sono a due a due indipendenti: la probabilità che una fissata
coppia di scommettitori vinca è data dal prodotto delle probabilità che il singolo vinca.
Invece
P (E1 ∩ E2 ∩ E3 ) = 1/4 6= P (E1 )P (E2 )P (E3 ).
È interessante notare il fatto seguente:
Data la probabilità di ciascuno di n eventi indipendenti, si può determinare la probabilità di ogni altro evento che ne dipenda logicamente. (Per la nozione di dipendenza
logica, vedere Sezione 1.2 ed Esempio 1.2.2)
Infatti, si può incominciare con l’osservazione che se E1 , . . . , En sono gli n eventi dati,
allora ogni evento E che ne dipenda logicamente è unione dei costituenti Ei1 ∩ · · · ∩ Eik ∩
Ejc1 ∩· · ·∩Ejcn−k . Allora, sfruttando l’additività della probabilità e il fatto che i costituenti
sono a due a due incompatibili, si ha
P (E) =
X
∗
P (Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩ Ejcn−k )
con la somma estesa agli indici {i1 , . . . , ik } ⊂ {1, . . . , n} per cui Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩
Ejcn−k ⊂ E.
Se vale l’ipotesi di indipendenza, posto
pj = P (Ej ),
qj = P (Ejc ) = 1 − pj
(j = 1, . . . , n),
48CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA
si ha, in più,
P (Ei1 ∩ · · · ∩ Eik ∩ Ejc1 ∩ · · · ∩ Ejcn−k ) = pi1 · · · pik · qj1 · · · qjn−k
e anche la probabilità di E dipende soltanto dai valori di pj e qj assegnati. Ad esempio,
la probabilità che nessuno degli eventi Ei si verifichi è
ω0 = q1 · · · qn
La probabilità che se ne verifichi esattamente uno è
ω1 =
X
i
q1 · · · qi−1 · pi · qi+1 · · · qn = ω0
X pi
i
(se
qi
qi > 0 per ogni i)
come si può dedurre anche dalla formula generale (1.4) quando si assuma l’indipendenza
stocastica degli Ai .
La probabilità che se ne verifichino esattamente due è
ω2 =
X
16i<j6n
q1 · · · qi−1 · pi · qi+1 · · · qj−1 · pj · qj+1 · · · qn
X
= ω0
16i<j6n
pi pj
qi qj
(se ogni qi 6= 0)
e la probabilità che se ne verifichino esattamente k è
ωk =
X
16i1 <···<ik 6n
= ω0
X
q1 · · · qi1 −1 · pi1 · qi1 +1 · · · qik −1 · pik · qik +1 · · · qn
16i1 <···<ik 6n
pi1 · · · pik
qi1 · · · qik
(3.8)
(3.9)
se ogni qi 6= 0.
3.3.1 Ancora la distribuzione binomiale
Se gli eventi E1 , . . . , En , oltre ad essere stocasticamente indipendenti, sono ugualmente
probabili [P (Ei ) = p e qi = 1 − p per ogni i], allora la probabilità ωk che se ne verifichino
esattamente k si deduce da (3.8) come segue
ωk =
X
16i1 <···<ik 6n
k n−k
p q
n k n−k
=
p q
k
perché il numero degli addendi è uguale a quello dei sottoinsiemi, di k elementi, dell’insieme {1, . . . , n}. Confrontando questo risultato con la definizione di distribuzione
binomiale data nel Sottoparagrafo 2.2.3, si conclude che per n eventi indipendenti e con
probabilità costante p, il numero aleatorio di quelli che si verificano ha distribuzione
binomiale di parametro (n, p).
3.3. CORRELAZIONE FRA EVENTI E INDIPENDENZA STOCASTICA
3.3.2
49
Successioni di eventi indipendenti e, ancora, distribuzione
binomiale negativa
Gli eventi di una successione E1 , E2 , . . . si dicono indipendenti se, per ogni n, E1 , . . . , En
formano una n-upla di eventi stocasticamente indipendenti. Sia dunque (En )n>1 una
successione di eventi indipendenti, di probabilità costante uguale a p. Qual è la probabilità che l’n-esimo successo si verifichi in corrispondenza alla prova (n + r)-esima? Tale
probabilità è nulla se r < 0. Per r > 0, l’evento che interessa si verifica se e solo se si
verifica En+r , e fra i primi (n + r − 1) eventi se ne verificano esattamente (n − 1) [evento
che denotiamo con G(n + r − 1, n − 1)]. Allora, dall’indipendenza supposta segue che la
probabilità richiesta è P (G(n + r − 1, n − 1))P (En+r ) con P (En+r ) = p e, per il risultato
n−1 r
contenuto nel precedente sottoparagrafo, P (G(n + r − 1, n − 1)) = n+r−1
q . Quindi,
n−1 p
indicando con ξ l’istante (intero) in cui si ha l’n-esimo successo, si ottiene
n+r−1 n
P {ξ = n + r} =
p (1 − p)r
(r = 0, 1, 2, . . .)
r
ovvero, ξ ha la distribuzione binomiale negativa. Cf., ancora una volta, il Sottoparagrafo
2.2.3.
3.3.3
Indipendenza condizionata
Dati gli eventi A, B, C, si dice che A e B sono condizionatamente indipendenti dato C
se
P (A ∩ B|C) = P (A|C)P (B|C).
Più in generale, considerata la probabilità A 7→ P (A|C), con A variabile in una algebra
di eventi e C contenuto nella stessa algebra, se gli eventi H1 , . . . , Hn (appartenenti alla
stessa algebra) sono indipendenti rispetto alla distribuzione P (•|C), allora si dicono condizionatamente indipendenti dato C. Presentiamo una semplice applicazione di questo
concetto.
Testimonianza
Si considera un tribunale che sta indagando sopra un evento E [per esempio, l’eventualità che un certo delitto accaduto sia stato commesso da una certa specifica persona].
La corte si avvale della testimonianza di due individui, diciamo I e II, le cui testimonianze essa ritiene indipendenti condizionatamente sia a E sia a E c . La corte è anche
in grado di valutare la probabilità della veridicità delle due testimonianze; diciamo p1 e
50CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA
p2 , rispettivamente per I e II. Indicata con p la probabilità che la corte assegna a E, si
calcolino la probabilità:
– di E subordinatamente al fatto che I e II accusino l’indagato;
– di E subordinatamente al fatto che I accusi e II non accusi l’indagato.
Per rispondere, indichiamo con E1 [rispettivamente, E2 ] l’evento corrispondente alla
affermazione da parte di I [rispettivamente, II] che E è accaduto. Si tratta di calcolare
P (E|E1 ∩ E2 ) e P (E|E1 ∩ E2c ). Si ha:
P (E ∩ E1 ∩ E2 ) = P (E1 ∩ E2 |E)P (E)
= P (E1 |E)P (E2 |E)P (E)
[per l’indipendenza condizionata delle testimonianze]
= p1 · p2 · p
P (E ∩ E1 ∩ E2c ) = P (E1 ∩ E2c |E)P (E)
= P (E1 |E)P (E2c |E)P (E)
= p1 · (1 − p2 ) · p
P (E1 ∩ E2 ) = P (E1 ∩ E2 ∩ E) + P (E1 ∩ E2 ∩ E c )
= p1 · p2 · p + P (E1 ∩ E2 |E c ) · (1 − p)
= p1 · p2 · p + (1 − p1 )(1 − p2 )(1 − p)
P (E1 ∩ E2c ) = P (E1 ∩ E2c ∩ E) + P (E1 ∩ E2c ∩ E c )
= p1 · (1 − p2 ) · p + P (E1 ∩ E2c |E c )P (E c )
e
= p1 · (1 − p2 ) · p + (1 − p1 ) · p2 · (1 − p)
P (E|E1 ∩ E2 ) =
P (E|E1 ∩ E2c ) =
p1 · p2 · p
p1 · p2 · p + (1 − p1 )(1 − p2 )(1 − p)
p1 · (1 − p2 ) · p
.
p1 · (1 − p2 ) · p + (1 − p1 ) · p2 · (1 − p)
3.4 Osservazioni complementari
In molti libri di probabilità, passa sotto il nome di paradosso del progioniero il seguente
problema. Tre individui sono stati imprigionati senza processo. Tenuto presente che ci
troviamo in un paese governato da un signore spietato, il carceriere comunica loro la
notizia che questo signore ha deciso, in modo del tutto arbitrario, di liberarne uno e di
mandare a morte gli altri due. Aggiunge, inoltre, che gli è fatto divieto di rivelare a
chiunque la fine, determinata dal signore. Indicati con A, B e C i tre prigionieri, si sa
che A chiede al carceriere di indicargli – in segreto dagli altri – uno dei due condannati
3.4. OSSERVAZIONI COMPLEMENTARI
51
(diverso da A, per la regola testé richiamata), e che il carceriere gli risponde B. Si chiede
di esprimere la probabilità che A attribuisce alla propria condanna a morte.
A ben guardare, qui non ci troviamo di fronte a un problema di probabilità condizionata. Infatti, A è in possesso dell’informazione che B è condannato. Il significato di un
qualunque evento condizionato a tale eventualità (la condanna di B) sarebbe invece,
come più volte specificato, quello di un evento esaminato sotto l’ipotesi che B sia condannato quando l’ipotesi è ancora incerta. Ora, dopo che A ha avuto l’informazione del
c
carceriere, lo spazio degli eventi elementari è: {HB ∩ HA ∩ HCc , HB ∩ HA
∩ HC }, dove
HI denota che l’individuo I è condannato a morte. A questo punto, si vede che A è condannato se e solo se si verifica la prima eventualità. Quindi, la probabilità richiesta è
esattamente la probabilità di detta eventualità e, quindi, un qualunque numero compreso tra 0 e 1; fissata la valutazione α, il suo complemento a 1, 1 − α, è la probabilità
c
di HB ∩ HA
∩ HC . La probabilità richiesta è 1/2, in condizioni di simmetria.
Invece, se A intende valutare la probabilità di essere condannato nell’ipotesi che B
sia condannato [ma non gli è noto se questo sia Vero o Falso], allora deve apprestarsi a
c
c
calcolare P (HA |HB ). Lo spazio dei casi elementari è: {HB ∩HA ∩HCc , HB ∩HA
∩HC , HB
∩
HA ∩ HC } e supponiamo che essi abbiano rispettivamente probabilità p1 , p2 , p3 con
pi > 0 (i = 1, 2, 3) e p1 + p2 + p3 = 1. Si ha:
P (HA ∩ HB ) = P (HA ∩ HB ∩ HCc ) = p1
[perché HA ∩ HB ∩ HC è impossibile]
c
c
P (HB ) = P (HA ∩ HB ) + P (HA
∩ HB ) = p1 + P (HA
∩ HB ∩ HC ) = p 1 + p 2
e quindi, se p1 + p2 > 0 (p3 6= 1) otteniamo
P (HA |HB ) =
p1
p1 + p2
[=1/2 se p1 = p2 ; 2/3 se p1 = 2p2 , ecc.].
A questo punto del discorso, la situazione dovrebbe apparire paradossale solo a coloro
che, mischiando un po’ i ragionamenti, che (come si doveva) abbiamo tenuti distinti, non
sanno farsi una ragione del fatto che siano ammissibili valutazioni diverse. La risposta
è univoca, nella prima impostazione, se si fissa α e, nella seconda, se si fissano p1 e
p2 . Corrispondendo a stati di informazione diversi, non si può escludere (anzi, sarebbe
naturale attendersi) un divario fra α e p1 o 1 − α e p2 .
52CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA
Concludiamo con una osservazione sulla valutazione di probabilità in spazi finiti, con
casi elementari ugualmente probabili (simmetria), in relazione all’ipotesi di indipendenza stocastica. Ritorniamo al Paragrafo 1.4 (Estrazioni da un’urna) considerando la
famiglia di eventi {E1 , . . . , Em }, dove Ei è l’evento che è Vero se e solo se nella i-esima
estrazione si osserva pallina bianca (i = 1, . . . , m). Ci si sofferma sul caso in cui le
estrazioni sono con restituzione. Se gli eventi hanno probabilità costante= r/n [perché
l’urna contiene r palle bianche e n−r = s palle nere] e sono considerati come indipendenti [perché la composizione dell’urna è nota in corrispondenza a ogni estrazione], allora
possiamo applicare la formula di ωk , nel Sottoparagrafo 3.3.1, per ottenere la probabilità
che si verifichino h di detti eventi [in altre parole: si estraggono h palle bianche]:
r m−h
m
r h
1−
n
n
h
la stessa espressione trovata nel Capitolo I, sulla base di considerazioni di simmetria
e a prescindere da considerazioni di indipendenza stocastica. Lo studente mediti sul
guadagno, sul piano concettuale e dal punto di vista delle applicazioni, conseguito con
l’introduzione del concetto di indipendenza stocastica.
Capitolo 4
Vettori aleatori
4.1 Generalità
Il vettore aleatorio ξ = (ξ1 , ξ2 ) o, più in generale, (ξ1 , . . . , ξk ), essendo k un qualunque
intero maggiore o uguale a 2, è un particolare elemento aleatorio che ad ogni caso elementare associa una coppia ordinata o, più in generale, una k-upla ordinata, di numeri
reali. Noi ci limitiamo a considerare, quasi esclusivamente, vettori a due componenti reali; in altri termini, le determinazioni di ciascun ξi sono elementi di R, e ξi è un
numero aleatorio. Concretamente, l’opportunità di considerare vettori aleatori si presenta quando un dato fenomeno viene analizzato osservando congiuntamente le determinazioni possibili di due o più numeri aleatori, che, generalmente, presenteranno fra
loro un’ associazione più o meno stretta. Ad esempio, lo stato di salute di un individuo, secondo un certo protocollo, potrebbe essere descritto dalle determinazioni di una
k-upla di indicatori clinici (pressione, altezza, peso,. . . ). Analogamente, in economia,
si fa spesso riferimento ad una k-upla ordinata di indicatori economici (i fondamentali
dell’economia) per stabilire se una certa situazione economica sia da considerarsi sana,
florida, debole, scassata, ecc. . . . Di fatto abbiamo già avuto modo di considerare vettori aleatori in situazioni molto più semplici della precedente, quando, ad esempio, il
lancio di due dadi è stato caratterizzato con la coppia ordinata dei punteggi riportati,
rispettivamente, dal primo e dal secondo dado. Questo esempio suggerisce di procedere
trattando dapprima dei cosiddetti vettori aleatori discreti.
53
CAPITOLO 4. VETTORI ALEATORI
54
4.2 Distribuzione di un vettore aleatorio discreto
Sia ξ = (ξ1 , ξ2 ) un vettore aleatorio definito su (Ω, S), con S σ-algebra di parti di Ω. Sia
P una misura di probabilità su (Ω, S). Se esiste un insieme numerabile C di coppie (x, y)
tale che P {(ξ1 , ξ2 ) ∈ C} = 1, diciamo che ξ è un vettore aleatorio discreto. Posto
f (x, y) = P {ξ1 = x, ξ2 = y},
si può assumere che risulti
f (x, y) > 0
congiuntamente a
X
su C
f (x, y) = 1.
(x,y)∈C
Le distribuzioni delle singole componenti si ottengono, sfruttando l’additivita’ completa
della probabilità, nel modo seguente
f1 (x) := P {ξ1 = x} =
f2 (y) := P {ξ2 = y} =
X
{y:(x,y)∈C}
X
{x:(x,y)∈C}
P {ξ1 = x, ξ2 = y} =
P {ξ1 = x, ξ2 = y} =
X
f (x, y)
{y:(x,y)∈C}
X
f (x, y).
{x:(x,y)∈C}
Le distribuzioni di ξ1 e ξ2 sono dette leggi marginali, rispetto alla legge, detta congiunta, del vettore ξ. La terminologia risente del fatto che un modo comodo per rappresentare f è quello di ricorrere alla cosiddetta tabella a doppia entrata:
ξ1 \ξ2
..
.
..
.
···
···
yj
..
.
..
.
···
xi
..
.
···
···
f (xi , yj )
..
.
···
Si deve notare che la rappresentazione della legge congiunta mediante tabella a
doppia entrata presuppone che C venga riscritto, se possibile, oppure, più generalmente,
immerso in un prodotto cartesiano {(xi , yj ) : i > 1, j > 1}.
La tabella ha le righe intestate con le determinazioni di ξ1 e le colonne intestate con
le determinazioni di ξ2 , e all’incrocio della riga xi -esima con la colonna yj -esima riporta
la probabilità di {(ξ1 , ξ2 ) = (xi , yj )} che, ovviamente, può anche essere nulla. Essa con-
sente la visualizzazione dell’associazione determinata fra i caratteri dalla distribuzione
congiunta. Ad esempio, se i caratteri sono ordinati (xi > xi−1 ∀i,
yj > yj−1 ∀j),
4.2. DISTRIBUZIONE DI UN VETTORE ALEATORIO DISCRETO
55
allora elevati valori di f attorno alla diagonale principale denotano una forte concordanza (a valori grandi di ξ1 tendono ad associarsi valori grandi di ξ2 ). Non si potrebbero
trarre simili informazioni dall’esame delle sole distribuzioni marginali. A titolo esemplificativo, siano ξ1 e ξ2 variabili aleatorie che prendono i valori 20, 25, 30 secondo le
distribuzioni di probabilità
P {ξ1 = 20} = 0, 05,
P {ξ1 = 25} = 0, 80,
P {ξ1 = 30} = 0, 15,
P {ξ2 = 20} = 0, 04,
P {ξ2 = 25} = 0, 70,
P {ξ2 = 30} = 0, 26.
Molte (infinite) sono le distribuzioni congiunte di (ξ1 , ξ2 ) che sono compatibili con tali
distribuzioni marginali. Ne presentiamo 3 casi particolarmente significativi. Incominciamo da quello di massima concordanza, in cui, compatibilmente con le marginali
assegnate, viene realizzata la massima associazione fra i valori di ξ1 e i valori di ξ2 . Si
scrive la tabella con le marginali desiderate e nella casella in alto a sinistra si colloca la probabilità più elevata consentita dai valori marginali (0,04); quindi, sulla prima
colonna le caselle ancora vuote ricevono il valore 0 (entrambe); la seconda casella della
prima riga riceve la massa mancante per completare la probabilità di {ξ1 = 20}; e così
di seguito.
ξ1 \ξ2
20
25
30
20
0,04
0,01
0
0,05
25
0
0,69
0,11
0,80
30
0
0
0,15
0,15
0,04
0,70
0,26
La situazione di massima discordanza si ottiene incominciando dall’ultima casella
nella prima riga e riempiendola col più grande valore consentito dalle marginali; quindi,
si procede associando il più grande valore di ξ2 col più piccolo di ξ1 diverso da 20, e così
via.
ξ1 \ξ2
20
25
30
20
0
0
0,05
0,05
25
0
0,59
0,21
0,80
30
0,04
0,11
0
0,15
0,04
0,70
0,26
A queste situazioni estreme si contrappone quella di indipendenza stocastica di ξ1
e ξ2 . Estendendo la definizione di eventi indipendenti (cf. (3.3)), diciamo che i numeri
CAPITOLO 4. VETTORI ALEATORI
56
aleatori discreti ξ1 e ξ2 sono stocasticamente indipendenti quando
f (x, y) = f1 (x)f2 (y)
((x, y) ∈ C).
ξ1 \ξ2
20
25
30
20
0,002
0,035
0,013
0,05
25
0,032
0,560
0,208
0,80
30
0,006
0,105
0,039
0,15
0,04
0,70
0,26
(4.1)
Più in generale, n numeri aleatori discreti ξ1 , . . . , ξn si dicono stocasticamente indipendenti se
P {ξ1 = x1 , . . . , ξn = xn } = P {ξ1 = x1 } . . . P {ξn = xn }
(4.2)
per ogni determinazione (x1 , . . . , xn ) del vettore aleatorio (ξ1 , . . . , ξn ). Infine, si parla di successione di numeri aleatori indipendenti, ξ1 , . . . , ξn , . . . , quando per ogni n le
componenti di (ξ1 , . . . , ξn ) sono indipendenti secondo la definizione precedente.
Riprendiamo le considerazioni svolte per la determinazione delle marginali f1 , f2 a
partire dalla congiunta f . Si tratta, a ben vedere, di un caso particolare del problema
seguente. Si considera una funzione g : C 7→ C1 e si vuole calcolare P {g(ξ1 , ξ2 ) = σ}.
Allora, per σ ∈ C1 , si ha
{g(ξ1 , ξ2 ) = σ} = {(x, y) ∈ C : g(x, y) = σ}
e, quindi,
P {g(ξ1 , ξ2 ) = σ} =
X
f (x, y).
(4.3)
{(x,y)∈C : g(x,y)=σ}
La determinazione delle leggi marginali si ottiene con g1 (x, y) = x e g2 (x, y) = y,
rispettivamente, per ogni (x, y) in C.
Esempio 4.2.1. . Due giocatori, 1 e 2, per decidere a chi tocchi distribuire le carte, procedono nel modo seguente: 1 estrae una carta a caso e 2 ne estrae una delle rimanenti.
Sapendo che si tratta di un mazzo di 40 carte ordinate come 1,2,. . . , fante, donna, re, si
stabilisce che il mazzo spetti al giocatore che ha estratto la carta più alta, e a 1 in caso
di pareggio. Si risponda alle seguenti domande:
(a) Indicato con ξi il punteggio ottenuto da i, trovare la distribuzione [in condizioni
di perfetta simmetria] del vettore (ξ1 , ξ2 );
(b) Determinare le leggi di ξ1 e di ξ2 ;
4.2. DISTRIBUZIONE DI UN VETTORE ALEATORIO DISCRETO
57
(c) Detti V e W rispettivamente i punteggi minimo e massimo, dare le leggi del
vettore (V, W ), di V e di W ;
(d) Stabilire la distribuzione di W − V ;
(e) Qual è la probabilità che le carte vengano distribuite da 1 (rispettivamente da 2)?
(a,b) 1 può estrarre un uno, oppure un due,. . . . La probabilità di uno qualunque di tali
eventi è P {ξ1 = k} = 1/10 per k = 1, 2, . . . , 7, fante, donna, re. Inoltre:
16
40 · 39
12
P {ξ1 = k, ξ2 = j} =
40 · 39
P {ξ1 = k, ξ2 = j} =
Si ricava
P {ξ2 = j} =
1
10
se
k 6= j
se
k = j.
per ogni j.
(c)
P {V = v, W = w} = P {ξ1 = v, ξ2 = w} + P {ξ1 = w, ξ2 = v} se
v<w
se
v=w
se
v<w
se
v=w
(d) Per z = 0, . . . , 9, si ha
= P {ξ1 = v, ξ2 = v}

 4/195
=
 1/130
1
13
4
= (10 − z)
195
P {W − V = z} =
.
z=0
z = 1, . . . , 9.
(e) Le carte vengono distribuite da 1 se ξ1 > ξ2 , ovvero con probabilità P {ξ1 > ξ2 } =
12
40·39
· 10 +
16
40·39 (1
+ 2 + · · · + 9) =
7
13 .
z
Diamo ora un esempio notevole di legge di vettore aleatorio discreto che estende in
modo naturale la nozione di legge binomiale.
Esempio 4.2.2 (Distribuzione multinomiale). Siano ξ1 , ξ2 , . . . , ξn variabili aleatorie indipendenti ed identicamente distribuite caratterizzate dalla legge [che, per l’identità in
distribuzione, si precisa solo per ξ1 ]
P {ξ1 = j} = pj
CAPITOLO 4. VETTORI ALEATORI
58
(j = 1, . . . , d), pj > 0 per ogni j e p1 + · · · + pd = 1. Si vuole determinare la probabilità
che ni di queste variabili prendano il valore i per i = 1, . . . , d; quindi, ni ∈ {0, 1, . . . , n}
per i = 1, . . . , d, n1 + · · · + nd = n. Indichiamo con (N1 , . . . , Nd ) il vettore aleatorio la cui
i-esima componente Ni rappresenta il numero (aleatorio) di variabili ξ1 , ξ2 , . . . , ξn che
prendono il valore i. Sfruttando l’ipotesi d’indipendenza e l’identità in distribuzione, la
Qd
n
probabilità che la suddetta attesa si verifichi secondo un ordine prestabilito è j=1 pj j ;
ciò mostra che la probabilità in questione non dipende dall’ordine prescelto. Poiché il
numero di tali ordini è quello delle disposizioni (con ripetizione) delle n variabili, con ni
termini uguali a i per i = 1, . . . , d, si ottiene
P {N1 = n1 , . . . , Nd = nd } =
n!
pn1 · · · pnd d
n1 ! · · · nd ! 1
dove n1 , . . . , nd rispettano i vincoli sopra definiti. La distribuzione del vettore aleatorio (N1 , . . . , Nd ) così ottenuta si chiama multinomiale. Si noti che la si può scrivere
“risparmiando una dimensione” nella forma ridotta
P {N1 = n1 , . . . , Nd−1 = nd−1 } =
n!
·
n1 ! · · · nd−1 !(n − n1 − · · · − nd−1 )!
nd −1
·pn1 1 · · · pd−1
(1 − p1 − · · · − pd−1 )nd
con p1 , . . . , pd−1 > 0,
(4.4)
1 − p1 − · · · − pd−1 > 0 e per n1 , . . . , nd−1 interi non negativi per i
quali n1 + · · · + nd−1 6 n.
Per d = 2, la precedente si riduce alla già nota distribuzione binomiale. Inoltre, per
ogni i = 1, 2, . . . , Ni ha distribuzione binomiale con parametri n, pi . Verifichiamo questo
fatto importante per i = 1, assumendo nei passaggi seguenti che gli addendi privi di
significato algebrico valgano 0. Allora
P {N1 = n1 } =
=
X
n2 ,...,nd−1
n!
·
n1 ! · · · nd−1 !(n − n1 − · · · − nd−1 )!
nd −1
(1 − p1 − · · · − pd−1 )nd
·pn1 1 · · · pd−1
X
n!pn1
(n − n1 )!
1
n1 !(n − n1 )! n
2 ,...,nd−1
n2 ! · · · nd−1 !(n − n1 − · · · − nd−1 )!
·
nd −1
·pn2 2 · · · pd−1
(1 − p1 − · · · − pd−1 )nd
n!
=
pn1 [1 − p1 − · · · − pd−1 + p2 + · · · + pd−1 ]n−n1
n1 !(n − n1 )! 1
n n1
=
p (1 − p1 )n−n1 .
n1 1
dove la penultima uguaglianza si ricava dall’espressione di Leibniz per la potenza naturale del polinomio.
4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE
59
4.3 Somma di variabili aleatorie indipendenti discrete
Un caso notevolissimo di applicazione della (4.3) riguarda la distribuzione della somma
di due variabili ξ1 , ξ2 :
P {ξ1 + ξ2 = σ} =
X
f (x, y) =
X
x
(x,y) : x+y=σ
f (x, σ − x).
Nel caso particolare in cui ξ1 e ξ2 siano indipendenti, la precedente si riduce a
P {ξ1 + ξ2 = σ} =
4.3.1
X
f1 (x)f2 (y) =
X
x
(x,y) : x+y=σ
f1 (x)f2 (σ − x) =
X
y
f1 (σ − y)f2 (y). (4.5)
Somma di variabili bernoulliane
Una successione ξ1 , ξ2 , . . . di variabili aleatorie indipendenti ed identicamente distribuite
con
p = P {ξ1 = 1} = 1 − P {ξ1 = 0} = 1 − q
si dice successione bernoulliana. Si pensi, equivalentemente, ad una successione di
eventi indipendenti di probabilità costante p. Allora Sn = ξ1 + . . . + ξn rappresenta il
numero dei successi fra i primi n eventi. Determiniamo la distribuzione di probabilità
di Sn . Preso σ in {0, 1, 2} e posto f (0) = q,
f (1) = p,
f (x) = 0 per x 6= 0, 1, (4.5) porge



q2


X
P {ξ1 + ξ2 = σ} =
f (x)f (σ − x) = qf (σ) + pf (σ − 1) =
2pq


x

 p2
σ=0
2 σ 2−σ
p q
.
σ=1 =
σ
σ=2
Quindi, per σ in {0, 1, 2, 3}, vale
P {S3 = σ} = P {S2 +ξ3 = σ} =
X
x
2 σ 2−σ
2
f (x)P {S2 = σ−x} = q
p q
+p
pσ−1 q 3−σ =
σ
σ−1
2 σ 3−σ
2
3 σ 3−σ
σ 3−σ
=
p q
+
p q
=
p q
.
σ
σ−1
σ
Procedendo per induzione matematica, formuliamo l’ipotesi (induttiva) in base alla quale
vale
P {Sk = σ} =
k σ k−σ
p q
σ
CAPITOLO 4. VETTORI ALEATORI
60
per ogni σ = 0, 1, . . . , k e per ogni k = 1, 2, . . . , n − 1. Quindi, per σ in {0, 1, . . . , n},
otteniamo
P {Sn = σ} = P {Sn−1 + ξn = σ}
=
1
X
x=0
f (x)P {Sn−1 = σ − x}
n − 1 σ−x n+x−σ−1
=
f (x)
p
q
σ−x
x=0
n − 1 σ n−σ
n − 1 σ n−σ
=
p q
+
p q
σ
σ−1
n σ n−σ
=
p q
σ
1
X
che si ricava direttamente dall’ipotesi induttiva cambiando n − 1 in n. Pertanto,
n σ n−σ
P {Sn = σ} =
p q
(σ = 0, 1, . . . , n)
σ
vale per ogni n = 0, 1, 2, . . ., e con questa si ha una nuova interessante interpretazione
della legge binomiale, in questo caso come legge di somma di numeri aleatori.
4.3.2 Passeggiate aleatorie, barriere assorbenti (problema della
rovina del giocatore)
Consideriamo un altro esempio significativo di somma di variabili aleatorie indipendenti. Si prenda una successione di Testa e Croce. Ad essa è associabile una successione di
eventi E1 , E2 , . . . dove Ek è da ritenersi vero se il k-esimo lancio dà Testa. Il risultato di
una tale successione ammette svariate e suggestive rappresentazioni geometriche. Qui
faremo uso di quella basata sull’eccedenza di successi: eccedenza, a un istante generico,
del numero di Teste su quello delle Croci fino a quell’istante ottenute. L’eccedenza Vn
all’istante n (n = 1, 2, . . .) si può rappresentare come numero aleatorio assegnando a
ogni Ek il numero aleatorio ξk che vale 1 se Ek si verifica (appare Testa) e (−1) se Ek
non si verifica (appare Croce). Con ciò si ha:
Vn = ξ1 + · · · + ξn
(n = 1, 2, . . .).
Per comodità si pone, anche, V0 ≡ 0. Vn può essere visto anche come il guadagno (aleato-
rio) in n colpi di Testa e Croce per colui che – nel generico colpo – riceve o perde 1 a seconda che Ek sia Vero o Falso (k = 1, 2, . . .). L’andamento di (Vn )n>0 si può visualizzare,
come detto sopra, facendo riferimento alla Figura 4.1.
Formuliamo le ipotesi seguenti: gli eventi Ek sono indipendenti e hanno probabilità
costante p. Si suol dire, allora, che la nostra successione Vn è una passeggiata aleatoria
4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE
61
Figura 4.1: Traiettoria che passa per (16, 2), che ritorna in 0 per la prima volta all’istante
8, per la seconda volta all’istante 12. . .
ed è facile calcolare P {Vn = k}, ovvero la probabilità che nei primi n colpi si realizzi un
guadagno uguale a k. La condizione è soddisfatta se e solo se la differenza tra il numero
dei tratti ascendenti (a) e il numero dei tratti discendenti (d) è uguale a k, essendo
a + d = n. Quindi,
a=
n+k
,
2
d=
n−k
2
e, ragionando come nel Sottoparagrafo 4.3.1,
n+k
n−k
n
P {Vn = k} = n+k p 2 q 2
2
col membro di destra che, per la solita convenzione, vale 0 se
negativo oppure se
n+k
2
n+k
2
non è intero non
> n.
Si noti che la variabile aleatoria Vn può essere interpretata come la posizione, dopo n
passi, di una particella sulla retta reale che parte da 0 e ad ogni istante (intero) si muove
a caso: un passo avanti con probabilità p, un passo indietro con probabilità q = 1 − p.
Ecco il motivo per cui si denomina la successione (Vn )n>0 passeggiata aleatoria.
Consideriamo ora due giocatori che ingaggiano una successione di colpi a Testa e
Croce. Il giocatore 1 ha un capitale iniziale pari all’intero positivo a e il giocatore 2
ha un capitale iniziale pari all’intero positivo b; inoltre, in ogni colpo, 1 riceve (versa)
una unità da (a) 2 se si verifica Testa (Croce). Vn rappresenta, perciò, il guadagno di
1, dopo n colpi, nell’ipotesi che la passeggiata sia priva di vincoli. In realtà, si può
supporre che se il guadagno di 1 raggiunge b, prima che sia passato da (−a), allora il
giuoco non possa proseguire per rovina di 2. Analogamente, se il guadagno in questione
raggiunge (−a) prima che sia passato da b, il giuoco non può proseguire a causa della
rovina di 1. L’insieme delle traiettorie con quest’ultima proprietà corrisponde all’evento
CAPITOLO 4. VETTORI ALEATORI
62
R1 :=“il giocatore 1 prima o poi cade in rovina”. Denotiamo con pk la probabilità dello
stesso evento, con la variante che sia V0 = k, k essendo un intero dell’intervallo [−a, b].
Assumiamo che valga pb = 0, p−a = 1. (È ragionevole questo?) Quindi, per −a < k < b,
possiamo argomentare nel modo seguente: nel primo colpo, il guadagno può passare a
k + 1 oppure a k − 1. In ogni caso, dal nuovo punto di arrivo, la passeggiata riparte con
le stesse caratteristiche che possedeva all’epoca 0; unica variante è la posizione iniziale
(k + 1) o (k − 1) invece di k. La conservazione delle caratteristiche è dovuta al fatto che
i colpi sono indipendenti con probabilità costante. Si ottiene
pk = p · pk+1 + q · pk−1
(k = −a + 1, . . . , b − 1)
Siamo in presenza di una equazione alle differenze del secondo ordine, nell’incognita pk .
Riscriviamola come
p(pk+1 − pk ) = q(pk − pk−1 )
e poniamo pk − pk−1 = δk
differenze diviene
(k = −a + 1, . . . , b − 1); allora la precedente equazione alle
(k = −a + 1, . . . , b − 1)
pδk+1 = qδk
da cui
δk =
k+a−1
q
δ−a+1
p
(k = −a + 2, . . . , b − 1)
Se q = p = 1/2 (passeggiata simmetrica, gioco equo), otteniamo
pk − pk−1 = δ−a+1 = p−a+1 − p−a = p−a+1 − 1.
Quindi,
p−a+j = jp−a+1 − (j − 1)
(j = 1, . . . , b + a)
con
0 = pb = (b + a)p−a+1 − (b + a − 1)
ovvero
p−a+1 =
b+a−1
b+a
e, per conseguenza,
p−a+j = j
b+a−1
− (j − 1).
b+a
In particolare, la probabilità di rovina richiesta sarà, nel caso di passeggiata simmetrica
(p = q = 1/2),
P (R1 ) = p0 = a
b
b+a−1
− (a − 1) =
.
b+a
a+b
4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE
63
Si scopre che la probabilità di rovina di 1 è vicina ad uno se il capitale iniziale (b)
dell’avversario è infinitamente più grande del suo (a). Se p 6= q con q/p = ρ 6= 1, vale
pk − pk−1 = ρk+a−1 δ−a+1
ovvero
p−a+j = p−a+1 (1 + ρ + · · · + ρj−1 ) − (ρ + · · · + ρj−1 ).
Per j = a + b si ha
0 = pb = p−a+1 (1 + ρ + · · · + ρa+b−1 ) − (ρ + · · · + ρa+b−1 )
e quindi
p−a+1 =
e, ponendo j = a,
P (R1 ) = p0 =
ρ − ρa+b
1 − ρa+b
ρ − ρa+b 1 − ρa
1 − ρa−1
ρa − ρa+b
.
−
ρ
=
1 − ρa+b 1 − ρ
1−ρ
1 − ρa+b
E’ interessante notare che la probabilità di rovina di 1 resta minore di uno (≈ ρα ) se
il capitale iniziale di 2 è infinitamente più grande di a, purché il gioco sia favorevole
a 1 (ρ < 1). Invece se ρ > 1 (gioco favorevole a 2), il comportamento della probabilità
di rovina è simile a quello che si ha nel caso di gioco equo, quando b/a è infinitamente
grande. Se, invece, è a/b ad essere grande e ρ > 1 si ha che P (R1 ) ≈ 1 − ρ−b , mentre
P (R1 ) ≈ 0 nel caso di gioco equo.
4.3.3
Somma di variabili di Poisson indipendenti
Siano ξ1 , ξ2 variabili aleatorie indipendenti tali che
P {ξi = k} =
e−λi λki
k!
(k = 0, 1, . . .)
λi essendo un parametro positivo per i = 1, 2. Allora, per x = 0, 1, . . .,
P {ξ1 + ξ2 = x} =
x
X
k=0
x
X
P {ξ1 = k}P {ξ2 = x − k}
e−λ1 λk1 e−λ2 λx−k
2
k!
(x − k)!
k=0
x 1 X x k x−k
= e−(λ1 +λ2 )
λ λ
x!
k 1 2
=
k=0
1
= e−(λ1 +λ2 ) (λ1 + λ2 )x
x!
che è ancora una distribuzione di Poisson con parametro λ1 + λ2 .
CAPITOLO 4. VETTORI ALEATORI
64
4.3.4 Tempi di attesa in una successione di prove bernoulliane
Ritorniamo alla situazione descritta nel Sottoparagrafo 4.3.1 indicando con Ti l’indice
della prova in cui compare l’i-esimo successo (1). Si ha Ti ∈ {i, i + 1, . . .}, 1 6 T1 < T2 <
. . .. Indichiamo, poi, con τ1 , τ2 , . . . i tempi intercorrenti
τ1 = T1 ,
τ2 = T2 − T1 ,
τ3 = T3 − T2 ,
...
e calcoliamo la distribuzione congiunta di (τ1 , . . . , τn ). Per ogni x1 , . . . , xn in {1, . . . , n, . . . }
si ha
P {τ1 = x1 , . . . , τn = xn }
= P {ξ1 = . . . = ξx1 −1 = 0, ξx1 = 1, ξx1 +1 =
. . . = ξx1 +x2 −1 = 0, ξx1 +x2 = 1, . . . , ξx1 +···+xn = 1}
= q x1 −1 pq x2 −1 p · · · q xn −1 p =
n
Y
pq xk −1 .
k=1
Quindi, preso j ∈ {1, . . . , n}, si ricava
P {τj = xj } =
X
x1 >1
···
X
X
xj−1 >1 xj+1 >1
e, perciò,
P {τ1 = x1 , . . . , τn = xn } =
n
Y
···
n
X Y
(4.6)
pq xk −1 = pq xj −1 .
xn >1 k=1
pq xk −1 =
k=1
n
Y
k=1
P {τk = xk }.
Ne discende che τ1 , τ2 , . . . sono variabili aleatorie indipendenti con uguale distribuzione.
Determiniamo la distribuzione di Ti = τ1 + · · · + τi . Per x = 2, 4, . . . vale
P {T2 = x}
=
X
σ>1
P {τ1 = σ}P {τ2 = x − σ} =
e per = 2, 3, . . .
x−1
X
σ=1
pq σ−1 pq x−σ−1 = p2 q x−2 (x − 1) = p2 q x−2
P {T3 = x}
=
X
σ>1
= p3 q x−3
x−2
X
P {τ3 = σ}P {T2 = x − σ} =
(x − σ − 1) = p3 q x−3
σ=1
Formuliamo l’ipotesi induttiva
x−2
X
x−2
X
σ=1
P {Tk = x} = pk q x−k
x−1
k−1
x−1
.
1
pq σ−1 p2 q x−σ−2 (x − σ − 1)
j = p3 q x−3
j=1
(x − 2)(x − 1)
x−1
.
= p3 q x−3
2
2
x = k, k + 1, . . .
4.4. DISTRIBUZIONI CONDIZIONATE (IL CASO DISCRETO)
65
per ogni k 6 n − 1, allora
P {Tn = x} =
=
X
σ>1
P {τn = σ}P {Tn−1 = x − σ}
x+1−n
X
pq
σ=1
p
q
x+1−n
X x−σ−1
n−2
σ=1
x−n
X k+n−2
pn q x−n
=
n−2
k=0
x − 1 n x−n
=
p q
n−1
x − 1 n x−n
=
p q
x−n
= pn q x−n
x−σ−1
n−2
σ−1 n−1 x−σ+1−n
come si doveva dimostrare, e dove la penultima uguaglianza deriva dalla nota identità
Pm n+k
Pm
= n+m+1
e osservando che
, che si dimostra ponendo sn = k=0 n+k
k=0
n
n
n+1
sn =
m X
n+k−1
k=0
n−1
implica sn−1 =
n+m
n
.
+
m−1
X n + j n+m
n+k−1
= sn−1 + sn −
= sn−1 +
n
n
n
j=−1
Si noti che per x = n + r, P {Tn = x} ha l’espressione della distribuzione binomiale
negativa; cf. 2.2.3.
4.4 Distribuzioni condizionate (il caso discreto)
Riprendiamo la generica distribuzione discreta del Paragrafo 4.2. Per ogni x tale che
f1 (x) > 0 si avrà (definizione di probabilità di evento condizionato)
f2|1 (y|x) := P (ξ2 = y|ξ1 = x) =
f (x, y)
.
f1 (x)
Si vede facilmente che y 7→ f2|1 (y|x), per ogni x per cui f1 (x) > 0, è una distribuzione di
probabilità sulle determinazioni di ξ2 . Infatti, f (x, y)/f1 (x) > 0 e
X f (x, y)
y
f1 (x)
=
f1 (x)
= 1.
f1 (x)
La distribuzione in questione si chiama, naturalmente, distribuzione condizionata di ξ2
dato {ξ1 = x}. Inoltre la funzione
y 7→ F2|1 (y) :=
X
t6y
f2|1 (t|x)
CAPITOLO 4. VETTORI ALEATORI
66
si dice funzione di ripartizione di ξ2 condizionato da {ξ1 = x}. In modo del tutto analogo
si definisce la distribuzione condizionata di ξ1 dato {ξ2 = y}, f1|2 .
Ad esempio, la distribuzione f2|1 nella tabella di massima concordanza con {ξ1 = 20}
è data da
f2|1 (20|20) =
4
5
f2|1 (25|20) =
1
5
f2|1 (30|20) = 0;
con {ξ1 = 25} si ha
f2|1 (20|25) = 0,
f2|1 (25|25) =
69
80
f2|1 (30|25) =
11
;
80
e per {ξ1 = 30},
f2|1 (20|30) = f2|1 (25|30) = 0
f2|1 (30|30) = 1.
4.5 Distribuzione di vettore aleatorio in generale
Quando ξ = (ξ1 , ξ2 ) è un generico vettore aleatorio a componenti reali, definito su
(Ω, S, P ), la sua distribuzione di probabilità Pξ è definita da
Pξ (B) = P (ξ −1 (B))
(B ∈ B(R2 )
essendo B(R2 ) la classe di Borel su R2 : la σ-algebra generata dagli aperti di R2 . La
restrizione di Pξ ai rettangoli (−∞, x] × (−∞, y], intesa come funzione calcolata in (x, y)
per ogni (x, y) in R2 , si dice funzione di ripartizione di ξ:
Fξ (x, y) = Pξ ((−∞, x] × (−∞, y])
((x, y) ∈ R2 ).
Si vede facilmente che la funzione di ripartizione F (si omette ξ nel simbolo, più completo, Fξ ) ha le seguenti proprietà
lim F (x, y) = lim F (x, y) = 0,
x→−∞
y→−∞
lim F (x, y) = F (x0 , y0 )
x→x+
0
y→y0+
lim F (x, y) = 1,
x→+∞
y→+∞
per ogni (x0 , y0 ) in R2 ,
F (x + h, y + k) − F (x + h, y) − F (x, y + k) + F (x, y) > 0
per ogni h, k > 0 e per ogni (x, y) ∈ R2 .
(4.7)
(4.8)
(4.9)
Si dimostra che una data funzione di ripartizione di ripartizione – intesa come funzione
reale su R2 che soddisfa (4.7)-(4.9) – determina una (ed una sola) distribuzione di probabilità su (R2 , B(R2 )); più precisamente: assegnata una funzione di ripartizione F su
R2 , esiste una ed una sola misura di probabilità Q sui boreliani di R2 tale che
P ((−∞, x] × (−∞, y]) = F (x, y)
per ogni (x, y) ∈ R2 .
4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE
67
Omettiamo la dimostrazione di questo importante teorema. Esso implica che F (x, y) è la
probabilità Q concentrata nel rettangolo corrispondente alla zona sfumata della Figura
4.2.
Figura 4.2: La regione sfumata ha probabilità Q uguale a F (x, y).
Per quanto concerne il significato del membro di sinistra di (4.9) si noti che esso
rappresenta la probabilità del rettangolo sfumato della Fig. 4.3. Infatti, per additività,
la probabilità in questione è data da: Q((−∞, x + h] × (−∞, y + k]) − Q((−∞, x + h] ×
(−∞, y]) − Q((−∞, x] × (−∞, y + k]) + P ((−∞, x] × (−∞, y]).
La probabilità concentrata nel punto (x0 , y0 ) è data da
lim [F (x0 + h, y0 + k) − F (x0 − h, y0 + k) − F (x0 + h, y0 − k) + F (x0 − h, y0 − k)]
h→0+
k→0+
(4.10)
quando il limite in questione è strettamente positivo.
Si noti che F è discreta se e solo se esiste un insieme numerabile C + ⊂ R2 tale che
lim [F (x0 + h, y0 + k) − F (x0 − h, y0 + k) − F (x0 + h, y0 − k) + F (x0 − h, y0 − k)] = f (x0 , y0 ) > 0
h→0+
k→0+
per ogni (x0 , y0 ) in C + e, inoltre,
X
(x0 ,y0 )∈C +
f (x0 , y0 ) = 1.
CAPITOLO 4. VETTORI ALEATORI
68
Figura 4.3: Probabilità del rettangolo.
Ritornando al caso generale, si può osservare che, data la funzione di ripartizione Fξ
del vettore aleatorio ξ, si ha
P {ξ1 6 x} = P {ξ1 6 x, ξ2 < +∞} = lim P {ξ1 6 x, ξ2 6 y}
y→+∞
(4.11)
P {ξ2 6 y} = P {ξ1 < +∞x, ξ2 6 y} = lim P {ξ1 6 x, ξ2 6 y}
x→+∞
dove la seconda uguaglianza è valida in virtù della continuità delle probabilità σ–additive.
Perciò, indicata con Fξi la funzione di ripartizione di ξi , per i = 1, 2, si avrà
Fξ1 (x) = lim Fξ (x, y)
(x ∈ R)
Fξ2 (y) = lim Fξ (x, y)
(y ∈ R).
y→+∞
e
x→+∞
4.5.1 Variabili aleatorie indipendenti
Siano ξ1 e ξ2 variabili aleatorie a valori, rispettivamente, in C1 e C2 e supponiamo che
C1 , C2 siano σ-algebre di sottoinsiemi di C1 e C2 rispettivamente. Posto ξ = (ξ1 , ξ2 ), la
distribuzione di ξ, Pξ , si suppone definita sulla classe di parti di C1 × C2 che corrisponde
alla più piccola σ-algebra C che contiene tutti i rettangoli A × B con A in C1 e B in
C2 . Perciò, Pξ (A × B) dà la probabilità che ξ1 appartenga ad A e ξ2 appartenga a B;
più in generale, per ogni D in C, Pξ (D) è la probabilità che la coppia (ξ1 , ξ2 ) cada in D.
In questo ambito, le variabili aleatorie ξ1 , ξ2 si dicono stocasticamente indipendenti se
Pξ (A × B) = Pξ1 (A) · Pξ2 (B) per ogni A ∈ C1 e B ∈ C2 . Tale nozione si estende in maniera
facilmente intuibile a un numero qualunque di variabili aleatorie. È un fatto di grande
4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE
69
importanza che nel caso di numeri aleatori, ovvero C1 = C2 = R e C1 = C2 = B(R),
l’indipendenza stocastica di ξ1 e ξ2 equivale alla condizione
∀ (x, y) ∈ R2
Pξ ((−∞, x] × (−∞, y]) = Fξ1 (x)Fξ2 (y)
dove Fξi è la funzione di ripartizione di ξi
(4.12)
(i = 1, 2). In altri termini, basta che la
funzione di ripartizione bidimensionale si possa scrivere come prodotto delle funzioni
di ripartizione marginali. Anche la dimostrazione di questo fatto viene omessa inqueste lezioni. E’ comunque facile verificare che, per ξ1 e ξ2 numeri aleatori discreti,
la condizione (4.12) equivale a (4.1).
4.5.2
Distribuzioni assolutamente continue di vettore aleatorio
Fra le distribuzioni bidimensionale non discrete meritano particolare attenzione quelle
note come assolutamente continue. [Si veda il caso analogo per numeri aleatori nel
Capitolo 2.] Sia data una funzione f : R2 7→ [0, +∞) tale che
Z +∞ Z +∞
f (x, y) dxdy = 1.
−∞
−∞
Si verifica, piuttosto facilmente, che la funzione
Z x Z y
(x, y) 7→
f (u, v) dudv
−∞
−∞
gode delle proprietà da (4.7) a (4.9) e, pertanto,
Z x Z y
f (u, v) dudv
F (x, y) =
−∞
(x, y) ∈ R2
−∞
è una funzione di ripartizione su R2 ; essa viene detta assolutamente continua (perché F
è assolutamente continua nel senso usuale dell’Analisi generale). La funzione f prende
il nome di funzione di densità di probabilità. Se F è assolutamente continua, allora per
ogni punto (x, y) in cui f è continua, vale
f (x, y) =
∂2
F (x, y).
∂x∂y
In effetti, questa relazione sussiste quasi ovunque. Coerentemente col caso monodimensionale trattato nel Sottoparagrafo 2.2.4, una proprietà si dice valida quasi ovunque su
Rk se l’eventuale insieme N su cui non vale è tale che ad ogni ε > 0 si può associare una
classe numerabile di sfere k–dimensionali la somma dei cui diametri non supera ε e la
cui unione contiene N .
Inoltre, dalle (4.11) si deduce
Z x Z y
Z
Fξ1 (x) = lim
f (u, v) dudv =
y→+∞
−∞
−∞
x
−∞
Z
+∞
f (u, v) dv
−∞
du
(x ∈ R)
CAPITOLO 4. VETTORI ALEATORI
70
Fξ2 (y) = lim
x→+∞
=
Z
Z
x
−∞
+∞ Z y
−∞
Z
y
f (u, v) dudv
−∞
f (u, v) du
−∞
e si deduce la proprietà notevole:
dv =
Z
y
−∞
Z
+∞
f (u, v) du
−∞
(y ∈ R)
dv
Se F è assolutamente continua, allora Fξ1 e Fξ2 sono assolutamente continue e le loro
densità sono date, rispettivamente, da
Z +∞
f (•, v) dv,
fξ1 (•) =
fξ2 (•) =
Z
+∞
−∞
−∞
f (u, •) du.
(4.13)
Illustriamo con due esempi le nozioni generali presentate in questo paragrafo.
Esempio 4.5.1. (a) Si consideri un vettore aleatorio bidimensionale (ξ1 , ξ2 ) con distribuzione di probabilità assolutamente continua caratterizzata da una densità
f (x, y) = 211T (x, y)
dove
T := {(x, y) ∈ R2 : 0 6 y 6 x 6 1}.
Per calcolare la densità di ξ2 è sufficiente osservare che
Z 1
dt = 2(1 − y)11(0,1) (y).
f2 (y) = 11(0,1) (y)2
y
(b) Si consideri un vettore aleatorio bidimensionale (ξ1 , ξ2 ) con distribuzione di probabilità assolutamente continua caratterizzata da una densità
f (x, y) =
1
ye−y 11(0,+∞)×(0,+∞) (x, y).
(x + y)2
In questo caso la densità di ξ2 è data da
Z +∞
f2 (y) = 11(0,+∞) (y)
0
1
ye−y dx = e−y 11(0,+∞) (y).
(x + y)2
(c) Distribuzione gaussiana d-dimensionale. Siano µ un vettore in Rd e V una matrice
(d × d) simmetrica definita positiva. Allora, la funzione
f (x) =
1t
−1
exp
−
(x
−
µ)V
(x
−
µ)
2
(2π)d/2 det V
1
(x ∈ Rd )
è una funzione di densità di probabilità su Rd . Si scopre che la i-esima distribuzione
marginale è gaussiana con media µi e varianza uguale all’i-esimo elemento della diagonale principale di V . In effetti, la densità d-dimensionale in esame è nota come densità
gaussiana d-dimensionale di parametro (µ, V ). Per maggiori informazioni, cf. la Sezione
6.4.1.
4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE
4.5.3
71
Caratterizzazione dell’indipendenza tramite fattorizzazione
della funzione di densità
Se (ξ1 , . . . , ξd ) ha distribuzione assolutamente continua rispetto alla quale ξ1 , . . . , ξd sono
stocasticamente indipendenti, indicate con f la densità del vettore e con fξ1 , . . . , fξd le
densità marginali delle singole componenti, la relazione
f (x1 , . . . , xd ) = fξ1 (x1 ) · · · fξd (xd )
vale quasi ovunque. Si riveda la (4.2) per l’analoga caratterizzazione nel caso discreto. Ne discende, ad esempio, che le componenti di un vettore (ξ1 , . . . , ξd ) avente legge
gaussiana sono indipendenti se V è matrice diagonale, e solo in quel caso.
4.5.4
Distribuzione di funzione di vettore aleatorio dotato di legge
assolutamente continua
Riprendiamo il problema della determinazione della distribuzione del numero aleatorio
X = g(ξ1 , ξ2 ) quando ξ := (ξ1 , ξ2 ) ha distribuzione assolutamente continua. Cf. (4.3) e
Paragrafo 4.4 per il caso discreto. Se la legge di (ξ1 , ξ2 ) ha densità f , allora per ogni
insieme (di Borel) B contenuto in R vale
Z
PX (B) := P {X ∈ B} =
In particolare per X = ξ1 + ξ2 , si ha
Z
Z
f (x, y) dxdy =
P {X 6 σ} =
=
=
{x+y6σ}
Z +∞ Z σ
(
−∞
Z σ
−∞
Z
(
−∞
+∞
−∞
f (x, y) dxdy.
{(x,y): g(x,y)∈B}
+∞
−∞
Z
σ−x
f (x, y) dy
−∞
dx,
cambio di variabile y = u − v, x = v
f (v, u − v) du) dv
f (v, u − v) dv) du,
la quale implica che
fX (σ) =
Z
+∞
−∞
(4.14)
f (x, σ − x) dx
è una funzione di densità della distribuzione di X = ξ1 + ξ2 quando (ξ1 , ξ2 ) ha legge
assolutamente continua con densità f . In particolare, se ξ1 e ξ2 sono stocasticamente
indipendenti, rispettivamente con densità fξ1 e fξ2 , si ottiene
fX (σ) =
Z
+∞
−∞
fξ1 (x)fξ2 (σ − x) dx
(σ ∈ R),
(4.15)
che costituisce, dal punto di vista matematico, un esempio d’integrale di convoluzione.
CAPITOLO 4. VETTORI ALEATORI
72
Esempio 4.5.2. Siano ξ1 , ξ2 indipendenti con distribuzioni gaussiane di parametri,
rispettivamente, (µ1 , σ12 ) e (µ2 , σ22 ). Ci si propone di determinare la legge di X = ξ1 + ξ2 .
Si risolve il problema col calcolo della densità tramite la (4.15):
Z +∞
(u − µ1 )2
(x − u − µ2 )2
1
1
√
√
exp −
exp −
fX (x) =
du
2σ12
2σ22
σ2 2π
−∞ σ1 2π


2


2
1 +µ2
Z +∞
 σ22 ξ − −x+µ
 1
σ2
ξ
1
√ exp −
√ exp −
dξ
=
2


2σ1
2
−∞ σ1 2π

 2π
u + µ2 − x
]
[ottenuto col cambiamento di variabile ξ =
σ2
(
Z +∞
2 )
1
σ12
σ12 + σ22
vσ22
1
2 2
√ exp −
= √ exp −v σ2 2
ξ− 2
dξ
σ1 + σ22
2σ12
σ1 + σ22
2π
−∞ σ1 2π
µ1 + µ2 − x
]
[ottenuto col cambiamento si variabile v :=
σ2
(x − (µ1 + µ2 ))2
1
exp
−
= p
(x ∈ R).
2(σ12 + σ22 )
2π(σ12 + σ22 )
Questa è ancora una densità gaussiana di parametri µ1 + µ2 , σ12 + σ22 [somma dei
parametri delle distribuzioni gaussiane di ξ1 e ξ2 ].
z
Esempio 4.5.3. Siano ξ1 , ξ2 indipendenti con distribuzione di tipo gamma
fξi (x) =
1
xai −1 e−x 11(0,+∞) (x)
Γ(ai )
(x ∈ R)
per i = 1, 2. La densità di X = ξ1 + ξ2 in x > 0 si ottiene per mezzo di (4.15):
Z +∞
1
1
fX (x) =
ua1 −1 e−u 11(0,+∞) (u)
(x − u)a2 −1 e−(x−u) 11(0,+∞) (x − u) du
Γ(a
)
Γ(a
)
1
2
−∞
Z x
1
1
a1 −1 −u
a2 −1 −(x−u)
u
e
(x − u)
e
du
=
Γ(a2 )
0 Γ(a1 )
Z x
e−x
=
ua1 −1 (x − u)a2 −1 du
Γ(a1 )Γ(a2 ) 0
Z x
u a2 −1
e−x xa2 −1
du
=
ua1 −1 1 −
Γ(a1 )Γ(a2 ) 0
x
Z
e−x xa2 −1 a1 1 a1 −1
x
ξ
(1 − ξ)a2 −1 dξ.
=
Γ(a1 )Γ(a2 )
0
Dovendo risultare
1=
Z
0
+∞
R +∞
0
fX (x) dx = 1, ricaviamo
e−x xa2 −1 a1
x
Γ(a1 )Γ(a2 )
Z
0
1
ξ a1 −1 (1 − ξ)a2 −1 dξdx
1
=
Γ(a1 )Γ(a2 )
=
Γ(a1 + a2 )
Γ(a1 )Γ(a2 )
Z
1
ξ
0
Z
0
1
a1 −1
a2 −1
(1 − ξ)
dξ
ξ a1 −1 (1 − ξ)a2 −1 dξ
Z
0
+∞
e−x xa1 +a2 −1 dx
4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE
73
e, quindi, l’identità notevole
Z
0
1
ξ a1 −1 (1 − ξ)a2 −1 dξ =
Γ(a1 )Γ(a2 )
=: B(a1 , a2 )
Γ(a1 + a2 )
da cui
fX (x) =
1
e−x xa1 +a2 −1 11(0,+∞) (x).
Γ(a1 + a2 )
Dunque, X ha distribuzione gamma di parametri a1 + a2 , 1. Nella teoria delle funzioni
speciali, la funzione (a1 , a2 ) 7→ B(a1 , a2 ), con a1 , a2 > 0 è nota come funzione beta. Ad
essa è associata una legge di probabilità notevole che porta lo stesso nome.
z
Esempio 4.5.4 (Distribuzione beta). Abbiano ξ1 , ξ2 distribuzioni gamma come nell’esempio precedente. Proponiamo di determinare la distribuzione di ρ := ξ1 /(ξ1 + ξ2 ). Si
noti che ρ ∈ (0, 1) con probabilità 1.
Figura 4.4: Distribuzione beta.
Quindi per x in (0, 1) si ha
x
ξ2 , ξ1 > 0, ξ2 > 0}
1−x
!
x
Z +∞ Z 1−x
v
1
1
a1 −1 −u
u
e du
v a2 −1 e−v dv.
=
Γ(a
)
Γ(a
)
1
2
0
0
!
a1 −1
Z +∞ Z x
z
1
1 a2 −1 −t
t
−zt/(1−z)
dz
t
t
e dt
e
2
1−z
(1 − z)
Γ(a2 )
0 Γ(a1 )
0
!
a1 −1
Z x Z +∞
z
1 a2 −1 −t 1
t
−zt/(1−z)
dt dz
t
e
t
e
Γ(a2 )
Γ(a1 ) 1 − z
(1 − z)2
0
0
P {ρ 6 x} = P {ξ1 6
CAPITOLO 4. VETTORI ALEATORI
74
ottenuto operando il cambiamento di variabili t = v, z = u/(u + v). Pertanto
a1 −1
v
x
1
1
a2 −1 −v
e−vx/(1−x)
v
e
v
dv
fρ (x) =
Γ(a2 )
Γ(a1 ) 1 − x
(1 − x)2
0
Z +∞
x
xa1 −1
=
e−v(1+ 1−x ) v a1 +a2 −1 dv
a
+1
1
Γ(a1 )Γ(a2 )(1 − x)
0
a1 −1
x
Γ(a1 + a2 )
=
a1 +a2
Γ(a1 )Γ(a2 )(1 − x)a1 +1
x
1 + 1−x
Z
=
+∞
Γ(a1 + a2 ) a1 −1
x
(1 − x)a2 −1
Γ(a1 )Γ(a2 )
è una funzione di densità per il numero aleatorio ρ.
La funzione di densità testé trovata
Γ(a1 + a2 ) a1 −1
x
(1 − x)a2 −1 11(0,1) (x)
Γ(a1 )Γ(a2 )
si dice beta di parametri a1 , a2 .
z
4.6 Distribuzione condizionata quando il vettore aleatorio ha legge assolutamente continua
Vogliamo ora estendere la nozione di distribuzione condizionata (vista, per il caso discreto, nel Paragrafo 4.4) a vettori (ξ1 , ξ2 ) dotati di legge assolutamente continua. Per orientarci, incominciamo col dare risalto ad alcune importanti conseguenze della definizione
data nel Paragrafo 4.4. Intanto, se C1 e C2 sono insiemi che rispettivamente racchiudono
le determinazioni di ξ1 e ξ2 , per A ⊂ C2 si ha
P {ξ2 ∈ A|ξ1 = x} =
X f (x, y)
f1 (x)
[f (x, y)/f1 (x) = f2|1 (y|x)]
y∈A
e, quindi, per ogni fissato A, questa probabilità resta determinata quando sia nota la
realizzazione di ξ1 . Inoltre, per B ⊂ C1 ,
P {ξ1 ∈ B, ξ2 ∈ A} =
X
x∈B
P (ξ2 ∈ A|ξ1 = x)f1 (x).
(4.16)
Se F è una funzione di ripartizione assolutamente continua di vettore aleatorio
(ξ1 , ξ2 ), avente densità f e densità marginali f1 , f2 , ci proponiamo di definire la funzione
di ripartizione di ξ2 condizionata da {ξ1 = x} : F2|1 (•|x). Imitando ciò che si è trovato
nel caso discreto, si impone che essa soddisfi una relazione del tipo (4.16), ovvero
Z
F (x, y) = P {ξ1 6 x, ξ2 6 y} =
F2|1 (y|t)f1 (t) dt
(∀x ∈ R)
(t6x)
4.6. DISTRIBUZIONE CONDIZIONATA QUANDO IL VETTORE ALEATORIO HA LEGGE ASSOLUTAMENTE CON
ovvero
Z
x
−∞
Z
y
f (t, u) dudt =
Z
x
F2|1 (y|t)f1 (t) dt
−∞
−∞
Poiché quest’ultima relazione deve valere per ogni x, derivando rispetto ad x (operazione
lecita quasi ovunque), ricaviamo
Ry
F2|1 (y|x) =
−∞
f (x, u) du
(quando f1 (x) 6= 0)
f1 (x)
(4.17)
ovvero l’espressione per la funzione di ripartizione condizionata di ξ2 calcolata in y, dato
{ξ1 = x}. Quindi,
y 7→ f2|1 (y|x) :=
f (x, y)
f1 (x)
(quando f1 (x) 6= 0)
è una densità condizionata (calcolata in y) di ξ2 dato {ξ1 = x}. Analogamente
Rx
f (u, y) du
F1|2 (x|y) = −∞
(quando f2 (y) 6= 0)
f2 (y)
(4.18)
(4.19)
è la funzione di ripartizione condizionata calcolata in x, di ξ1 dato {ξ2 = y} e
x 7→ f1|2 (x|y) :=
f (x, y)
f2 (y)
(quando f2 (y) 6= 0)
(4.20)
è una densità condizionata (calcolata in x) di ξ1 dato {ξ2 = y}. Le (4.17) e (4.18) non
possono estendersi al caso in cui f1 (x) = 0; analogamente le (4.19) e (4.20) quando
f2 (y) = 0. Poniamo allora Ni := {x ∈ R : fi (x) = 0} (i = 1, 2). Va notato che P {ξi ∈ Ni } =
0 per i = 1, 2; infatti
P {ξi ∈ Ni } =
Z
fi (x)dx = 0
(i = 1, 2).
Ni
Questo autorizza a definire arbitrariamente le funzioni di ripartizione F1|2 (·|y) F2|1 (·|x)
quando x e y sono rispettivamente in N1 e N2 ; ad esempio, ponendo F2|1 (·|x) = F2 (·) e
F1|2 (·|y) = F1 (·).
Esempio 4.6.1. Riprendiamo la distribuzione gaussiana d-dimensionale con d = 2
(legge gaussiana bidimensionale)
2
2 y−µ2
y−µ2
x−µ1
x−µ1
1
exp − 2(1−ρ
+
−
2ρ
2)
σ1
σ1
σ2
σ2
f (x, y) =
2π(1 − ρ)1/2 σ1 σ2
((x, y) ∈ R2 ), dove µ1 , µ2 sono reali, σ1 , σ2 costanti strettamente positive e ρ un numero
in (−1, 1). Sappiamo che la densità marginale di ξi , fi , è data da
fi (u) =
(u − µi )2
1
√ exp −
2σi2
σi 2π
(u ∈ R)
i = 1, 2.
CAPITOLO 4. VETTORI ALEATORI
76
Con calcoli elementari, e un po’ noiosi, si trova dall’applicazione di (4.18) la densità
condizionata di ξ2 (calcolata in y) dato {ξ1 = x}:
(
2 )
σ2
1
1
y − µ2 + ρ (x − µ1 )
f2|1 (y|x) = p
exp − 2
2σ2 (1 − ρ2 )
σ1
σ2 2π(1 − ρ2 )
(y ∈ R)
che, per ogni x fissata in R, è ancora di tipo gaussiano con parametri µ2 + ρ σσ21 (x − µ1 ) ,
σ22 (1 − ρ2 ).
z
Esempio 4.6.2. Con riferimento alla densità dell’esempio 4.5.1 (a)
f (x, y) = 211T (x, y)
con T := {(x, y) ∈ R2 : 0 6 y 6 x 6 1}, si ottiene
f1|2 (x|y) = 1106y6x61
1
f (x, y)
=
1106y6x61 .
f2 (y)
1−y
Capitolo 5
Caratteristiche sintetiche di
una distribuzione
5.1 Qualche considerazione generale
Capita spesso che, in relazione a scopi specifici, non sia necessario conoscere la forma
completa della distribuzione. Ad esempio, in molti problemi di meccanica non serve
conoscere come è distribuita la massa e basta disporre del baricentro della massa.
Analogamente, in statistica, per determinare l’accrescimento di una popolazione su un
certo numero di unità di tempo non è necessario avere la distribuzione degli accrescimenti nelle unità di tempo considerate, ma basta un accrescimento medio e il numero
delle unità temporali. In argomento più chiaramente probabilistico, si potrebbe dire che
per sapere se, vendendo il diritto ad acquisire un guadagno aleatorio, ad un certo prezzo,
ho guadagnato o perso, dovrò confrontare tale prezzo col prezzo ideale in base al quale
sarei disposto sia a comprare sia a vendere una scommessa, d’importo qualunque, su
tale guadagno. In queste lezioni ci occupiamo del problema di come sintetizzare, mediante opportune caratteristiche numeriche, una distribuzione e, quindi, di determinare
espressioni di tali caratteristiche date, tipicamente, come funzioni della distribuzione
stessa.
77
78
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
5.2 Valore atteso, o speranza matematica, di numero
aleatorio discreto
Si pensi ad una distribuzione che ripartisce la massa unitaria fra i punti di ascissa
x1 , . . . , xN in modo che pi sia la massa concentrata in xi
(i = 1, . . . , N ). Se l’asse è
supposto rigido e sospeso nell’origine, per calcolare le forze occorrenti ad equilibrare la
distribuzione si può considerare che la massa sia concentrata nel baricentro, ovvero in
x=
N
X
xk pk .
k=1
Se x1 , . . . , xN sono le realizzazioni possibili del guadagno derivante da una certa operazione economica (dall’esito aleatorio) e p1 , . . . , pN sono le probabilità da attribuire a
tali realizzazioni, x prende un nuovo significato in relazione al problema seguente. Supponi di essere obbligato ad esprimere una valutazione certa (un prezzo) del guadagno in
questione. Per evitare di tirare un numero a casaccio ma, al contrario, per garantire un
fondamento alla valutazione che ti appresti a formulare, immagina di essere penalizzato per eventuali errori. Più precisamente, indicati con ξ il guadagno aleatorio e con v la
valutazione certa di ξ, supponi di dover pagare
c(xk − v)2
quando xk è la realizzazione effettiva di ξ, essendo c una costante positiva. Un indice
della bontà di v come previsore è dato da
s2 (v) = c
N
X
k=1
(xk − v)2 pk
(5.1)
nel senso che valori piccoli di s2 (v) segnalano che v ben rappresenta, sia pure riassuntivamente, il valore che ξ può concretamente assumere. Quindi, una valutazione
accettabile dovrebbe rendere minima la funzione v 7→ s2 (v). Si ha
s2 (v) = c
n
n
X
X
2
xk + v 2 − 2vxk pk = c
x2k pk + cv 2 − 2cvx
k=1
k=1
e, dunque, l’equazione di una parabola con concavità rivolta verso l’alto. Perciò, v 7→
s2 (v) ha minimo assoluto nell’ascissa del vertice della parabola
v=
2cx
= x.
2c
Lo stesso punto di vista si potrebbe adottare per concludere che x è una buona valutazione per un numero aleatorio di natura qualunque, purché discreto. Quindi nel calcolo delle probabilità, dato un numero aleatorio discreto ξ che prenda i valori x1 , x2 , . . .
5.2. VALORE ATTESO, O SPERANZA MATEMATICA, DI NUMERO ALEATORIO DISCRETO79
con rispettive probabilità p1 , p2 , . . . (pk > 0 per k = 1, 2, . . . ,
P
k>1 |xk |pk < +∞, il numero
X
xk pk
P
k>1
pk = 1), tale che
k>1
è detto valore atteso o speranza matematica di ξ e viene denotato con E(ξ).
Da questa definizione si ricava che se g è una funzione reale definita su R tale che
P
k>1
|g(xk )|pk < +∞, il numero
X
g(xk )pk
k>1
rappresenta il valore atteso del numero aleatorio g(ξ), ovvero
E(g(ξ)) =
X
(5.2)
g(xk )pk .
k>1
Infatti, indicati con gj i valori distinti di g(ξ), si ponga p∗j = P {g(ξ) = gj } e si ricorra
alla definizione di speranza matematica per ottenere
E(g(ξ)) =
X
gj p∗j =
X
gj
X
pi =
X
i
{i: g(xi )=gj }
X
pi
gj =
{j: gj =g(xi )}
X
pi g(xi ).
i
In particolare, per ogni evento A si ha E(11A ) = P (A).
Analogamente, data una coppia di numeri aleatori (ξ1 , ξ2 ) che assuma valori (x, y) in
un insieme numerabile C con probabilità f (x, y) = P {ξ1 = x, ξ2 = y}, se g è una funzione
P
reale definita su R2 tale che i,j>1 f (x, y)|g(x, y)| < +∞, si ha
E(g(ξ1 , ξ2 )) =
X
(5.3)
g(x, y)f (x, y).
(x,y)
Infatti, indicati con gk i valori distinti di g(ξ1 , ξ2 ), e ponendo p∗k = P {g(ξ1 , ξ2 ) = gk },
ragionando come prima si ottiene
X
X
E(g(ξ1 , ξ2 )) =
gk p∗k =
gk
k
=
X
(x,y)
5.2.1
k
f (x, y)
X
f (x, y)
{(x,y): g(x,y)=gk }
X
{k: gk =g(x,y)}
gk =
X
f (x, y)g(x, y).
(x,y)
Proprietà elementari del valore atteso
In vista del largo uso che faremo della speranza matematica, conviene porne in evidenza
alcune proprietà utili ad evitare calcoli spesso noiosi. Fermo restando (per il momento)
la natura discreta dei numeri aleatori di cui si tratta, valgono le seguenti proposizioni:
(a) Se la speranza matematica di ξ esiste, allora per ogni a e b in R si ha:
E(aξ + b) = aE(ξ) + b;
80
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
(b) P {ξ = a} = 1 =⇒ E(ξ) = a;
(c) P {a < ξ 6 b} = 1 =⇒ a < E(ξ) 6 b;
(d) Se ξ1 e ξ2 hanno speranza matematica finita anche aξ1 + bξ2 ha speranza finita, (per
ogni a, b in R) e vale E(aξ1 + bξ2 ) = aE(ξ1 ) + bE(ξ2 ).
Dimostrazioni
(a) Da (5.2), E(aξ + b) =
P
(axi + b)pi = a
P
xi pi + b = aE(ξ) + b;
(b) Se P {ξ = a} = 1 allora E(ξ) = a · P {ξ = a} = a;
(c) Se P {a < ξ 6 b} = 1 si ha E(ξ) 6 b
P
pi = b, E(ξ) > a
P
pj = a;
(d) Da (5.3) ponendo f (x, y) = P {ξ1 = x, ξ2 = y} si ha, supposto b 6= 0,
X
|ax + by|f (x, y)
E(|aξ1 + bξ2 |) =
(x,y)
6 |a|
= |a|
= |a|
X
(x,y)
X
x
X
x
|x|f (x, y) + |b|
|x|
X
y
X
(x,y)
f (x, y) + |b|
|x|P {ξ1 = x} + |b|
|y|f (x, y)
X
y
X
y
= |a|E(|ξ1 |) + |b|E(|ξ2 |) < +∞
|y|
X
f (x, y)
x
|y|P {ξ2 = y}
per ipotesi.
Quindi esiste finita la speranza matematica di aξ1 + bξ2 e, con calcoli analoghi a
quelli testé eseguiti, si ottiene E(aξ1 + bξ2 ) = aE(ξ1 ) + bE(ξ2 ).
Se per k intero positivo si ha
k, o momento k-esimo, di ξ.
P
|xi |k pi < +∞, allora E(ξ k ) si dice momento di ordine
5.3 Valore atteso di un numero aleatorio qualunque
Sia ξ un numero aleatorio con funzione di ripartizione F , non necessariamente discreta;
si veda la definizione di funzione di ripartizione su R nel Capitolo 2. Per arrivare ad
una definizione del valore atteso di ξ, che conservi le proprietà già rilevate nel caso
discreto, si può partire da una successione di approssimazioni discrete di ξ che converga
a ξ stesso, ed estendere la nozione di valore atteso per continuità. Incominciamo col
supporre che il codominio di ξ sia limitato e, per fissare le idee, risulti
−∞ < a < ξ 6 b < +∞.
5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE
81
i
(n)
(n)
con i = 1, . . . , n
Per ogni intero positivo n, suddividiamo (a, b] in intervallini xi−1 , xi
(n)
(n)
(n)
(n)
e x0 ≡ a, xn ≡ b e maxi xi − xi−1 ↓ 0 per n → +∞.
Figura 5.1: Suddivisione dell’intervallo (a, b]
i
(n)
(n)
(n)
La funzione ξ n che vale xi−1 quando ξ è contenuto in xi−1 , xi , per i = 1, . . . , n,
è un numero aleatorio che approssima per difetto ξ. Analogamente, la funzione ξ n che
i
(n)
(n)
(n)
approssima per eccesso ξ. Allora ξ n e ξ n sono
vale xi sullo stesso intervallo xi−1 , xi
numeri aleatori discreti. Cf. Figura 5.1. Posto
(n)
(n)
− F xi−1
pi,n = F xi
(i = 1, . . . , n)
si ottiene
n
o
n
o
(n)
(n)
P ξ n = xi−1 = P ξ n = xi
= pi,n
n
X
pi,n = 1
i=1
e, quindi,
n
X
(n)
xi−1 pi,n ,
E ξn =
i=1
n
X
(n)
E ξn =
xi pi,n .
i=1
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
82
Inoltre
0 6 E(ξ n − ξ n )
6 E ξn − E ξn
=
n
X
(n)
pi,n (xi
i=1
(n)
6 max(xi
i
(n)
= max(xi
i
[ da (c)]
[da (d)]
(n)
− xi−1 )
(n)
− xi−1 )
(n)
n
X
(5.4)
pi,n
i=1
− xi−1 ) ↓ 0
(n → +∞).
Da questa relazione deduciamo che (E(ξ n ))n>1 , (E(ξ n ))n>1 sono successioni contigue e
separate di numeri; l’elemento (numero) separatore ha, ovviamente, la proprietà caratteristica di non essere inferiore a nessun E(ξ n ) e non essere superiore ad alcun E(ξ n ).
Ora, poiché le disuguaglianze ξ n 6 ξ 6 ξ n valgono per ogni n, un’estensione di E(·) a ξ
che conservi la proprietà di monotonia (verificata nel caso discreto combinando (d) e (c),
ovvero, se ξ1 e ξ2 soddisfano ξ1 6 ξ2 , allora E(ξ1 ) 6 E(ξ2 )) dovrà coincidere col suddetto
elemento separatore in corrispondenza a ξ. E’ dunque lecito proporre di definire il valore
atteso, o speranza matematica, di ξ come limite di E(ξ n ) [oppure, indifferentemente, di
E(ξ n )]. Tale limite è noto, nell’Analisi generale, come integrale di Stieltjes e lo si denota
R
con [a,b] xdF (x).
La rimozione del vincolo di limitatezza potrebbe realizzarsi ricorrendo all’integrale
improprio, ponendo
E(ξ) :=
lim
a→−∞,b→+∞
Z
xdF (x) =
[a,b]
lim
a→−∞,b→+∞
E(ξ11[a,b] (ξ))
(5.5)
purché sia soddisfatta la condizione
lim
a→−∞,b→+∞
Si scriverà, in tal caso, E(ξ) =
R +∞
−∞
Z
[a,b]
|x|dF (x) < +∞.
xdF (x) o, anche,
R
R
xdF (x).
L’ammissibilità della definizione (5.5) si può far risalire, essenzialmente, alle proprietà dell’integrale improprio di Stieltjes [cf., ad esempio, Gilardi (2001) e il Capitolo 6 di
Burkill e Burkill (1970)] che, fra molte altre cose, implicano che E definita come in (5.5),
continua a soddisfare le proprietà da (a) a (d) del Paragrafo 5.2.1.
E’ importante notare che la speranza matematica di una funzione di numero aleatorio può essere determinata direttamente sulla base della funzione di ripartizione di ξ.
R
Se g : R → R è tale che R |g(x)|dF (x) < +∞, essendo F la funzione di ripartizione del
5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE
83
numero aleatorio ξ, allora vale
E(g(ξ)) =
Z
g(x)dF (x).
(5.6)
R
In particolare, la speranza matematica (supposta esistente) di ξ k , con k intero positivo,
Z
xk dF (x)
mk := E(ξ k ) =
R
continua ad essere detta momento di ordine k (della funzione di ripartizione F ) di ξ.
Perció, il valore atteso di ξ coincide con il momento primo della funzione di ripartizione
di ξ. Come vedremo in seguito, la conoscenza di certi momenti può bastare, in circostanze particolari, a gettare luce su importanti aspetti di una intera distribuzione di
probabilità.
A proposito dei momenti conviene ricordare la seguente disuguaglianza (detta di
Lyapunov): Se 0 < k < m e se E(|ξ|m ) < +∞ allora
E[|ξ|k ]1/k 6 E[|ξ|m ]1/m .
Discende da essa che se ilmomento secondo è finito, allora anche il momento primo
(valore atteso) è finito.
Concludiamo il paragrafo precisando come la definizione (5.5) possa essere tradotta
in formule utili per il calcolo. Anche tali formule sono diretta conseguenza di proprietà
notevoli dell’integrale di Stieltjes. La prima si riferisce al calcolo (peraltro già ben noto)
del valore atteso di un numero aleatorio discreto.
(C1) Sia ξ un numero aleatorio discreto con funzione di ripartizione F tale che F (xj )−
P
P
F (xj − 0) = pj per j = 1, . . . , k, . . . e j pj = 1; allora, se j |xj |pj < +∞, si ha
Z
X
xj pj .
(5.7)
xdF (x) =
R
j
Un altro vantaggio della definizione proposta è nel fatto che essa consente il calcolo
esplicito del valore atteso quando F è assolutamente continua.
(C2) Se ξ è un numero aleatorio con funzione di ripartizione F assolutamente conR
tinua, e funzione di densità di probabilità f , tale che R |x|f (x)dx < +∞, allora
Z
xf (x)dx.
(5.8)
E(ξ) =
R
Per quanto riguarda il numero aleatorio ξ con funzione di ripartizione F che sia
combinazione convessa di una discreta (Fd ) e di una assolutamente continua (Fac ), come
F (x) = λFd (x) + (1 − λ)Fac (x)
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
84
con λ in (0, 1), dalle proprietà dell’integrale di Stieltjes discende
Z
X
E(ξ) =
xf (x)dx
y j pj +
R
j>1
dove y1 , y2 , . . . sono le ascisse dei punti di salto di F con pj = F (yj ) − F (yj − 0) e f è la
funzione derivata (con le precisazioni ben note sulla sua esistenza) di (1 − λ)Fac (x). Ad
esempio, con riferimento alla funzione di ripartizione della Figura 2.4, il valore atteso è
dato da
0 · (1 −
Z
α β
α
) + M ( )β +
m
M
M
m
xβαβ x−β−1 dx = (M − 1)(
α β
α
) + ( )β .
M
m
Per numeri aleatori ξ con funzione di ripartizione qualunque (anche se non combinazione convessa di discreta e di assolutamente continua), conviene ricordare la seguente
rappresentazione del valore atteso. Si nota, intanto che il valore atteso di ξ è finito se e
R +∞
R0
solo se 0 (1 − F (x))dx < +∞ e −∞ F (x)dx < +∞; in tal caso
Z
E(ξ) =
+∞
(1 − F (x))dx −
0
Z
0
F (x)dx.
(5.9)
−∞
Se il valore atteso di ξ è finito, si verifica la precedente con questi calcoli
Z
Z
xdF (x)
xdF (x) +
E(ξ) =
[0,+∞)
=
=
Z
[0,+∞)
Z +∞ Z
0
=
Z
Z
(−∞,0)
x
0
dtdF (x) −
(t,+∞)
Z
(1 − F (x))dx −
Z
0
dtdF (x)
(−∞,0) x
Z 0 Z
dF (x)dt −
+∞
0
Z
−∞
0
dF (x)dt
(−∞,t]
F (x)dx
−∞
nei quali si fa uso del teorema di Fubini; viceversa, se i due integrali che figurano in (5.9)
sono finiti, si può partire da ciascuno di essi per ricavare, rispettivamente, le espressioni
R
R
[0,+∞) xdF (x) e (−∞,0) xdF (x) . L’espressione (5.9) ha un’interessante interpretazione
geometrica. Infatti, posto
h(m) :=
Z
+∞
m
(1 − F (x))dx −
Z
m
F (x)dx
−∞
si vede facilmente che m 7→ h(m) è continua e strettamente decrescente, con limm→+∞ h(m) =
−∞, limm→−∞ h(m) = +∞. Nel punto m0 in cui h si annulla (cfr. Figura 5.2) si ha
Z m0
Z +∞
F (x)dx := Lm0
(1 − F (x))dx =
Um0 :=
−∞
m0
con
U m0 =
Z
0
+∞
(1 − F (x))dx −
Z
0
m0
(1 − F (x))dx
5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE
85
111111111111
000000000000
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
111111111111111111111111
000000000000000000000000
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
000000000000000000000000
111111111111111111111111
111111111111111111111111111
000000000000000000000000000
000000000000000000000000
111111111111111111111111
m
Figura 5.2: Il valore di h(m) è dato dalla differenza dell’area con tratteggio obliquo meno
quella con tratteggio verticale
L m0 =
0
−∞
e, quindi,
0 = U m0 − L m0 =
Z
Z
F (x)dx −
+∞
0
(1 − F (x))dx − m0 +
Z
0
Z
0
F (x)dx
m0
m0
F (x)dx −
Z
0
−∞
F (x)dx +
Z
0
F (x)dx
m0
= E(ξ) − m0 .
Perció il valore atteso E(ξ) è l’ascissa del punto nel quale si ottiene il bilanciamento delle
due aree a tratteggio obliquo e a tratteggio verticale.
La formula 5.9 può essere utilizzata, ad esempio, per il calcolo di E(ξ) quando ξ ha
la funzione di ripartizione descritta nell’esempio (b) di distribuzione continua discussa
R1
nella Sottosezione 2.2.5. Infatti, da E(ξ) = 0 (1 − FS ∗ (x))dx (poiché S ∗ ha supporto
incluso in [0, 1]), segue
E(ξ) =
1 3 1
1 3
1
1
( − )+ ( − )+ ··· = .
2 4 4
4 16 16
2
Completiamo le considerazioni svolte a proposito di (5.6) in relazione ad una funzione h(ξ1 , ξ2 ) di vettore aleatorio (ξ1 , ξ2 ), dotato di funzione di ripartizione F , essendo h
R
definita su R2 (misurabile) e a valori reali. Allora, se R2 |h(x, y)|dF (x, y) < +∞, si trova
dalle proprietà dell’integrale di Stieltjes
E(h(ξ1 , ξ2 )) =
Z
h(x, y)dF (x, y)
(5.10)
R2
che, nel caso discreto, si riduce a (5.3). Se F è assolutamente continua con funzione di
densità f si ha
E(h(ξ1 , ξ2 )) =
Z
h(x, y)f (x, y)dxdy.
R2
Un caso particolarmente interessante si ha quando ξ1 e ξ2 sono stocasticamente indipendenti e h(ξ1 , ξ2 ) = ξ1 ξ2 .
86
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
Conviene, a questo proposito, premettere che dalla ovvia disuguaglianza 2|ab| 6
a + b2 segue che se vale E[ξi2 ] < +∞ per i = 1, 2, allora sono ben definite le speranze
2
matematiche E[|ξ1 ξ2 |] e E[ξ1 ξ2 ].
Ritornando al caso dell’indipendenza di ξ1 e ξ2 , si ha
Proposizione 5.3.1. Se ξ1 e ξ2 sono stocasticamente indipendenti ed hanno speranza
matematica finita, allora E(ξ1 · ξ2 ) = E(ξ1 )E(ξ2 ).
Dimostrazione. (cenno euristico) Per ipotesi
P {ξ1 6 x, ξ2 6 y} = Fξ1 (x)Fξ2 (y)
((x, y) ∈ R2 ).
Quindi, se E(|ξi |) < +∞ per i = 1, 2,
Z
E(ξ1 ξ2 ) =
xydFξ1 (x)dFξ2 (y)
2
Z
ZR
=
xdFξ1 (x) ydFξ2 (y) = E(ξ1 )E(ξ2 ).
R
R
z
E’ importante osservare che la tesi della Proposizione 5.3.1 potrebbe valere anche
in assenza della condizione di indipendenza stocastica, come nell’Esempio 5.5.4 che
vedremo fra poco.
5.4 Valore atteso di una distribuzione condizionata
Nei Paragrafi 4 e 6 del quarto capitolo abbiamo introdotto ed esemplificato la nozione di
distribuzione condizionata, caratterizzata con
y 7→ f2|1 (y|x)
da intendersi, nel caso discreto, come probabilità condizionata di {ξ2 = y} dato {ξ1 = x}
e, nel caso assolutamente continuo, come densità condizionata, calcolata in y, di ξ2 dato
{ξ1 = x}. Se la corrispondente distribuzione risultasse molto concentrata attorno ad
un valore (dipendente, chiaramente, da x) potremmo usare eventuali osservazioni su ξ1
per prevedere il valore di ξ2 . Si noti, a questo proposito, che ξ1 e ξ2 potrebbero essere il
risultato di due osservazioni sullo stesso fenomeno effettuate in tempi diversi. Poincaré,
nel 1902, scriveva
“I fatti previsti. . . non possono che essere probabili. Per quanto una previsione possa apparirci solidamente fondata, non siamo mai assolutamente
certi che l’esperienza non la smentirà. Ma la probabilità è spesso sufficientemente grande perché noi possiamo, praticamente, contentarcene.”
5.4. VALORE ATTESO DI UNA DISTRIBUZIONE CONDIZIONATA
87
Ad esempio, se ripetessimo misurazioni sulla differenza di potenziali (ξ1 ) agli estremi
di un tratto di conduttore e, congiuntamente, sull’intensità di corrente (ξ2 ) difficilmente
troveremmo, sia pure in condizioni ideali, perfettamente rispettata la legge di Ohm. Più
realisticamente, si troverebbe una nuvola di punti nel piano, realizzazioni di (ξ1 , ξ2 ),
molto concentrati attorno al grafico che esprime la legge suddetta. Quindi, un modello
soddisfacente per situazioni analoghe a quella descritta e, a maggior ragione, per altre
in cui le quantità oggetto di osservazione non sono assoggettabili a leggi deterministiche, dovrebbe essere costituito da una distribuzione o legge di probabilità a due o più
dimensioni che specificasse i valori di probabilità assegnati ai varî accoppiamenti, o alle
varie combinazioni, delle determinazioni delle quantità osservabili. La maggiore o minore concentrazione delle varie leggi condizionali servirebbe ad indicare la maggiore o
minore tendenza di una quantità a dipendere da altre. Più precisamente, con riferimento a vettori bidimensionali, il problema si può porre nei termini seguenti: fissare
un modo efficiente per prevedere ξ2 sulla base dei valori di ξ1 , in relazione ad un certo sistema di penalizzazione associato all’errore di previsione commesso. Indicato con
ξb2 = g(ξ1 ) il previsore, si tratta, quindi, di fissare g in modo che risulti minima una pre-
fissata penalizzazione. Qui ci limitiamo a considerare la penalizzazione che corrisponde
al quadrato dello scarto fra ξ2 e g(ξ1 ). In altri termini, cerchiamo g in modo che risulti
minimo il valore atteso
E[(ξ2 − g(ξ1 ))2 ]
(5.11)
al variare di g in un’opportuna classe. Sussiste, a questo proposito, la fondamentale
Proposizione 5.4.1. Si denoti con G la classe dei numeri aleatori g : R → R, che sono
funzioni di ξ1 tali che E(g 2 (ξ1 )) < +∞. Allora, se anche per ξ2 vale E(ξ22 ) < +∞, si ha
min E[(ξ2 − g(ξ1 ))2 ] = E[(ξ2 − E(ξ2 |ξ1 ))2 ]
g∈G
dove
E(ξ2 |ξ1 ) =
da
Z
ydF2|1 (y|ξ1 ).
(5.12)
R
Prima di procedere alla dimostrazione, rileviamo che l’espressione E(ξ2 |ξ1 ) si ricava
E(ξ2 |ξ1 = x) =
1 X
yf (y, x)
f1 (x) y
nel caso discreto, per ogni determinazione x di ξ1 con probabilità positiva, e da
E(ξ2 |ξ1 = x) =
1
f1 (x)
Z
yf (y, x)dy
R
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
88
nel caso assolutamente continuo, per ogni x tale che f1 (x) > 0.
Inoltre, ricordiamo che la funzione
x 7→ r2 (x) = E(ξ2 |ξ1 = x),
definita per ogni x tale che f1 (x) > 0, prende il nome di funzione di regressione di ξ2 su
ξ1 .
Dimostrazione della Proposizione 5.4.1. Per dimostrare la proposizione si osserva che E[(ξ2 −g(ξ1 ))2 ] = E[(ξ2 −r2 (ξ1 ))2 ]+E[(r2 (ξ1 )−g(ξ1 ))2 ]+2E[(ξ2 −r2 (ξ1 ))(r2 (ξ1 )−g(ξ1 ))],
con
E[(ξ2 − r2 (ξ1 ))(r2 (ξ1 ) − g(ξ1 ))] =
dal momento che
R
Z Z
(y − r2 (x))(r2 (x) − g(x))dF2|1 (y|x)dF1 (x)
Z
= [r2 (x) − g(x)]
[y − r2 (x)]dF2|1 (y|x) dF1 (x)
Z
Z
= [r2 (x) − g(x)]
ydF2|1 (y|x) − r2 (x) dF1 (x) = 0
Z
ydF2|1 (y|x) − r2 (x) = 0. Pertanto,
E[(ξ2 − g(ξ1 ))2 ] = E[(ξ2 − r2 (ξ1 ))2 ] + E[(r2 (ξ1 ) − g(ξ1 ))2 ]
> E[(ξ2 − r2 (ξ1 ))2 ]
e l’uguaglianza vale se e solo se g(ξ1 ) = r2 (ξ1 ) con probabilità uno. z
Quindi il miglior previsore – rispetto alla penalizzazione quadratica – è la funzione di
regressione a cui corrisponde un danno medio uguale a E[(ξ2 − r2 (ξ1 ))2 ]. Come misurare
l’intensità di dipendenza di ξ2 da ξ1 , ovvero la bontà della regressione quale previsore?
A questo proposito, seguendo Karl Pearson si può notare che vale
Z
2
σ2 := (x − m2 )2 dF2 (x) = E[{(ξ2 − r2 (ξ1 )) + (r2 (ξ1 ) − m2 )}2 ]
R
= E[(ξ2 − r2 (ξ1 ))2 ] + E[(r2 (ξ1 ) − m2 )2 ]
dove si è posto mi := E(ξi ) per i = 1, 2. Per verificare l’ultima uguaglianza si può
procedere come nella dimostrazione della Proposizione 5.4.1. Quindi,
2
:=
η2|1
E[(ξ2 − r2 (ξ1 ))2 ]
E[(r2 (ξ1 ) − m2 )2 ]
=1−
.
2
σ2
σ22
2
La costante η2|1
– nota come rapporto di correlazione – è stata proposta da K.Pearson
per misurare, appunto, l’intensità della dipendenza di ξ2 da ξ1 . Essa varia in [0, 1] e
assume il valore uno se e solo se ξ2 = r2 (ξ1 ) con probabilità uno, ovvero ξ2 dipende da ξ1 ;
per contro, prende il valore zero se e solo se r2 (ξ1 ) è con probabilità uno costante (= m2 ),
ovvero si presenta la situazione di indipendenza regressiva: la regressione non varia al
5.4. VALORE ATTESO DI UNA DISTRIBUZIONE CONDIZIONATA
89
variare di ξ1 . Si noti che quest’ultima circostanza sussiste, ad esempio, nel caso in cui
ξ1 e ξ2 sono stocasticamente indipendenti (ma anche in altri casi). Infatti se ξ1 e ξ2 sono
stocasticamente indipendenti, si ha
r2 (ξ1 ) = E(ξ2 |ξ1 ) = E(ξ2 ) = m2 .
Lasciamo allo studente di riformulare tutte le considerazioni che precedono per la
R
regressione r1 (ξ2 ) di ξ1 su ξ2 , dopo aver posto σ12 = R (x − m1 )2 dF1 (x).
Esempio 5.4.2. Sia (ξ1 , ξ2 ) un vettore aleatorio con la legge rappresentata nella seguente
tabella:
ξ1 \ξ2
4
6
8
10
1
0,1
0,5
0
0
0,6
2
0
0
0,1
0,1
0,2
3
0
0
0
0,1
0,1
4
0
0
0
0,1
0,1
0,1
0,5
0,1
0,3
Si ha E(ξ1 ) = 1.7, Var(ξ1 ) = 1.01, E(ξ2 ) = 7.2, Var(ξ2 ) = 4.16. Nella Figura 5.3 vengono
rappresentate con crocette le determinazioni di (ξ1 , ξ2 ).
Figura 5.3: Le crocette corrispondono alle determinazioni di (ξ1 , ξ2 ).
Direttamente dalla tabella segue
P {ξ1 = 1|ξ2 = 4} = 1
P {ξ1 = 1|ξ2 = 6} = 1
P {ξ1 = 2|ξ2 = 8} = 1
P {ξ1 = 2|ξ2 = 10} = P {ξ1 = 3|ξ2 = 10} = P {ξ1 = 4|ξ2 = 10} = 1/3.
90
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
Quindi,
r1 (4) = 1,
r1 (6) = 1,
r1 (8) = 2,
r1 (10) = 9/3.
2
Per calcolare η1|2
, organizziamo i calcoli come segue
(r1 (·) − m1 )p·
(r1 (·) − m1 )2 p·
1
-0.7
0.245
2
0.3
0.009
9/3
1,3
0.507
r1 (·)
1
-0.7
0.049
0.81
2
da cui segue η1|2
= 0.81/1.01 = 0.801....
5.5 Varianza
Il valore atteso è stato introdotto come caratteristica numerica di una distribuzione atta
a fornire una buona previsione di un numero aleatorio dotato di quella distribuzione. Infatti, E(ξ) rende minimo l’indice (5.1). Il valore minimo di tale indice si chiama varianza
di ξ, in simboli Var(ξ), e la sua espressione è
Var(ξ) =
X
k
(xk − E(ξ))2 pk .
Facendo uso dell’operatore E, si può scrivere
X
k
(xk − E(ξ))2 pk = E[(ξ − E(ξ))2 ]
e, sapendo che E è definito anche per numeri aleatori non discreti, possiamo estendere
la nozione di varianza a un numero aleatorio ξ qualunque (anche non discreto) ponendo
Var(ξ) = E[(ξ − m)2 ]
(m := E(ξ))
(5.13)
purché risulti E(ξ 2 ) < +∞. Ricordando la rappresentazione di E come integrale, da
(5.13) segue
Var(ξ) =
Z
R
(x − m)2 dF (x)
dove F è la funzione di ripartizione di ξ.
Dalle proprietà dell’integrale, si ricava che, se F è discreta con salti p1 , p2 , . . . in
x1 , x2 , . . . , vale
Var(ξ) =
X
k
(xk − m)2 pk .
5.5. VARIANZA
purché riesca
avrà
91
P
k
x2k pk < +∞. Invece, se F è assolutamente continua con densità f , si
Var(ξ) =
a patto che valga la condizione
vale la
R
R
Z
R
(x − m)2 f (x)dx
x2 f (x)dx < +∞. In ogni caso se la varianza è finita,
Proposizione 5.5.1. Se E(ξ 2 ) < +∞, allora
Var(ξ) = E(ξ 2 ) − E2 (ξ),
Var(aξ + b) = a2 Var(ξ)
(a, b) ∈ R2 .
(5.14)
Dimostrazione.
Var(ξ) = E[ξ 2 + E2 (ξ) − 2ξE(ξ)] = E(ξ 2 ) + E(E2 (ξ)) − 2E(ξ)E(ξ) = E(ξ 2 ) − E2 (ξ).
Var(aξ + b) = E((aξ − aE(ξ))2 ) = E(a2 ξ 2 ) − E2 (aξ) = a2 (E(ξ) − E2 (ξ)) = a2 Var(ξ).z
La varianza è un indice della maggiore o minore variabilità (dispersione) di una
distribuzione attorno al valore atteso. Si vede facilmente che essa vale 0 se e solo se
esiste una costante a tale che P {ξ = a} = 1.
Esempio 5.5.2. Considero un numero aleatorio ξ con distribuzione P {ξ = −A} = (1 −
β)/2 = P {ξ = A}, P {ξ = 0} = β, con β in [0, 1], A > 0. Allora E(ξ) = 0 e
Var(ξ) = A2 (1 − β).
La varianza è dunque nulla se β = 1 e, per A fissato, massima se β = 0. Lo studente
potrebbe spiegare perché questa conclusione è intuitiva.
5.5.1
Varianza di una somma di numeri aleatori
Passiamo a problemi di secondo grado, consistenti nel determinare la varianza di (aξ1 +
bξ2 ) nell’ipotesi che valga E(ξi2 ) < +∞ per i = 1, 2. Per comodità di notazione, si continui
a scrivere mi = E(ξi ) e σi2 = Var(ξi ) per i = 1, 2. Si vede facilmente che per ogni terna di
numeri reali a, b, c vale la seguente
Proposizione 5.5.3. Se ξ1 e ξ2 sono due variabili aleatorie con E(ξi2 ) < +∞, per i = 1, 2,
allora
Var(aξ1 + bξ2 + c) = Var(aξ1 + bξ2 ) = a2 σ12 + b2 σ22 + 2abCov(ξ1 , ξ2 ).
(5.15)
dove
Cov(ξ1 , ξ2 ) := E[(ξ1 − m1 )(ξ2 − m2 )] = E(ξ1 ξ2 ) − m1 m2
(5.16)
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
92
Dimostrazione.
Var(aξ1 + bξ2 + c) = E (aξ1 + bξ2 − (am1 + bm2 ))2 = E (a(ξ1 − m1 ) + b(ξ2 − m2 ))2
= E a2 (ξ1 − m1 )2 + b2 (ξ2 − m2 )2 + 2ab(ξ1 − m1 )(ξ2 − m2 )
= a2 Var(ξ1 ) + b2 Var(ξ2 ) + 2abE[(ξ1 − m1 )(ξ2 − m2 )].
z
(5.17)
Il numero Cov(ξ1 , ξ2 ) è detto covarianza di (ξ1 , ξ2 ) e rappresenta una delle caratteristiche sintetiche più rilevanti di una distribuzione di vettore aleatorio. Se µ è la
distribuzione di probabilità di (ξ1 , ξ2 ) scriveremo anche Cov(µ) al posto di Cov(ξ1 , ξ2 ).
L’espressione della varianza della somma si semplifica sensibilimente quando ξ1 e
ξ2 sono stocasticamente indipendenti. Infatti in questo caso si ha, per la Proposizione
5.3.1,
Cov(ξ1 , ξ2 ) = E(ξ1 − m1 )E(ξ2 − m2 ) = 0
e, pertanto,
Var(aξ1 + bξ2 ) = a2 Var(ξ1 ) + b2 Var(ξ2 ).
(5.18)
Si noti però che la covarianza si può annullare anche se ξ1 e ξ2 non sono stocasticamente
indipendenti. Diremo in tal caso che i numeri aleatori ξ1 e ξ2 sono ortogonali o non
correlati.
Esempio 5.5.4. La legge di ξ1 sia data da
P {ξ1 = −1} =
1−β
= P {ξ1 = 1},
2
P {ξ1 = 0} = β.
Inoltre, ξ2 sia uguale al quadrato di ξ1 : ξ2 = ξ12 . Allora,
E(ξ1 ) = 0, E(ξ1 ξ2 ) = E(ξ13 ) = 0
2
e ciò implica Cov(ξ1 , ξ2 ) = 0, pur essendo ξ2 perfettamente dipendente da ξ1 (η2|1
=
1). L’esempio offre anche un caso concreto in cui E[ξ1 ξ2 ] = E[ξ1 ]E[ξ2 ], pur non essendo
stocasticamente indipendenti i numeri aleatori ξ1 e ξ2 .
5.5.2 Esempi di momenti di distribuzioni notevoli
Esempio 5.5.5 (Valore atteso e varianza di una distribuzione binomiale). Vogliamo determinare valore atteso e varianza di un numero aleatorio Sn dotato di legge binomiale
n k n−k
P {Sn = k} =
p q
(k = 0, 1, . . . , n).
k
5.5. VARIANZA
93
Lo studente faccia riferimento al Paragrafo 4.3.1, in cui Sn è visto come somma di
numeri aleatori ξ1 , . . . , ξn indipendenti con legge comune
p = P {ξ1 = 1} = 1 − P {ξ1 = 0} = 1 − q.
Allora, dalla (d) del Paragrafo 5.2.1 segue
E(Sn ) = E(ξ1 ) + · · · + E(ξn ) = np
poiché
E(ξ1 ) = 0 · q + 1 · p.
Inoltre, da (5.18),
Var(Sn ) = Var(ξ1 ) + · · · + Var(ξn ) = npq
poiché
E(ξ12 ) = 0 · q + 1 · p = p
e, quindi,
Var(ξ1 ) = E(ξ12 ) − E2 (ξ1 ) = p − p2 = p(1 − p).
Esempio 5.5.6 (Valore atteso e varianza di una distribuzione di Poisson). Supponiamo
che il numero aleatorio ξ abbia distribuzione di Poisson, ovvero
P {ξ = k} =
e−θ θk
k!
(k = 0, 1, . . .)
in cui θ è un parametro positivo. Allora
∞
X
X e−θ θk
X θk−1
X θk
e−θ θk
E(ξ) =
k
=
= θe−θ
= θe−θ
=θ
k!
(k − 1)!
(k − 1)!
k!
k=0
k>1
k>1
k>0
Inoltre,
E(ξ 2 ) =
X
k>0
k2
X
X e−θ θk
e−θ θk
e−θ θk
=
=
+θ
[k(k − 1) + k]
k!
k!
(k − 2)!
k>0
k>2
X θk−2
+ θ = θ2 + θ
= e−θ θ2
(k − 2)!
k>2
e quindi
Var(ξ) = E(ξ 2 ) − E2 (ξ) = θ2 + θ − θ2 = θ.
Allora, Var(ξ) = E(ξ) quando ξ ha distribuzione di Poisson.
Esempio 5.5.7 (Valore atteso e varianza di una distribuzione geometrica). Sia
P {ξ = r} = θ(1 − θ)r
(r = 0, 1, . . .)
94
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
con θ parametro in (0, 1). Allora,
E(ξ) =
X
r>1
P
rθ(1 − θ)r = θ(1 − θ)
X
r>1
r(1 − θ)r−1 .
La somma r>1 r(1 − θ)r−1 , come si vede facilmente, è la derivata calcolata in (1 − θ) di
P
x 7→ r>0 xr = (1 − x)−1 (x ∈ (0, 1)). Pertanto,
E(ξ) = θ(1 − θ)
=
1
d 1 =
θ(1
−
θ)
2
dx 1 − x x=1−θ
(1 − x) x=1−θ
θ(1 − θ)
θ(1 − θ)
1−θ
=
=
.
(1 − 1 + θ)2
θ2
θ
Ricordando che la distribuzione di (ξ + 1) fornisce la legge del tempo di attesa del primo
successo in termini di numero di prove, nel caso di prove bernoulliane, si può asserire
che il valore atteso di questo tempo è uguale al reciproco della probabilità di successo.
[Risultato abbastanza naturale.] Con calcoli analoghi, si ottiene Var(ξ) = Var(ξ + 1) =
(1 − θ)/θ2 .
Esempio 5.5.8 (Valore atteso e varianza di distribuzione binomiale negativa). Nella
Sezione 4.3.4 abbiamo visto che la distribuzione binomiale negativa, presentata nella
Sezione 2.2.3, coincide con la legge di probabilità di un numero aleatorio ξ = Tn − n dove
Tn è somma dei primi tempi intercorrenti τ1 , . . . , τn , ivi descritti. Quindi
X n + r − 2
E(ξ) :=
θn (1 − θ)r
r
r>1
= E(Tn ) − n
=
n
X
i=1
per la (d) della Sezione 5.2.1.
E(τi ) − n
D’altra parte da (4.6) si vede che (τi − 1) è una variabile aleatoria con distribuzione
geometrica e, quindi, dall’Esempio 5.5.7 si ricava
E(τi ) = E(τi − 1) + 1 =
1−θ
1
+1= ,
θ
θ
e, dunque,
1
1−θ
E(ξ) = n − n = n
.
θ
θ
Infine, per l’indipendenza dei tempi τi ,
Var(ξ) = Var(Tn − n) = Var(Tn )
=
n
X
i=1
Var(τi ) = n
1−θ
.
θ2
5.5. VARIANZA
95
Infatti, sempre dall’Esempio 5.5.7
Var(τi ) = Var(τi − 1) =
1−θ
.
θ2
Esempio 5.5.9 (Valore atteso e varianza di distribuzione gaussiana). In questo esempio
si danno alcuni elementi ulteriori alla conoscenza della legge gaussiana. La legge di ξ
sia dunque assolutamente continua con densità
(x − m)2
1
f (x) = √ exp −
2σ 2
σ 2π
(x ∈ R).
Dimostriamo che valgono le fondamentali relazioni: E(ξ − m) = 0, ovvero E(ξ) = m,
Var(ξ − m) = Var(ξ) = σ 2 . Infatti:
Z +∞
(x − m)2
1
√
exp −
dx
E(ξ − m) =
(x − m)
2σ 2
σ 2π
−∞
√ Z +∞
2
x−m
σ 2
ve−v dv
[col cambiamento di variabile v = √ ]
= √
π −∞
σ 2
=0
[l’integranda è dispari];
Var(ξ − m) = E((ξ − m)2 ) =
=
=
=
=
1
(x − m)2
(x − m)2 √ exp −
dx
2σ 2
σ 2π
−∞
Z
2σ 2 +∞ 2 −v2
√
v e
dv
π −∞
Z
4σ 2 +∞ 2 −v2
√
v e
dv
π 0
Z
2σ 2 +∞ −x 3 −1
√
e x 2 dx [col cambiamento di variabile x = v 2 ]
π 0
2σ 2
√ Γ(3/2) = σ 2 .
π
Z
+∞
Resta così chiarito il significato dei parametri m, σ 2 .
z
Esempio 5.5.10 (Momenti della distribuzione gamma e beta). Sia ξ un numero aleatorio con legge assolutamente continua di densità gamma
f (x) =
ab −ax b−1
e
x 11(0,+∞) (x)
Γ(b)
(x ∈ R)
con a, b parametri positivi. Allora, per ogni intero k > 0,
Z +∞
ab
k
E(ξ ) =
xk e−ax xb−1 dx
Γ(b) 0
1
ab Γ(b + k)
= k (b + k − 1) · · · b.
=
Γ(b) ab+k
a
Quindi,
E(ξ) =
b
,
a
E(ξ 2 ) =
(b + 1)b
,
a2
Var(ξ) =
b
.
a2
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
96
Sia X un numero aleatorio con legge assolutamente continua di densità (beta)
g(x) =
Γ(a + b) a−1
x
(1 − x)b−1 11(0,1) (x)
Γ(a)Γ(b)
(x ∈ R).
Allora,
Z
Γ(a + b) 1 k a−1
E(X ) =
x x
(1 − x)b−1 dx
Γ(a)Γ(b) 0
Γ(a + b) Γ(k + b)Γ(b)
=
Γ(a)Γ(b) Γ(a + b + k)
(k + a − 1) . . . a
=
(a + b + k − 1) . . . (a + b)
k
da cui
E(X) =
a
,
a+b
E(X 2 ) =
a(a + 1)
,
(a + b + 1)(a + b)
Var(X) =
ab
.
(a + b)2 (a + b + 1)
5.6 Caratteristiche sintetiche di una distribuzione a
più dimensioni
5.6.1 Concordanza, discordanza e covarianza
Aspetto assai interessante di una generica distribuzione di probabilità di vettore aleatorio è la concordanza: al crescere di una componente anche l’altra presenta una propensione a crescere. Si ritorni a vedere anche il Paragrafo 4.2. Come misurare questa proprietà tramite un’opportuna costante caratteristica? In un articolo del 1937, de Finetti
propone di procedere nel modo seguente. Indicata con µ una distribuzione di probabilità
su B(R2 ), si prendono due vettori aleatori (X1 , Y1 ) e (X2 , Y2 ) indipendenti e ciascuno di
essi distribuito con legge µ.
Si guarda ai due vettori come a due punti presi a caso sul piano (cf. Figura 5.4) e
si considera l’evento C := {(X1 − X2 )(Y1 − Y2 ) > 0} che corrisponde alla condizione di
concordanza, contro l’evento D := {(X1 − X2 )(Y1 − Y2 ) < 0} che segnala la condizione
opposta, di discordanza. Per (X1 , Y1 ) fissato, la regione di concordanza è determinata
dal fatto che (X2 , Y2 ) appartenga alla regione ombreggiata; la parte restante del piano
è di indifferenza o di discordanza. Quindi, la concordanza – discordanza di µ si può
misurare considerando il valore atteso del segno di (X1 − X2 )(Y1 − Y2 ), vale a dire il
valore atteso di

 1
sign((X1 − X2 )(Y1 − Y2 )) =
 −1
se (X1 − X2 )(Y1 − Y2 ) > 0
se (X1 − X2 )(Y1 − Y2 ) < 0.
5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI97
(X_1,Y_1)
Figura 5.4:
Ovviamente, si ha
E(sign((X1 − X2 )(Y1 − Y2 ))) =
−
Z
Z
11{(x1 −x2 )(y1 −y2 )>0} µ(dx1 dy1 )µ(dx2 dy2 )
11{(x1 −x2 )(y1 −y2 )<0} µ(dx1 dy1 )µ(dx2 dy2 )
e questo indice varia fra −1 e 1 e sarà tanto più prossimo a 1 (−1, rispettivamente)
quanto maggiore è la concordanza (la discordanza, rispettivamente); la sua eventuale
prossimità a zero indicherebbe sostanzialmente indifferenza tra i due caratteri. Un
altro modo per cogliere il grado di concordanza è quello di valutare, anziché il segno di
(X1 − X2 )(Y1 − Y2 ), il valore di tale prodotto e, quindi, il valore atteso
E[(X1 − X2 )(Y1 − Y2 )]
purché quest’ultimo esista. In tal caso, ricordando che (X1 , Y1 ) e (X2 , Y2 ) sono indipendenti e e che (X1 , Y1 ) ha la stessa legge di (X2 , Y2 ), si ha
E[(X1 − X2 )(Y1 − Y2 )] = E[X1 Y1 − X1 Y2 − X2 Y1 + X2 Y2 ]
= Cov(X1 , Y1 ) + E(X1 )E(Y1 ) − E(X1 )E(Y2 ) − E(X2 )E(Y1 )
+ Cov(X2 , Y2 ) + E(X2 )E(Y2 )
= 2Cov(X1 , Y1 ).
Perció, Cov(µ) coincide con la metà del valore atteso di (X1 − X2 )(Y1 − Y2 ) e, per il fatto
che le determinazioni di questo prodotto segnalano la concordanza–discordanza delle
98
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
componenti del vettore (ξ1 , ξ2 ) distribuito secondo µ, ne discende che Cov(µ) fornisce
una misura della concordaza–discordanza in µ.
5.6.2 Correlazione lineare e coefficiente di correlazione lineare
Altra caratteristica interessante di una distribuzione µ di vettore aleatorio (ξ1 , ξ2 ) è
l’eventuale tendenza a concentrarsi attorno ad una retta. Se una simile circostanza si
presentasse sarebbe lecito, avendo determinato la retta, prevedere la determinazione
di ξi a partitre dalla determinazione di ξj , per i 6= j. Come misurare l’intensità del-
la tendenza summenzionata che, in statistica, è consuetudine chiamare correlazione
lineare?
Si parte dal membro di destra dell’espressione (5.15) e si osserva che, essendo la
varianza di un numero aleatorio, deve soddisfare la disuguaglianza
Q(a, b) := a2 σ12 + b2 σ22 + 2abCov(ξ1 , ξ2 ) > 0
(a, b) ∈ R2 .
Q è dunque una forma quadratica [in (a, b)] semidefinita positiva. Quindi, essendo
Var(ξi ) > 0 (i = 1, 2), il determinante di

Var(ξ1 )

Cov(ξ1 , ξ2 )
Cov(ξ1 , ξ2 )
Var(ξ2 )
deve essere non negativo, ossia


Var(ξ1 )Var(ξ2 ) > Cov2 (ξ1 , ξ2 ),
(5.19)
che è una versione probabilistica della disuguaglianza di Cauchy–Schwarz.
Va inoltre osservato che Var(a0 ξ1 + b0 ξ2 ) = 0 per una opportuna coppia di (a0 , b0 ) 6=
(0, 0) se e solo se la suddetta matrice non è definita positiva, ovvero
Cov2 (ξ1 , ξ2 ) = Var(ξ1 )Var(ξ2 ).
(5.20)
Poiché Var(a0 ξ1 + b0 ξ2 ) = 0 se e solo se esiste una costante c0 per cui
P {a0 ξ1 + b0 ξ2 = c0 } = 1,
(5.21)
possiamo stabilire la seguente
Proposizione 5.6.1. Se E(ξi2 ) < +∞ (i = 1, 2), allora
Cov2 (ξ1 , ξ2 ) 6 Var(ξ1 )Var(ξ2 )
(5.22)
e l’uguaglianza vale se e solo se le determinazioni del vettore aleatorio (ξ1 , ξ2 ) appartengono con probabilità 1 ad una retta ax + by = c. In tal caso, se σi > 0 per i = 1, 2, la retta
è crescente se e solo se Cov(ξ1 , ξ2 ) > 0.
5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI99
Dimostrazione. Resta solo da dimostrare l’ultima affermazione sul segno di Cov(ξ1 , ξ2 ).
Se vale (5.21) con σi > 0 per i = 1, 2, allora
0 = a20 σ12 + b20 σ22 + 2a0 b0 Cov(ξ1 , ξ2 )
con |Cov(ξ1 , ξ2 )| = σ1 σ2 ; perció,
0 = (a0 σ1 + b0 σ2 sign(Cov(ξ1 , ξ2 )))2
ovvero
a0 σ1 = −b0 σ2 sign(Cov(ξ1 , ξ2 )).
Pertanto, valendo la (5.21), il segno di Cov(ξ1 , ξ2 ) è opposto a quello di a0 b0 . z
Nel caso particolare in cui σi2 > 0 per i = 1, 2, possiamo considerare il rapporto
ρ(ξ1 , ξ2 ) =
Cov(ξ1 , ξ2 )
σ1 σ2
noto come coefficiente di correlazione lineare (detto anche coefficiente di Bravais–Pearson).
In virtù della Proposizione 5.6.1, si ha
|ρ(ξ1 , ξ2 )| 6 1
e l’uguaglianza sussiste se e solo se vale (5.21), con a0 b0 < 0 (retta crescente) se e solo se
ρ(ξ1 , ξ2 ) = 1.
Ripetiamo che i numeri aleatorî ξ1 , ξ2 si dicono non correlati quando ρ(ξ1 , ξ2 ) = 0.
Possiamo raccogliere le considerazioni precedenti nella seguente proposizione che
precisa l’ufficio di ρ come misura della correlazione lineare fra le componenti di un
vettore aleatorio bidimensionale.
Proposizione 5.6.2. Se 0 < σi < +∞ per i = 1, 2, si ha
|ρ(ξ1 , ξ2 )| 6 1
e l’uguaglianza vale se e solo le determinazioni del vettore aleatorio (ξ1 , ξ2 ) appartengono
con probabilità 1 ad una retta ax + by = c. In tal caso, inoltre, la retta è crescente se e
solo se ρ(ξ1 , ξ2 ) = 1.
Si deve osservare che la legge di (ξ1 , ξ2 ) potrebbe segnalare una forte dipendenza
di ξ2 da ξ1 ad esempio, o di ξ1 da ξ2 , ma debole correlazione lineare; in altri termini,
la forma di tale dipendenza non sarebbe lineare. A questo fine, conviene mettere in
luce una notevole disuguaglianza esistente fra rapporti di correlazione e coefficente di
correlazione lineare.
100
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
Ricordiamo che con r2 (ξ1 ) abbiamo denotato la regressione di ξ2 su ξ1 . Allora, con la
stessa notazione della Sezione 5.4
2
η2|1
=1−
E[(ξ2 − g(ξ1 ))2 ]
E[(ξ2 − r2 (ξ1 ))2 ]
>
1
−
σ22
σ22
per ogni funzione g e, in particolare, per g(ξ1 ) = m2 + ρσ2 (ξ1 − m1 )/σ1 (=retta di
regressione II tipo; cf. 5.6.3), si ottiene
2
> 1 − {1 + ρ2 − 2ρ2 } = ρ2 .
η2|1
2
Abbiamo già visto che η2|1
può assumere il valore massimo (1) mentre ρ2 prende quello
minimo (0); cf. Esempio 5.5.4. Se η 2 = 0 (indipendenza in regressione) anche ρ2 deve
2
valere 0. Più in generale, l’uguaglianza tra η2|1
e ρ2 sussiste se e solo se la regressione
di ξ2 su ξ1 è lineare (affine).
Esempio 5.6.3. Riprendendo l’Esempio 5.4.2, si ha E(ξ1 · ξ2 ) = 0, 1 · 4 + 0, 5 · 6 + 0, 1 · 16 +
0, 1 · 20 + 0, 1 · 30 + 0, 1 · 40 = 14, 0 e Cov(ξ1 , ξ2 ) = 14, 0 − 1, 7 · 7, 2 = 1, 76. Allora
ρ= √
1, 76
≃ 0, 86,
4, 2016
che è un valore piuttosto elevato per ρ; in effetti, la retta g(ξ1 ) = m2 + ρσ2 (ξ1 − m1 )/σ1 ,
tratteggiata in Figura 5.3, sembra adattarsi piuttosto bene ai dati (crocette).
z
5.6.3 Regressione di secondo tipo (regressione lineare)
Quando il modulo del coefficiente di correlazione ρ(ξ1 , ξ2 ) è abbastanza vicino ad uno vi
è buon motivo per ritenere che le realizzazioni di (ξ1 , ξ2 ) tendano a concentrarsi attorno
ad una retta. E’ quindi interessante cercare l’equazione di una retta che, rispetto ad un
ben determinato criterio, si adatti bene alle realizzazioni di (ξ1 , ξ2 ). Come già in altre
circostanze, adotteremo il criterio della minimizzazione dell’errore quadratico medio.
Il problema può allora essere affrontato cercando la coppia (ā, b̄) per cui
E[(ξ2 − āξ1 − b̄)2 ] = min E[(ξ2 − aξ1 − b)2 ].
a,b
(5.23)
Quindi, il numero aleatorio ξ¯2∗ = āξ1 + b̄ rende minimo il valore atteso del quadrato
dell’errore |ξ2 − ξ2∗ |, con ξ2∗ = aξ1 + b al variare di (a, b). Per retta di regressione di secondo
tipo si intende la retta cha ha equazione ξ2∗ = āξ1 + b̄. Essa corrisponde, nel campo
dell’approssimazione numerica, alla retta dei minimi quadrati (Legendre-Gauss).
Proposizione 5.6.4. Sotto la solita ipotesi E(ξi2 ) < +∞ e σi > 0 per i = 1, 2, il problema
(5.23) ammette un’unica soluzione, caratterizzata da
ā = ρ
σ2
,
σ1
b̄ = m2 − ρm1
σ2
.
σ1
5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI101
Dimostrazione. Posto
R := E[(ξ2 − aξ1 − b)2 ] = E{[(ξ2 − m2 ) − a(ξ1 − m1 ) − (m2 − am1 − b)]2 }
= σ22 + a2 σ12 + (m2 − am1 − b)2 − 2aCov(ξ1 , ξ2 ),
il problema può essere risolto ricorrendo al metodo classico:
∂R
= 2aσ12 − 2(m2 − am1 − b)m1 − 2Cov(ξ1 , ξ2 ) = 0
∂a
∂R
= −2(m2 − am1 − b) = 0
∂b
che porge
ā =
σ2
Cov(ξ1 , ξ2 )
=ρ ,
Var(ξ1 )
σ1
b̄ = m2 − ρ
σ2
m1 . z
σ1
√
Nell’Esempio 5.4.2, la regressione lineare di ξ1 su ξ2 è data da ξ1∗ = 1, 7+0, 86 0, 243(ξ2 −
7, 2) ed è rappresentata nel grafico di figura 5.3.
Esempio 5.6.5. Per la distribuzione multinomiale con d = 3 (Cf. Esempio 4.2.2) si ha
P {ξ2 = n2 |ξ1 = n1 } =
(n − n1 )!
n2 !(n − n1 − n2 )!
p2
1 − p1
n2 1−
p2
1 − p1
n−n1 −n2
purché sia 0 < p1 < 1 e 0 6 n1 + n2 6 n. Allora,
E(ξ2 |ξ1 = n1 ) =
=
X
n2
n2 P {ξ2 = n2 |ξ1 = n1 }
n2 n−n2
p2
n − n1
p2
1−
n2
1 − p1
1 − p1
=0
n−n
X1
n2
A questo punto, si vede che il valore atteso condizionato cercato coincide con quello
relativo alla legge binomiale (cf. Esempio 5.5.5) con n − n1 , al posto di n, p2 /(1 − p1 ) al
posto di p. Perciò,
n1 7→ E(ξ2 |ξ1 = n1 ) = (n − n1 )
p2
p2
p2
=n
− n1
1 − p1
1 − p1
1 − p1
n1 = 0, . . . , n
è la funzione di regressione di ξ2 su ξ1 . Questo mostra che la funzione di regressione
di ξ2 su ξ1 (ma lo stesso vale per la regressione di ξ1 su ξ2 ) è lineare e, di conseguenza,
dovrà coincidere con la regressione di secondo tipo con ā = ρσ2 /σ1 = −p2 /(1 − p1 ),
b̄ = m2 − ρm1 σ2 /σ1 = np2 /(1 − p1 ). Poiché σ1 e σ2 valgono np1 (1 − p1 ) e np2 (1 − p2 )
in virtù del fatto che le leggi marginali sono binomiali di parametri npi (i = 1, 2) –cfr
Esempio 4.2.2– si ottiene l’espressione del coefficente di correlazione dall’espressione
p
np2 (1 − p2 )
p2
ρp
=−
,
1
−
p1
np1 (1 − p1 )
102
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
ossia
√
p1 p2
ρ = −p
(1 − p1 )(1 − p2 )
e, di conseguenza,
√
Cov(ξ1 , ξ2 ) = −n p1 p2 .
Esempio 5.6.6 (Gaussiana). Per quanto concerne la legge gaussiana bidimensionale di
densità
f (x, y) =
2
2 y−µ2
y−µ2
x−µ1
x−µ1
1
+
−
2ρ
exp − 2(1−ρ
2)
σ1
σ1
σ2
σ2
2π(1 − ρ2 )1/2 σ1 σ2
con (x, y) ∈ R2 ), poiché le leggi marginali sono ancora gaussiane di parametri (µ1 , σ1 ),
(µ2 , σ2 ), si ha
Var(ξi ) = σi2
E(ξi ) = µi ,
(i = 1, 2).
Inoltre,
Z
+∞Z +∞
1
(x − µ1 )(y − µ2 )
2 )1/2 σ σ
2π(1
−
ρ
1 2
−∞ −∞
"
(
2
2 #)
x − µ1
−1
y − µ2
y − µ2
x − µ1
exp
+
dxdy
− 2ρ
2(1 − ρ2 )
σ1
σ1
σ2
σ2
2
Z +∞Z +∞
1
x1
x1 x2
x22
−1
=
dx1 dx2 .
−
2ρ
+
x
x
exp
1 2
2(1 − ρ2 ) σ12
σ1 σ2
σ22
2π(1 − ρ2 )1/2 σ1 σ2 −∞ −∞
Cov(ξ1 , ξ2 ) =
Posto
1
y1 = p
1 − ρ2
x2
y2 =
σ2
x1
ρx2
−
σ1
σ2
si trova
x1 = σ1
p
1 − ρ2 y1 + ρσ1 y2
x2 = σ2 y2
a cui corrisponde la matrice jacobiana

J =
σ1
p
1 − ρ2
0
ρσ1
σ2

,
|J| = σ1 σ2
p
1 − ρ2 .
5.6. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE A PIÙ DIMENSIONI103
Perciò, col cambiamento di variabile indicato, si ottiene
Z +∞Z +∞
p
1
−1
2
·
σ2 y2 (σ1 1 − ρ y1 + ρσ1 y2 ) exp
Cov(ξ1 , ξ2 ) =
2π −∞ −∞
2(1 − ρ2 )
"
#)
p
2 y + ρσ y )
p
1
−
ρ
1
σ
y
(σ
1
1
2
2
2
1
2
2
·
dy1 dy2
(σ1 1 − ρ2 y1 + ρσ1 y2 ) + 2ρ
+ y2
σ12
σ1 σ2
Z
Z
p
σ1 σ2 +∞ +∞
=
y2 ( 1 − ρ2 y1 + ρy2 ) ·
2π −∞ −∞
−1
2 2
2 2
−(1 − ρ )y1 − (1 − ρ )y2 dy1 dy2
· exp
2(1 − ρ2 )
h p
i
= σ1 σ2 E ξ2′ ( 1 − ρ2 ξ1′ + ρξ2′ ) = σ1 σ2 ρE(ξ2′ ) = σ1 σ2 ρ.
(dove ξ1′ e ξ2′ sono variabili aleatorie indipendenti, di media nulla e varianza 1)
Si scopre, così, che il parametro ρ rappresenta il coefficiente di correlazione lineare
fra ξ1 e ξ2 .
Guardando all’espressione della densità condizionale, presentata nell’Esempio 4.6.1,
e all’interpretazione del parametro di una legge gaussiana unidimensionale, si trova
l’espressione della regressione di ξ1 su ξ2 , immediatamente; cioè,
x 7→ E(ξ2 |ξ1 = x) = µ2 + ρ
σ2
(x − µ1 )
σ1
(x ∈ R)
che, come per la legge multinomiale, coincide con la regressione lineare di secondo tipo.
Inoltre,
Var(ξ2 |ξ1 = x) = σ22 (1 − ρ2 ).
La variabilità della legge condizionata di ξ2 , dato {ξ1 = x}, è dunque tanto più piccola
– fermo restando la varianza marginale σ22 – quanto più prossimo a 1 è ρ2 (Risultato
intuitivo!).
z
104
CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE
Capitolo 6
Trasformazioni integrali di
leggi di probabilità
Nel Capitolo 4 abbiamo considerato il problema della determinazione della distribuzione
di probabilità di funzioni di un dato vettore aleatorio del quale fosse nota la legge di probabilità. In generale è arduo riuscire ad ottenere forme esplicite di tali distribuzioni, a
causa delle difficoltà che presenta il calcolo di integrali o somme multipli, anche nel caso di vettori con componenti stocasticamente indipendenti. A volte, le difficoltà che si
incontrano nel calcolo diretto si possono evitare ricorrendo ad opportune trasformazioni
delle distribuzioni di probabilità coinvolte nel calcolo. Particolarmente interessante, in
questo senso, appare la caratterizzazione della distribuzione di una somma di numeri
aleatori indipendenti per mezzo della loro funzione caratteristica o, quando può essere
definita, della loro funzione generatrice dei momenti. La somma di numeri aleatori
si presenta come operazione cruciale negli sviluppi teorici della probabilità (ad esempio, per lo studio dei processi ad incrementi indipendenti) e, parimenti, in applicazioni
statistiche.
In questo capitolo, con un occhio di riguardo alle applicazioni accennate e al carattere
introduttivo del corso, vengono presentati alcuni aspetti elementari relativi a definizioni,
proprietà e uso delle trasformazioni sopra accennate.
105
106
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
6.1 Definizione di funzione caratteristica e di funzione
generatrice dei momenti
Il numero aleatorio ξ, definito in (Ω, S, P ), abbia funzione di ripartizione F . Ricordando
la ben nota forma trigonometrica di un numero complesso, per ogni ω in Ω e per ogni
reale t si scriva
(6.1)
eitξ(ω) = cos(tξ(ω)) + i sin(tξ(ω)).
Per t fissata, quella che abbiamo scritto è una funzione di ω interpretabile come numero
aleatorio a valori complessi. Essendo ξ 7→ cos(tξ) e ξ 7→ sin(tξ) funzioni continue e
limitate (di ξ), per ogni t in R, i valori attesi
E[cos(tξ)],
E[sin(tξ)]
sono ben definiti (cfr. Sezione 5.3 ) e quindi si definisce anche il valore atteso di exp(itξ)
come
E[eitξ ] := E[cos(tξ)] + iE[sin(tξ)]
per ogni t fissata. In virtù di (6.1) e (5.6), si può porre
Z
Z
cos(tx)dF (x) + i sin(tx)dF (x)
E(eitξ ) :=
R
ZR
= (cos(tx) + i sin(tx))dF (x)
ZR
eitx dF (x).
=
R
La funzione φ che ad ogni reale t associa il numero complesso E[eitξ ] prende il nome di
funzione caratteristica di ξ. Nel linguaggio dell’Analisi A, essa corrisponde alla trasformata di Fourier-Stieltjes della funzione di ripartizione di F . Ricordando (5.7) e (5.8), si
ottiene
X
φ(t) =
eitxj pj
j
(t ∈ R)
quando ξ è discreto con pj := F (xj ) − F (xj − 0) per j = 1, 2, . . . e
φ(t) =
Z
R
eitx f (x)dx
P
j
pj = 1, e
(t ∈ R)
quando F è assolutamente continua con funzione di densità di probabilità f . L’ultima
rappresentazione di φ si dice, col linguaggio dell’Analisi, trasformata di Fourier della
funzione di densità f .
6.1. DEFINIZIONE DI FUNZIONE CARATTERISTICA E DI FUNZIONE GENERATRICE DEI MOMENTI107
Esempi di funzioni caratteristiche di leggi notevoli
1. Legge degenere. Dato x0 in R sia δx0 la distribuzione di probabilità degenere, che
concentra la massa unitaria su x0 . Indicatane con Dx0 la funzione di ripartizione,
per la corrispondente funzione caratteristica si ha
Z
eitx dDx0 (x) = eitx0 = cos(tx0 ) + i sin(tx0 ).
φ(t) =
R
2. Legge di Bernoulli. Sia ξ un numero aleatorio che prende i valori 0 e 1, rispettivamente con probabilità (1 − p) e p, essendo p un punto dell’intervallo [0, 1]. Allora la
funzione caratteristica di ξ è
φ(t) = (1 − p)eit·0 + peit·1 = 1 − p + peit .
3. Legge binomiale. In accordo alla definizione data nella Sottosezione 2.2.2, la legge
binomiale è quella per cui un dato numero aleatorio prende uno dei valori {0, 1, . . . , n},
diciamo k, con probabilità nk θk (1−θ)n−k , essendo θ un reale fissato in [0, 1]. Allora
la corrispondente funzione caratteristica è
n
X
itk n
θk (1 − θ)n−k
φ(t) =
e
k
k=0
n X
n
=
(eit θ)k (1 − θ)n−k
k
k=0
= (1 − θ + θeit )n
(sviluppo di Tartaglia-Newton della potenza intera del binomio).
4. Distribuzione di Poisson. Si tratta di un altro esempio di distribuzione discreta, definita sempre nella succitata Sottosezione 2.2.2. Un numero aleatorio ξ
possiede la legge in questione se, per k in {0, 1, 2, . . . }, la probabilità che ξ prenda
il valore k è λk e−λ /k!, con λ parametro strettamente positivo. Allora la funzione
caratteristica è
φ(t) = e−λ
X
k>0
eitk
X (eit λ)k
it
λk
= e−λ
= e−λ(1−e ) .
k!
k!
k>0
5. Come visto nelle Sottosezioni 2.2.2 e 3.3.2, la distribuzione binomiale negativa gioca un ruolo importante come legge di tempi d’attesa: in una successione bernoulliana di eventi, la probabilità che l’n-esimo successo si verifichi nella prova (n +
r)-esima è data da
n+r−1 n
θ (1 − θ)r
r
r = 0, 1, 2, . . .
108
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
con θ come nei precedenti punti 2 e 3. La corrispondente funzione caratteristica è
X n + r − 1
φ(t) =
θn (1 − θ)r eitr
r
r>0
=
X (−n)(−n − 1) · · · (−n + r + 1)
r!
r>0
(−1)r [(1 − θ)eit ]r
X −n
=θ
(−1)r [(1 − θ)eit ]r
r
r>0
n
θ
.
=
1 − (1 − θ)eit
n
La caratteristica di un numero aleatorio con legge geometrica (di Pascal), ovvero
con legge binomiale negativa in cui n = 1, è data da
φ(t) =
θ
.
1 − (1 − θ)eit
6. Distribuzione uniforme su (a, b). Si ricorda che è la legge assolutamente continua
con densità
f (x) =
1
I(a,b) (x).
b−a
La funzione caratteristica è allora data da
Z b
1
1 eitb − eita
φ(t) =
eitx dx =
b−a a
b−a
it
(t 6= 0).
Nel caso di a = 0 e b = 1 riesce
φ(t) =
eit − 1
it
(t 6= 0).
In entrambi i casi si definisce φ(0) = 1.
Altri esempi notevoli di funzioni caratteristiche verranno presentati nel seguito,
dopo aver discusso alcune proprietà generali della funzione caratteristica. Concentriamo ora l’attenzione sulla nozione di funzione generatrice dei momenti. Si tratta di una
trasformazione integrale che si può definire solo per le funzioni di ripartizione F dotate
della seguente proprietà: esiste un numero strettamente positivo ρ tale che
Z
etx dF (x) < +∞
per ogni t in (−ρ, ρ).
R
In tal caso, la funzione
t 7→
Z
etx dF (x)
R
definita per t in (−ρ, ρ) si dice funzione generatrice dei momenti associata alla funzione
di ripartizione F . La denominazione scende dal fatto che, se F ha funzione generatrice
6.1. DEFINIZIONE DI FUNZIONE CARATTERISTICA E DI FUNZIONE GENERATRICE DEI MOMENTI109
dei momenti, allora F possiede finiti i momenti di ogni ordine e, inoltre, risulta
Z
X
tj
−ρ<t<ρ
g(t) :=
etx dF (x) =
mj
j!
R
j>0
con mj :=
R
R
xj dF (x) (=momento di ordine j), j = 0, 1, 2, . . . . Non dimostriamo questo
risultato, ma facciamo ulteriormente notare che esso implica
mj = g (j) (0)
per ogni j, e ciò chiarisce come la funzione g generi i momenti: tramite le sue derivate
successive calcolate in 0. Per gli studenti in possesso di qualche nozione di ′′ teoria delle
funzioni complesse′′ , notiamo che la condizione di esistenza della funzione generatrice
dei momenti equivale a quella di ρ-analiticità della funzione caratteristica. In altri
termini: la funzione di ripartizione F ammette generatrice dei momenti se e solo se
esiste ρ > 0 tale che la funzione caratteristica φ risulti sviluppabile in serie di potenze su
P
(−ρ, ρ): φ(ξ) = j>0 βj ξ j , ξ ∈ (−ρ, ρ). In questo caso, φ può essere estesa analiticamente
al cerchio |z| < ρ del piano complesso e la restrizione di questa estensione al segmento
{−it : −ρ < t < ρ} coincide con la generatrice dei momenti.
Esempi notevoli di funzione generatrice dei momenti e calcolo dei momenti
1. Distribuzione gaussiana. Si scrive
exp{tx −
(x − m)2
1
} = exp{ 2 (2σ 2 tx − x2 − m2 + 2mx)}
2
2σ
2σ
1
m2
= exp{− 2 − 2 (x2 − 2x(m + tσ 2 ))}
2σ
2σ
1
(m + tσ 2 )2
m2
}.
= exp{− 2 − 2 [x − (m + tσ 2 )]2 +
2σ
2σ
2σ 2
Allora
1
g(t) = √
σ 2π
Z
2
1
etx− 2σ2 (x−m) dx
R
Z
(m+tσ2 )2
2 2
1
m2
1
+
− 2σ
2σ2
√
e− 2σ2 [x−(m+tσ )] dx
=e 2
σ 2π R
m2
= e− 2σ2 +
(m+tσ2 )2
2σ2
(cfr. Sottosezione 2.2.3)
2
= exp{tm +
t 2
σ }
2
valido per ogni reale t. Ricorrendo alla succitata relazione fra caratteristiche
analitiche e generatrice dei momenti, dalla generatrice gaussiana si passa alla
caratteristica gaussiana ponendo
φ(ξ) = g(iξ) = exp{iξm −
ξ2 2
σ }
2
(ξ ∈ R).
110
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
2. Distribuzione gamma. Dalla definizione data nella Sottosezione 2.2.3, la funzione
generatrice dei momenti associata alla distribuzione gamma è definita dall’integrale
g(t) =
Z
+∞
λm m−1 −λx
λm
x
e
dx =
Γ(m)
Γ(m)
etx
0
Z
+∞
xm−1 e−(λ−t)x dx
0
che è finito solo se t < λ. Quindi, la generatrice è ben definita anche in questo caso
e si ha
g(t) =
λm Γ(m)
1
=
m
Γ(m) (λ − t)
(1 − t/λ)m
(t < λ).
La funzione caratteristica sarà
φ(ξ) =
1
(1 − iξ/λ)m
(ξ ∈ R).
Dallo sviluppo binomiale,
t k
X −m
(−1)k
λ
k
g(t) = (1 − t/λ)−m =
=
t<λ
k>0
X tk m(m + 1) · · · (m + k − 1)
.
k!
λk
k>0
Si evince che il momento k-esimo della legge gamma è dato da
Γ(m + k)
λk Γ(m)
Un po’ più elaborato sarà il calcolo per il momento k–esimo della precedente legge
di Gauss. Si può procedere interpretando g come prodotto delle funzioni
etm =
X tr
r>0
r!
2
mr ,
et
σ2 /2
=
X t2j σ 2
( )j
j! 2
j>0
e, quindi, il coefficiente di tν nella serie prodotto è
X mr (σ 2 /2)j
X (σ 2 /2)j mν−2j
=
r!j!
(ν − 2j)!j!
ν
2j+r=ν
j6[ 2 ]
ovvero
exp{tm +
X tν
t2 2
σ }=
mν
2
ν!
ν>0
con
mν = ν!
X
j6[ ν2 ]
σ 2j mν−2j
.
(ν − 2j)!j!2j
Quando il valore atteso (m) è nullo, dalla precedente ricaviamo le formule
m2n = (2n)!
σ 2n
n!2n
m2n+1 = 0.
6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA
111
A differenza della funzione caratteristica, che può essere definita indistintamente
per ogni legge di probabilità su R, la funzione generatrice dei momenti potrebbe non
esistere per certe funzioni di ripartizione. Ad esempio, prendiamo la densità
f (x) = a
ba
I(b,+∞) (x)
xa+1
con a, b parametri strettamente positivi, ben nota perché proposta dall’economista Vilfredo Pareto come distribuzione dei redditi individuali, cfr. anche 2.2.4. Per ogni t
positivo si ha
aba
Z
+∞
b
1 tx
e dx = +∞
xa+1
e, quindi, la legge di Pareto non ha funzione generatrice dei momenti. Controllare, per
esercizio, che ha momenti infiniti a partire da un certo ordine, stabilendo di quale ordine
si tratta.
6.2 Proprietà della funzione caratteristica
Iniziamo il paragrafo con una proprietà di sicuro valore operativo, in grado, da sola, di
far apprezzare l’utilità della funzione caratteristica. Con questo fine, si rifletta sulla
difficoltà che generalmente s’incontra nel calcolo della distribuzione della somma di
numeri aleatori: cfr le Sezioni 4.2 e 4.3 per il caso discreto e la Sottosezione 4.5.4 per
il caso di leggi assolutamente continue. Difficoltà che sussiste anche in caso di numeri
aleatori indipendenti (calcolo di integrali di convoluzione) ove, invece, risulti semplice il
calcolo della funzione caratteristica.
Proposizione 6.2.1. Se X1 , . . . , Xn sono numeri aleatori indipendenti, con funzioni
caratteristiche date rispettivamente da φX1 , . . . , φXn , allora la funzione caratteristica φSn
della somma Sn := X1 + · · · + Xn è uguale al prodotto delle funzioni caratteristiche dei
singoli addendi, ovvero
φSn (t) =
n
Y
φXk (t)
k=1
(t ∈ R).
Dimostrazione. Per definizione di funzione caratteristica si ha
φSn (t) = E[eitSn ] = E[
n
Y
eitXk ]
k=1
speranza matematica del prodotto di n numeri aleatori a valori complessi, stocasticamente indipendenti.
1
Allora, dalla Proposizione 5.3.1, estesa facilmente al caso di
1 Questa affermazione riguardante l’indipendenza va
spiegata alla luce della definizione data all’inizio della
Sottosezione 4.5.1, finora mai usata. Limitandoci al caso di n = 2, nella notazione di quella definizione,
112
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
numeri aleatori complessi, si ha
E[
n
Y
eitXk ] =
k=1
n
Y
E[eitXk ] =
k=1
n
Y
φXk (t).
k=1
z
Questo risultato sarebbe però di scarso valore se, a questo punto, non si avesse la
garanzia che alla funzione caratteristica rappresentata come prodotto corrisponde una
sola legge di probabilità, quella di Sn . In effetti la corrispondenza uno ad uno fra legge
di probabilità e funzione caratteristica vale, e questo assicura che la conoscenza della
prima equivale a quella della seconda.
Teorema 6.2.2 (di corrispondenza). Dette φXi , rispettivamente FXi , funzione caratteristica e funzione di ripartizione di Xi per i = 1, 2, allora φX1 = φX2 se e solo se
FX1 = FX2 .
Non dimostriamo il teorema, noto anche sotto il nome di teorema di unicità. Lo
studente che fosse interessato a prendere visione della dimostrazione, sia del teorema
precedente, sia dei molti qui presentati senza dimostrazione, può consultare il libro di
Chow e Teicher: Probability Theory (Springer), 1997.
Un celebere teorema di Lévy, detto d’inversione, permette di scrivere la funzione di
ripartizione, corrispondente ad una data funzione caratteristica, in funzione di quest’ultima.
Teorema 6.2.3 (formula d’inversione di Lévy). Se X è un numero aleatorio con funzione
caratteristica φ, allora per ogni coppia di reali a, b con a < b si ha
1
C→+∞ 2π
lim
Z
+C
−C
P {X = a} + P {X = b}
e−ita − e−itb
φ(t)dt = P {a < X 6 b} +
.
it
2
Se b è un punto di continuità della funzione di ripartizione F di X, dalla precedente
si ottiene
1
a→−∞ C→+∞ 2π
F (b) = lim
lim
Z
+C
−C
e−ita − e−itb
φ(t)dt.
it
Particolarmente istruttivo si presenta il caso in cui esiste finito l’integrale su R della
funzione t 7→ |φ(t)|, in quanto vale il
abbiamo ξ1 = eitX1 , ξ2 = eitX2 , C1 = C2 =piano complesso; quindi ξr = (cos(tXr ), sin(tXr )) con r =
1, 2. Fissati due elementi qualunque della σ-algebra di Borel di R2 , A1 e A2 , l’insieme A′r = {ω ∈ Ω :
(cos(tXr (ω)), sin(tXr (ω))) ∈ Ar }, con r ∈ {1, 2}, si riduce per r e t, fissati rispettivamente in {1, 2} e R, ad
un insieme del tipo A′r = {ω ∈ Ω : Xr (ω) ∈ Rr,t } con Rr,t nella S–algebra di Borel di R. Combinando queste
rappresentazioni con l’ipotesi di indipendenza di X1 e X2 , si deduce l’indipendenza di A′1 e A′2 , e, quindi, di
ξ1 e ξ2 .
6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA
Corollario 6.2.4. Se
R
R
113
|φ(t)|dt < +∞, allora per a < b si ha
Z −ita
e
− e−itb
1
φ(t)dt
F (b) − F (a) =
2π R
it
e, inoltre, F è assolutamente continua, con una densità continua e limitata f esprimibile
come
f (x) = F ′ (x) =
1
2π
Z
e−itx φ(t)dt
R
(x ∈ R).
Avremo occasione di ritornare su queste proposizioni. Procediamo ora alla presentazione di qualche proprietà elementare della funzione caratteristica.
Proposizione 6.2.5. Sia φ la funzione caratteristica di un numero aleatorio ξ. Allora
(i) φ(0) = 1;
(ii) t 7→ φ(t) è uniformemente continua su R;
(iii) la funzione caratteristica di aξ + b, con a, b costanti reali, è data da eitb φ(at).
(iv) la funzione caratteristica di −ξ è uguale a φ(−t) = φ̄(t).
Dimostrazione. (i) cos(tξ) + i sin(tξ) = 1 se t = 0 e, quindi, φ(0) = 1. (ii) |φ(t + h) −
φ(t)| = |E[ei(t+h)ξ − eitξ ]| 6 E(|eihξ − 1|). Poiché |eihξ − 1| 6 2, la funzione h 7→ E(|eihξ − 1|)
converge a zero per h che tende a zero e, quindi, fissato ε > 0, esiste δ > 0, indipendente
da t, tale che
|φ(t + h) − φ(t)| 6 E(|eihξ − 1|) 6 ε
per ogni h tale che |h| 6 δ. (iii) E[ei(aξ+b)t ] = E[eibt eiaξt ] = eibt E[eiaξt ] = eibt φ(at). (iv) Vale
E[ei(−ξ)t ] = E[cos(−tξ) + i sin(−tξ)] = φ̄(t)
e, inoltre, E[ei(−ξ)t ] = φ(−t).
z
Ricordiamo che la legge di probabilità di un numero aleatorio ξ si dice simmetrica
quando (−ξ) ha la stessa legge di ξ. Indicata con F la funzione di ripartizione di ξ, si ha
simmetria se e solo se, per ogni x nell’insieme di continuità di F , si ha
F (x) := P {ξ 6 x} = P {−ξ 6 x} = P {ξ > −x} =: 1 − F (−x).
Inoltre, se ξ ha la legge simmetrica e funzione caratteristica φ, allora φ è anche caratteristica di −ξ, ovvero
φ(t) = φ(−t) = φ̄(t)
per la (iv). Pertanto,
Reφ(t) =
φ(t) + φ̄(t)
= φ(t)
2
114
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
e dunque φ è a valori reali. Si dimostra che questo fatto è caratteristico delle leggi
simmetriche.
Proposizione 6.2.6. La funzione caratteristica di ξ è reale se e solo se la legge di ξ è
simmetrica.
Dimostrazione. Basta dimostrare che la condizione di simmetria è necessaria. Se
φ è reale, allora φ(t) = φ̄(t) = φ(−t) e questo stabilisce, per mezzo del teorema di
corrispondenza, che la legge di ξ coincide con quella di (−ξ).
z
Abbiamo incontrato vari esempi di leggi simmetriche. Il primo è quello della legge
degenere in 0 (φ(t) ≡ 1). Come secondo esempio possiamo citare quello della legge
uniforme su (a, b) con a = −b < 0. In tal caso, la funzione caratteristica è
1 eitb − e−itb
1 2i sin(tb)
sin(tb)
=
=
.
2b
it
2b
it
bt
Classico è l’esempio della legge gaussiana di valore atteso nullo: φ(t) = exp{−t2 σ 2 /2}.
Possiamo trovare altri esempi notevoli ricorrendo ad una osservazione che si rivela utile
per la determinazione di altre funzioni caratteristiche.
Una utile osservazione sul riconoscimento di funzioni caratteristiche
Si presenta un criterio per il riconoscimento di funzioni caratteristiche fondato sul
Corollario 6.2.4 e sulla Proposizione 6.2.6.
Supponiamo che f sia una funzione di densità continua, con corrispondente funzione caratteristica reale, non negativa e integrabile φ. Allora, per il Corollario 6.2.4, f
coincide con F ′ dove
1
F (t) =
2π
′
Z
e−itx φ(x)dx
R
(t ∈ R).
Avendo supposto che φ è non negativa e integrabile, esiste una costante k > 0 tale che
kφ viene ad essere densità di probabilità a sua volta. La costante k si determina subito,
ponendo t = 0 nella precedente e imponendo che valga
Z
k
1
kF ′ (0) =
.
φ(x)dx =
2π R
2π
Allora k = 1/{2πF ′ (0)} e la funzione (in t) definita da
Z
F ′ (−t)
eitx kφ(x)dx = ′
F (0)
R
si può leggere come funzione caratteristica associata alla densità φ(x)/{2πF ′ (0)}. Per la
Proposizione 6.2.6, essendo φ reale, deve sussistere la relazione F ′ (t) = F ′ (−t) e, quindi,
f (t)/F ′ (0) è una funzione caratteristica e, più specificatamente, la funzione caratteristica
coincidente con la trasformata di Fourier di φ(x)/{2πF ′ (0)}.
Passiamo a qualche utile applicazione del criterio precedente.
6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA
115
(a) Legge di Cauchy e sua caratteristica. Data la costante positiva a, la funzione
t 7→ e−a|t| è una funzione caratteristica? In vista dell’applicazione del criterio
precedente, si parte dall’osservazione che la funzione
f (t) =
a −a|t|
e
2
(t ∈ R)
è una funzione di densità di probabilità, alla quale corrisponde la funzione caratteristica
φ(x) =
Z
eitx f (t)dt =
R
=a
Z
+∞
Z
R
a −a|t|
e
cos(tx)dt
2
(per simmetria)
e−at cos(tx)dt
0
=
a2
a2 + x2
(integrare per parti due volte, considerando
e−at come fattore differenziale).
Questa funzione φ è reale, non negativa e integrabile su R. Applicando la conclusione sopra raggiunta, kφ è una densità cui corrisponde la funzione caratteristica
(ae−a|t| /2)/F ′ (0) = e−a|t| . Si scopre così che e−a|t| è funzione caratteristica e si
dimostra, inoltre, che ad essa corrisponde la densità
1 2 a2
a
1
=
,
2
2
2
2π a a + x
π a + x2
x ∈ R, nota come densità della legge di Cauchy, spesso portata ad esempio di legge
per la quale non esiste il valore atteso. Non ammette, a maggior ragione, funzione
generatrice dei momenti.
(b) Legge triangolare inversa. Per α > 0 fissata, si considera la funzione t 7→ (1 −
|t|/α)I[0,α) (|t|) e ci si chiede se è funzione caratteristica. Poiché non negativa e
soddisfacendo
si conclude che
Z
α
−α
(1 − |t|/α)dt = 2
f (t) =
Z
0
α
(1 − t/α)dt = α
|t|
1
(1 − )I{|t| < α}
α
α
è funzione di densità di probabilità con corrispondente funzione caratteristica
Z α
Z α
1
t
cos(tx) (1 − )dt
eitx f (t)dt = 2
φ(x) =
(per simmetria)
α
α
0
−α
Z
Z α
2
2 α
cos(tx)dt − 2
t cos(tx)dt
=
α 0
α 0
Z α
2
2 sin(αx)
sin(tx)
=
sin(αx) − 2 [
α−
dt]
xα
α
x
x
0
2
= 2 2 (1 − cos(αx))
(x ∈ R).
x α
116
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
Poiché φ è reale, non negativa e integrabile su R, si può concludere che t 7→ (1 −
|t|
α )I{|t|
< α} è funzione caratteristica, che corrisponde alla densità
2
α 2 1 − cos(αx)
1
(1 − cos(αx)) =
2πF ′ (0) α2 x2
2π α2
x2
1 1 − cos(αx)
=
απ
x2
(x ∈ R)
detta triangolare inversa, in quanto la densità f (t) è comunemente nota come triangolare, in ragione della forma del suo grafico. Un’ultima osservazione complementare: se ξ1 e ξ2 sono numeri aleatori indipendenti, ciascuno con legge uniforme
su (0, α), e quindi con funzione caratteristica
φ1 (t) =
1 eitα − 1
α
it
(cfr. (5) della Sezione 6.1), la funzione caratteristica φ di ξ1 − ξ2 si ottiene tramite
la (iii) della Proposizione 6.2.5 e la Proposizione 6.2.1:
φ(t) = φ1 (t)φ1 (−t) =
=
Pertanto x 7→
1
α (1
−
1
α2 t2
(eitα − 1)(e−itα − 1)
2
(1 − cos(tα)).
(αt)2
|x|
α )I{|x|
< α) è densità della differenza di due numeri aleatori
indipendenti, ciascuno con densità uniforme su (0, α).
6.3 Estensione a vettori aleatori.
Le definizioni e i teoremi presentati nelle prime due sezioni si possono estendere a vettori aleatori con accorgimenti piuttosto ovvi. Sia dunque ξ = (ξ1 , . . . , ξd ) un vettore
aleatorio, d intero maggiore o uguale a due, con funzione di ripartizione F . Presi gli
indici i1 , . . . , ik con 1 6 i1 < · · · < ik 6 d, k potendo essere uguale a uno, denoteremo con
Fi1 ,...,ik la funzione di ripartizione marginale di (ξi1 , . . . , ξik ):
Fi1 ,...,ik (xi1 , . . . , xik ) =
lim
F (x1 , . . . , xd ).
xj → +∞
per ogni j 6∈ {i1 , . . . , ik }
da
Si chiama funzione caratteristica di (ξ1 , . . . , ξd ) la funzione di (t1 , . . . , td ) ∈ Rd definita
φ(t1 , . . . , td ) = E[ei
Pd
j=1 tj ξj
d
d
X
X
tj ξj )].
tj ξj )] + iE[sin(
] = E[cos(
j=1
j=1
6.3. ESTENSIONE A VETTORI ALEATORI.
117
E’ utile notare che la funzione caratteristica si può interpretare come classe delle funPd
zioni caratteristiche, calcolate in 1, dei numeri aleatori j=1 tj ξj ottenuti al variare di
(t1 , . . . , td ) in Rd .
E’ da notare come sia facile determinare la funzione caratteristica corrispondente
alla distribuzione marginale Fi1 ,...,ik : basta porre uguali a zero, in φ(t1 , . . . , td ), tutte le tj
con j ∈ {1, . . . , d} \ {i1 , . . . , ik }. E’ anche interessante notare che
φ(t, . . . , t) = E[eitSd ]
con Sd :=
Pd
j=1 ξj :
φ(t, . . . , t) coincide con la funzione caratteristica di Sd .
Si deve ricordare che continua a valere il teorema di corrispondenza (unicità): Se
X1 e X2 sono vettori aleatori, allora affinché abbiano la stessa legge di probabilità è
necessario e sufficiente che posseggano la stessa funzione caratteristica.
Si ottiene, come applicazione diretta dell’unicità, la seguente importante caratterizzazione dell’indipendenza stocastica.
Proposizione 6.3.1. I numeri aleatori ξ1 , . . . , ξd sono stocasticamente indipendenti se
e solo se la funzione caratteristica φ del vettore (ξ1 , . . . , ξd ) si scrive come prodotto delle
funzioni caratteristiche φj (j = 1, . . . , d) dei singoli numeri aleatori ξ1 , . . . , ξd :
φ(t1 , . . . , td ) =
d
Y
(t1 , . . . , td ) ∈ Rd .
φj (tj )
j=1
Dimostrazione. Dimostriamo dapprima che la fattorizzazione della funzione caratteristica è condizione necessaria. Infatti, se ξ1 , . . . , ξd sono indipendenti, per ogni (t1 , . . . , td )
in Rd si ottiene
φ(t1 , . . . , td ) = E[exp{i
d
X
j=1
=
d
Y
tj ξj }] = E[
d
Y
eitj ξj ]
j=1
(per l’indipendenza stocastica)
E[eitj ξj ]
j=1
=
d
Y
φ(tj ).
j=1
Assumiamo che valga la fattorizzazione della funzione caratteristica. Allora, per ogni
(t1 , . . . , td ) in Rd si ha, indicando con Fj la funzione di ripartizione di ξj ,
φ(t1 , . . . , td ) =
d
Y
φ(tj ). =
j=1
j=1
=
Z
Rd
d Z
Y
ei
Pd
j=1
tj xj
d(
eitj x dFj (x)
R
d
Y
j=1
Fj (xj )).
118
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
Da quest’ultima uguaglianza e dal teorema di unicità segue che la funzione di ripartizione F di (ξ1 , . . . , ξd ) si scrive come
F (x1 , . . . , xd ) =
d
Y
Fj (xj )
j=1
per ogni (x1 , . . . , xd ) in Rd , il che equivale all’indipendenza stocastica dei numeri aleatori
(ξ1 , . . . , ξd ).
z
Per quanto concerne il calcolo effettivo della funzione caratteristica di un vettore
aleatorio ξ = (ξ1 , . . . , ξd ) con funzione di ripartizione F , si ha
Z
Pd
ei j=1 tj xj dF (x1 , . . . , xd )
(t1 , . . . , td ) ∈ Rd
φ(t1 , . . . , td ) =
Rd
che si può ulteriormente precisare nei casi in cui:
(j)
(j)
(a) F è discreta e concentra la massa unitaria sui punti x(j) = (x1 , . . . , xd ) per
j = 1, 2, . . . ; se pj denota la massa concentrata su x(j) , allora
φ(t1 , . . . , td ) =
X
pj e i
Pd
(j)
k=1 tk xk
.
j
(b) F è assolutamente continua con funzione di densità f ; allora
Z
Pd
ei j=1 tj xj f (x1 , . . . , xd )dx1 . . . dxd .
φ(t1 , . . . , td ) =
Rd
Due esempi notevoli di funzione caratteristica di vettore aleatorio. La for-
mula (4.4) rappresenta la probabilità multinomiale di un vettore (N1 , . . . , Nd−1 ) sull’insieme delle (d−1)–uple di interi non negativi (n1 , . . . , nd−1 ) per i quali n1 +· · ·+nd−1 6 n.
La funzione caratteristica φ è data da
X
P
n!
nd−1 nd i d−1
pn1 1 . . . pd−1
pd e m=1 tm nm
φ(t1 , . . . , td−1 ) =
n1 ! . . . nd−1 !nd !
=
=
X
(nd := n − n1 · · · − nd−1 , pd := 1 − (p1 + · · · + pd−1 ),
X
denota la somma estesa alle suddette (d − 1)-uple)
d−1
nk
Y
n!
pk eitk
pnd d
n1 ! . . . nd−1 !nd !
d−1
X
k=1
pk eitk + pd
k=1
n
,
(6.2)
l’ultima uguaglianza ottenuta dalla formula di Leibnitz della potenza naturale del polinomio. Nel punto (b) dell’Esempio 4.5.1 è stata definita la densità gaussiana d-dimensionale
come
f (x) =
1
(2π)d/2 (detV )1/2
1
exp{− (x − µ)′ V −1 (x − µ)}
2
(x ∈ Rd )
(6.3)
6.4. APPLICAZIONI
119
essendo V una matrice simmetrica definita positiva e µ un punto di Rd . La funzione
caratteristica corrispondente è data da
1
φ(t1 , . . . , td ) =
(2π)d/2 (detV )1/2
′
=
eit µ
(2π)d/2 (detV )1/2
Z
Z
′
1
eit x exp{− (x − µ)′ V −1 (x − µ)}dx
2
Rd
′
1
eit y exp{− y ′ V −1 y}dy.
2
Rd
Sappiamo che esiste una matrice ortogonale O tale che

σ2
0
0
 1

 0
σ22
0
O′ V O = D := 

. . . . . . . . .

0 ... ...
...


. . .
.

. . .

2
σd
Operando con la trasformazione u = Oy si ottiene
′
φ(t1 , . . . , td ) =
eit µ
Qd
(2π)d/2 ( j=1 σj2 )1/2
′
=
eit µ
Q
(2π)d/2 ( dj=1 σj2 )1/2
Z
′

′
eit O u exp{−
Rd
Z
ei
Pd
j=1
τj uj
Rd
d
1 X u2j
}du
2 j=1 σj2
exp{−
d
1 X u2j
}du
2 j=1 σj2
(τ ′ = t′ O′ )
=e
it′ µ
d Z
Y
j=1
′
= eit µ
d
Y
u2
R
iτj uj − 12 j2
1
σ
j du
√
e
j
2πσj
1
2
2
1
′
e− 2 τj σj = eit µ− 2
Pd
j=1
τj2 σj2
j=1
′
1
= eit µ− 2 τ
′
Dτ
′
1 ′
= eit µ− 2 t V t .
Riassumendo, la funzione caratteristica associata alla distribuzione multinomiale è
φ(t1 , . . . , td−1 ) =
d−1
X
k=1
n
pk eitk + (1 − p1 − · · · − pd−1 )
e quella associata alla densità gaussiana (6.3) è
′
1 ′
φ(t1 , . . . , td ) = eit µ− 2 t V t .
6.4 Applicazioni
In questo paragrafo presentiamo alcune applicazioni che, in parte, restituiranno risultati già noti. In questo caso potremo constatare come l’uso della funzione caratteristica
ne faciliti la deduzione rispetto ad altri metodi.
120
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
6.4.1 Proprietà della legge gaussiana d-dimensionale
Si è visto che la funzione caratteristica di un generico vettore gaussiano è
1
φ(t1 , . . . , t1 ) = exp{it′ µ − t′ V t}
2
(t ∈ Rd )
con µ = (µ1 , . . . , µd )′ vettore fissato in Rd e V matrice simmetrica definita positiva.
Indicato con (ξ1 , . . . , ξd )′ il vettore aleatorio corrispondente, per ogni k ∈ {1, . . . , d} la
funzione caratteristica di ξk si ottiene della precedente ponendo t1 = · · · = tk−1 = tk+1 =
· · · = td = 0, ovvero
1
φξk (tk ) = φ(0, . . . , 0, tk , 0, . . . , 0) = exp{itk µk − t2k σkk }.
2
Quindi, la legge marginale di posto k è gaussiana di valore atteso µk e varianza σk2 = σkk .
Allora, affinchè ξ1 , . . . , ξk siano indipendenti è necessario e sufficiente che riesca
d
Y
1
1
exp{it′ µ − t′ V t} =
exp{itk µk − t2k σkk }
2
2
k=1
(∀t ∈ Rd )
ovvero t′ V t = t′ Dt per ogni t con D = [σij ]16i,j6d e σij = 0 se i 6= j. Si ricava im-
mediatamente che, nel caso gaussiano, l’indipendenza si ha se e solo se la matrice V
è diagonale. Nel prossimo paragrafo, sui rapporti fra momenti e derivate di funzioni
caratteristiche, otterremo una interessante interpretazione di questo ultimo risultato
in termini di correlazione.
Ritornando alla forma delle marginali della legge gaussiana d-dimensionale, vale
che per ogni k e 1 6 i1 < · · · < ik 6 d, la legge di (ξi1 , . . . , ξik ) è gaussiana con funzione
caratteristica
1
exp{iτ ′ µ(k) − τ ′ V (k) τ }
2
(τ ∈ Rk )
essendo µ(k) = (µi1 , . . . , µik )′ , V (k) la sottomatrice di V che ha per righe e colonne quelle
ottenuto ”incrociando” le righe e le colonne di posto i1 , . . . ik di V . Per verificare ciò, basta
porre uguali a zero tutti gli (n − k) elementi di t di posto diverso da i1 , . . . , ik .
6.4.2 Legge di somma di numeri aleatori (esempi notevoli)
Dato un vettore aleatorio (ξ1 , . . . , ξd ) con funzione caratteristica φ, è immediato determinare la funzione caratteristica della somma di certe sue componenti. Ad esempio, se
interessa la funzione caratteristica di Sk = ξ1 + · · · + ξk , φSk , con k 6 d, si ha
φSk (t) = E[eitSk ] = φ( t, . . . , t , 0, . . . , 0)
| {z }
k componenti
(t ∈ R).
6.4. APPLICAZIONI
121
(a) Nel caso che (N1 , . . . , Nd−1 ) abbia distribuzione multinomiale, preso k in {1, . . . , d−
Pk
1}, si definisca j=1 Nj =: Sk . Allora la funzione caratteristica di Sk , calcolata in t, sarà
φSk (t) =
k
X
pm eit +
m=1
d−1
X
pm + pd
m=k+1
n
=
k
X
m=1
k
n
X
pm )
pm eit + (1 −
m=1
ovvero la funzione caratteristica di un numero aleatorio avente distribuzione binomiale
come la seguente
X
k
k
X
n
P {Sk = j} =
(
pm )j (1 −
pm )n−j
j m=1
m=1
(j = 0, . . . , n).
(b) Passando al caso in cui (ξ1 , . . . , ξd ) ha legge gaussiana d-dimensionale come nella
Sottosezione 6.4.1, la somma Sk := ξ1 + · · · + ξk ha funzione caratteristica
φSk (t) = exp{it
con

σ11


. . .
M (t) = (t, . . . , t) 

. . .

σk1
k
X
1
µj − M (t)}
2
j=1

 
 t

k X
k

X
...

2

=
t
σl,m


.
.
.

... 
m=1 l=1
 t
σkk
...
σ1k
...
...
...
ovvero la funzione caratteristica di un numero aleatorio gaussiano di valore atteso
Pk
Pk
Pk
j=1 µj e varianza
m=1
l=1 σl,m .
(c) Determiniamo la legge di ξ1 + · · · + ξd quando ξ1 , . . . , ξd sono stocasticamente
indipendenti e la legge di ξk è gamma di densità
λmk mk −1 −λx
x
e
I{x > 0}
Γ(mk )
per k = 1, . . . , d. Combinando la Proposizione 6.2.1 con la ormai ben nota espressione
φξk (t) =
1
(1 −
it mk
λ)
(t ∈ R),
si ottiene
φSd (t) =
d
Y
k=1
φSk (t) =
1
m
(1 − it
λ)
m :=
k=1
Ne discende che Sd ha funzione di densità gamma data da
λm m−1 −λx
x
e
I{x > 0}
Γ(m)
d
X
m :=
d
X
k=1
mk .
mk .
122
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
6.4.3 Applicazioni alla statistica
Capita, in certi problemi statistici, come quelli contenuti nell’ultimo capitolo di questi
appunti, di dover considerare la legge di probabilità di specifiche funzioni (statistiche)
di vettori aleatori (ξ1 , . . . , ξn ) sotto l’ipotesi
(h) (ξ1 , . . . , ξn ) sono numeri aleatori indipendenti ed identicamente distribuiti con
legge gaussiana di media µ e varianza σ 2 .
Incominciamo con lo studio della distribuzione del vettore aleatorio
Vn := (ξ¯n , ξ1 − ξ¯n , ξ2 − ξ̄n , . . . , ξn − ξ̄n )
dove
n
1X
ξk .
n i=1
ξ̄n :=
Ricorrendo alla funzione caratteristica, si ha
φVn (t, t1 , . . . , tn ) = E[exp{itξ¯n + i
n
X
k=1
dove
itξ¯n +i
n
X
k=1
=i
tk (ξk − ξ¯n ) = i
n
X
j=1
ξj {tj +
n
X
tk ξk +
k=1
1
t
−
n n
tk (ξk − ξ̄n )}]
n
n
n
i X
i X X
t
ξj −
tk
ξj
n j=1
n
j=1
k=1
n
X
k=1
tk }
Quindi, per l’indipendenza stocastica delle ξj e la Proposizione 6.3.1,
φVn (t, t1 , . . . , tn ) =
n
Y
exp{iµ[
j=1
con
t
1
t
+ t̄j ] − σ 2 [ + t̄j ]2 }
n
2
n
n
t̄j := tj −
per j = 1, . . . , n. Di conseguenza, valendo
φVn (t, t1 , . . . , tn ) = exp{i
n
X
(
j=1
= exp{itµ −
1X
tk
n
Pn
k=1
k=1 t̄k
t
σ
+ t̄j )µ −
n
2
n
2 X
σ2 2 σ
t −
2n
2
= 0,
n
2 X
j=1
j=1
(
t2
+ t̄2j )}
n2
(tj −
n
1X 2
tk ) }
n
k=1
n
n
1X 2
σ X
σ 2
(tj −
t } exp{−
tk ) }
= exp{itµ −
2n
2 j=1
n
2
2
k=1
n
n
σ X 2 1X 2 1
σ 2
tj −
t −
t } exp{− [
= exp{itµ −
2n
2 j=1
n j=1 j n
2
= exp{itµ −
2
X
16j<k6n
σ2
σ2 2
t } exp{− (t1 , . . . , tn )Λn (t1 , . . . , tn )′ }
2n
2
tj tk ]}
6.4. APPLICAZIONI
dove
Allora,
123

1 − n1

 1
 −n
Λn := 

 ...

− n1
− n1
1
n
1−
− n1
...
− n1
...
...
......
− n1
...
1 − n1 .
φξ̄n (t) = φVn (t, 0, . . . , 0) = exp{itµ −








σ2 2
t }
2n
φ(ξ1 −ξ̄n ,...,ξn −ξ̄n ) (t1 , . . . , tn ) = φVn (0, t1 , . . . , tn )
= exp{−
σ2
(t1 , . . . , tn )Λn (t1 , . . . , tn )′ }
2
(6.4)
e ciò può essere riassunto nei punti seguenti:
ξ¯n e (ξ1 − ξ¯n , . . . , ξn − ξ¯n ) sono stocasticamente indipendenti.
(6.5)
La legge di ξ̄n è gaussiana con valore atteso µ e varianza σ 2 /n.
(6.6)
La funzione caratteristica di (ξ1 − ξ̄n , . . . , ξn − ξ̄n ) è data da (6.4) e,
(6.7)
quindi, è di tipo gaussiano.
Occupiamoci ora della legge di:
Sn :=
n
1X
(ξj − µ).
σ j=1
Posto
ξk∗ :=
ξk − µ
σ
si ha
2
t2
t2
t
φξk∗ (t) = e−itµ/σ φξk ( ) = e−itµ/σ e+itµ/σ− 2σ2 σ = e− 2
σ
e, quindi,
φSn (t) = e−
t2 n
2
che equivale ad affermare che
La distribuzione di Sn è gaussiana con valore atteso nullo e varianza n.
Passiamo all’esame della legge di
Q2n :=
n
1 X
(ξk − µ)2 .
σ2
k=1
Per quanto concerne la funzione di ripartizione di (ξk − µ)2 /σ 2 , si ha
P {(ξk − µ)2 /σ 2 6 s} = 0
(6.8)
124
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
per s < 0, e
√
√
P {(ξk − µ)2 /σ 2 6 s} = P {− s 6 (ξk − µ)/σ 6 s}
per s > 0, dove, più esplicitamente,
Z √s
√
√
2
2
P {− s 6 (ξk − µ)/σ 6 s} = √
e−x /2 dx
2π 0
Z s
t 1
1
e− 2 t 2 −1 dt.
= 1/2 1
2 Γ( 2 ) 0
Quindi, (ξk − µ)2 /σ 2 ha legge assolutamente continua con funzione di densità di proba-
bilità gamma con parametri m = λ = 1/2
1
1
e−s/2 s 2 −1 I(s > 0)
21/2 Γ( 21 )
che è nota come densità χ quadrato (χ2 ) con un grado di libertà. I numeri aleatori
(ξk − µ)2 /σ 2 , k = 1, . . . , n, sono indipendenti ed identicamente distribuiti e, quindi,
φQ2n (t) =
n
Y
φ (ξk −µ)2 (t) =
σ2
k=1
n
Y
k=1
1
1
=
(1 − 2it)1/2
(1 − 2it)n/2
funzione caratteristica della legge gamma con parametri m = n/2, λ = 1/2. Perció,
Q2n ha funzione di densità gamma definita da
fQ2n (x) =
(6.9)
( 21 )n/2 − 1 x n −1
e 2 x 2 I(0,+∞) (x)
Γ( n2 )
denominata, comunemente, densità χ quadrato con n gradi di libertà.
In statistica (cfr. l’ultimo capitolo di queste dispense) riveste un certo interesse il
numero aleatorio
Q̄2n :=
n
1 X
(ξk − ξ̄n )2 .
σ2
k=1
Della sua distribuzione ci occupiamo ora. Si nota che valgono le ovvie uguaglianze
Q2n =
n
n
n
1 X
1 X
1 X
n
2
2
¯
(ξ
−
µ)
=
[(ξ
−
ξ̄
)
+
(
ξ
−
µ)]
=
(ξk − ξ̄n )2 + 2 (ξ¯n − µ)2
k
k
n
n
σ2
σ2
σ2
σ
k=1
k=1
k=1
che, per la (6.5), si può vedere come somma di due numeri aleatori indipendenti: il primo
uguale a Q̄2n è funzione di (ξ1 − ξ̄n , . . . , ξn − ξ¯n ), mentre il secondo è funzione di ξ¯n e ha
legge χ2 con 1 grado di libertà (infatti la legge ξ¯n è gaussiana di valore atteso µ e di
varianza σ 2 /n). Allora
φQ2n (t) = φQ̄2n (t)
e quindi
φQ̄2n (t) = (1 − 2it)1/2
1
(1 − 2it)1/2
1
1
=
n/2
(1 − 2it)
(1 − 2it)(n−1)/2
6.5. FUNZIONE CARATTERISTICA E MOMENTI
125
la quale, combinata col teorema di unicità, dice che
La legge di Q̄2n è χ2 con (n − 1) gradi di libertà o, equivalemtemente, Q̄2n ha funzione
di densità di probabilità
fQ̄2n (x) =
( 12 )(n−1)/2 − 1 x n−1 −1
e 2 x 2
I(0,+∞) (x).
Γ( n−1
2 )
(6.10)
Anche il numero aleatorio
Tn−1 :=
p
ξ¯n − µ
n(n − 1) qP
n
2
j=1 (ξj − ξ̄n )
gioca un ruolo rilevante in statistica. La sua legge, che ci apprestiamo a determinare,
è nota come legge t di Student con (n − 1) gradi di libertà. Si può scrivere Tn−1 come
rapporto dei due numeri aleatori indipendenti
ξ̄n − µ
√ , ∆n :=
ν :=
σ/ n
r
1
Q̄2
n−1 n
ν avendo legge gaussiana standard e Q̄2n la legge χ-quadrato con (n − 1) gradi di libertà.
Quindi, per ogni t in R, si ha
r
o
n
1
P {Tn−1 6 t} = P ν 6 t
Q̄2n
n−1
x
Z Z t√ n−1
n−1
2
1
1
√ e−y /2 dy n−1
e−x/2 x 2 −1 dx
=
n−1
2π
2 2 Γ( 2 )
R −∞
la cui derivata rispetto a t fornisce la funzione di densità di Tn−1 (densità t di Student
con (n − 1) gradi di libertà), fTn−1 :
Z r
n−1
t2
x
1
x
1
√ e− 2 n−1 n−1
fTn−1 (t) =
e−x/2 x 2 −1 dx
n−1
n
−
1
2
2π
2
Γ( 2 )
R
Z
t2
x
n
1
= p
e− 2 (1+ n−1 ) x 2 −1 dx
n−1
n−1
2π(n − 1)2 2 Γ( 2 ) R
Γ( n2 )
1
= p
n
n−1
t2
)] 2
[ 1 (1 + n−1
2π(n − 1)2 2 Γ( n−1
2 ) 2
Ovvero,
Γ( n2 )
1
.
= p
t2 n
2
[1
+
)
π(n − 1)Γ( n−1
n−1 ]
2
1
1
fTn−1 (t) = √
n
1 n−1
t2
n − 1B( 2 , 2 ) (1 + n−1
)2
(t ∈ R).
(6.11)
6.5 Funzione caratteristica e momenti
Del calcolo dei momenti di un numero aleatorio per mezzo della funzione generatrice
si è già detto. Si tratta di una possibilità che soffre della non trascurabile limitazione
126
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
derivante dal fatto che la funzione generatrice dei momenti, a differenza della caratteristica, non è definita per tutte le leggi di probabilità. E’ quindi utile accennare anche a come si possano dedurre i momenti dalla funzione caratteristica e agli sviluppi,
di quest’ultima, deducibili dall’ipotesi di esistenza di un dato numero di momenti. A
questo proposito, si enuncia (ma qui non si dimostra) il
Teorema 6.5.1. Se ξ è un numero aleatorio con funzione caratteristica φ e E(|ξ|n+δ ) <
+∞ per qualche intero n non negativo e per qualche δ in [0, 1], allora φ è di classe C n (R)
[ classe delle funzioni definite su R e che posseggono continue tutte le derivate di ordine
k 6 n]. Inoltre
φ(k) (t) = ik E[ξ k eitξ ],
φ(t) =
φ(k) (0) = ik E[ξ k ],
n
X
(it)j E[ξ j ]
j=0
con
j!
O(|t|n+δ ) 6 21−δ
φ(t) =
n
X
(it)j E[ξ j ]
j=0
j!
1 6 k 6 n,
+ O(|t|n+δ )
|t|n+δ E|ξ|n+δ
(1 + δ) · · · (n + δ)
+ o(|t|n )
(t → 0).
Si deve osservare che l’esistenza della derivata di un certo ordine nell’origine non
implica, in generale, l’esistenza del momento di tale ordine. Però, se l’ordine in questione è pari, ad esempio, se φ(2k) (0) esiste finita per qualche intero k positivo, allora
E(ξ 2k ) < +∞.
Il precedente teorema si estende a vettori aleatori ξ := (ξ1 , . . . , ξd ) di dimensione
d > 2.
Ricordiamo che, dato il vettore aleatorio ξ := (ξ1 , . . . , ξd ), il suo momento misto di
ordine (ν1 , . . . , νd ), con ν1 , . . . , νd interi non negativi, è definito dal valore atteso
E(ξ1ν1 · · · ξdνd )
purché sia finito il valore atteso del prodotto dei moduli (E(|ξ1ν1 | · · · |ξdνd |) < +∞). Se
esistono tutti i momenti di ordine (ν1 , . . . , νd ) con ν1 + · · · + νd 6 n per qualche intero
n > 1, si può sviluppare la funzione caratteristica φ di ξ nel modo seguente
φ(t1 , . . . , td ) =
X
ν1 + · · · + νd 6 n
νj > 0, j = 1, . . . , d
iν1 +···+νd
E[ξ ν1 · · · ξdνd ]tν11 · · · tνdd + o(ktkn ) (ktk → 0)
ν1 ! . . . νd ! 1
6.5. FUNZIONE CARATTERISTICA E MOMENTI
P
dove ktk := ( dk=1 t2k )1/2 ; inoltre,
iν1 +...νd E[ξ1ν1 · · · ξdνd ] =
127
∂ ν1 +...νd
.
νd φ(t1 , . . . , td )
ν1
∂t1 · · · ∂td
t1 =0,...,td =0
Una semplice applicazione di quest’ultima affermazione consente di completare le
considerazioni sul significato degli elementi di µ e V , caratterizzanti la legge gaussiana
d-dimensionale della Sottosezione 6.4.1. Ponendo, dapprima, νk = 0 per ogni k 6= j e
νj = 1, si ottiene
iE(ξj ) =
∂
φ(t1 , . . . , td )
∂tj
t1 =0,...,td =0
= iµj
(j-esima componente di µ).
Quindi, µj è la j–esima componente del vettore µ corrispondente al valore atteso di ξj
per j = 1, . . . , d. Ancora, ponendo νj = νl = 1 per j 6= l e νk = 0 per k diverso da j e l, si
ricava
i2 E[ξj ξl ] =
∂2
φ(t1 , . . . , td )
∂tj ∂tl
t1 =0,...,td =0
= i2 (σjl + µj µl )
con σjl = σlj elemento che si trova all’incrocio della j–esima riga con la l–esima colonna
di V ; si ha allora che
σjl = E[ξj ξl ] − µj µl = Cov(ξj , ξl ).
Analogamente, ponendo νj = 2 e νk = 0 per k diverso da j, si ricava
i2 E[ξj2 ] =
∂2
φ(t
,
.
.
.
,
t
)
1
d
∂t2j
t1 =0,...,td =0
= i2 (σj2 + µ2j )
con σj2 = σjj ; perció,
σj2 = V ar(ξj ).
Si può quindi completare il discorso lasciato in sospeso nella Sottosezione 6.4.1, dicendo che, nel caso di vettori aleatori gaussiani, l’indipendenza equivale all’assenza di
correlazione. Fatto che non vale, però, in generale.
Il calcolo delle derivate di φ (di I e II ordine) sopra indicate è lasciato, per esercizio,
allo studente.
128
CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ
Capitolo 7
Teoremi limite del calcolo
delle probabilità. Brevi cenni
I teoremi limite costituiscono un punto di arrivo per il calcolo delle probabilità classico. Sia per rispondere a problemi concreti, sia per esigenze di speculazione scientifica,
i probabilisti sono stati indotti a ricercare regolarità nei fenomeni aleatori soprattutto
nell’ambito di gruppi numerosi di prove. Ad esempio, si sono preoccupati di vedere in
che senso si può dire che la frequenza di successo in una successione di eventi equiprobabili converge verso la probabilità (costante) di successo. Analogamente, in una successione di misurazioni di una stessa grandezza fisica, è legittimo attendersi che la
media delle prime n letture ”converge”, all’aumentare del numero delle misurazioni,
verso la grandezza oggetto di studio? Ancora, se si considera la media dei guadagni
aleatori relativi ad un gruppo numeroso di contratti assicurativi fra loro ”disparati”,
possiamo ragionevolmente attenderci, qualora i guadagni vengano valutati in base a
premi ′′ puri′′ , che il portafoglio sia prossimo all’equilibrio (media nulla dei guadagni)?
E come interpretare correttamente un’eventuale risposta positiva?
Si possono porre altri quesiti, di natura differente, che conducono a risolvere ′′ problemi
limite′′ che si traducono nella ricerca di una distribuzione di equilibrio per grandezze
concepibili come somma di effetti, singolarmente trascurabili, di una miriade di cause
indipendenti. E’ il caso della distribuzione degli errori di misurazione o degli scarti accidentali da un valore programmato in una produzione di massa di un certo manufatto.
Il primo gruppo di esempi si ricollega alle leggi dei grandi numeri, mentre il secondo
al teorema centrale del limite del calcolo delle probabilità. A questi temi dedicheremo
soltanto brevi cenni. Uno studio più approfondito potrebbe essere fatto in un secondo
129
130CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI
corso sulla probabilità. Utilizzeremo alcune disuguaglianze notevoli che prensentiamo
immediatamente.
7.1 Qualche disuguaglianza notevole
Le seguenti disuguaglianze, basate sui momenti del numero aleatorio d’interesse, hanno una notevole importanza teorica per la loro utilità in svariati processi dimostrativi;
dal punto di vista della bontà dell’approssimazione che forniscono appaiono, invece,
piuttosto rudimentali.
Proposizione 7.1.1. Siano ξ un numero aleatorio e h una funzione misurabile da R in
R+ , tale che E(h(ξ)) < +∞. Allora, per ogni a > 0,
P {h(ξ) > a} 6
E(h(ξ))
.
a
(7.1)
Dimostrazione. Si ha
h(ξ) − 11{h(ξ)>a} · a > 0
e, per (a), (c), (d) della Sezione 5.2.1,
0 6 E h(ξ) − a11{h(ξ)>a} = E(h(ξ)) − a · P {h(ξ) > a}. z
Dalla disuguaglianza (7.1), con h(•) = | • |, segue la classica disuguaglianza di
Markov.
Corollario 7.1.2 (Disuguaglianza di Markov). Se E|ξ| < +∞, allora
P {|ξ| > a} 6
E(|ξ|)
a
(a > 0).
(7.2)
Infine, con h(ξ) = (ξ−E(ξ))2 , a = ε2 (ε > 0), si ricava la disuguaglianza di Bienaymé–
Chebyshev.
Corollario 7.1.3 (Disuguaglianza di Bienaymé– Chebyshev). Se E|ξ|2 < +∞, allora
P {|ξ − E(ξ)| > ε} 6
Var(ξ)
ε2
(ε > 0).
Dimostrazione. Si ha
P {|ξ − E(ξ)| > ε} = P {(ξ − E(ξ))2 > ε2 } 6
Var(ξ)
E[(ξ − E(ξ))2 ]
=
.z
ε2
ε2
(7.3)
7.2. LEGGI (DEBOLI) DEI GRANDI NUMERI
131
7.2 Leggi (deboli) dei grandi numeri
Prendiamo in considerazione la successione bernoulliana (ξn )n>1 del Paragrafo 4.3.1. Il
valore assoluto del numero aleatorio
n
n
1X
1X
ξi − p =
(ξi − p)
n i=1
n i=1
ci dà lo scarto fra la frequenza di successo nelle prime n prove e la probabilità p di
successo in ciascuna prova. Fissato un numero positivo ε (il caso interessante si ha
quando ε è piccolo), ci si chiede se è ragionevole ritenere che, per n sufficientemente
grande, l’evento
n
{|
1X
(ξi − p)| 6 ε}
n i=1
è altamente plausibile. La prima risposta rigorosa a questo quesito si trova nell’Ars
Coniectandi di Jacob Bernoulli, pubblicato postumo a Basilea nel 1713.
Proposizione 7.2.1 (J. Bernoulli). Se (ξn )n>1 è una successione bernoulliana con probabilità p di successo in ogni prova, si ha
( n
)
1 X
p(1 − p)
P ξi − p 6 ε > 1 −
.
n
nε2
i=1
Quindi, per ogni successione strettamente positiva e infinitesima (εn )n>0 tale che nε2n →
+∞, vale
( n
)
1 X
P ξi − p 6 εn → 1
n
i=1
(n → +∞).
Dimostrazione. E’ ben noto che valgono (cfr. Esempio 5.5.5) le seguenti
Pn
Pn
n
X
np(1 − p)
np
1
i=1 ξi
i=1 ξi
ξi ) =
=
= 2 Var(
.
,
Var
E
n
n
n
n
n2
i=1
Quindi, dalla disuguaglianza di Bienaymé– Chebyshev,
)
( n
Pn
1 X
Var( i=1 ξi )
p(1 − p)
ξi − p 6 ε > 1 −
P = 1−
. z
2 ε2
n
n
nε2
i=1
Il teorema di Bernoulli dà l’esempio più elementare di legge debole dei grandi nu-
meri: in una successione di eventi indipendenti con probabilità costante p, la probabilità
che la frequenza di successo differisca dalla probabilità di successo di ciascun evento, per
un valore maggiore di ε, tende a zero al divergere del numero degli eventi considerati. A
titolo puramente informativo ricordiamo che questo tipo di convergenza si dice convergenza in probabilità. Per la validità della tesi enunciata, le condizioni di indipendenza
132CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI
e costanza della probabilità, pur non essendo necessarie, giocano un ruolo importante.
Facciamo anche osservare che la legge di Bernoulli non è di per se sufficiente a far
P
concludere che ni=1 ξi /n converge a p per n tendente ad infinito. Una proposizione
di questo genere è stata comunque dimostrata, nel 1917, da Francesco Paolo Cantelli.
La convergenza, in tale proposizione, è da intendersi come convergenza quasi certa, un
concetto che non diamo in questo corso. La legge di Bernoulli dice soltanto che per un
singolo n, purchè sufficientemente grande, è prossima a uno la probabilità che lo scarto
Pn
| n1 i=1 ξi − p| sia piccolo.
La legge di Bernoulli è stata generalizzata in diverse direzioni. Una prima es-
tensione quasi immediata si ha quando al posto dei precedenti numeri aleatori ξn si
prendano numeri aleatori indipendenti Xn (n = 1, 2, . . . ) tali che
P {Xn = 1} = p, P {Xn = −1} = 1 − p
(n = 1, 2, . . . ).
(7.4)
Xn è allora assimilabile ad un guadagno aleatorio che prende il valore 1 oppure il valore (−1) rispettivamente con probabilità p e (1 − p). Xn potrebbe rappresentare il moto
aleatorio sull’asse reale di una particella, all’istante n; oppure il guadagno associato
all’n–esimo contratto (alquanto semplificato) in un portafoglio assicurativo. Chiaramente, si può scrivere Xn = 2ξn − 1, qualora ξ1 , ξ2 , . . . siano i numeri aleatori del teore-
ma di Bernoulli. Perció, il guadagno medio sui primi n contratti, o la posizione media
della particella dopo l’n–esimo spostamento, sarà
n
e dalla Proposizione 7.2.1 segue
n
1X
2X
Xi =
ξi − 1
n i=1
n i=1
Corollario 7.2.2. Se (Xn )n>1 è una successione di numeri aleatori indipendenti che
soddisfano (7.4), allora per ogni successione infinitesima e strettamente positiva (εn )n>1 ,
tale che nε2n → +∞ per n → +∞, vale
)
( n
1 X
Xi − (p − q) 6 εn → 1
P n
i=1
(n → +∞)
con q = 1 − p .
Ancora più in generale vale il seguente teorema di Chebyshev che trova applicazione,
ad esempio, nello studio asintotico della media di letture ottenute da un dato processo
di misurazioni successive.
Proposizione 7.2.3. Siano Y1 , Y2 , . . . numeri aleatori indipendenti con momento secondo finito: E(Y 2 ) < +∞ per i = 1, 2, . . . ; inoltre, la successione delle loro varianze sia
7.3. TEOREMA CENTRALE DEL LIMITE
133
limitata: esiste C > 0 tale che Var(Yi ) 6 C per ogni i. Allora, posto mi := E(Yi ) si ha
)
( n
1 X
(Yi − mi ) 6 ε → 1
(n → +∞),
P n
i=1
per ogni ε > 0.
Si noti che la condizione sulla limitatezza della successione delle varianze è soddisfatta quando i numeri aleatori Yi sono identicamente distribuiti perché, in tal caso, si
ha m1 = m2 = · · · = m, Var(Y1 ) = Var(Y2 ) = · · · = σ 2 .
Dimostrazione. Dalle proprietà della speranza matematica e della varianza dedu-
ciamo la validità di
!
n
1X
(Yi − mi ) = 0
E
n i=1
!
n
n
1X
1 X
Var
(Yi − mi ) = 2
Var(Yi )
n i=1
n i=1
Pn
e, quindi, dal Corollario 7.1.3 con ξ = i=1 (Yi − mi )/n segue
P {|
n
n
1X
1 X
(Yi − mi )| 6 ε} > 1 − 2 2
Var(Yi )
n i=1
ε n i=1
>1−
nC
(→ 1 per n → +∞). z
ε 2 n2
7.3 Teorema centrale del limite
Come accennato nelle osservazioni introduttive al capitolo, un problema ritenuto importante, tanto da meritare il nome di problema centrale del limite, è quello dell’esistenza
di una legge di probabilità notevole che approssima quella delle grandezze aleatorie che
sono interpretabili come somma di un grande numero di variabili aleatorie indipendenti
e singolarmente trascurabili. Il primo risultato in tal senso risale ad Abraham deMoivre
(1733-1756) e riguarda successioni bernoulliane.
Proposizione 7.3.1 (deMoivre–Laplace). Sia (ξn )n>1 la stessa successione bernoulliana
della Proposizione 7.2.1. Allora
n
o
n
X
1
(ξi − p) 6 x
P p
np(1 − p) i=1
X
=
√
06k6p+x
np(1−p)
n k
p (1 − p)n−k
k
converge alla funzione di ripartizione gaussiana ridotta
Z x
2
1
φ(x) := √
e−u /2 du
(x ∈ R)
2π −∞
(7.5)
134CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI
uniformemente in x, quando n → +∞. Inoltre, per ogni k ed n tali che
k − np
x := √
npq
risulti limitato in valore assoluto da un’assegnata costante A > 0, vale
x2
e− 2
(x3 − 3x)pq
n k
n−k
+ Rn (A)]
ξi = k} =
p (1 − p)
= √
[1 +
P{
√
6 npq
k
2πnpq
i=1
n
X
(7.6)
dove |Rn (A)| 6 C/n per un’opportuna costante C.
Il teorema di de Moivre-Laplace rappresenta una delle forme più elementari del
cosiddetto teorema centrale del limite; (7.5) è una versione ′′ integrale′′ mentre (7.6) una
versione ′′ locale′′ di tale teorema.
Si noti che per ogni n fissato, il generico addendo è limitato uniformemente da un
numero che converge a zero quando n diverge all’infinito. Infatti
|ξi − p|
max(p, q)
6 √
√
npq
npq
per ogni 1 6 i 6 n, n = 1, 2, . . . .
Una notevole generalizzazione del precedente teorema, che basta a giustificare l’uso
della distribuzione gaussiana in molti casi che interessano la statistica, è data dalla
Proposizione 7.3.2 (Lindeberg–Lévy). Se ξ1 , ξ2 , . . . sono numeri aleatori indipendenti
ed identicamente distribuiti con momento secondo finito, indicate con m e σ 2 rispettivamente la speranza matematica e la varianza di ciascun ξi (i = 1, 2, . . . ),
(
)
n
1 X
√
P
(ξi − m) 6 x
σ n i=1
converge uniformemente (in x) verso la funzione di ripartizione gaussiana ridotta φ(x),
quando n tende ad infinito:
(
) Z
2
n
x
e−t /2 1 X
√
√
dt = 0.
(ξi − m) 6 x −
lim sup P
n→+∞ x∈R σ n i=1
2π −∞
Si noti che, per ogni ε > 0, vale
|ξ1 − m|
|ξi − m|
√
√
>ε =P
>ε
max P
16i6n
σ n
σ n
e, quindi,
max P
16i6n
|ξi − m|
√
>ε
σ n
→0
(n → +∞).
Si noti che questa relazione precisa come si debba intendere correttamente la ′′ trascurabilità′′
di ogni addendo evocata all’inizio del paragrafo.
7.3. TEOREMA CENTRALE DEL LIMITE
135
Il teorema può essere dimostrato ricorrendo al teorema di continuità delle funzioni
caratteristiche, teorema che si riallaccia alla definizione di convergenza debole di una
successione di funzioni di ripartizione. Ricordiamo che una successione di funzioni di
ripartizione (Fn )n>1 converge debolmente verso la funzione di ripartizione F se limn→+∞
Fn (x) = F (x) per ogni punto x di continuità di F . Se X, X1 , X2 , . . . sono numeri aleatori
per le cui funzioni di ripartizione FX , FX1 , FX2 , . . . vale che FXn converge debolmente a
FX , allora si dice che (Xn )n>1 converge in legge, o in distribuzione, a X. Se F è continua
e Fn converge debolmente a F , allora supx∈R |Fn (x) − F (x)| → 0 per n → +∞.
Il succitato teorema di continuità delle funzioni caratteristiche si può enunciare in
questo modo.
Proposizione 7.3.3. Indicate con φXn e φX rispettivamente le funzioni caratteristiche
di Xn per n = 1, 2, . . . e di X, si ha:
(a) Se (Xn )n>1 converge in distribuzione a X, allora (φXn )n>1 converge puntualmente
a φX . .
(b) Se (φXn )n>1 converge puntualmente ad una funzione h continua nell’origine, allora (Xn )n>1 converge in distribuzione e h è funzione caratteristica: la funzione
caratteristica del limite in legge di (Xn )n>1 .
Come preannunciato, la Proposizione 7.3.3, precisamente la parte (b), può essere
sfruttata per dimostrare il teorema centrale del limite.
Dimostrazione della Proposizione 7.3.2. La funzione caratteristica di Tn :=
Pn
√
j=1 (ξj − m)/σ n, in virtù della Proposizione 6.2.1, è data da
φTn (ξ) =
n
Y
j=1
φ ξj√−m (t) = φ ξ1√−m (t)n
σ
n
t
= φξ1 −m ( √ )n
σ n
σ
n
(per la (iii) della Proposizione 6.2.5).
Ora, E[ξ1 − m] = 0, E[(ξ1 − m)2 ] = σ 2 e, quindi, per il Teorema 6.5.1,
φξ1 −m (t) = 1 +
(it)2 σ 2
+ o(|t|2 )
2
la quale implica
1 t2
t
t2
φξ1 −m ( √ )n = {1 −
+ o( 2 )}n .
2n
nσ
σ n
Pertanto, per t fissata, esiste n0 tale che |1 −
1 t2
2 n
2
t
+ o( nσ
2 )| 6 1 per ogni n > n0 . Quindi,
per t fissata e n > n0 ,
1 t2 n
t2
t
) | 6 no( 2 ) → 0
|φξ1 −m ( √ )n − (1 −
σ n
2n
nσ
(n → +∞).
136CAPITOLO 7. TEOREMI LIMITE DEL CALCOLO DELLE PROBABILITÀ. BREVI CENNI
Per vedere quest’ultimo fatto, si considerino i numeri complessi z1 , z2 , . . . , z1′ , z2′ , . . .
con modulo non maggiore di 1. Allora, procedendo induttivamente, si ha |z1 · · · zn −
P
2
z1′ · · · zn′ | 6 nj=1 |zj − zj′ |. Si ponga, infine zi = φξ1 −m ( σ√t n ) e zi′ = (1 − 12 tn ) per ogni i.
Ora, da (1 −
1 t2 n
2 n)
2
→ e−t
/2
, per n → +∞, segue
2
φTn (t) = φξ1 −m (t)n → e−t
/2
(n → +∞, t ∈ R).
Quest’ultima, tramite (b) della Proposizione 7.3.3, implica che Tn converge in legge ad
un numero aleatorio G dotato di funzione caratteristica uguale a quella della legge
gaussiana ridotta (media= 0, varianza= 1). Dalla continuità di quest’ultima segue
che la convergenza debole della funzione di ripartizione FTn verso FG si traduce nella
convergenza uniforme
sup |FTn (x) − FG (x)| = sup |FTn (x) −
x∈R
x∈R
Z
x
−∞
2
1
√ e−u /2 du| → 0
2π
(n → +∞).
z
Capitolo 8
Elementi di inferenza
statistica
I problemi statistici a cui accenneremo sono caratterizzati dal fatto che, in essi, dalla conoscenza di alcune caratteristiche di una parte, opportunamente estratta, di una
collezione di elementi (popolazione), si intende trarre conclusioni sulle caratteristiche
della parte non nota. Esistono diverse impostazioni generali del problema prospettato, ciascuna di esse facente capo ad una specifica scuola di pensiero. Ci limiteremo a
considerare pochi elementi di quella che fa riferimento all’opera di Ronald A. Fisher
(1890–1962), restringendo la trattazione a caratteristiche dotate di valori nello spazio
euclideo Rd , con d = 1 nella maggior parte dei casi di cui effettivamente tratteremo. A
titolo di esempio presentiamone due particolarmente semplici ma significativi.
Esempio 8.0.4. Per varie ragioni si vogliano studiare le tendenze di una popolazione di
elettori che possono scegliere fra due schieramenti designati, rispettivamente, con A e
B. A questo fine si scelgono dalla popolazione n elettori e se ne registrino le preferenze.
Si associa il valore 1 ad ogni intervistato che preferisce A ed il valore 0 a chi dice di
preferire B. Si ottiene così una n-upla ordinata di 0 − 1, (x1 , . . . , xn ), il cui i-esimo
elemento, xi , specifica la preferenza dell’i-esimo intervistato. La frazione
n
1X
xi
n i=1
è la frequenza di preferenze per A nella parte di popolazione intervistata.
Esempio 8.0.5. Si effettuano n misurazioni x1 , . . . , xn per stimare la distanza incognita
fra due punti (corpi celesti, ecc.). Anche qui xi rappresenta la lettura relativa alla i137
CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA
138
esima misurazione. Un problema interessante sarà quello di vedere se vi sono buone
ragioni per adottare la media delle letture
n
1X
xi
n i=1
come stima della distanza incognita.
n
La n-upla incognita (x1 , . . . , xn ) appartenente ad (Rd ) – negli esempi, si ha d = 1 – si
dice campione. Il primo passo da compiere, per avviare a soluzione un generico problema
di inferenza statistica, consiste nell’assegnazione di una legge di probabilità per il campione. Essa consente di fissare procedure statistiche valide, da un punto di vista logico,
qualunque sia il campione effettivamente osservato. Le determinazioni di tali procedure dipendono, in generale, dal campione osservato, ma la loro definizione, che non
può essere influenzata dalla specifica n-upla campionaria, potrà variare in relazione
alle modalità del processo di osservazione e alle conoscenze preliminari sul fenomeno
oggetto d’indagine.
In linea di fatto, secondo l’impostazione di Fisher, i fattori legati al processo di osservazione, come pure le informazioni sul fenomeno oggetto d’indagine, agiscono per
mezzo della legge di probabilità del campione nella quale dovranno perciò essere incorporati. Si tradurranno, tipicamente, nella scelta di opportune forme di dipendenza
stocastica fra le osservazioni congiuntamente a forme specifiche di distribuzioni di probabilità per le singole osservazioni. A loro volta, queste ultime, per la natura stessa del
problema statistico che nasce in relazione a situazioni d’informazione incompleta, non
saranno completamente specificate. Ci limiteremo a considerare casi in cui le leggi sono
determinate a meno di un parametro ϑ a valori in Rk .
Immaginiamo, quindi, di disporre della legge di probabilità del processo di osservazione, rappresentato dalla n-upla (ξ1 , . . . , ξn ) di n elementi aleatori a valori in Rd ,
mediante ln (x1 , . . . , xn ; ϑ), in accordo alla seguente interpretazione (parziale)
• nel caso discreto, ln (x1 , . . . , xn ; ϑ) denota la probabilità dell’evento {ξ1 = x1 , . . . , ξn =
xn } quando ϑ è la determinazione del parametro incognito;
• nel caso assolutamente continuo, ln (x1 , . . . , xn ; ϑ) rappresenta la densità, calcolata
in (x1 , . . . , xn ) , della legge di probabilità di (ξ1 , . . . , ξn ) quando ϑ è la determinazione del parametro incognito.
Un caso particolarmente interessante, perché rispondente alla situazione “classica” delle prove successive eseguite in condizioni analoghe, si ha quando ξ1 , . . . , ξn sono
139
ritenuti indipendenti e ugualmente distribuiti. Indicata allora con f (x; ϑ) la probabilità
di {ξ1 = x} nel caso discreto, oppure la densità in x della distribuzione di ξ1 nel caso
assolutamente continuo, si ottiene la seguente forma speciale di l:
ln (x1 , . . . , xn ; ϑ) =
n
Y
f (xk ; ϑ).
k=1
Per ogni n-upla fissata (x1 , . . . , xn ) , la funzione
ϑ 7→ ln (x1 , . . . , xn ; ϑ)
(ϑ ∈ Θ)
prende il nome di verosimiglianza di ϑ associata al campione (x1 , . . . , xn ) . Il termine
verosimiglianza (traduzione di likelihood usato da Fisher) sarebbe coerente con la seguente
interpretazione: i valori di ϑ in corrispondenza ai quali l risultasse più elevata sarebbero da ritenersi vicini “al vero” in quanto in corrispondenza ad essi risulterebbe elevata
la probabilità (nel caso discreto) o la densità (nel caso continuo) associata al campione
(x1 , . . . , xn ) .
Passiamo alla determinazione della verosimiglianza di alcuni modelli statistici significativi.
Esempio 8.0.6. Supponiamo di dover controllare la qualità di una massa di pezzi
prodotti in serie, tramite un’ispezione campionaria (n pezzi). Ciascun pezzo può risultare
difettoso (1) oppure idoneo (0). Se si segue la modalità della restituzione e le estrazioni
avvengono in condizioni analoghe, indicata con ϑ la frazione dei difettosi nell’intera
massa, la probabilità di avere una specifica successione (x1 , . . . , xn ) di 0, 1, è uguale a
n
Y
i=1
Quindi,
1−xi
ϑxi (1 − ϑ)
Pn
ln (x1 , . . . , xn ; ϑ) = ϑ
i=1
xi
.
(1 − ϑ)
n−
Pn
i=1
xi
con (x1 , . . . , xn ) in {0, 1}n e ϑ in Θ = [0, 1]. Quando il numero di difettosi nel campione,
Pn
i=1 xi , è compreso tra 1 e (n − 1), l’andamento della funzione di verosimiglianza è del
Pn
Pn
tipo di quello tracciato nella Figura 8.1. Se i=1 xi = 0 ( i=1 xi = n rispettivamente), il
grafico della verosimiglianza è del tipo di quello tracciato in 8.2a (8.2b rispettivamente)
Pn
della Figura ??. Perciò, in ogni caso, il valore più verosimile di ϑ è ϑ̂ = i=1 xi /n, la
frequenza osservata di difettosi. Se si segue la modalità dell’estrazione in blocco o senza
restituzione, l’espressione di ln , quando N sia il numero totale dei pezzi e ϑ la frazione
dei difettosi, è data da
ln (x1 , . . . , xn ; ϑ) =
N ϑ(N ϑ − 1) · · · (N ϑ −
Pn
1
P
xi + 1){N (1 − ϑ) N (1 − ϑ) − 1 · · · N (1 − ϑ) − n + n1 xi + 1 }
N (N − 1) · · · (N − n + 1)
CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA
140
Figura 8.1
(a)
(b)
Figura 8.2
8.1. STIME DI MASSIMA VEROSIMIGLIANZA
141
Esempio 8.0.7. Si effettuino n misurazioni indipendenti come nell’Esempio 8.0.5. Se
si ritengono soddisfatte le condizioni del teorema centrale del limite, presentato nel
Capitolo 6, si può ritenere che ogni xi abbia distribuzione gaussiana con valore atteso
m e varianza σ 2 (precisione dello strumento = 1/σ). In concreto si possono avere tre
alternative interessanti la statistica:
1. m incognita, σ 2 nota (ϑ = m ∈ R);
2. m nota, σ 2 incognita (ϑ = σ 2 > 0);
3. m e σ 2 entrambe incognite (ϑ = (m, σ 2 ) ∈ R × R+ ).
Le corrispondenti funzioni di verosimiglianza si ricavano da
)
(
n
1 X
1
2
(xi − m)
exp − 2
ϑ 7→ ln (x1 , . . . , xn ; ϑ) =
n/2
2σ i=1
(2πσ 2 )
per (x1 , . . . , xn ) fissato in Rn .
8.1 Stime di massima verosimiglianza
Aderendo all’interpretazione della verosimiglianza ricordata nelle righe che precedono
l’Esempio 8.0.6, è sembrato lecito (a partire da Fisher) proporre il seguente metodo di
stima per il parametro incognito. Se, dato un campione (x1 , . . . , xn ) , la funzione di
verosimiglianza ha massimo assoluto che raggiunge in ϑ̂n = ϑ̂n (x1 , . . . , xn ), allora non è
fuori luogo comportarsi come se ϑ̂n fosse il vero valore del parametro, visto che in corrispondenza ad esso sarebbe massima la densità calcolata nel campione effettivamente
osservato. La funzione (x1 , . . . , xn ) 7→ ϑ̂n è detta stimatore di massima verosimiglianza
per ϑ, in corrispondenza al campione (x1 , . . . , xn ) .
Esempio 8.1.1. Nell’Esempio 8.0.6 si trova che lo stimatore di massima verosimiglianza coincide con la frequenza
ϑ̂n =
n
X
xi /n
i=1
Nell’Esempio 8.0.7.1, in cui ϑ ∈ R, la funzione di verosimiglianza
)
(
n
1
1 X
2
(xi − ϑ)
ln (x1 , . . . , xn ; ϑ) =
exp − 2
n/2
2σ i=1
(2πσ 2 )
è massima dove
n
X
i=1
2
(xi − ϑ) = nϑ2 − 2ϑ
n
X
i=1
xi +
n
X
i=1
xi 2
CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA
142
è minima, ovvero
n
ϑ̂n =
1X
xi
n i=1
(la media delle osservazioni).
Passando a 8.0.7.2,
ln (x1 , . . . , xn ; ϑ) =
1
(2πϑ)n/2
ovvero
e
(
n
1 X
2
exp −
(xi − m)
2ϑ i=1
)
,
ϑ > 0,
n
1 X
n
(xi − m)2
log ln = − (log 2π + log ϑ) −
2
2ϑ i=1
n
∂
n
1 X
(xi − m)2 .
log ln = −
+ 2
∂ϑ
2ϑ 2ϑ i=1
Allora, uguagliando la derivata a zero,
n
ϑ̂n =
1X
2
(xi − m) .
n i=1
Finalmente, in 8.0.7.3, ϑ = (m, σ 2 ) e
n
1 X
n
2
(xi − m)
log ln (x1 , . . . , xn ; ϑ) = − (log 2π + log σ 2 ) − 2
2
2σ i=1
n
∂
n
1 X
(xi − m)2
log
l
=
−
+
n
∂σ 2
2σ 2
2σ 4 i=1
n
∂
1 X
(xi − m)
log ln = 2
∂m
σ i=1
ovvero, uguagliando le derivate a zero,
ϑ̂n =

n
X



xi /n
m̂
=
n


i=1
n

1X

2
2


σ̂
=
(xi − m)
 n
n i=1
rispettivamente media e varianza delle osservazioni.
8.2 Stime dei minimi quadrati
Un altro metodo classico di stima puntuale (risale a Legendre e Gauss) consiste nella ricerca di stimatori che rendono minima una opportuna penalizzazione quadratica,
secondo un criterio già più volte invocato in questo corso.
8.2. STIME DEI MINIMI QUADRATI
143
Si supponga che ogni osservazione ξi sia la somma di una “parte sistematica” (β+αxi ,
con xi nota) e di un disturbo (εi ):
ξi = β + αxi + εi
(8.1)
(i = 1, . . . , n)
Il metodo di propone di stimare (α, β) con la coppia (α̂n , β̂n ) che minimizza la somma dei
quadrati dei disturbi
q(α, β) :=
n
X
i=1
εi 2 =
n
X
i=1
2
(ξi − β − αxi ) .
Si incomincia col determinare i punti stazionari dalle equazioni
n
X
∂q
(ξi − β − αxi ) = 0
= −2
∂β
i=1
n
X
∂q
(ξi − β − αxi )xi = 0
= −2
∂α
i=1
che porgono
P P
xi ξi
P 2
P
xi ξi
xi σ̂2,n
β̂n = P = m̂2,n − ρ̂n m̂1,n σ̂1,n
n
xi P 2
P
xi
xi P n
ξi P
P
xi
xi ξi σ̂2,n
α̂n = P = ρ̂n σ̂1,n
n
xi P 2
P
xi
xi col seguente significato dei simboli:
n
m̂1,n =
1X
xi
n i=1
n
1X
ξi
n i=1
rP
xi 2
− m̂21,n
σ̂1,n =
n
s
P 2
ξi
σ̂2,n =
− m̂22,n
n
X
1
1
ρ̂n =
xi ξi − m̂1,n m̂2,n .
σ̂1,n σ̂2,n n
m̂2,n =
CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA
144
È facile verificare che (α̂n , β̂n ) è punto di minimo assoluto di q(α, β); per questo è
detto vettore delle stime dei minimi quadrati.
Quando ε1 , ε2 , . . . sono indipendenti e identicamente distribuiti con densità f , allora
ξ1 , ξ2 , . . . vengono ad essere indipendenti e identicamente distribuiti con densità f (y −
β − αxi ) per i = 1, 2, . . .. Quindi la corrispondente funzione di verosimiglianza è
(α, β) 7→ ln (ξ1 , . . . , ξn ; α, β) =
n
Y
i=1
f (ξi − β − αxi ).
In particolare, se f è gaussiana di media nulla e varianza σ 2 (nota), la stima di massima
verosimiglianza di (α, β) viene a coincidere con quella dei minimi quadrati (α̂n , β̂n ).
8.3 Stime per intervalli di confidenza
I metodi di massima verosimiglianza e dei minimi quadrati producono stime puntuali, ovvero funzioni del campione che, in corrispondenza ad ogni campione specifico,
assegnano delle valutazioni del parametro incognito. Il metodo che presentiamo in
questo paragrafo persegue una finalità diversa che può essere descritta, nel caso di
un parametro a valori reali, come ricerca di un intervallo, dipendente dal campione, che
con un prefissato valore di probabilità elevato, contenga il vero valore del parametro.
In questo paragrafo ci limitiamo ad illustrare l’applicazione del metodo a campioni
gaussiani, cioè a campioni (ξ1 , . . . , ξn ) con componenti indipendenti ed identicamente
distribuite con una assegnata legge gaussiana.
La prima applicazione riguarda la stima del valore atteso m quando la varianza σ 2 è
nota. La proposta di un intervallo di confidenza viene basata – e questo vale in generale,
non solo nel caso specifico qui trattato – su una funzione, detta pivot, dipendente dal
parametro incognito e da (ξ1 , . . . , ξn ) , ma con legge di probabilità (indotta da quella di
(ξ1 , . . . , ξn ) ) indipendente dal parametro. Ora, nel nostro caso, (ξ1 , . . . , ξn ) ha densità di
probabilità
n
Y
k=1
1
1
√ exp − 2 (xk − m)2
2σ
σ 2π
calcolata in x1 , . . . , xn ∈ R . Dalla (6.8)
n
n
1 X
(ξk − m)
S̄n = √
σ n
k=1
ha distribuzione gaussiana di media nulla e varianza unitaria. S̄n è quindi una funzione pivot. Per ogni valore fissato di m (si ricordi che σ 2 è nota) la probabilità che S̄n
8.3. STIME PER INTERVALLI DI CONFIDENZA
145
appartenga all’intervallo [−c, c] è data da
Φ(c) − Φ(−c) = 2Φ(c) − 1
con Φ(x) :=
1
2π
Rx
2
−∞
e−u
/2
du (x ∈ R), per ogni c > 0. Dalla doppia disuguaglianza
−c 6 Sn 6 c segue facilmente che l’intervallo
Pn
Pn
cσ
cσ
k=1 ξk
k=1 ξk
−√ ,
+√
n
n
n
n
contiene m, quando m è il valore atteso di ciascuna ξi , con probabilità 2Φ(c) − 1. Se
vogliamo che questa probabilità sia uguale a (1 − α) – il livello di confidenza dell’inter-
vallo – basta fissare c in modo che risulti
2Φ(c) − 1 = 1 − α
ovvero
α
.
c = Φ−1 1 −
2
Ad esempio, per α = 0, 005, si trova
c = Φ−1 (0, 9975) = 2, 801.
I valori della funzione di ripartizione gaussiana standard sono tabulati in molti libri o
disponibili in molti software statistici. L’ampiezza dell’intervallo di confidenza
2cσ
√
n
converge a zero quando n tende ad infinito (infinitesima al divergere del numero delle
prove).
Affrontiamo lo stesso problema – determinare un intervallo di confidenza per m –
anche quando σ non è nota. Per la ricerca di una opportuna funzione pivot, rimandiamo
Tn−1 della Sottosezione 6.4.3 in cui si è dimostrato che
Tn−1 := q
√
(ξ n − m) n
Pn
2
1
i=1 (ξi − ξ n )
n−1
n
(ξ n :=
1X
ξi )
n i=1
ha densità t di Student con (n − 1) gradi di libertà, indipendente da σ e da m; Tn−1 è
dunque una funzione pivot. Se indichiamo con FTn−1 la sua funzione di ripartizione, la
probabilità che tn−1 appartenga ad un determinato intervallo [−c, c] è data da
Z c
1
1
FTn−1 (c) − FTn−1 (−c) = √
(cfr. (6.11))
n dt
1 n−1
t2
n − 1B( 2 , 2 ) −c (1 + n−1
)2
= 2FTn−1 (c) − 1.
CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA
146
L’uguaglianza si giustifica per la simmetria della densità di Tn−1 . Procedendo come nel
caso precedente, si trova per m l’intervallo di confidenza seguente
v
v


u
u
n
n
X
X
u
u
1
1
2
2
ξ n − ct
(ξi − ξ n ) , ξ n + ct
(ξi − ξ n ) 
n(n − 1) i=1
n(n − 1) i=1
Ad esempio per il livello di confidenza 1 − α = 0, 95 (α = 0, 05) con n = 20, si trova
c = FTn−1 −1 (0, 975) = 2, 093.
La lunghezza dell’intervallo è uguale
v
u
n
1 u 1 X
2
(ξi − ξ n )
2c √ t
n n − 1 i=1
in cui
Pn
i=1
2 √
(ξi − ξ n ) / n − 1, per n sufficientemente grande, ha probabilità molto ele-
vata di assumere valori in un intorno “piccolo” di σ 2 (si dimostra ricorrendo alla legge
dei grandi numeri). Si noti, quindi, la stretta parentela di questo intervallo con quello
determinato nel caso precedente.
Proseguiamo col problema della stima della varianza. Dapprima si assumerà noto
il valore atteso m. Per quanto riguarda l’individuazione di una funzione pivot, si può
ricorrere alla
Q2n :=
n
1 X
2
(ξi − m)
σ 2 i=1
che, in virtù di (6.9), ha distribuzione chi-quadrato con n gradi di libertà e, quindi,
indipendente da σ 2 . Un intervallo di confidenza di livello 1 − α si può determinare
fissando c1 , c2 in modo che riesca
Z
1−α=
c2
c1
n
2
Γ
1
2n/2
e−z/2 z (n−2)/2 dz.
Quindi la probabilità che Q2n appartenga a [c1 , c2 ] è 1 − α e ciò equivale a dire che, se σ 2
è il vero valore della varianza incognita, allora
"
#
n
n
1 X
1 X
2
2
(ξi − m) ,
(ξi − m)
c2 i=1
c1 i=1
contiene σ 2 con probabilità (1 − α). Ad esempio, c1 e c2 potrebbero essere fissati in modo
che riescano soddisfatte le relazioni
Z c1
α
=
2
Γ
0
Z +∞
=
c2 Γ
n
2
n
2
1
1
2n/2
2n/2
e−z/2 z (n−2)/2 dz
e−z/2 z (n−2)/2 dz
8.4. CENNO AI CRITERI DI SIGNIFICATIVITÀ
147
A volte si fissa c1 = 0 e, quindi, si determina c2 in modo che valga
Z +∞
1
e−z/2 z (n−2)/2 .
α=
n
n/2
c2 Γ 2 2
Se anche il valore atteso è incognito, si può ricordare che
Q̄2n
n
1 X
2
(ξi − ξ n )
:= 2
σ i=1
ha distribuzione χ2n−1 con (n − 1) gradi di libertà; cfr. (6.10). Allora,
"
n
n
1 X
1 X
2
2
(ξi − ξ n ) ,
(ξi − ξ n )
c2 i=1
c1 i=1
#
è un intervallo di confidenza per σ 2 , di livello (1 − α) se c1 e c2 sono scelti in modo che
risulti
1−α=
Z
c2
c1
Γ
n−1
2
1
e−z/2 z (n−3)/2 dz.
2(n−1)/2
8.4 Cenno ai criteri di significatività
Un intervallo di confidenza può spesso essere usato come criterio di significatività. Per
intenderci, supponiamo che (ξ1 , . . . , ξn ) sia un campione estratto da un lotto di pezzi
prodotti in serie: ξi è la misura di una certa caratteristica nell’i-esimo pezzo ispezionato, i = 1, . . . , n. Sia m0 il valore programmato per tale caratteristica. L’ispezione
campionaria è fatta proprio per controllare se la produzione è conforme al programma,
pur non potendosi escludere una variabilità che si considera assumendo che ogni ξi abbia legge gaussiana e, nell’ipotesi che la produzione proceda secondo programma, abbia
valore atteso. Allora, fissato α (possibilmente piccolo), noi sappiamo come proporre un
intervallo di confidenza per il valore atteso. Ad esempio, se la varianza è incognita, tale
intervallo è determinato richiedendo che sia uguale ad α la probabilità che
√
(ξ
−
m
)
n
0
n
|Tn−1 (m0 )| := q
P
2
n
1
i=1 (ξi − ξ n )
n−1
prenda valori maggiori di c. Abbiamo visto come fissare c in modo da soddisfare la precedente richiesta. Una volta determinato c e noti i risultati dell’indagine campionaria, si
scopre se |Tn−1 (m0 )| è maggiore oppure non è maggiore di c. Se si presenta la prima
circostanza che, per α opportunamente piccolo, ha bassa probabilità di verificarsi se m0
è il vero valore del parametro incognito, molti statistici – Fisher in testa – ritengono che
il campione segnali l’inattendibilità dell’ipotesi che m0 sia il vero valore del parametro.
148
CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA
Nel nostro esempio, in particolare, si giungerebbe a ritenere il processo produttivo non
in grado di realizzare il livello qualitativo programmato.
Lo studente potrebbe adattare il ragionamento ora svolto a ciascuno degli intervalli
determinati nel paragrafo precedente.
Appendice A
Elementi di calcolo
combinatorio
Ci proponiamo di introdurre i primi elementi di calcolo combinatorio illustrandoli con
problemi che si presentano tipicamente nell’estrazione di campioni da una data popolazione.
A.1 Campioni e urne
Ogni popolazione costituita da M unità si può assimilare ad un’urna contenente M
palline, rese distinguibili per mezzo di un opportuno contrassegno [d’ora in poi, le considereremo numerate da 1 ad M ]. Pensiamo ora ad una indagine campionaria su una
popolazione di M elementi, allo scopo di inferire su una data caratteristica dei suoi elementi. Le proprietà di una procedura inferenziale vengono formulate in termini di
valutazioni di probabilità relative a certe proprietà del campione, prima che il campione venga estratto. Per valutare le probabilità succitate è allora necessario descrivere,
preliminarmente, l’insieme di tutti i campioni logicamente possibili; d’ora in poi riterremo che il numero degli elementi del campione sia prefissato [ampiezza del campione].
Detto Γ tale insieme, possiamo riguardare Γ come aggregato dei casi elementari relativi
ad una data procedura atta a produrre un campione di ampiezza assegnata. In realtà,
moltissime sono le procedure di campionamento che, ragionevolmente, si possono realizzare a fini inferenziali. Qui, tratteremo di quattro procedure, ottenute incrociando i
seguenti criteri.
149
150
APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO
Criterio I: rilevanza o no dell’ordine con cui si estraggono le unità campionarie;
Criterio II: si ammette o non si ammette la possibilità che un elemento sia ripetuto
in uno stesso campione.
In base al Criterio I, si hanno campioni ordinati o campioni non ordinati. Si parla
di campioni ordinati quando due campioni si ritengono distinti, oltre che per eventuali
diversità tra gli elementi inclusi o per diversità nel numero di ripetizioni di uno stesso
elemento, anche per l’ordine con cui gli stessi n elementi possono essere estratti. Sono
detti non ordinati i campioni per la cui distinguibilità è irrilevante l’ordine di estrazione.
In base al Criterio II, si hanno campioni ottenuti con restituzione o senza restituzione.
I campioni del primo tipo sono ottenuti mediante estrazioni successive, in modo che dopo
ogni estrazione, e prima di procedere alla successiva, si restituisce l’elemento osservato
alla popolazione; in questo modo, si consente che una stessa unità sia ripetuta più volte
nel campione. Sono senza restituzione i campioni ottenuti mediante estrazioni successive, senza reintrodurre le unità estratte di volta in volta osservate; in tal modo, le n
unità campionarie saranno tutte diverse.
Incrociando in tutti i modi possibili le precedenti quattro modalità, si ottengono quattro tipi di procedure di campionamento. In corrispondenza a ciascuna di esse calcoleremo la cardinalità di Γ. Prima di trattare l’argomento in termini generali, soffermiamoci
ad analizzare un caso molto particolare.
Esempio A.1.1. Dati M = 5, ossia la popolazione {1, 2, 3, 4, 5}, descriviamo Γ in corrispondenza ad ognuna delle quattro modalità di estrazione previste sopra.
Campioni con restituzione e ordinati
Gli elementi di Γ sono:
(1, 1) (1, 2) (1, 3) (1, 4) (1, 5)
(2, 1) (3, 1) (4, 1) (5, 1)
(2, 2) (2, 3) (2, 4) (2, 5)
(3, 2) (4, 2) (5, 2)
(3, 3) (3, 4) (3, 5)
(4, 3) (5, 3)
(4, 4) (4, 5)
(5, 4)
(5, 5)
A.1. CAMPIONI E URNE
151
e quindi ♯{Γ} = 25.
Campioni con restituzione non ordinati
Gli elementi di Γ sono:
[1, 1] [1, 2] [1, 3] [1, 4] [1, 5]
[2, 2] [2, 3] [2, 4] [2, 5]
[3, 3] [3, 4] [3, 5]
[4, 4] [4, 5]
[5, 5]
e quindi ♯{Γ} = 15.
Campioni senza restituzione e ordinati
Gli elementi di Γ sono:
(1, 2) (1, 3) (1, 4) (1, 5)
(2, 1) (3, 1) (4, 1) (5, 1)
(2, 3) (2, 4) (2, 5)
(3, 2) (4, 2) (5, 2)
(3, 4) (3, 5)
(4, 3) (5, 3)
(4, 5)
(5, 4)
e quindi ♯{Γ} = 20.
Campioni senza restituzione non ordinati
Gli elementi di Γ sono:
[1, 2] [1, 3] [1, 4] [1, 5]
[2, 3] [2, 4] [2, 5]
[3, 4] [3, 5]
[4, 5]
e quindi ♯(Γ) = 10.
z
Procediamo alla determinazione, in generale, di ♯{Γ} realtivamente a campioni di
ampiezza n estratti da una popolazione costituita da M unità [distinte]. Tale determinazione è importante quando, ammessa l’equiprobabilità degli elementi di Γ, per valutare la probabilità che il campione abbia una data proprietà A, dovremo ricorrere al
152
APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO
rapporto
♯{campioni con la proprietà A}
.
♯{Γ}
Cfr Paragrafo 1.3.
A.1.1 Campioni ordinati con restituzione
Il numero dei campioni ordinati con restituzione, di ampiezza n, estraibili da una popolazione di ampiezza M , è
Mn
[numero delle disposizioni con ripetizione di classe n di M oggetti].
Infatti, i campioni possibili si possono identificare con gli allineamenti di n oggetti
estratti da un’urna che ne contiene M , con la possibilità che uno stesso elemento sia
ripetuto. Due campioni si considerano distinti o per la diversità degli elementi contenuti, o per la diversità del numero di ripetizioni o per l’ordine in cui gli elementi vengono
estratti. Quindi, se si considerano n posti allineati il primo può essere occupato in M
modi diversi, il secondo in M modi diversi, . . . , l’n–esimo in M modi diversi; i primi due
in M 2 modi diversi, i primi tre in M 3 modi diversi, . . . , i primi n in M n modi diversi.
Esempio A.1.2. (a) Quante sono le possibili colonne della schedina del totocalcio?
La popolazione è costituita da 3 elementi: X, 1, 2; da essa si estrae un campione
ordinato [l’ordine conta agli effetti del concorso] con restituzione [gli elementi possono
essere ripetuti] di 13 elementi. La risposta è allora 313 .
(b) Si consideri un gruppo di n persone delle quali non ci è noto il compleanno; si
sa soltanto che sono nate in anni di 365 giorni. Quante sono le n–uple di compleanni
possibili? La risposta è 365n.
z
A.1.2 Campioni ordinati senza restituzione (n 6 M)
Il numero dei campioni ordinati senza restituzione, di ampiezza n, estraibili da una
popolazione di M unità, è
DM,n = M (M − 1) . . . (M − n + 1)
[numero delle disposizioni semplici di classe n, di M oggetti].
Per verificarlo, si considerino n posti allineati. I campioni in questione si possono assimilare ad allineamenti in quei posti; esattamente, si tratta degli allineamenti ordinati
di M elementi in n posti, con la clausola che un elemento non possa essere presente più
A.1. CAMPIONI E URNE
153
di una volta. Il primo posto si può occupare in M modi diversi, il secondo in M − 1 modi
diversi [poiché non si considera l’elemento che già occupa il primo posto], . . . , l’n–esimo
posto si può occupare in (M − n + 1) modi diversi. Quindi, i primi due posti si possono
congiuntamente occupare in M (M − 1) modi diversi, i primi tre in M (M − 1)(M − 2)
modi diversi, . . . , i primi n in M (M − 1) . . . (M − n + 1) modi diversi.
Esempio A.1.3. Su un tavolo sono disposte n buste recanti n indirizzi diversi, n lettere
ciascuna delle quali da recapitare ad uno degli indirizzi precedenti. In quanti modi
possiamo inserire le n lettere nelle n buste? Il numero rischiesto è Dn,n = n!.
z
A.1.3 Campioni non ordinati senza restituzione (n 6 M)
Il numero dei campioni non ordinati senza restituzione, di ampiezza n, estraibili da una
popolazione di M unità, è
CM,n =
M!
M
=
n!(M − n)!
n
[numero delle combinazioni semplici di classe n, di M oggetti].
Supponiamo di aver enumerato i DM,n campioni ordinati, senza restituzione, di
classe n. Ciascuno di essi, a prescindere dall’ordine, è un campione non ordinato. Inversamente, da ciascun campione non ordinato senza restituzione, di ampiezza n, si
possono generare n! campioni ordinati distinti, permutando i termini del primo in tutti
i modi possibili. Esiste, perciò, una corrispondenza che a n! campioni ordinati associa
un solo campione non ordinato; quindi, il numero che cerchiamo è
DM,n /n! =
(M )!
M (M − 1) . . . (M − n + 1)
=
.
n!
n!(M − n)!
Esempio A.1.4. (a) Quante sono le possibili mani per un giocatore servito per primo,
secondo le regole del bridge? Il giocatore riceve 13 carte diverse [n = 13] estratte da un
mazzo di 52 carte [M = 52]. Si tratta di un campione senza restituzione, non ordinato
[perché agli effetti del gioco, l’ordine con cui si ricevono le carte è irrilevante]. Il numero
cercato è pertanto 52
13 .
(b) In una collettività di 100 individui si elegge un comitato di 5 persone. Quante
sono le configurazioni possibli del comitato?
Si tratta di campioni non ordinati senza restituzione, cosicché il numero cercato è
.
z
100
5
154
APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO
A.1.4 Campioni non ordinati con restituzione
Il numero dei campioni non ordinati con restituzione, di ampiezza n, estraibili da una
popolazione di M unità, è
(M + n − 1)!
M +n−1
=
n!(M − 1)!
n
[numero delle combinazioni con ripetizione di classe n, di M oggetti].
Per spiegare ciò, indichiamo con {a1 , . . . , aM } la popolazione da cui si estrae il cam-
pione. Ad ogni campione non ordinato con restituzione associamo l’allineamento così
definito: si scrive a1 e lo si fa seguire da tanti ∗ quante sono le presenze di a1 nel cam-
pione [nessun ∗ se a1 non è rappresentato nel campione]; si scrive quindi a2 seguito
da tanti asterischi quante sono le presenze di a2 nel campione, e così di seguito fino
ad aM . Per fissare le idee, sia [a2 , a2 , a4 , a5 , a5 ] un campione di ampiezza 5 estratto da
{a1 , . . . , a9 }. Allora, l’allineamento corrispondente, usando la regola precedentemente
descritta, è
[a1 a2 ∗ ∗a3 a4 a5 ∗ ∗a6 a7 a8 a9 ].
Se, a questo punto, eliminiamo gli indici dalle a, otteniamo un allineamento di M + n
oggetti di cui M sono uguali ad a e n sono uguali ad ∗. Il primo elemento è, poi, sempre
uguale ad a. Per contare il numero di allineamenti fatti di (M − 1) elementi uguali ad
a e di n asterischi, possiamo osservare che esso è quello delle combinazioni semplici di
classe n di M + n − 1 oggetti, quindi
(M + n − 1)!
M +n−1
CM+n−1,n =
=
.
n!(M − 1)!
n
La tesi segue dal fatto che tali allineamenti sono in corrispondenza biunivoca con i
campioni che stiamo considerando.
Esempio A.1.5. (a) Si dispone di n dadi indistinguibili. Quanti sono i risultati possibli
del lancio degli n dadi? Il risultato del lancio è un campione di n elementi estratti da
{1, . . . , 6}; il campione è non ordinato, percheé i dadi sono indistinguibli, e con resti-
tuzione, perché lo stesso punteggio può presentarsi ripetutamente. Quindi, il numero
dei risultati possibili è
6+n−1
5+n
=
.
n
n
(b) Quante sono le derivate parziali di ordine n di una funzione analitica f (x −
1, . . . , xM )? Per una funzione analitica, l’ordine di derivazione è ininfluente e, quindi,
il numero delle derivate è M+n−1
.
z
n
A.2. PROBLEMI DI OCCUPAZIONE
155
A.2 Problemi di occupazione
Osserviamo che ogni problema di estrazione di campioni può essere riletto come problema di occupazione, nel senso che ora preciseremo. Tali problemi sono rilevanti nella
meccanica statistica.
Siano date n particelle, ciascuna delle quali è caratterizzata o individuata con k
dati, in modo che possa essere rappresentata con un punto di uno spazio [detto delle
fasi], avente come coordinate i k dati della particella considerata. Suddiviso lo spazio
delle fasi in M celle, il sistema fisico può essere descritto contando il numero di particelle contenute in ciascuna cella. In particolare, ogni stato del sistema può essere visto
come un allineamento di M oggetti in n posti, ovvero come un campione di n elementi
estratti da una popolazione che ne contiene M . Alle modalità di estrazione considerate in precedenza corrispondono modalità di occupazione delle celle secondo lo schema
seguente:
campioni senza restituzione ←→ occupazione con esclusione [principio di Pauli; non
è possibile che una cella sia occupata da più di una particella]
campioni con restituzione ←→ occupazione in assenza del principio di Pauli
campioni ordinati ←→ particelle distinguibli
campioni non ordinati ←→ particelle indistinguibli.
A.3 Formula di Tartaglia–Newton
Per n intero positivo e per a, b in R, vale
(a + b)n =
n X
n k n−k
a b
.
k
(A.1)
k=0
Questa formula fornisce un algoritmo per il calcolo della potenza n–esima (n intero
positivo) di un binomio; quindi, indicato con (a + b) il binomio stesso, la formula in
questione dà uno sviluppo di (a + b)n . Tenuto conto che vale
(a + b)n = (a + b) . . . (a + b),
{z
}
|
(A.2)
n fattori
la nostra attenzione si può concentrare sul calcolo del mebro di destra. Questo sarà
ovviamente una somma di termini del tipo ak bn−k con k che varia in {0, . . . , n}. Più
precisamente, il numero degli addendi coincide con quello dei modi con cui si posson
estrarre k fattori uguali ad a e (n − k) ugali a b dal prodotto di destra di (A.2). Per-
APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO
156
ció, il numero degli addendi uguali a ak bn−k è
n k n−k
.
k a b
n
k
e il loro contributo complessivo sarà
A.3.1 Una conseguenza della formula di Tartaglia–Newton
Se poniamo a = x e b = 1 la (A.1) diviene
n X
n k
x .
(1 + x) =
k
n
k=0
Pertanto
X r X s
X X r s h
k
(1 + x) (1 + x) =
x
x =
xj
,
h
k
h j−h
r
s
h>0
k>0
j>0
h
e
(1 + x)r (1 + x)s = (1 + x)r+s
X r + s
.
=
xj
j
j>0
Allora, per il principio di identità dei polinomi,
X r+s
r
s
=
.
j
h j−h
h
Questa, per j = s, diviene
X X r+s
r
s
r
s
=
=
.
s
h s−h
h h
h
h
Appendice B
Funzioni generatrici
I numeri di Fibonacci sono definiti ricorsivamente dalle seguenti relazioni
δn+1 = δn + δn−1
δ0 = 0
Si ha che
(B.1)
(n > 1)
δ1 = 1.

√ !j
1  1+ 5
δj = √
−
2
5

√ !j 
1− 5
,

2
j>1
La determinazione di δj è fra i problemi che si possono semplificare significativamente ricorrendo alle cosiddette funzioni generatrici. Si cerca, con tale metodo, di associare alla relazione data una serie di potenze o un polinomio; basta moltiplicare i
membri di (B.1) per tn , con t reale qualunque, e sommare per n = 1, 2, . . . :
X
tn δn+1 =
n>1
X
tn δ n +
n>1
X
(B.2)
tn δn−1
n>1
e, posto
g(t) =
X
tn δ n ,
n>1
tenendo conto della condizione iniziale, (B.2) diventa
X
tj−1 δj = g(t) +
j>2
X
tk+1 δk = g(t) +
k>0
ovvero
X
tj δj = tg(t) + t2 g(t).
j>2
157
X
k>1
tk+1 δk
APPENDICE B. FUNZIONI GENERATRICI
158
Allora
g(t) =
t
−t
= 2
=
2
1−t−t
t +t−1
−t
√ !
√ !.
1
1
5
5
t+ −
t+ +
2
2
2
2
L’idea su cui si fonda il metodo delle funzioni generatrici consiste, una volta ottenuta
un’espressione di g, nel cercare di riscrivere tale espressione come serie di potenze (di t)
g(t) =
X
tn a n
n>0
con i coefficenti an ben determinati, e di applicare il relativo principio di identità onde
ricavare
δn = an
(n > 0)
Nel nostro caso,




t
g(t) = − √
5






1
1
√ −
√
5
5
1
1


t+ −
t+ +
2
2
2
2












1
1
t
!
!
!
!
.
−
= −√
√
√

5
 1

1
5
5
t
t




√
√
1+
1+
+
 2− 2

1
5
1
5
2
2
2 − 2
2 + 2
√ Ora, se prendiamo t in modo che valga t/( 21 ± 25 ) 6 1, possiamo scrivere
1
1+
e quindi
g(t) =
=
=
=
t
1
2
±
=
√
5
2
X
n>0
−
t
1
2
±
√
5
2
!n
,


n 
X
X 2t n
2
2t
t  2
√
√
√
−
−√
−√
5  1 − 5 n>0
5−1
1 + 5 n>0
5+1 


n
n

X
2
2
2
2
t X
√ tn −
√ tn
√
−√
−√
5 n>0
5−1
1− 5
5+1
1+ 5 
n>0
n
n
X
2
1
2
2
2
1
√
√ −√
√
√
−
tn+1 √
5
1+ 5
1+ 5
5
5−1
1− 5
n>0
)
(
j−1
j−1
X
2
2
2
2
1
1
j
√
√ −√
√
√
√
−
.
t
5
1+ 5
1+ 5
5
5−1
1− 5
j>1
Poiché due serie di potenze che sono uguali su tutto un intervallo devono necessariamente avere i coefficienti identici, perveniamo a scrivere
159
X
tn δn = g(t) =
n>1
X
j>1
tj
(
1
√
5
−
2
√
1+ 5
j−1
2
1
√ −√
1+ 5
5
2
√
5−1
j−1
da cui:
j−1
j−1
2
2
2
2
1
√
√
√ −√
√
−
1+ 5
1+ 5
5
5−1
1− 5
(
j j )
1
2
2
j−1
√
= √
(−1)
+ √
5
1+ 5
5−1
( √
)
√
−( 5 − 1)j (−1)j + (1 + 5)j
2j
= √
√
√
j
5
( 5 − 1)j ( 5 + 1)
√
√
2j (1 + 5)j − (1 − 5)j
=√
4j
5


!j
√
√ !j
1  1+ 5
1− 5 
= √
−
,
j > 1.

2
2
5
1
δj = √
5
2
√
1− 5
)
,
Scarica