47
CAPITOLO III
VARIABILI ALEATORIE
3.1 _ Definizione
Per numero aleatorio o variabile aleatoria si intende una funzione reale che fa
corrispondere ad ogni risultato di uno spazio campione Ω, probabilizzato, un numero reale;
è una grandezza della quale non si conosce a priori il valore che assumerà, ma solo il range
di valori che effettivamente potrà assumere (es. numero di anni prima che una
obbligazione venga estratta, tempo di durata di una lampadina).
Le più semplici variabili aleatorie sono quelle che assumono un numero discreto
finito di determinazioni, x1 < x2 <..< xn, che disporremo per comodità in ordine crescente,
ciascuna legata alla realizzazione di uno degli eventi E1, E2,.., En, formanti un sistema
completo di casi elementari possibili o partizione di Ω.
Nel caso di variabili aleatorie discrete infinite oppure continue infinite indicheremo
l'intervallo (a,b), aperto o chiuso, in cui i valori, indistinti uno dall’altro, possono cadere.
Noti i valori del numero aleatorio, devono essere assegnate le corrispondenti
funzioni di probabilità p1 < p2 <..< pn <…degli eventi associati, che nel caso in cui
costituiscono un insieme numerabile devono soddisfare la condizione di normalizzazione Σ
i
pi=1.
La distribuzione di probabilità di una variabile aleatoria viene quindi definita
dall’insieme delle determinazioni e dalle relative funzioni di probabilità. Se chiamiamo
spazio di probabilità il sistema completo di eventi incompatibili, una variabile casuale può
essere definita come una funzione avente per dominio uno spazio di probabilità e come
codominio un sottoinsieme di numeri reali.
La corrispondenza tra i valori assunti dalla variabile casuale e le rispettive
probabilità pi si chiama legge (funzione o distribuzione) di probabilità della X. In termini
fisici le legge ripartisce una massa unitaria in frammenti attribuibili ad ogni
determinazione. Geometricamente si esprime riportando in ordinata la quantità di massa
distribuita sui singoli valori disposti in ascissa. Nel caso discreto, la poligonale della
distribuzione da una visione ottica della legge di distribuzione; ciò non è possibile nel caso
continuo, in cui la probabilità che la variabile casuale assumi un ben determinato valore è
48
0.
Esempi
a) Considerate due urne, in una delle quali vi siano i numeri 5,6,7,8 e nell'altra i numeri
20,21,22. Si estragga un numero da ciascuna delle due urne e se ne faccia la somma. Gli eventi
possibili sono
E1=25, E2=26, E3=27, E4=28, E5=29, E6=30
con probabilità rispettive
p1=1/12, p2=2/12, p3=3/12, p4=3/12, p5=2/12, p6=1/12 tali che Σi pi =1
3.2 _ Funzione di distribuzione
La distribuzione di una variabile aleatoria X discreta oltre che sotto forma di
funzione di probabilità pi=pr(X=xi), può essere data anche attraverso la probabilità che
essa assuma un valore inferiore ad un prefissato valore x. Si ottiene la funzione di
distribuzione o di ripartizione F(x), o legge di probabilità cumulata, strumento che
permette di caratterizzare variabili casuali sia continue che discrete, fig. 3.1a-b. Si ha:
(3.1) F(x) = pr(-∝<X≤x) = pr(X≤x) =
∑
i / xi ≤x
pi ;
F(x) è una funzione sulle cui caratteristiche essenziali non ci soffermiamo, diciamo
solo che per una variabile casuale continua è anch’essa una funzione continua.
F(x1) =pr(X≤ x1)= p1
F(x2) =pr(X≤ x2)= p1+p2
La funzione di ripartizione, come la legge di distribuzione, definisce in modo quasi
completo il numero aleatorio e pertanto sarà lo strumento essenziale per lo studio di eventi.
3.3 _ Funzione di densità
La distribuzione di una variabile casuale X continua è definita dall’insieme non
numerabile dei valori che la variabile aleatoria può assumere e da una funzione che mostra
come X si distribuisce sul proprio campo di variazione. Tale funzione, oltre che nella
forma di funzione di ripartizione (3.1), può essere data anche sotto forma di funzione di
densità di probabilità.
(3.3) lim
Δx →0
F ( x + Δx) − F ( x)
d F ( x)
=
= F ' ( x ) , cioè una nuova funzione f (x )
dx
Δx
49
il cui valore numerico di f(x) non è una probabilità, ma esprime la velocità di
variazione della probabilità nel punto x. Se poi x è variabile su (a,b), f(x) è una funzione
che avrà le stesse prerogative della legge di distribuzione dei valori discreti.
La funzione f(x) dice come si addensa la probabilità: a parità di dx, pr(x≤X≤ x+dx) =
pr(x∈dx); essa è tanto più alta quanto più è grande il valore di f(x) in x e viceversa.
L’esistenza della f(x) deriva dalla condizione di derivabilità di F(x), mentre la sua
positività deriva dal fatto di essere derivata di una funzione non decrescente. Conoscendo
f(x), la funzione integrale permette di passare da f(x) ad F(x), attraverso una delle primitive
di f(x):
x
(3.5)
F(x) = pr(X<x) =
∫ f (t )dt
−∞
Avendo F(x) oscillazione pari a 1, l’equivalente della condizione di normalizzazione
+∞
per casi discreti, qui si traduce in
∫ f ( x)dx
= 1.
−∞
È da rilevare che f(x) dx è un elemento di probabilità ed assolve lo stesso ruolo
assolto dalle pi nelle variabili casuali discrete. Infatti la pr(α<X<β), in termini di funzione
β
di densità, è data da
∫ f ( x)dx
ed, in termini di funzione di ripartizione, da F(β)-F(α).
α
3.4 _ Caratteristiche di posizione
Il baricentro della distribuzione, che sinteticamente esprime l'andamento generale, è
detto valor atteso, ed è una media ponderata con le probabilità (se uguali si ha una media
aritmetica semplice), oppure con le frequenze relative hi/N dei valori xi, legati agli eventi
Ei, verificatisi hi volte, in N prove,
(3.6)
M(X) = μ = ∑ i xi pi =
∑x
i
i
hi
N
Tale numero esprime la previsione della media aritmetica dei valori che il numero
aleatorio assumerà in un numero N grande di prove. È importante dire un gran numero di
prove perché la frequenza è rappresentata dalla probabilità in un gran numero di prove. Il
valor medio per un numero aleatorio discreto e finito esiste sicuramente; per variabili
casuali discrete infinite si ha una serie che potrebbe non convergere.
Per moda di una variabile casuale discreta si intende il valore per cui è massima la
50
probabilità; per variabile casuale continue è quel valore di x per cui la funzione di densità
presenta un massimo; se presenta più massimi la distribuzione dicesi pluri-modale.
Per mediana si intende quel valore in cui la probabilità che la variabile casuale
assuma un valore inferiore ad esso è uguale alla probabilità che la variabile casuale assuma
un valore superiore, fig. 4.10
pr(X < x) = pr( X > x)
Come per una variabile statistica, per quantile qα di ordine α della distribuzione di
una variabile casuale X, si intende il più piccolo numero qα che soddisfa F(qα)≤α, se
discreta , oppure F(qα)=α, se continua.
+∞
(3.8bis)
M(X) =
∫ x f ( x)dx
−∞
Il valor medio ci dice solo il valore centrale del campo dei valori del numero
aleatorio, ma non ci dice nulla sulla grandezza del range. Dobbiamo vedere quindi se tutti i
valori sono addensati intorno al valor medio o se sono lontani da esso. Ad esempio, le due
variabili casuali X1 ed X2 in tabella
X1
p1
-100
.4
250
.6
X2
p2
50
.4
150
.6
hanno lo stesso valor medio e quindi la scelta sembrerebbe indifferente, ma non è
così perché la prima operazione prevede anche una perdita mentre la seconda prevede
comunque solo vincite: la prima è più rischiosa. Per avere una idea su questo aspetto
dobbiamo misurare gli scarti rispetto al valor medio.
3.5 _ Variabile casuale scarto
Costruiamo la variabile casuale scarto
Y=X-µ,
avente generica determinazione yi=xi-µ, per i=1,..n, corrispondente dell’evento Ei di
probabilità pi. Il suo valor medio risulta:
M(Y)= Σi yi pi = Σi (xi-µ) pi = µ- Σi µ pi=0
cioè somma algebrica degli scarti sempre nulla. Poiché la variabile aleatoria scarto
non fornisce nessuna informazione ulteriore, consideriamo la corrispondente variabile
casuale scarto assoluto |Y| = |X-µ|, che ha valor medio
51
M (|Y|) = Σ |yi pi| = Σ | (xi-µ) pi |.
Però il valore assoluto è difficile da trattare analiticamente poiché, presentando punti
angolosi, non è derivabile. Quindi al fine di avere gli scarti espressi positivamente, si eleva
Y a potenza pari, ottenendo analogamente:
Y²=(X-µ)² con il valore generico yi²=(xi-µ)².
Calcoliamo il suo valor medio, momento secondo rispetto a μ, detta varianza:
Var(Y)= Σi (xi-µ)² pi
Tale grandezza fornisce la dimensione dei quadrati degli scarti. Volendo tornare per
comodità alla stessa dimensione degli scarti, si utilizza lo scarto quadratico medio σ=√σ²;
Al crescere di σ, diminuisce l’addensamento dei valori rispetto a µ; è in realtà un
indicatore di dispersione, di densità, di concentrazione.
Valgono per la varianza le proprietà già viste per una variabile statistica e così pure
le due importanti relazioni:
m ( 2 ) = σ² = Σi (xi-µ)² pi = Σi x²i pi - 2 µ Σi xi pi + µ² Σi pi = M(X²)-2µ²+µ²=
= m( 2 ) - m(21) ,
Il momento secondo centrale è uguale al momento secondo rispetto all'origine meno
il valor medio.
3.7 _ Variabile casuale bernoulliana
E’ lo schema dell’esperimento bernoulliano che consiste in due prove legate ad un
evento elementare le cui realizzazioni nello spazio Ω(E,E) sono ripartite in un sistema
completo di eventi. Dato un evento E, indichiamo con |E| la variabile casuale indicatore di
E, che permette di collegare il calcolo delle probabilità classico che usa gli eventi a quello
moderno che usa le variabili casuali. Essa assume i valori
|E| =1 se si verifica l'evento E, con pr(E)= p
|E| =0 se si verifica E, con pr(E )= q=1-p
Il valor medio è M(|E|)=1p+0q=p, cioè la probabilità dell'evento e la varianza:
Var(|E|) = (0-p)²(1-p)+(1-p)²p = p²q+q²p=pq
3.8 _ Distribuzione uniforme discreta
È la distribuzione definita per valori aventi tutti la stessa frequenza relativa:
52
⎧1
per x = 1,2,...n
⎪
f(x) = ⎨ n
⎪⎩0 altrove
n 1
∑
i =1 n
=n
1
=1
n
f(x)
1/n
1 2 3
Fig. 3.4
k
n
La F(x), che per x < 1 vale 0 e per x>n vale 1, assume valore
x 1
F(x) = ∑
i =1 n
=
x
, per 1≤x≤n
n
1 n +1
=
2
n
k =1
n
M(X)= m(1) = ∑ k
n
Var(X) = m( 2 ) -µ² = ∑ k 2
k =1
1 ⎛ n +1⎞
1 n(n + 1)(2n + 1) ⎛ n + 1 ⎞
n2 −1
−⎜
=
−
=
⎟
⎜
⎟
6
12
n ⎝ 2 ⎠
n
⎝ 2 ⎠
2
2
3.9 _ Distribuzione uniforme continua
Considero un numero aleatorio X definito in un intervallo (a,b); poiché una scelta a
caso può cadere su qualsiasi valore x in esso incluso, non potremo dare la probabilità ad un
particolare numero che fosse diversa da quella daremmo ad altri; tutti i valori sono
equiprobabili e quindi il numero aleatorio ha densità di probabilità costante:
⎧k
f ( x) = ⎨
⎩0
per a ≤ x ≤ b
altrove
b
in cui k è una costante da trovare attraverso le condizioni k>0 ed
∫ k dx =1
a
Si ha k(b-a)=1 e quindi k = 1/(a-b)
La funzione F(x), per a≤ x≤b, assume valore
53
a
F(x) =
+∞
x−a
1
dt + ∫ 0dx =
b−a
b−a
b
a
x
∫ 0dx + ∫
−∞
Volendo calcolare la probabilità che x sia compreso in un intervallo di estremi (c,d)
compresi in (a,b), si ha:
pr(c<x<d) = F(d)-F(c) =
d
usando f(x) ottengo
d −a c−a d −c
−
=
b−a b−a b−a
d −c
1
∫ b − a dx = b − a
c
Per i momenti abbiamo:
µ = (a+b)/2
σ² = (b-a)2/12
Esempio
Considero ora un numero aleatorio X definito nell'intervallo (0,1); esso ha densità di
probabilità e funzione di ripartizione:
⎧0 per x ≤ 0
⎧0 per x ≤ 0
⎪
⎪
ed
F ( x) = ⎨ x per 0 < x < 1
f ( x) = ⎨1 per 0 < x < 1
⎪1 per x ≥ 1
⎪0 per x ≥ 1
⎩
⎩
F(x)
1
Δx
0.2
Fig. 3.7
0.7
Allora, volendo calcolare pr(0.2<x≤0.7), si ha F(.7)-F(.2)=.7-.2=.5 ed espresso
analiticamente F(x+Δx)-F(x)=f(x) Δx, ma essendo Δx=(0.7-0.2)=0.5, ne segue che f(x)=1.
3.10 _ La legge normale
La legge normale è una variabile causale continua avente funzione di densità
−
1
e
f(x)=
σ 2π
( x− μ )2
2σ 2
La distribuzione, completamente specificata dai parametri μ e σ, da calcolare con le
(3.8-9), è simmetrica intorno al punto medio M, coincidente con media, moda e mediana.
M=(μ,1 σ 2 π ), ed avente punti di flesso F aventi coordinate
F=( μ±σ, 1 σ 2 eπ ).
54
Se alziamo due perpendicolari dai punti che giacciono rispetto alla media ± 1σ, l'area
compresa fra esse e l'asse delle ascisse è pari al 68%; a ±2σ è il 95%; a ±3σ è il 99.7%.
3.11 _ La legge normale standardizzata
Per una variabile casuale normale X=N(μ,σ²), la trasformazione
Z=
X −μ
σ
produce una variabile casuale di legge normale avente media 0 e varianza 1, N(0,1),
detta normale standardizzata. In altre parole se si vuole conoscere la probabilità che X∈[µ-
σ,µ+σ], basta calcolare la probabilità che Z∈f([µ-σ,µ+σ])≡[-1,1]. Infatti z=[(µ-σ)-µ]/σ=-1
e poiché la z=f(x) è crescente, all'aumentare di x aumenteranno anche i valori di z: ad
esempio quando x raggiunge il valore µ+σ, z raggiunge il valore 1.
x
f(x)
μ−σ
μ
μ+σ
-1
0
+1
La variabile Z ha come funzione di densità
f (z) =
1
2π
z2
e 2
−
Definita la sua funzione di ripartizione con
Φ(z) = pr(Z≤z), abbiamo sussiste la relazione fondamentale:
F(x) = pr(X≤x) = pr(σZ+μ ≤ x) = pr(Z ≤ (x -μ)/σ) = pr( Z≤ z) = Φ(z)
Per cui fissata una probabilità α molto piccola, sono tabulati i quantili zα per cui:
pr(Z < zα ) = 1-α = Φ(zα), di conseguenza per:
pr(Z < -zα) = pr ( Z > zα ) = α = 1 - Φ(zα),
f(z)
Φ( zα)
fig. 3.5
μ=0
zα
55
Esempio
Una persona è sorteggiata da una popolazione di altezza media 177.80cm e scarto 5.08cm.
Calcolare la probabilità che la persona superi l’altezza di 182.88 cm?
pr(X>182.88) = pr ((x-177.8)/5.08 > ((182.88-177.8)/5.08) = pr (Z>1) ≈ 1-Φ(1) =.16.
La distribuzione normale è di notevole importanza nell’inferenza statistica, basta
citare il teorema che va sotto il nome di teorema del limite centrale
Sia {Sn} la somma di n variabili casuali indipendenti Xi aventi uguale legge di
probabilità o identicamente distribuite sopra lo stesso insieme finito di valori, tutte con
media M(Xi)=μ e scarto σ(Xi)=σ. Il teorema afferma che per n grande la distribuzione di
Sn è approssimativamente normale con media M(Sn)=nμ e scarto σ(Sn)=σ n , cioè:
{Sn} converge in legge verso N(nμ, σ n ).
Tale convergenza non riguardo solo Sn ma anche variabili aleatorie da essa derivate
come {Yn}=Sn/n, che avrà media M(Yn)=nμ/n=μ e varianza Var(Yn)=nσ2/n2=σ2/n, cioè:
{Yn} converge in legge verso N(μ, σ/ n ).
Per quest’ultima variabile aleatoria la legge dei grandi numeri è ancor più esplicita,
in quanto per n grande Yn tende a μ, con variabilità tendente a zero; ciò significa che quello
e che era un fenomeno aleatorio, diventa allora un fenomeno certo.
S − nμ
, essendo M(Zn)=0 e Var(Zn)=1,
La variabile casuale standardizzata Zn= n
σ n
converge in legge verso N(0, 1).
Ciò significa che la probabilità per cui a ≤ Sn≤ b è
pr(
a − nμ
σ n
≤
S n − nμ
σ n
≤
b − nμ
σ n
) ≈ Φ(
b − nμ
σ n
) - Φ(
a − nμ
σ n
)
3.14 _ Variabile casuale binomiale
Occupiamoci di calcolare la probabilità che su n prove, equiprobabili e indipendenti,
un certo evento abbia x successi, 0≤x≤n: è la somma di n bernoulliane
⎛n⎞
n!
pr(X=x) = Pn , x = ⎜⎜ ⎟⎟ p x q n− x =
p x q n− x
x! (n − x)!
⎝ x⎠
La loro somma soddisfa la condizione di normalizzazione:
∑
n
x =0
Pn , x = ( p + q) n = 1
∑
n
i =1
Ei
56
Considerato che gli Ei sono indipendenti, risulta:
M(X) = np, valore che risulta maggiore della varianza
Var(X)=Var( ∑in= 1 Ei ) =
∑
n
σ 2 ( Ei ) = npq
i =1