VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI Fonti

VARIABILI ALEATORIE MULTIPLE
E TEOREMI ASSOCIATI
Fonti: Cicchitelli, Dall’Aglio, Mood-Graybill.
Moduli 6, 9, 10 del programma.
VARIABILI ALEATORIE DOPPIE
Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che
associa ad ogni evento elementare dello spazio campionario uno ed un solo numero
reale, è del tutto naturale estendere questo concetto al caso di due o più dimensioni.
ESEMPIO 1:
Si consideri lo spazio campionario ottenuto lanciando tre monete ben equilibrate e si
pensi di associare ad ogni evento elementare il “numero di realizzazioni con il risultato
Testa” (v.a. X) e il “numero di variazioni nella sequenza” (v.a. Y), intendendo con questo
il numero di volte in cui si passa dal simbolo “Testa” al simbolo “Croce”. Indicando con
T = “Testa” e C = “Croce”, si ottiene:
ω
X
Y
P(ω)
ω1 = TTT
3
0
1/8
ω2 = TTC
2
1
1/8
ω3 = TCT
2
2
1/8
ω4 = CTT
2
1
1/8
ω5 = CCT
1
1
1/8
ω6 = CTC
1
2
1/8
ω7 = TCC
1
1
1/8
ω8 = CCC
0
0
1/8
1
Ad ogni coppia distinta di valori (x, y) è possibile associare un livello di probabilità che
è pari alla probabilità dell’evento o alla somma delle probabilità degli eventi elementari
che danno luogo a tale coppia. Si ottengono pertanto i seguenti livelli di probabilità:
P(X = 0, Y = 0) = P(ω8 = CCC) = 1/8;
P(X = 1, Y = 1) = P(ω5 = CCT) + P(ω7 = TCC) = 2/8;
P(X = 1, Y = 2) = P(ω6 = CTC) = 1/8;
P(X = 2, Y = 1) = P(ω2 = TTC) + P(ω4 = CTT) = 2/8;
P(X = 2, Y = 2) = P(ω3 = TCT) = 1/8;
P(X = 3, Y = 0) = P(ω1 = TTT) = 1/8.
Dette probabilità possono essere riportate nella seguente tabella a doppia entrata:
X
Y
0
1
2
p(x)
0
1/8
0
0
1/8
1
0
2/8
1/8
3/8
2
0
2/8
1/8
3/8
3
1/8
0
0
1/8
p(y)
2/8
4/8
2/8
1
Variabile aleatoria doppia discreta
Dato uno spazio campionario discreto Ω, si chiama variabile aleatoria doppia discreta la
funzione (X, Y), definita in ℜ 2 , che associa ad ogni evento elementare ωi dello spazio
campionario Ω la coppia di numeri reali (x, y), essendo x = X(ω) e y = Y(ω).
Come visto nell’esempio, è possibile assegnare ad ogni coppia (x, y) un livello di
probabilità, che prende il nome di funzione di probabilità congiunta:
p(x, y) = P(X = x, Y = y).
2
La parola “congiunta” deriva dal fatto che questa probabilità è legata al verificarsi di
una coppia di valori, il primo associato alla v.a. X ed il secondo alla v.a. Y.
La funzione di probabilità gode delle seguenti proprietà:
i) p(x, y) ≥ 0
ii)
∑ ∑ p (x , y ) = 1 ; il segno di doppia sommatoria indica che la somma è estesa,
x y
rispettivamente, a tutti i valori di X e a tutti i valori di Y.
Per determinare la probabilità che la v.a. (X, Y) assuma valori in un qualsiasi
sottoinsieme A:
P [(x , y ) ∈ A ] =
∑ ∑ p (x , y ) ,
dove la somma è estesa a tutte le coppie (x, y)
( x , y )∈A
appartenenti ad A.
Funzioni di probabilità marginali
Data la funzione di probabilità congiunta p(x, y) è possibile pervenire alla costruzione
della funzione di probabilità della singola v.a., X o Y:
pX (x ) = P (X = x ) = ∑ p (x , y )
y
pY (y ) = P (Y = y ) = ∑ p (x , y )
x
che prendono, rispettivamente, il nome di funzione di probabilità marginale di X e
funzione di probabilità marginale di Y.
Facendo riferimento all’esempio 1, si possono costruire le funzioni di probabilità di X e
di Y:
3
X
pX(x)
0
1/8
1
3/8
2
3/8
3
1/8
Funzione di probabilità marginale di X
1
Y
pY(y)
0
2/8
1
4/8
2
2/8
Funzione di probabilità marginale di Y
1
Funzioni di probabilità condizionate
Data una v.a. doppia, può avere senso introdurre il concetto di relazione che lega Y ad
X. Si può quindi studiare la distribuzione di probabilità di Y per livelli assegnati di X: si
vuole quindi capire se e in che modo il livello di X va ad influenzare la distribuzione di
probabilità di Y.
Data la v.a. doppia discreta (X, Y), descritta dalla funzione di probabilità congiunta
p(x, y), si vuole definire la funzione di probabilità di Y condizionata ad un prefissato
valore di X. Posto X = x si definisce funzione di probabilità condizionata di Y dato X:
p (y x ) = P (Y = y X = x ) =
P (Y = y ∩ X = x ) p (x , y )
=
pX (x )
P (X = x )
con
pX (x ) > 0 ; (si ricordi la
definizione di probabilità condizionata vista nelle probabilità elementari).
Analogamente, fissato un particolare valore di Y, è possibile definire la funzione di
probabilità condizionata di X dato Y:
4
p (x y ) = P (X = x Y = y ) =
P (X = x ∩ Y = y ) p ( x , y )
=
pY ( y )
P (Y = y )
con
pY ( y ) > 0 .
E’ immediato verificare che:
P (X = x Y = y ) ≥ 0 e
P (X
∑
x
= x Y = y ) = 1;
P (Y = y X = x ) ≥ 0 e
∑y P (Y
= y X = x ) = 1.
Facendo ancora riferimento all’esempio 1, si ottiene:
X
p(xly2)
0
0
1
1/2
2
1/2
3
0
Funzione di probabilità condizionata di X dato Y = y2
1
Y
p(y lx2)
0
0
1
2/3
2
1/3
Funzione di probabilità condizionata di Y dato X = x2
1
Indipendenza stocastica
Dalla definizione di distribuzione di probabilità condizionata è possibile derivare la
nozione di indipendenza stocastica (o semplicemente indipendenza); infatti, se:
P (X = x Y = y ) = P (X = x )
∀y
5
cioè se X non dipende da Y, allora si può dire che X è indipendente da Y; e se:
P (Y = y X = x ) = P (Y = y )
∀x
cioè se Y non dipende da X, allora si può dire che Y è indipendente da X.
Se X è indipendente da Y, allora si ottiene che:
P (X = x ,Y = y ) = P (X = x ) ⋅ P (Y = y ) ,
e se Y è indipendente da X, si ottiene che:
P (X = x ,Y = y ) = P (X = x ) ⋅ P (Y = y )
da cui si può dedurre che la relazione di indipendenza è simmetrica, e si dice che X e Y
sono indipendenti (X ⊥ Y ) .
Valore atteso congiunto, Covarianza e Correlazione
Il valore atteso e la varianza, così come definiti per una v.a. unidimensionale, non
possono essere applicati al caso bidimensionale.
In questo contesto si possono definire il valore atteso congiunto E(XY), la covarianza
Cov(X,Y) e il coefficiente di correlazione lineare ρ (X ,Y ) , dati da:
E (XY ) = ∑ ∑ x ⋅ y ⋅ p (x , y ) ;
x
y
Cov (X ,Y ) = ∑ ∑ (x − E (X ) ) ⋅ (y − E (Y ) ) ⋅ p (x , y ) ;
x
y
6
ρ (X ,Y ) =
Cov (X ,Y )
.
σ (X ) ⋅ σ (Y )
Nota: La covarianza può anche essere calcolata nel seguente modo:
Cov (X ,Y ) = ∑ ∑ (x − E (X ) ) ⋅ (y − E (Y ) ) ⋅ p (x , y ) =
x
y
= ∑ ∑ x ⋅ y ⋅ p (x , y ) −∑ ∑ x ⋅ E (Y ) ⋅ p (x , y ) −∑ ∑ E (X ) ⋅ y ⋅ p (x , y ) +
x
y
x
y
x
y
+ ∑ ∑ E (X ) ⋅ E (Y ) ⋅ p (x , y ) =
x
y
= E (XY ) − E (Y ) ⋅ ∑ x ∑ p (x , y ) −E (X ) ⋅ ∑ y ∑ p (x , y ) +
x
y
y
x
+ E (X ) ⋅ E (Y ) ⋅ ∑ ∑ p (x , y ) =
x
y
= E (XY ) − E (Y ) ⋅ ∑ x ⋅ pX (x ) −E (X ) ⋅ ∑ y ⋅ pY (y ) +E (X ) ⋅ E (Y ) =
x
y
= E (XY ) − E (Y ) ⋅ E (X ) − E (X ) ⋅ E (Y ) + E (X ) ⋅ E (Y ) =
= E (XY ) − E (Y ) ⋅ E (X )
cioè come differenza tra il valore atteso congiunto e il prodotto tra il
valore atteso della distribuzione marginale di X e il valore atteso della
distribuzione marginale di Y.
Esempio 2:
Data la seguente distribuzione congiunta:
X
Y
0
1
2
p(xi)
1
0
2/8
1/8
3/8
2
0
3/8
1/8
4/8
3
1/8
0
0
1/8
p(yJ)
1/8
5/8
2/8
1
7
calcolare il valore atteso congiunto, la covarianza e il coefficiente di correlazione
lineare.
E (XY ) = 1 ⋅ 1 ⋅
E (X ) = 1 ⋅
2
3
1
1 14 7
+ 2 ⋅1 ⋅ + 1 ⋅2 ⋅ + 2 ⋅2 ⋅ =
= ;
8
8
8
8 8 4
3
4
1 7
+ 2⋅ + 3⋅ =
8
8
8 4
Cov (XY ) =
E (Y ) = 0 ⋅
e
7 7 9
7
− ⋅ =−
;
4 4 8
32
2
2
3
4
1 7
7
Var (X ) = 1 ⋅ + 22 ⋅ + 32 ⋅ −   =
8
8
8 4
16
2
−7
ρ (X ,Y ) =
1
5
2 9
+1⋅ +2⋅ = ;
8
8
8 8
7
16
32
⋅ 23
=−
64
e
5
2 9
23
Var (Y ) = 1 ⋅ + 22 ⋅ −   =
;
8
8 8
64
2
7
= 0,552 .
161
Per comprendere il significato della covarianza e del coefficiente di correlazione
lineare, si consideri l’esempio:
Esempio 3:
Rappresentare mediante un diagramma di dispersione la seguente v.a. doppia:
x
y
P(x, y)
2
1
0,1
2
4
0,1
3
2
0,2
5
2
0,1
5
3
0,2
5
4
0,1
6
4
0,2
8
Il diagramma di dispersione non è altro che la rappresentazione delle coppie di punti,
individuati dalle v.a. X,Y e si ottiene ponendo i valori di X sull’asse delle ascisse e quelli
di Y sull’asse delle ordinate. Riportando nel medesimo grafico anche le rette
individuate dai due valori attesi, rispettivamente, di X e di Y, si ha:
E(X) = 4,2
e
E(Y) = 2,9
Diagramma di dispersione
6
5
y
4
X, Y
3
E(X)
2
E(Y)
1
0
0
2
4
6
8
x
La nuvola di punti viene così suddivisa in 4 quadrati, numerati in senso antiorario e
partendo da quello in alto a destra.
Per i punti che si trovano nel I quadrante vale che:
x > E (X ) e y > E (Y )
⇒
(x
− E (X ) ) ⋅ (y − E (Y ) ) > 0
Per i punti che si trovano nel II quadrante vale che:
x < E (X ) e y > E (Y )
⇒
(x
− E (X ) ) ⋅ (y − E (Y ) ) < 0
Per i punti che si trovano nel III quadrante vale che:
9
x < E (X ) e y < E (Y )
⇒
(x
− E (X ) ) ⋅ (y − E (Y ) ) > 0
Per i punti che si trovano nel IV quadrante vale che:
x > E (X ) e y < E (Y )
⇒
(x
− E (X ) ) ⋅ (y − E (Y ) ) < 0
Si può calcolare il valore atteso dei prodotti degli scarti, che non è altro che la
covarianza:
Cov (X ,Y ) = ∑ ∑ (x − E (X ) ) ⋅ (y − E (Y ) ) ⋅ p (x , y ) ,
x
y
che in questo caso vale Cov(X, Y) = 0,82.
Se prevalgono punti nel I e III quadrante la nuvola di punti avrà un andamento
crescente e la covarianza segno positivo; mentre se prevalgono punti nel II e IV
quadrante la nuvola di punti avrà un andamento decrescente e la covarianza segno
negativo.
Se la covarianza è nulla si dice che le due v.a. sono tra loro incorrelate o linearmente
indipendenti (si introduce così un secondo tipo di indipendenza, più debole, dopo quello
di indipendenza stocastica).
Se Cov(X, Y) > 0 la relazione tra X e Y è diretta, per cui a valori bassi di X tendono ad
associarsi valori bassi di Y e a valori elevati di X tendono ad associarsi valori elevati di
Y.
Se Cov(X, Y) < 0 la relazione tra X e Y è inversa, per cui a valori bassi di X tendono ad
associarsi valori elevati di Y e a valori elevati di X tendono ad associarsi valori bassi di
Y.
10
La covarianza non è un valore di facile interpretazione perché non è noto il suo range di
variazione (valore minimo e valore massimo che può assumere), quindi di essa è possibile
dare un’interpretazione del segno (positivo, negativo o nullo), ma non del valore.
Al fine di normalizzare la covarianza è possibile dimostrare che:
[Cov (X ,Y )]2 ≤ Var (X ) ⋅Var (Y )
⇒ − σ X ⋅ σ Y ≤ Cov (X ,Y ) ≤ σ X ⋅ σ Y
da cui si ottiene il coefficiente di correlazione lineare:
ρ (X ,Y ) =
Cov (X ,Y )
σ X ⋅ σY
⇒ − 1 ≤ ρ (X ,Y ) ≤ +1
che risulta pertanto un indice normalizzato tra -1 e +1, in modo tale da tenere conto sia
dei valori positivi che di quelli negativi della covarianza.
Il coefficiente di correlazione lineare misura l’intensità del legame lineare tra due v.a.
X e Y ed ha lo stesso segno della covarianza (infatti il numeratore è positivo o
negativo, mentre il denominatore è sempre positivo).
Tanto più
ρ (X ,Y ) → 1 tanto più la relazione lineare è stretta e i punti si dispongono
più o meno attorno ad una retta.
Se
ρ (X ,Y ) = +1
la relazione tra X e Y è del tipo Y = a + b X (con b > 0) e nel
diagramma di dispersione i punti sono allineati, come nel grafico che segue:
Relazione lineare diretta
30
25
y
20
15
10
5
0
0
2
4
6
8
10
x
11
Se
ρ (X ,Y ) = −1
la relazione tra X e Y è del tipo Y = a + b X (con b < 0) e nel
diagramma di dispersione i punti sono allineati come nel grafico che segue:
y
Relazione lineare inversa
16
14
12
10
8
6
4
2
0
0
2
4
6
8
10
x
Nell’esempio si ha:
ρ (X ,Y ) =
0,82
= 0,534
2,16 ⋅ 1,09
che indica un grado di correlazione lineare diretta di media intensità.
Nota: Confrontando l’indipendenza stocastica con l’indipendenza lineare si può
dire che l’indipendenza stocastica implica quella lineare, ma non vale il viceversa:
Indipenden za stocastica
⇒ Indipenden za
lineare
Esempi di correlazione
I sei grafici che seguono (indicati con le lettere A, B, C, D, E, F) mostrano alcune
situazioni del coefficiente di correlazione lineare ρ(X,Y) che meritano di essere
commentate.
12
A. Un valore del coefficiente di correlazione lineare pari ad 1 indica che tra le due v.a.
X ed Y esiste una perfetta relazione lineare per cui punti del diagramma di dispersione
giacciono tutti su una retta (nel grafico non è così evidente perché i punti sono
migliaia), caratterizzata da un coefficiente angolare positivo. Quindi i valori di Y
possono essere determinati dall’equazione della retta che lega Y ad X.
B. Un valore del coefficiente di correlazione lineare pari a 0,69 indica una relazione
diretta (trend crescente) di media intensità. I punti mostrano in modo evidente il
trend crescente, anche se non si dispongono in modo evidente attorno ad una retta.
C. Il valore del coefficiente di correlazione lineare è ancora pari a 0,69 anche se la
relazione tra X ed Y pur essendo di forma evidente (è di tipo parabolico), non è
assolutamente di tipo lineare. Per valori bassi di X il trend è decrescente, mentre per
valori elevati diventa crescente.
D. Un valore del coefficiente di correlazione lineare pari a –0,96 indica che la relazione
tra X e Y è di tipo lineare e molto stretta (i punti sono “quasi” allineati), ma mostra un
trend decrescente.
E. ed F. Questi ultimi due grafici mostrano due situazioni molto diverse in cui il
coefficiente di correlazione lineare è pari a 0, che indica un caso incorrelazione, cioè di
mancanza di relazione lineare tra X e Y.
Nel grafico E la relazione è molto forte (i punti tendono a disporsi lungo una
circonferenza), ma non è assolutamente lineare, mentre nel grafico F non c’è nessun
tipo di relazione.
13
A
B
D
C
E
F
14
Nota: Per commentare correttamente il valore del coefficiente di correlazione lineare
è importante guardare il grafico; il “numero” potrebbe trarre in inganno (situazione C)!
L’intensità della relazione lineare indicata dal valore potrebbe essere smentita dal
grafico.
Distribuzione ipergeometrica estesa
Questa v.a. doppia discreta non è altro che una generalizzazione della ipergeometrica
in cui, anziché avere solo due risultati possibili (del tipo A e A ), ce ne sono k.
Si consideri un insieme di N unità di cui M1 di tipo A1, M2 di tipo A2, …, Mk di tipo Ak,
con
k
N = ∑ Mi ;
si
estraggano
n
unità
senza
reimmissione.
Per
estensione
i =1
dell’ipergeometrica la probabilità che fra le n unità estratte x1 siano di tipo A1, x2 di
k
tipo A2, …, xk di tipo Ak, con n = ∑ x i , è pari a:
i =1
 M1   M2 
M

 ⋅   ⋅ ... ⋅  k
x  x
2
 xk
p (x 1 , x 2 ,..., x k ) =  1   
N 
 
n 



, con
x 1 = 0,1,2...; x 2 = 0,1,2...; ...; x k = 0,1,2... e
k
xi
∑
i
=n .
=1
Esempio 4:
Da un’urna contenente 20 palline bianche, 20 rosse e 10 verdi, ne vengono estratte 5
senza reimmissione. Siano X e Y, rispettivamente, il numero di palline bianche e il
numero di palline rosse estratte.
15
Scrivere la funzione di probabilità congiunta di (X, Y) e determinare la probabilità che
siano estratte 2 palline bianche e 2 rosse.
La funzione di probabilità è data da:
10
 20   20  

  ⋅   ⋅ 

x   y   5 − x − y 

p (x , y ) =
 50 
 
 5 
x ≥0
x + y ≤ 5,
y ≥0
mentre la probabilità di estrarre 2 palline bianche e 2 rosse è pari a:
 20   20   10 
  ⋅   ⋅  
2
2
1
p ( x , y ) =       = 0,1704 .
 50 
 
 5 
Distribuzione multinomiale
Questa v.a. doppia discreta non è altro che una generalizzazione della binomiale in cui,
anziché avere solo due risultati possibili (del tipo A e A ), ce ne sono k.
Si consideri un insieme di N unità di cui M1 di tipo A1, M2 di tipo A2, …, Mk di tipo Ak,
k
con N = ∑ Mi ; per cui
i =1
p1 =
M
M1
M
, p2 = 2 ,..., pk = k . Si estraggano n unità con
N
N
N
reimmissione. Per estensione della binomiale la probabilità che fra le n unità estratte
k
x1 siano di tipo A1, x2 di tipo A2, …, xk di tipo Ak, con n = ∑ x i , è pari a:
i =1
p (x 1 , x 2 ,..., x k ) =
n!
x 1 !⋅x 2 !⋅... ⋅ x k !
⋅ p1 x ⋅ p2 x ⋅ ... ⋅ pk xk , con
1
2
x 1 = 0,1,2...; x 2 = 0,1,2...; ...; x k = 0,1,2... e
16
k
xi
∑
i
=1
=n .
Esempio 5:
In una città il 10% delle famiglie possiede più di una casa, il 70% solo la prima casa, il
20% non possiede case. L’ufficio tributario del comune, al fine di effettuare un
controllo, estrae un campione con reinserimento di 10 famiglie.
Si determini la probabilità che nel campione entrino 6 famiglie che possiedono una sola
casa e 2 famiglie che non possiedono casa.
Si ricerca quindi la probabilità che fra le 10 famiglie estratte 2 possiedano più di una
casa, 6 possiedano una casa e 2 non possiedano case:
P (X 1 = 1, X 2 = 7, X 3 = 2) =
10!
⋅ 0,10 2 ⋅ 0,70 6 ⋅ 0,20 2 = 0,0593 .
2! ⋅ 6! ⋅ 2!
DISUGUAGLIANZA DI CHEBYSHEV
Sotto determinate condizioni la distribuzione di una qualsiasi v.a., discreta o continua,
soddisfa sempre questa disuguaglianza, che fornisce un limite superiore per la
probabilità che un valore x cada all’esterno dell’intervallo (E(X) - t; E(X) + t).
Sia X una v.a. qualsiasi con valore atteso E(X) e varianza σ2 e sia t > 0 una quantità
prefissata; allora vale la seguente disuguaglianza:
(1): P {X − E (X ) ≥ t } ≤
σ2
t2
∀t > 0 ,
che può anche essere riscritta fornendo un limite inferiore per la probabilità che un
valore x cada all’interno dell’intervallo (E(X) - t; E(X) + t) :
(2): P {X − E (X ) < t } > 1 −
σ2
t2
∀t > 0 .
17
La disuguaglianza di Chebyshev viene utilizzata per avere delle informazioni sulla
probabilità di una v.a. quando di questa si conoscono solo il valore atteso e la varianza,
ma non la distribuzione di probabilità.
µ-t
µ
µ+t
Quindi la disuguaglianza di Chebyshev permette di affermare che la probabilità di
ottenere un valore all’interno dell’intervallo [E(X) - t; E(X) + t] è sempre > 1 −
σ2
,
t2
mentre la probabilità di ottenere un valore all’esterno del medesimo intervallo è
sempre ≤
σ2
.
t2
Esempio 6:
Un supermercato ha acquistato una partita di patate confezionata in sacchi del peso
medio di 10,2 kg con varianza pari 0,36 kg.
Se non si conosce la distribuzione del peso di un sacco di patate, calcolare la
probabilità che un sacco abbia un peso tra i 9,5 i 10,9 kg.
Se la distribuzione del peso di un sacco di patate è di tipo normale, calcolare la
probabilità che un sacco abbia un peso tra i 9,5 i 10,9 kg.
Dato che non si conosce la distribuzione di X per determinare la probabilità si può
utilizzare la disuguaglianza di Chebyshev.
In questo caso t = 0,7
P {X − 10,2 < 0,7} > 1 −
0,36
= 1 − 0,735 = 0,265 .
0,7 2
18
Se si ipotizza, invece, la distribuzione normale:
 9,5 − 10,2
P (9,5 < X < 10,9) = P 

0,36
<Z <
10,9 − 10,2 
=
0,36 
= P ( −1,17 < Z < 1,17 ) = 0,758.
COMBINAZIONE LINEARE DI V.A.
Si definisce combinazione lineare di n variabili aleatorie indipendenti X1, X2, …,Xn con
pesi a1, a2, …, an:
Y = a1X1 + a2X2 + ... + an Xn .
Il valore atteso e la varianza della combinazione lineare possono essere calcolati come:
E (Y ) = a1E (X 1 ) + a2E (X 2 ) + ... + an E (X n )
Var (Y ) = a12Var (X 1 ) + a22Var (X 2 ) + ... + an2Var (X n ) =
Se le n variabili aleatorie sono tutte distribuite secondo una normale, allora anche Y si
distribuisce in modo normale.
Se le n variabili aleatorie, oltre ad essere indipendenti, sono anche identiche (cioè
hanno la stessa distribuzione) e i pesi sono tutti pari ad 1/n, si ottiene la media
campionaria:
X =
X1 + X2 + ... + Xn
, per la quale si hanno valore atteso e varianza pari a:
n
19
E (X ) = E (X )
e
Var (X ) =
Var (X )
.
n
Esempio 7:
Una variabile aleatoria normale X ha valore atteso µ e varianza σ2 finite.
Siano X1, X2, …, X40 40 variabili aleatorie indipendenti e identiche a X.
Determinare il valore atteso della variabile aleatoria S = X1 + X2 + … + X40.
Determinare la varianza della variabile aleatoria S = X1 + X2 + … + X40.
Dire, giustificando il risultato, se il coefficiente di variazione della variabile aleatoria
somma S è maggiore, minore o uguale di quello della variabile X.
Per il valore atteso si ha:
E (S ) = E (X 1 + ... + X 40 ) = E (X 1 ) + ... + E (X 40 ) = µ + ... + µ = 40 µ .
Per la varianza si ha:
Var (S ) = Var (X 1 + ... + X 40 ) = Var (X 1 ) + ... +Var (X 40 ) = σ 2 + ... + σ 2 = 40σ 2 .
Per quanto riguarda il coefficiente di variazione, definito come il rapporto tra lo
scarto quadratico medio e il valore atteso, si ottiene:
CV (X ) =
σ
µ
CV (S ) =
40σ 2 σ
40
1
.
= ⋅
= CV (X ) ⋅
40 µ
µ 40
40
La variabile S risulta pertanto avere un coefficiente di variazione minore rispetto alla
variabile X.
20
Esempio 8:
Un supermercato ha acquistato una partita di patate confezionata in 100 sacchi del
peso medio di 10,2 kg con varianza pari 0,36 kg.
Si determini il valore atteso del peso medio dei sacchi presenti in magazzino e la sua
variabilità.
Si determini la probabilità che il peso medio dei sacchi di patate sia superiore ai 10 kg.
Considerando il peso medio dei 100 sacchi si ha
E (X ) = E (X ) = 10,2
Var (X ) =
Var (X ) 0,36
=
= 0,0036.
n
100

P (X > 10) = P  Z >

10 − 10,2 
 = P (Z > −3,33) = 1 − 0,9996 = 0,0004.
0,0036 
TEOREMA DEL LIMITE CENTRALE
Siano X1, X2, ..., Xn n variabili aleatorie indipendenti ed identicamente distribuite con
media E(Xi) = E(X) e varianza Var(Xi) = σ2.
Sia Sn = X1 + X2 + ... + Xn la variabile aleatoria ottenuta come somma delle variabili
aleatorie Xi con media E(Sn) = nE(X) e varianza Var(Sn) = nσ2. Allora si ha che:
 Sn − nE (X )
P 
lim
n
→∞

nσ
2

≤ z  = Φ(z )

quindi per n → ∞ la standardizzazione della v.a. Sn tende a distribuirsi come una
normale standardizzata.
21
Fra le numerevoli applicazioni del teorema del limite centrale il nostro interesse è
soprattutto rivolto al limite della distribuzione binomiale.
Infatti se X segue una distribuzione binomiale (n, p), allora se n → ∞ è possibile
dimostrare che la distribuzione tende ad una normale standardizzata,
 Sn − np

≤ z  = Φ(z ) .
 np (1 − p )



lim P 
n →∞
Esempio 9:
Un’indagine ha mostrato che la probabilità di laurearsi in corso per uno studente
iscritto alla facoltà di economia di Milano è pari a 0,15.
Se vengono estratti con reinserimento 8 studenti immatricolati lo stesso anno,
determinare la probabilità che non più di due si laureino in corso.
Se vengono estratti con reinserimento 400 studenti immatricolati lo stesso anno,
calcolare la probabilità che almeno 80 si laureino in corso.
La probabilità che non più di due studenti si laureino in corso è determinata utilizzando
la binomiale:
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) =
8
8
 8
=   ⋅ 0,15 0 ⋅ (1 − 0,15) 8 +   ⋅ 0,151 ⋅ (1 − 0,15) 7 +   ⋅ 0,152 ⋅ (1 − 0,15) 6 =
0
1
2
= 0,2725 + 0,3847 + 0,2376 = 0,8948.
Considerando, invece, un campione di 400 studenti (n è quindi grande) si può applicare
l’approssimazione della binomiale alla normale. Il valore atteso e la varianza sono pari a:
22
E (X ) = n ⋅ p = 400 ⋅ 0,15 = 60
Var (X ) = n ⋅ p ⋅ (1 − p ) = 400 ⋅ 0,15 ⋅ (1 − 0,15) = 51
per cui:

X −n ⋅ p
80 − 60 
≥
= P (Z ≥ 2,8) = 1 − Φ(2,8) = 0,0026.
 n ⋅ p ⋅ (1 − p )

51


P (X ≥ 80) = P 
Φ(2,8) è determinato sulle tavole della normale standardizzata ed è pari a 0,9974.
23