TEORIA DELLE VARIABILI ALEATORIE
Una variabile aleatoria v.a. (o variabile casuale v.c. o variabile stocastica) X è una
funzione misurabile a valori reali definita sullo spazio campione Ω .
Si definisce una v.a. quando si crea una corrispondenza fra insieme dei risultati di
una prova e insieme dei numeri reali (corrispondenza non necessariamente
biunivoca).
Una v.a. prima della prova può assumere un valore qualsiasi, ma dopo la prova
assume uno ed un solo valore numerico detto determinazione della v.a.
Una v.a. X è discreta se i valori che assume sono in corrispondenza con un insieme
numerabile. Ad essa è allora associata una funzione probabilità di ogni valore
assunto dalla v.a.,
P( X  x)  p x
ed è definita se e solo se
p ( x)  0
i  1,2,.....

-
 p( x )  1
i 1
i
Una v.a. è continua se i valori che può assumere sono tutti quelli dell’intervallo
reale. Ad essa è associata la funzione densità di probabilità (probability density
function pdf) che è proporzionale alla probabilità che la v.a. assuma valori in un
intervallino infinitesimo centrato su x rispetto all’area sottesa alla curva:
P( x  X  x  dx)  f ( x)dx
Questa funzione è ben definita se e solo se
f ( x)  0

-

f ( x)dx  1

La differenza fra una v.a. ed una variabile statistica sta nel fatto che alle frequenze
sono sostituite le probabilità.
Quindi avremo a che fare con distribuzioni di probabilità della v.a.
Si può rappresentare la funzione di distribuzione di una v.a. ponendo in ascissa i
valori reali che assume, ed in ordinata le rispettive probabilità:
FUNZIONE DI RIPARTIZIONE
La funzione di ripartizione (cumulative distribution function , cdf) esprime la
probabilità che la v.a. X assuma valori inferiori o uguali ad un valore prefissato, cioè
per ogni x reale:
p
x x
F ( x)  P( X  x 
{
x
i
 f (w)dw
a seconda che la v.a. sia discreta o continua.

Quindi data la funzione di ripartizione di una v.a. continua, la sua funzione di
ripartizione può essere interpretata come l’area sottesa alla funzione densità di
probabilità fino al valore numerico prefissato x 0 .
La funzione di ripartizione è non decrescente, continua da destra, e tale per cui
lim F ( x)  0
x 
lim F ( x)  1
x  
VARIABILI ALEATORIE MULTIVARIATE
Una v.a. multivariata (X 1 , X2, …, Xm) si può definire come una regola che associa
ad ogni evento dello spazio campione una m-pla ordinata di valori reali
(x 1 , x2, …, xm )  Rm , realizzazioni delle v.a. X 1 , X2, …, Xm .
In un esperimento reale possono esistere caratteristiche diverse di un evento
aleatorio: allora si assocerà al verificarsi di un evento E Ω una m-pla ordinata (x 1 ,
x2, …, xm ).
Interesserà allora conoscere la probabilità con cui tale m-pla si presenta, in modo da
valutare la relazione fra le componenti.
Si avranno v.a. multivariate discrete e continue analogamente a quelle univariate.
Ad una v.a. discreta multivariata è associata la funzione di probabilità
P(X1=x1 X2=x2 … Xm=xm) = P(X1=x1, X2=x2, … ,Xm=xm)
= px1,x2,…,xm  (x1,x2,…,xm)Rm
VARIABILI ALEATORIE CONDIZIONATE
Dalla distribuzione di probabilità congiunta P(X 1 , X2, …, Xm) è possibile ottenere la
distribuzione di probabilità di una variabile condizionatamente ad eventi realizzatisi
con riferimento alle altre variabili, detta v.a. condizionata.
Trattiamo per semplicità la v.a. bivariata (X,Y), con funzione di probabilità
P(X=x Y=y)=P(X=x,Y=y)=pX,Y
che è definita solo se
P(X=x,Y=y) 0
 P( X  x, Y  y)  1
X
Y
.
Allora la distribuzione di probabilità della v.a. discreta condizionata (X|Y=y0) è
definita da
P(X=x|Y=y0) =
P( X  x, Y  y0 )
P(Y  y0 )
che risulta definita solo se P(Y=y0)>0.
INDIPENDENZA TRA VARIABILI ALEATORIE
Data una v.a. discreta multivariata (X 1 , X2, …, Xm), le v.a. X 1 , X2, …, Xm si dicono
indipendenti se, per qualsiasi m-pla di valori (x 1 , x2, …, xm )  Rm, la funzione di
probabilità congiunta si fattorizza nel prodotto delle funzioni di probabilità
componenti:
m
P(X1=x1, X2=x2,…, Xm=xm) = P(X1=x1) P(X2=x2)…..P(Xm=xm)=  P(X i  x i )
i 1
E analogamente per una v.a. continua multivariata: le v.a. X 1 , X2, …, Xm si dicono
indipendenti se, per qualsiasi m-pla di valori (x 1 , x2, …, xm )  Rm, la funzione di
densità congiunta si fattorizza in
fx1,x2,…xm(x 1 , x2, …, xm)= fx1(x1) fx2(x2)…. fxm(xm)=
m
f
i 1
xi
(x i )
VALORE MEDIO DI VARIABILI ALEATORIE
Il valor medio o valore atteso di una v.a. X (discreta o continua) si definisce in questo
modo:
data una v.a. X e g(X) una funzione misurabile della v.a. X, il valor medio di g(X) è

 g(x ) p
i
i 1
i
E(g(X))=

 g ( x) f ( x)dx

Se la v.a. continua X assume valori in un intervallo [a,b], allora si ha
b
 g ( x) f ( x)dx
E(g(X))=
a
Se g(X) è la funzione identità si ottiene:

x p
i 1
i
i
E(X)=

 xf ( x)dx

E sta in inglese per Expectation, esito medio teorico atteso in caso di prove ripetute
all’infinito. Si chiama anche speranza matematica.
Il valor medio di una v.a. multivariata (discreta o continua si ottiene estendendo
l’espressione del valor medio di una v.a. univariata al caso di più variabili:

 g( X
i 1
1,
, X 2, ,..., , X m, ) p x1, x 2,..., xm ( x1, x 2 ,..., x m )
E(g(X 1 , X2, …, Xm)=

 ...  g ( X 1, , X 2,..., X m ) f x1, x 2,..., xm ( x1, x2 ,..., xm )dx1dx2 ....dxm

PROPRIETA’ DEL VALOR MEDIO
1. Il valor medio E(X) di una v.a. x è sempre compreso fra il minimo ed il
massimo dei valori che la v.a. assume.
2. Siano X e Y due v.a. nel medesimo spazio campione Ω: se  e  sono due
costanti, si dimostra che E(.) è un operatore lineare e vale
E(X + Y) = E(X) + E(Y) .
3. Sia = 1 e =±1, si ha
E(X ± Y) = E(X) ± E(Y) ,
Ossia il valor medio della somma (differenza) di v.a. è pari alla somma
(differenza) dei valori medi rispettivi: In generale

E(1X1 + 2X2 +…mXm ) = 1E(X1) + 2E(X2) +….+mE(Xm) =  j E ( X j ) .
j 1
4.Il valor medio degli scarti di una v.a. dal suo valor medio è nullo:
E(X - µ)=0
5. Il valor medio degli scarti al quadrato di una v.a. dal valor medio è minimo rispetto
allo stesso valore per una qualsiasi altra media.
E(X - µ)2=min
In altre parole, la somma dei quadrati degli scarti dei valori dalla media è sempre
minore della somma dei quadrati degli scarti dei valori da qualsiasi altro valore v:
 (x
i
 x ) 2   ( xi  v ) 2
i
i
come si potrebbe facilmente dimostrare.
5. Se due v.a. X ed Y sono indipendenti, il valor medio E(XY) coincide con il prodotto
dei loro due valori medi:
E(XY)=E(X)E(Y)
(3)
Non vale in generale il viceversa: se si verifica la (3) non è detto che X ed Y siano
indipendenti.
VALORI MEDI CONDIZIONATI
Definiamo il valor medio della distribuzione condizionata (X|Y=yj)
r
E(X|Y=yj) =  x j P( X  x | Y  y j )
j 1
Analogamente per la distribuzione simmetrica (Y|X=xj).
I valori medi condizionati E(X|Y=yj) e E(Y|X=xj) sono detti funzioni di regressione.
Essi rivestono importanza nell’evidenziare l’indipendenza di due v.a.: infatti se, al variare
di y, E(X|Y=y) resta invariato, si dice che Y è indipendente in media da X (e
analogamente per X).
Analogamente per le variabili continue.
MODA E MEDIANA DI VARIABILI ALEATORIE
La moda M0 della distribuzione di X è quel valore di X per cui è massima la funzione di
probabilità (o densità):
p M 0  pi i
M0(x)=
f x ( M 0 )  f x ( x)x
La mediana rientra nella definizione di quantile xp di ordine p, per p(0,1), t.c.
F(xp)=p
Parliamo di
Quartile se p=0.25
Decile se p=0.1
Percentile se p=0.01
Mediana se p=0.5, ossia
Me=x0.5
cioè per una v.a. X la mediana è quel valore di X in corrispondenza del quale
F(Me)=1/2
VARIANZA
La dispersione caratterizza il grado di addensamento dei valori di una v.a. attorno ad una
media.
La varianza di una v.a. è il valore che indica la dispersione dei valori della v.a. intorno al
valor medio:

 (x
i 1
E ( X   ) 2  E[( X  E ( X )) 2 ] 


i
  ) 2 pi
( x   ) 2 f ( x)dx

a seconda che la variabile sia discreta o continua.
Esistono altre notazioni:
 2  Var( X )  V ( X )
e l’utile espressione
Var(X)=E(X2)-[E(X)] 2
Dove E(X2) è la media quadratica di X, e [E(X)]2 è il quadrato del valor medio di X.
E’ utile però avere una grandezza non quadratica, da confrontare con la distribuzione
stessa. Si utilizza allora lo scarto quadratico medio o deviazione standard:
  Var(X )
PROPRIETA’ DELLA VARIANZA
1. Var(C)=0, C=costante
2. Var(X+C)=Var(X)
3. Var(X)= 2Var(X),  numero reale
4. Var(-X) = Var(X) dalla 3.
5. Var(X+Y)=Var(X)+Var(Y) se X e Y sono due v.a. indipendenti.
La varianza di distribuzioni condizionate è detta varianza condizionata.
Nel caso della distribuzione condizionata bivariata (X|Y=yi)
Var(X|Y=yi)=E(X2|Y=yi)-[E(X|Y=yi)]2
e analogamente per Var(Y|X=xj).
Se al variare di y la varianza Var(X|Y=yi) resta costante, si parla di v.a. omoschedastica,
ossia di indipendenza in varianza di Y da X.
La forma assunta da una v.a. può essere valutata in base alle caratteristiche di simmetria
e di curtosi.
L’asimmetria (skewness) è assenza di specularità di una distribuzione di v.a. rispetto al
suo asse di simmetria (e quindi della distribuzione delle probabilità rispetto al valore
centrale).
Si vede che si ha

Simmetria se µ=Me=Mo

Asimmetria positiva se Mo<Me<µ (coda a destra)

Asimmetria negativa se µ<Me<Mo (coda a sinistra).

La curtosi fa invece riferimento alla gibbosità della curva, e di conserva alla lunghezza
delle code.
Prendendo come riferimento la curva normale (detta mesocurtica) con uguale valor medio
e scarto quadratico medio, una curva è
platicurtica o iponormale se è più piatta (code più ampie) della normale, e leptocurticao
ipernormale se è più appuntita (code più piccole).
MOMENTI
Sono i valori caratteristici della distribuzione di probabilità di una v.a.
Sia r = 0,1,2,….
I momenti r-esimi, o momenti rispetto all’origine, sono i valori medi delle potenze resime della v.a. X :

x
r  E( X r ) 
i 1
pi

x

Si vede che:
r
i
r
f ( x)dx

se r=0 allora µ0=1

se r=1 allora µ1= µ=E(X) , il momento primo è pari al valor medio

se r=2 allora µ2=E(X2) , si usa nel calcolo della varianza

ecc.
I momenti r-esimi rispetto al valor medio, o momenti centrali o momenti scarto, sono
definiti rispetto alla v.a. scarto Y=X-µ nel modo seguente:

 (x
r  E( X   ) r 
i 1
i
  ) r pi

 (x  )
r
f ( x)dx

Si ha:
per r =0, allora  0  1
per r=1, allora 1  0
per r=2 allora  2  E ( X   ) 2 ossia il momento secondo coincide con la varianza.
VARIABILE Z STANDARDIZZATA
E’ utile introdurre la v.a. standardizzata Z, ottenuta per trasformazione dalla v.a. X:
Z
X  E( X )
Var ( x)

X 

Questa v.a. non ha bisogno di far riferimento ad alcuna unità di misura.
Si dimostra inoltre che
E(Z)=0
e Var(Z)=1
COVARIANZA E COEFFICIENTE DI CORRELAZIONE LINEARE
Introduciamo un indice statistico che consenta di misurare l’eventuale dipendenza lineare
fra due v.a. X ed Y.
Date due v.a. X ed Y, di media
E( X )   x
E (Y )  Y
La covarianza così calcolata è un indicatore di dipendenza fra X ed Y:
 ( x  
Cov( X , Y )   xy  E[( X   x )(Y   y )] 
xR yR
  
  (x  
x
x
)( y   y ) p xy
)( y   y ) f xy ( x, y )dxdy
  
dove p xy  p x  p y .
Quando scarti positivi e negativi di X tendono ad associarsi a scarti positivi o negativi di Y
si parla di concordanza, ed i prodotti saranno positivi e la varianza positiva.
Quando invece scarti positivi di X si associano a scarti negativi di Y o viceversa
(discordanza), i prodotti saranno negativi e la covarianza negativa.
Un’altra utile espressione della covarianza si ottiene in questo modo:
Cov( X , Y )  E[( X   x )(Y   y )]  E ( XY  X y  Y x   x  y )  E ( XY )  E ( X )  y  E ( X )  x   x  y
Da cui si trae
Cov( X , Y )  E ( XY )  E ( X ) E (Y )
Se le due variabili sono indipendenti,
p XY  p X pY
oppure
f XY  f X ( x) f Y (Y )
quindi
 (x  
Cov( X , Y )   xy  E[( X   x )(Y   y )] 
xR
x
) px  ( y   y ) p y
yR




 ( x   x ) f x ( x)dx  ( y   y ) f y ( y)dy
Ed essendo il valor medio degli scarti uguale a zero si ottiene
Cov( X , Y )  0
Non è vero in generale il viceversa, ossai se la covarianza è nulla non è detto che le v.a.
siano indipendenti.
Per la covarianza valgono le seguenti proprietà:
1. Cov( X , X )  E[( X   x )( X   x )]  E ( X   x ) 2  Var ( X )
2. Cov( 0  1 X , Y )  Cov( X ,  0  1Y )  1Cov( X , Y )
3. Cov( 0  1 X ,  0   1Y )  1 1Cov( X , Y )
 0 , 1  R (linearità)
 0 , 1 ,  0 ,  1  R (bilinearità)
4. Var (X )  Cov(X , X )   2 Cov( X , X )   2Var( X ) da 1. e 3.
Ne segue che, data una combinazione lineare di v.a. X ed Y,
Var ( X  Y )  Var ( X )  Var (Y )  2Cov( X , Y )
Ma se X ed Y sono indipendenti
Var ( X  Y )  Var ( X )  Var (Y )
La covarianza presenta però il limite di dipendere dall’unità di misura delle v.a. . E’
sufficiente allora vedere che dalla proprietà 1. discende (caso di massima dipendenza fra
X ed Y)
Cov( X , Y )   xy   x y
Quindi dividendo la covarianza per questo valore si ottiene un numero puro: il coefficiente
di correlazione lineare di Bravais Pearson

Corr ( X , Y )   xy 
Cov( X , Y )
 x y
xR yR
=
  

  
x  x y  y
x
x  x y  y
x
y
y
p xy
f xy ( x, y )dxdy
Ma in queste espressioni figurano le variabili standardizzate
Zx 
X  x
x
e
Zy 
X  y
y
Quindi il coefficiente di correlazione si può vedere come momento misto di ordine 1+1 di
queste variabili.
Notiamo per il coefficiente di correlazione queste proprietà:
1. Assume valori fra +1 e -1
2. Se Corr ( X , Y )  1 allora fra le due variabili esiste un legame lineare perfetto
concorde o discorde (+1 o -1).
3. Se non esiste relazione lineare fra le variabili, Corr ( X , Y )  0 e le due variabili si
dicono incorrelate. Questo non significa che non possa esistere una relazione non
lineare fra le variabili: il coefficiente di correlazione indica concordanza più che
dipendenza.
4. Viceversa Corr ( X , Y ) può essere alto senza che esista alcuna relazione fra le
variabili, ma a causa dell’influenza su di esse da parte di fattori
(correlazione spuria).
esterni
REGRESSIONE
Vogliamo cercare un modello che descriva la relazione fra una variabile dipendente e una
o più variabili indipendenti (o esplicative). La scelta fra l’una e le altre dipende dal
fenomeno: si sceglie come indipendente la variabile logicamente antecedente rispetto
all’altra, quella che spiega o controlla l’altra.
Il termine regressione fu coniato da Galton per intendere la regressione verso la media
dell’altezza dei figli rispetto ai padri.
Per evidenziare il tipo di legame fra variabili è utile il diagramma di dispersione
(scatterplot) che rappresenta n coppie di osservazioni ( ( x1, y1 ), ( x 2, y 2 ),..., ( xn, y n ) sulle
variabili X ed Y.
Dallo scatterplot si evidenzia immediatamente l’esistenza di una relazione lineare se i
punti sono addensati lungo una retta, detta retta di regressione.
Se Y è la variabile indipendente e X la variabile dipendente, la retta di regressione si
indica con
Yˆ   0   yx X
i cui coefficienti  0 e  1 (coefficienti di regressione) sono incogniti.
Si deduce che
- se  yx >0 l’associazione fra X ed Y è positiva, ossia al crescere di X cresce anche Y
- se  yx <0 l’associazione fra X ed Y è negativa, ossia al crescere di X decresce Y
- se  yx = 0 non esiste associazione lineare fra X ed Y.
Ovviamente se X è la variabile indipendente e Y la variabile dipendente, la retta di
regressione si indica con
Xˆ   0   xy Y .
METODO DEI MINIMI QUADRATI
– Dati due punti qualsiasi (x1 ,y1) e (x2 ,y2) , vogliamo determinare 0 e xy .
Si ha
y  y1  (
y 2  y1
)( x  x1 )
x2  x1
y 2  y1
  xy
x2  x1
mentre
0 equivale ad y per x=0 (ordinata all’origine).
Vogliamo ora determinare i valori dei parametri che rendono minima la somma dei
quadrati degli scarti fra valori teorici (retta) e valori osservati.
Date due variabili X ed Y, la funzione teorica lineare è
Yˆ   0   yx X
ed i parametri da determinare sono  0 e  xy .
Chiamiamo Dn la deviazione (o errore) fra il valore Yn e il corrispondente valore della
retta/curva (positiva o negativa)
• Una misura della “bontà dell’interpolazione” è la somma
D12 + D22 …..+ Dn2
• La retta/curva avente la proprietà per cui
D12 + D22 …..+ Dn2
è minima è detta migliore interpolante o retta/curva dei minimi quadrati.
Dobbiamo quindi determinare i valori dei parametri per cui
n
S   ( yˆ i  y i ) 2  min
ossia
i 1
n
S   (  0   yx xi  y i ) 2  min
i 1
Da cui, derivando rispetto ai due parametri ed uguagliando a zero:
S
2
 0
n
 (
i 1
0
  yx xi  y i )  1  0
n
S
 2  (  0   yx xi  y i ) xi  0
 xy
i 1
Operativamente i valori dei parametri si ottengono risolvendo il sistema normale
n
n
i 1
i 1
n 0   xy  xi   y i
n
n
n
i 1
i 1
i 1
 0  xi   xy  xi2   xi y i
che si ottiene in questo modo:
• La prima delle due equazioni si ottiene dalla sommatoria su tutti i punti di entrambi i
membri dell’equazione Yˆ   0   yx X ,
• la seconda moltiplicando i membri per xi e poi facendo la sommatoria.
Si ottengono anche:
0 =
n
n
n
n
i 1
i 1
n
i 1
n
i 1
 yi  xi2   xi  xi yi
n xi2  ( xi ) 2
i 1
i 1
n
 yx =
 xy
 x2

 (x
i 1
i
  x )( y i   y )
e simmetricamente per la regressione di X su Y.
n
 (x
i 1
i
 x )
2
INDICE R2 DI DETERMINAZIONE LINEARE
Abbiamo ora bisogno di disporre di indici per valutare l’affidabilità del modello.
L’indice di determinazione lineare misura la bontà di accostamento della nuvola
di punti alla retta di regressione.
La devianza di Y vale
n
(y
i 1
i
n
n
n
i 1
i 1
i 1
 y ) 2   ( y i  yˆ i ) 2   ( yˆ i  y ) 2  2 ( y i  yˆ i )( yˆ i  y )
Ma l’ultimo termine è nullo per le proprietà della media.
n
Il termine
(y
i 1
i
 y ) 2 viene detto TSS (total Sum of Squares) o Devianza totale
D(Y).
n
Il termine
(y
i 1
i
 yˆ i ) 2 viene detto RSS (Regression Sum of Squares) o Devianza di
Regressione D (Yˆ ) .
n
Il termine
 ( yˆ
i 1
i
 y ) 2 si dice ESS (Error Sum of Squares) o Devianza residua D(E)
e rappresenta la parte di devianza non spiegata dalla regressione.
L’indice di determinazione lineare si calcola allora come
R2 
D(Yˆ )
D( E )
 1
D(Y )
D(Y )
ossia è il rapporto fra devianza di regressione e devianza totale. In effetti se le
differenze ( yi  yˆi ) sono piccole, D(E) è piccola e quindi è grande la devianza
spiegata, per cui R2 è grande.
Il coefficiente di determinazione ha range fra 0 ed 1: quando vale 0 vuole dire che
retta di regressione e retta y  y coincidono, quindi la variabilità di Y non è spiegata
dalla retta di regressione.
Invece quando vale 1 tutti i punti giacciono sulla retta di regressione, quindi il
modello è appropriato.
Chiamiamo coefficiente di correlazione di Pearson
   R2
e si dimostra che vale:
 yx  
y
x
 xy  
x
y
    xy  yx
.
DISUGUAGLIANZA DI CHEBISHEV
La varianza di una v.a. indica la sua dispersione intorno al valor medio e si può
valutare dalla forma della curva di densità di probabilità.
Con la disuguaglianza di Chebishev si valutano anche altri parametri significativi.
Data una qualsiasi v.a. X discreta o continua t.c.
E( X )  
Var ( X )   2  
vale
P(| X   | k )  1 
1
k2
k  0
o equivalentemente
P(   k  X    k )  1 
1
k2
La disuguaglianza si legge così:
La probabilità che la v.a. assuma un valore nell’intervallo   k centrato sul valor
medio e raggio pari alla deviazione standard è pari a 1 
1
.
k2
Questo significa che la probabilità che la v.a. disti dal valor medio per meno di un
multiplo di k della deviazione standard tende ad 1 col crescere di k.
Per k =1 si riottene
P(     X     )  0
Per k=3 la probabilità diventa già molto bassa.
SUCCESSIONI DI VARIABILI ALEATORIE
Le seguenti definizioni sono necessarie per teoremi successivi.
Chiamiamo successione di v.a. X una regola che associa ad ogni n=0,1,2,… una
v.a. con funzione di ripartizione Fn(x):
X n Fn(x)
n=0,1,2,…
La successione Xn converge in distribuzione alla v.a. X
d
Xn 

X
se per ogni punto in cui F(x) è continua si ha
lim Fn ( x)  F ( x) .
n 
La successione Xn converge in probabilità alla v.a. X
p
Xn 

X
se per qualsiasi   0
lim P(| X n  X |  )  1
n 
Ossia l’evento (| X n  X |  ) diviene certo al tendere di n all’infinito.
La successione Xn converge in media quadratica alla v.a. X
m
Xn 

X
se
lim E( X n  X ) 2  0
n
La successione Xn converge quasi certamente alla v.a. X
qc
X n 
X
se
lim P( lim X n  X )  1 .
n 
n 