Questa variabile aleatoria, X Uc(a,b) , è data da

MODELLI PER VARIABILI ALEATORIE CONTINUE
VARIABILE ALEATORIA UNIFORME CONTINUA
Una v.a. continua rappresenta fenomeni uniformemente ripartiti in un intervallo, ossia:
- assume valori solo nell’intervallo [a,b]
- a sottoinsiemi di [a,b] di uguale ampiezza corrispondono uguali probabilità.
Questa variabile aleatoria, XUc(a,b) , è data da
 1


per a  x  b
f ( x)   b  a



0
altrove
Con funzione di ripartizione
0

x  a
F ( x)  
b  a
1

per
per
per
xa


a  x  b

xb

Funzione di densità
Funzione di ripartizione
Rispettivamente media, varianza, asimmetria e curtosi sono pari a:
ab
2
(b  a ) 2
Var ( X ) 
12
Asym( X )  0
Kurt ( X )  1.8
E( X ) 
VARIABILE ALEATORIA ESPONENZIALE NEGATIVA
Si tratta di una v.a. continua che descrive la "durata di vita" di un fenomeno privo di
memoria.
Un esempio è la durata di vita di una particella radioattiva prima di decadere.
La distribuzione esponenziale XEn() , con parametro
, ha funzione di densità di
probabilità definita sui numeri reali positivi
pari alla funzione esponenziale
0
per x>0
altrove
La funzione è decrescente da x=0, dove f(0)= , valore massimo. Dunque la moda è
uguale a zero.
La funzione di ripartizione sarà
x
F ( x)   exp(  )d  [ exp(  )]0x  1  exp(  )
0
Funzione di densità
x  0
Funzione di ripartizione
in particolare si ha la formula P(X > x) = e − λx perché P(X > x) = 1 - P(X = x). Questo
implica la mancanza di memoria, infatti
P(X > a + b) = P(X > a)P(X > b)
Fra le distribuzioni di probabilità discrete, invece, ogni distribuzione priva di memoria è una
distribuzione geometrica.
Valor medio, varianza, asimmetria e curtosi valgono
E( X ) 
1

Var ( X ) 
1
2
Asym( X )  2
Kurt ( X )  9.
La v.a. esponenziale negativa è correlata alla v.a. di Poisson, perché se gli eventi della
v.a., che rappresenta il numero di arrivi nel tempo, sono distribuiti come la v.a. di Poisson,
allora i tempi sono distribuiti come la v.a. esponenziale negativa con il medesimo
parametro .
Vedremo anche che la v.a. esponenziale con   1 / 2 corrisponde alla v.a. chi quadrato
con due gradi di libertà, χ2(2).
La v.a. Gamma XGa(, ) generalizza la distribuzione esponenziale: Ga(1,1 / λ)
coincide con En(). In particolare, la somma Y = X1 + ... + Xn di n variabili aleatorie
indipendenti di medesima legge esponenziale con parametro λ segue la distribuzione
Gamma Ga(n,1 / λ).
L’espressione della variabile aleatoria Gamma è
f ( x,  ,  ) 
  1
x exp( x)
(  )
per
x  0,   0

( )   x 1 exp(  x)dx
0
E’ interessante sottolineare che per valori interi vale
( )  (  1)!
(1 / 2)  
Un esempio: la radioattività
Il tempo di decadimento di un isotopo radioattivo viene solitamente modellizzato in
funzione della sua vita media tramite la distribuzione esponenziale con. λ = 1 / τ è detto
costante di decadimento; la speranza di vita è proprio E[X] = 1 / λ = τ.
Con questo modello si possono ad esempio calcolare le probabilità che l'isotopo decada in
meno della metà del tempo medio,
,
o in più del doppio di questo tempo
.
Ciononostante un osservatore che non abbia ancora visto decadere l'isotopo si ritrova
nuovamente nelle condizioni iniziali, a causa dell'assenza di memoria; dovrà quindi
aspettare sempre mediamente un tempo τ prima del decadimento.
In un campione con un numero di isotopi molto grande (come avviene solitamente), le
probabilità di ogni singolo isotopo (indipendente dagli altri) si possono tradurre in
percentuali del campione. Ad esempio, il tempo medio dopo il quale metà dei campioni
decadono (emivita o tempo di dimezzamento) è dato dalla mediana, che vale (log2) / λ.
LA VARIABILE ALEATORIA DI LAPLACE-GAUSS O NORMALE
La distribuzione binomiale permette di calcolare, per numeri n piccoli, le probabilità di
avere un certo numero k di successi nelle n prove.
Se abbiamo molte prove, n diventa molto grande eTrovare le probabilità dei successi k
diventa difficile. D’altra parte per alti n il problema non è di trovare la probabilità connessa
ad uno specifico numero k di successi, ma di trovare ad esempio la probabilità di trovare
più o meno di k successi.
Si ricorre allora alla distribuzioni NORMALE ( GAUSSIANA) XN(,2) che vale per n
molto grande.
In questo caso lo scaloide della distribuzione di probabilità binomiale, ossia l’insieme dei
rettangoli che rappresentano le probabilità dei singoli k, tende a diventare un’area
sottostante ad una linea continua.
La forma della curva cui tende la distribuzione al tendere di n all’infinito è differente
secondo il valore che p (e quindi q) assume.
Si danno due casi:
•
Nel primo caso p e q non sono molto differenti fra loro e quindi nessuno dei due
valori si scosta molto dal valore di probabilità ½. In questo caso al tendere di n
all’infinito la distribuzione tende alla curva teorica che è la gaussiana. Si intende di
solito che una distribuzione di probabilità è normale quando il prodotto np è
maggiore di 5 (nel caso p>q).
•
Nel secondo caso p è molto maggiore o molto minore di q, in modo che ambedue si
discostano molto da probabilità ½. Se al tendere di n all’infinito il prodotto p n
rimane costante, la distribuzione tende alla cosiddetta curva di Poisson. Si parla di
poissoniana quando il prodotto np << n.
Una distribuzione binomiale è simmetrica solo se n=p=1/2. Anche una distribuzione
normale è in generale asimmetrica, ma diventa simmetrica al crescere di n. Per n è
perfettamente simmetrica: f(x)=f(-x) , punto massimo in corrispondenza di  e
coincidente con moda e mediana.
Inoltre
Asym( X )  0
Kurt ( X )  3
Data una grandezza x distribuita normalmente con media  e deviazione standard ,
l’equazione della curva normale è
x -
1/2(
1

f(x) 
e
 2
)2
per    x   .
Ricordiamo che f(x) non dà la probabilità associata ad x, bensì la densità di probabilità.
Per ottenere la probabilità associata ad un evento relativo ad una distribuzione normale
occorre integrare su un intervallo appropriato.
Ad esempio la probabilità che x sia minore di x0 sarà
P( x  x0 ) 
x0

f(x) 

x0


2
2
1
 e 1/2(xμ) /σ dx
σ 2π
Invece la probabilità che x sia compreso fra due valori x1 e x2 sarà
P( x1  x  x2 ) 
x2

x1
f(x) 
x2

x1
2
2
1
 e 1/2(xμ) /σ dx
σ 2π
Sappiamo che l’area delimitata dalla curva e dall’asse x vale 1. Quindi l’area sotto la curva
compresa fra le due ordinate x=a e x=b , dove a<b, rappresenta la probabilità che x sia
compreso fra a e b.
Quando la variabile x viene espressa in unità standard,
z= (x -)/ 
l’equazione precedente viene sostituita dalla sua FORMA STANDARDIZZATA ZN(0,1)
f(z) 
2
1
 e 1/2 z
2
e in tal caso diciamo che z è distribuita normalmente con media zero e varianza uno. Il
grafico sarà simmetrico intorno allo zero.
Nel caso di approssimazione della distribuzione binomiale a quella normale si avrà
=np
=npq
x=k numero di successi su n prove
Rappresentando graficamente questa funzione otteniamo la caratteristica curva a
campana simmetrica intorno alla media:
In corrispondenza di + e – la curva presenta i suoi punti di flesso.
Tracciando diversi diagrammi per diversi valori di  ci accorgiamo che la curva è tanto
più appiattita quanto maggiore è la deviazione standard.
Una proprietà fondamentale della gaussiana è la seguente:
-esiste una probabilità definita e uguale per tutte le curve normali che un certo scarto
sia inferiore a una (2, 3) deviazione standard.
Tale probabilità è equivalente all’area tratteggiata in figura:
•
•
•
Probabilità che un valore cada casualmente entro alcune deviazioni standard:
-
Entro 1.0 d.s. dalla media = 68.26%
Entro 1.96 d.s. dalla media = 95.00%
Entro 2.0 d.s. dalla media = 95.44%
Entro 2.575 d.s. dalla media = 99.00%
Entro 3.0 d.s. dalla media = 99.73%
Entro 3.29 d.s. dalla media = 99.90%
Ossia il 95% delle osservazioni cade entro 1.96 d.s., ed entro 3 d.s. sono comprese
pressochè tutte le osservazioni.
L’utlità della variabile standardizzata sta nell’indipendenza dall’unità di misura e nel fatto
che essa è adattabile alle infinite gaussiane. Infatti ogni distribuzione normale può avere
un numero infinito di valori per media e scarto quadratico medio, quindi sarebbe
impossibile tabulare l’area associata ad ogni singola curva.
Invece i valori dell’area sotto la curva standardizzata sono tabulati e grazie alla sua
simmetria è sufficiente tabulare solo metà della funzione.
UTILIZZO DELLE TAVOLE
La tavola seguente fornisce i valori della probabilità
P(Zz )= (Z=z)
dove (Z=z) è la funzione di ripartizione.
Esempio:
Determinare la probabilità
P(-0.25<Z<0.75) .
Si tiene conto del fatto che
P( z1  Z  z 2 )   (Z  z 2 )   (Z  z1 )
Dunque
P(-0.25<Z<0.75)=(0.75)-(0.25) .
Si cerca sulla tavola il valore (0.75) procedendo lungo la colonna verticale fino al valore
0.5, poi lungo l’orizzontale fino a 5. Si legge così il valore 0.77337.
Per il valore (-0.25) si considera che (-0.25)= 1 - (025).
Si ricerca analogamente sulla tavola il valore per (0.25), che è 0.59871. Si ottiene allora
P(-0.25<Z<0.75)=0.77337 – 0.40129=0.37208.
VARIABILE ALEATORIE DEDOTTE DALLA NORMALE
LA VARIABILE ALEATORIA CHI QUADRATO
La v.a. Chi quadrato (X  2 ) E’ una v.a. continua ottenuta dalla somma di un numero g di
v.a. normali standardizzate e indipendenti al quadrato:
g
X   Z i2
i 1
Il parametro g indica i gradi di libertà della distribuzione, ossia il numero di unità di
informazioni indipendenti relative al campione. Si calcolano sottraendo alla numerosità
campionaria il numero dei vincoli, ossia i parametri noti della popolazione.
La funzione densità si esprime con
f ( x; g ) 
g
1
x
exp(  ) x 2
g
2
2 g / 2 ( )
2
1
per
x0
Si vede quindi che, come si era già detto, si tratta di un caso particolare della v.a. Gamma
per =g/2 e =1/2 .
La funzione non è simmetrica ma è unimodale (ossia media e moda coincidono).
La tavola in fondo fornisce I quantili della distribuzione t in corrispondenza ai gradi di
libertà. In caso di numero di gradi di libertà mancante, si ricorre ad interpolazione.
Funzione densità
Funzione di ripartizione
Si ha:
E( X )  g
Var ( X )  2 g
8
Asym( X ) 
g
12
Kurt ( X )  3 
g
Al crescere dei gradi di libertà la chi quadrato tende alla normale.
Una tavola apposita (v. in fondo al documento) fornisce i suoi quantili, ossia i valori di
 2 che, per differenti gradi di libertà, valorizzano le proporzioni nella coda di destra della
distribuzione.
LA VARIABILE ALEATORIA t di STUDENT
Questa v.a. (dallo pseudonimo del matematico inglese W. Gosset) è data dal rapporto fra
una v.a. normale standardizzata e la radice quadrata di una v.a. chi quadarato
indipendente dalla prima e rapportata ai propri gradi di libertà,
Z
X 
Y
g
Dove Y=  2 .
La sua funzione di densità è
g 1
)
( g 1)
x2 
2
f ( x; g ) 
(1  ) 2
g
g
g ( )
2
(
per    x  
Con media, varianza, asimmetria e curtosi pari a
E( X )  0
per
g 1
g
Var ( X ) 
per g  2
g 2
Asym( X )  0
6
Kurt ( X )  3 
per g  4
g 4
Quindi si vede che per g   le espressioni diventano
E( X )  0
Var ( X )  1
Asym( X )  0
Kurt ( X )  3
Ossia la distribuzione t di Student tende a duna v.a. standardizzata Z.
La curva è simmetrica unimodale e si sovrappone alla gaussiana per g>30.
LA VARIABILE ALEATORIA F DI FISHER
La v.a. di Fisher F  Fg1, g 2 è definita come il rapporto di due v.a. chi quadrato indipendenti
fra loro e divise per i rispettivi gradi di libertà:
X 1   g1
2
X 2   g2
2
Fg1, g 2 
X 1 / g1
X 2 / g2
dove g1 e g2 sono i gradi di libertà di numeratore e di denominatore.
La funzione di densità ha la forma
[( g1  g 2) / 2
f ( x, g1, g 2) 
( g1 / g 2) 2
( g1 / 2)( g 2 / 2)
x ( g1 / 2 ) 1
g1
(1 
g1
x)( g1  g 2) / 2
g2
e valor medio e varianza sono
E( X ) 
g2
g2  2
Var ( X ) 
per
g2  2
2( g 2) 2 ( g1  g 2  2)
g1( g1  2) 2 ( g 2  4)
per
g2  4
Asimmetria e curtosi hanno espressioni complesse.
La F di Fisher si usa per confrontare la variabilità di due insiemi di dati, ed è fondamentale
nell’analisi della varianza.
In fondo è riportata la tavola dei quantili della v.a. di Fisher .
LA VARIABILE ALEATORIA LOGNORMALE
Si tratta della trasformazione logaritmica della distribuzione normale.
Se X è una v.a. con distribuzione lognormale, la v.a. Y=log X è una variabile con
distribuzione normale.
La distribuzione dà luogo ad una curva con coda allungata a destra (asimmetria sinistra).
Si adotta nel caso di distribuzioni di probabilità in cui si registra addensamento su valori
medio bassi e rarefazione di probabilità all’aumentare dei valori: ad esempio nel caso del
reddito o della dimensione dei nuclei familiari.
La funzione di densità ha la forma
f ( x) 
 (ln x   ) 2 
exp  

2
x 2
 2

1
Dove  e  sono valore atteso e scarto quadratico medio del logaritmo della v.a. X, che
come si è detto ha distribuzione gaussiana.
X ha ovviamente la limitazione di assumere solo valori positivi.
La funzione di distribuzione cumulativa si ottiene integrando la funzione
F ( x)   (
ln x  
2
)
e media e varianza sono
E ( X )  exp(  
2
)
2
Var ( X )  exp( 2   2 )(exp(  2 )  1)
Tutte queste distribuzioni derivate dalla normale assumono importanza nella statistica
inferenziale perché vengono utilizzate nei test di significatività che verranno esposti
successivamente.