distribuzione di probabilita`.

annuncio pubblicitario
Distribuzioni di variabili aleatorie
Argomenti
Variabili aleatorie discrete e continue, Distribuzione
Normale, Distribuzione Normale Standardizzata
1
Concetti di base
DISTRIBUZIONE DI PROBABILITA’.
Modello matematico che collega i valori di una variabile alle probabilità che tali
valori possano essere osservati. Le variabili casuali (o aleatorie) che osserviamo
possono essere:
• DISCRETE: possono assumere un numero finito o un’infinità numerabile di valori
Processo di conteggio
• CONTINUE: possono assumere un qualsiasi valore reale all’interno di un certo
intervallo di estremi finiti o infiniti
Processo di misurazione
2
Variabile aleatoria discreta
La distribuzione di probabilità di una v.a. discreta è rappresentata dall’elenco
dei valori che la variabile può assumere a cui viene associata la relativa
probabilità di verificarsi.
FUNZIONE DI PROBABILITA’
P ( X  xi )  P ( xi )
con
P ( xi )  [0;1]
n
 P( x )  1
i 1
i
FUNZIONE DI RIPARTIZIONE
Fornisce la probabilità che la v.a. X assuma valori ≤ ad un particolare valore xi
i
F ( x)  P( X  xi )   P( xk )
k 1
3
Variabile aleatoria continua
 Per quanto riguarda le variabili aleatorie continue si può
determinare la probabilità che esse assumano valori compresi in
un intervallo.
 La probabilità che la variabile assuma un particolare valore è pari
a zero
 Non si parla più di funzione di probabilità, ma di funzione di
densità
Proprietà della funzione di densità
Funzione di ripartizione
f ( x)  0 x


f ( x)dx  1
x
F ( x)  P( X  x) 

f ( y )dy


4
Media e varianza delle variabili aleatorie
La media (μ) e la varianza (σ) di una variabile aleatoria X sono i
parametri più importanti della distribuzione di probabilità di X, in
quanto rappresentativi della tendenza centrale e della variabilità
della variabile.
DISCRETA
CONTINUA
n
   xf ( x)dx
   xi p ( xi )
i 1
D
n
   ( xi   ) p ( xi )
2
2
i 1
 2   ( xi   ) 2 f ( x)dx
D
5
La distribuzione Normale
La distribuzione normale (o Gaussiana) è la distribuzione continua
più utilizzata in statistica.
Le sue proprietà principali sono:
1. ha forma campanulare
2. le sue misure di posizione centrale (media, mediana e moda)
coincidono
3. ha due punti di flesso in μ-σ e in μ+σ
4. assume valori compresi tra -∞ e +∞
5. ha come asintoto orizzontale l’asse delle ascisse
lim f ( x)  lim f ( x)  0
x 
x 
6
La distribuzione Normale
La funzione di densità di probabilità della normale è data dalla
seguente espressione:
1
f ( x) 
e
 2
1  x 
 

2  
2
Dove:
e = costante matematica (Nepero) approssimata a 2,21828
π = costante matematica approssimata a 3,14159
μ = valore atteso della popolazione
σ = scarto quadratico medio della popolazione
x = valori assunti dalla variabile aleatoria
7
La distribuzione Normale
Essendo e e π delle costanti matematiche, le probabilità di una
distribuzione normale dipendono soltanto dai valori dei due
parametri μ e σ. Diverse combinazioni di questi parametri danno
luogo a differenti distribuzioni normali.
8
La distribuzione Normale
Distribuzione normale al variare di μ.
Distribuzione normale al variare di σ.
9
La distribuzione Normale
Gli intervalli tipici di scarto sono i seguenti:
P(     x     )  0, 6827
P(   1,96  x    1,96 )  0,95
P(   2  x    2 )  0,9545
P(   2,58  x    2,58 )  0,99
P(   3  x    3 )  0,9973
10
La distribuzione Normale
Esempio.
Il tempo medio di permanenza in un ospedale per anziani è di 38 giorni con
uno scarto quadratico medio di 12 giorni. La distribuzione dei tempi di
permanenza è una normale.
Sappiamo quindi che il 68,27% degli ospiti resta in ospedale tra 26 e 50 giorni
    38  12  50
    38  12  26
La probabilità che un ospite resti 62 giorni è del 2,275%, infatti:
  n    62
50  n 12  62  n  2
la coda a destra μ+2σ di in una distribuzione Normale sottende un area di
0,02275.
11
La distribuzione Normale
La funzione di ripartizione di una Normale è data da:
x
1
F ( x)  P( X  x) 
 2
e
1  y 
 

2  
2
dy

Funzione di ripartizione
per
una
distribuzione
Normale con media pari a
2 e deviazione standard
pari a 1
Funzione di ripartizione per N(2;1)
1,2
1
0,8
0,6
0,4
0,2
0
-2
-1
0
1
2
3
4
5
6
7
12
Distribuzione Normale Standardizzata
L’utilizzo delle funzioni di densità per il calcolo di probabilità relative
ad una v.a. con distribuzione Normale è complesso. Per questo motivo si
ricorre all’impiego di tavole in grado di fornirci le probabilità
desiderate.
Visto che il numero di combinazioni tra μ e σ è infinito conviene far uso
di una trasformazione lineare in grado di standardizzare la generica v.a.
normale per poi ricavare le probabilità dalle tavole della distribuzione
Normale Standardizzata.
La variabile aleatoria standardizzata Z ha valore atteso nullo e scarto
quadratico medio unitario. La sua funzione di densità è:
1  12 Z 2
f ( z) 
e
2
13
Distribuzione Normale Standardizzata
STANDARDIZZAZIONE
Consideriamo Z come la variabile ottenuta sottraendo ad X il suo valore atteso e
rapportando il risultato alla deviazione standard
Z
X 

14
Distribuzione Normale Standardizzata
Tavola dei valori di
una Normale
Standardizzata
15
Esempi
ESEMPIO 1.
Supponiamo che il tempo necessario per caricare la homepage del
sito Unica sia distribuito normalmente con μ=7 secondi e σ=2
secondi. A ciascun valore della variabile X (tempo di caricamento) è
associato il corrispondente valore della variabile standardizzata Z.
16
Esempi
Supponiamo di voler determinare la probabilità che il tempo di caricamento
della homepage sia inferiore ai 9 secondi. (P(X<9))
Il primo passo è quello di riportare il valore di X=9 secondi al valore della Z
standardizzandolo:
Z
X 


97
1
2
Infine si utilizza la tavola dei valori per determinare l’area cumulata fino al
valore Z=1
17
Esempi
Ricaviamo allo stesso modo le seguenti probabilità:
• P(X<7 o X>9)
•P(5<X<9)
18
Esempi
La tavola dei valori della distribuzione Normale Standard è stata fin qui
utilizzata per calcolare l’area sottesa dalla funzione di densità fino ad un
certo valore della v.a. X.
In molti casi (ad esempio in una logica VaR) si è interessati al procedimento
opposto, ossia determinare il valore della v.a X a cui corrisponde una certa
probabilità cumulata.
Supponiamo di voler calcolare il tempo massimo di caricamento per almeno il
10% delle sessioni.
Primo passo è quello di cercare nella tavola dei valori un un’area cumulata il
più vicino possibile allo 0,1 e da questo ricavare il valore di Z.
Z = -1,28
19
Esempi
Il secondo passo consiste nel ricavare il valore di X invertendo la relazione che
abbiamo precedentemente utilizzato per la standardizzazione
X    Z 
 7  (1, 28)  2  4, 44
20
Esempi
Supponiamo (ancora) di voler trovare i valori estremi dell’intervallo
centrato sulla media a cui appartiene il 95% delle osservazioni.
X  7  (1,96)  2  10,92 sec
X  7  (1,96)  2  3,08 sec
21
Esercizio
ESERCIZIO 1.
Il responsabile dell’assemblaggio in una società che fabbrica automobili si
propone di ridurne il tempo necessario. Nell’attuale processo i lavoratori sono
addestrati individualmente. Dopo aver raccolto informazioni il responsabile
stabilisce che il tempo di assemblaggio segue approssimativamente una
distribuzione normale con valore atteso pari a 75 secondi e scarto quadratico
medio pari a 6 secondi.
a) Supponiamo che il responsabile dell’assemblaggio voglia determinare la
probabilità che un addetto scelto a caso impieghi un tempo compreso fra 75 ed
81 secondi per assemblare il pezzo. Come si procede?
b) Qual è la probabilità che un addetto selezionato a caso impieghi al massimo
81 secondi per completare il lavoro? In questo caso guardo la tavola delle
probabilità cumulate.
c) Quanto tempo deve passare perché il 10% degli addetti abbia completato
l’assemblaggio?
[Risultati a)=0,3413 ; b)=0,8413 ; c)=67,32]
22
Distribuzione di Poisson
La distribuzione di Poisson è anche detta distribuzione degli eventi rari. Se
abbiamo un evento E, magari relativo a verificarsi di una specifica perdita
operativa, il numero di volte che E si verifica è una variabile aleatoria
discreta.
Una variabile aleatoria X (numero di volte che si verifica E), che può
assumere i valori 0,1,2,…, è detta variabile aleatoria di Poisson con
parametro λ se la sua distribuzione di probabilità per λ>0 è:
e    x
P( X ) 
x!
Dove:
λ
x
x!
parametro della Poisson
numero di volte che si verifica l’evento E
fattoriale di x (es. se x=4 allora x!=4*3*2*1=24)
23
Distribuzione di Poisson
Una delle caratteristiche principali della variabile aleatoria di Poisson è che il
suo valore atteso e la sua varianza coincidono e sono uguali al parametro λ
della distribuzione.
In base al valore
assunto dal
parametro λ la
distribuzione
acquisisce
differenti forme
24
Distribuzione di Poisson
Esercizio
Ad una guardia medica arrivano in media 3,5 richieste ogni ora di interventi
urgenti a domicilio. Calcolare la probabilità che in una stessa ora arrivino 3, 4,
oppure 5 chiamate urgenti. Il fenomeno può essere descritto utilizzando la
formula di Poisson, con λ = 3,5. Si ha:
e 3,5  3,53
P (3) 
 0, 2158
3!
e 3,5  3,54
P (4) 
 0,1888
4!
e 3,5  3,55
P (5) 
 0,1322
5!
25
Distribuzione di Poisson
Esercizio
Supponiamo che il numero di errori tipografici di una singola pagina del libro
di testo abbia una distribuzione di Poisson di parametro λ=1/2. Calcolare la
probabilità che in una pagina ci sia almeno un errore:
e1 2 1 20
P( X  1)  1  P(0)  1 
 e1 2  0,3935
0!
26
Distribuzione di Poisson – Tavole -
27
Distribuzione di Poisson – Tavole -
28
Distribuzione di Poisson – Tavole -
29
Distribuzione di Poisson – Tavole -
30
Distribuzione Lognormale
Si dice che una variabile aleatoria X segue una distribuzione log-normale
quando Y=ln(X) segue una distribuzione normale. Si ha quindi per Y la
seguente funzione di densità:
f (Y ) 
1
 Y 2
e
1  ln x  Y 
 

2  Y 
Dove:
   2 
 Y2  ln  x   1
  x 

1
Y  ln  x   Y2
2
31
Distribuzione Lognormale
Analizziamo l’andamento della funzione di densità di una lognormale con
deviazione standard pari a 2 al variare della media.
32
Distribuzione Lognormale
Analizziamo l’andamento della funzione di densità di una lognormale con
media pari a 2 al variare della deviazione standard.
33
Distribuzione Lognormale
Con la distribuzione Lognormale si possono modellizzare gli importi delle
perdite operative semplicemente basandoci sulla media e la varianza desunte
dai dati storici. Una volta ottenuti i parametri della distribuzione possiamo
ragionare nell’ottica del VaR per determinare qual è l’importo massimo di
una perdita con un certo livello di confidenza.
Esempio
Ipotizziamo di avere la seguente situazione; una banca vuole determinare il
VaR ad un livello di confidenza del 97,5% relativamente all’importo delle
perdite operative dovute ad episodi di frode interna compiute dai suoi
dipendenti. La banca sa che frodi di questo genere si distribuiscono secondo
una lognormale e hanno un impatto medio di 2500 euro e una deviazione
standard di 1875 euro. I passaggi per trovare il VaR sono:
1. abbiamo i parametri μx e σx (della variabile X distribuita lognormalmente)
2. troviamo con questi parametri μY e σY (della variabile Y=lnX distribuita normalmente)
3. troviamo il valore di Y=lnX corrispondente al 97,5% con la normale standardizzata
4. ricaviamo il corrispondente valore della perdita X facendo X=exp(Y)
34
Distribuzione Lognormale
I parametri della lognormale sono:
 x  2500
 x  1875
Per trovare il VaR al 97,5% dobbiamo riportare la distribuzione Lognormale ad
una distribuzione Normale sulla quale siamo in grado di individuare il valore
corrispondente al livello di confidenza desiderato. Sappiamo che se X si
distribuisce lognormalmente ci sarà una Y=lnX che si distribuisce
normalmente con media pari a μY e varianza pari a σY. Dove:
2
   2 


1875


2
x
 Y  ln    1  ln 
  1  0, 4463
  x 

 2500 

1
Y  ln  x   Y2  ln(2500)  0,5  0, 4463  7, 6009
2
35
Distribuzione Lognormale
Adesso dobbiamo trovare il valore, con un intervallo di confidenza del 97,5%, della
variabile Y che si distribuisce come una Normale con media pari a 7,6009 e varianza
pari a 0,4463 (ossia con SQM pari a 0,6680).
Il valore di Y lo troviamo utilizzando la standardizzazione della Normale, come fatto
nella scorsa lezione. Vi ricordo che il valore di Z corrispondente ad un livello di
confidenza del 97,5% è 1,96.
Y    Z 
 7, 6009  (1,96)  0, 6680  8,910275
Nell’ultimo passaggio noi dobbiamo convertire Y=lnX (dove X rappresenta l’importo
della perdita).
Y  ln X  X  exp(Y )  exp(8,910275)  7407, 698
Questa cifra è il nostro VaR al 97,5%.
36
Scarica