Metodi Probailistici, Statistici e Processi Stocastici

Metodi Probabilistici, Statistici e
Processi Stocastici
Università Carlo Cattaneo
Emanuele Borgonovo
Metodi Probailistici, Statistici e Processi
Stocastici
1
Capitolo I
Metodi Probailistici, Statistici e Processi
Stocastici
2
Introduzione
• Processo Stocastico: un processo stocastico è
un processo che è costituito da eventi la cui
realizzazione non è deterministica, ma
caratterizzata da incertezza
• Esempio: i tempi di arrivo dei clienti in un
grande centro commerciale o il numero di
clienti che arriva al centro commerciale
nell’intervallo dt attorno al tempo t.
Metodi Probailistici, Statistici e Processi
Stocastici
3
Elementi introduttivi di Teoria della
Probabilità
Metodi Probailistici, Statistici e Processi
Stocastici
4
Probabilità
• E’ possibile definire la Probabilità?
• Sì, ma ci sono due scuole
• La prima dice che la probabiltà è una
porprietà oggettiva degli eventi (Scuola
Frequentista)
• La seconda dice che la Probabilità è una
misura “soggettiva”della verosimiglianza degli
eventi (De Finetti)
Metodi Probailistici, Statistici e Processi
Stocastici
5
Gli Assiomi di Kolmogorov
U
B
A
P(U)  1
P( A )  0
Se A e B mutuamente esclusivi ,
P( A  B)  P( A )  P(B)
Metodi Probailistici, Statistici e Processi
Stocastici
6
Aree e rettangoli?
U
A B
C
D
E
U  A B  C D E
• Supponete di saltare dentro U a caso. Chiamate P(A) la
probabilità di saltare in A. Quanto vale?
• Sarà l’area di A diviso l’area di U: P(A)=A/U
• In questo caso P(U)=P(A)+ P(B)+ P(C)+ P(D)+ P(E)
Metodi Probailistici, Statistici e Processi
Stocastici
7
Legge della somma delle probabilità
• Dati n eventi non mutuamente esclusivi, in
generale la probabilità dell’unione di detti n
eventi sarà la somma delle probabilità degli
eventi singoli, cui si sottrarrà la somma delle
probabilità delle doppie intersezioni, si
sommeranno le probabilità delle triple
intersezioni e così via.
• In termini di aree
Metodi Probailistici, Statistici e Processi
Stocastici
8
Legge della somma delle probbilità in termini di
aree
• 2 eventi
U
B
AB A
• 3 eventi
U
Metodi Probailistici, Statistici e Processi
Stocastici
B
C
AB A
9
In formule
n
n
i1
i1
P( A i )   P( A i )   P( A i A j ) 
i j
n1
P
(
A
A
A
)

...

(

1
)
P( A1A 2 ... A n )
 i j k
i jk
• Dimostrazione. Introduciamo un insieme di n eventi,
A1, A2,…, An e consideriamo un esperimento casuale
su di essi. Indichiamo con Ii la variabile indicatrice
dell’evento Ai. La definiamo come segue:
1 se A i è accaduto
Ii  
0 in caso contrario
• Sia N il numero di eventi che si verificano. Varrà:
N
N   Ii
n 1
Metodi Probailistici, Statistici e Processi
Stocastici
10
Probabiltà Unione: prova (2)
• N è una variabile casuale. Ci chiediamo: qual è il
valore atteso di N, E[N]?
• Prima di rispondere, vediamo un “trucco” di calcolo
combinatorio che ci tornerà utile:
N
n
N
N
N
k
Nk
k
(1  1)   ( )( 1) (1)   ( )( 1)   ( )( 1)k
k 0 k
k 0 k
k 0 k
n
N
• Ora, notiamo che
1 se N  0
(1  1)  
0 se N  0
N
• Quindi, se introduciamo la variabile indicatrice di N così
definita:
1 se N  0
IN  
0 se N  0
• Otteniamo:
Metodi Probailistici, Statistici e Processi
Stocastici
11
Probabiltà Unione: prova (3)
• Quindi vale per IN il seguente sviluppo in termini di binomio di
n
n
Newton:
N
N
N
k
k 1
IN  1  (1  1)  1   ( )( 1)   ( )( 1)
k 0 k
k 1 k
• …Il k+1 deriva dal fatto che davanti alla somma c’è un segno -…
• Ora, calcoliamo il valore atteso di IN
n
n N
N
k 1 
k 1 
EIN   E ( )( 1)    E( )( 1) 
 k 1 k
 k 1  k

• Il passaggio all’interno della somma deriva dal fatto che il
valore atteso è un operatore Lineare
• Esplicitiamo i termini:
N
N
N
EIN   E( )  E( )  E( )  ...
1
2
3
Metodi Probailistici, Statistici e Processi
Stocastici
12
Probabiltà Unione: prova (4)
• Calcoliamo i termini:
N
N
N
N  N
E( )  EN  E Ii    E[Ii ]  1 P( Ai)  0  1  P( A i )   P( A i )
i1
i1
 i1  i1
1
N
N
N  N
N
E( )  EIiIj    E[IiIj ]  1 P( A i A j )  0  1  P( A i A j )   P( A i A j )
i1
i j
2
 i j  i1


• E così via.
n
n
n


• Ora notiamo che: E[IN ]  P( A i )  1  1  P( A i )  0  P( A i )
i1
i1
i1


• Quindi:
n
n
N
i1
i1
i j
P( A i )   P( A i )   P( A i A j )  ...
• q.e.d.
Metodi Probailistici, Statistici e Processi
Stocastici
13
Probabilità Condizionale
• Supponete ora che B è avvenuto. Quindi siete saltati
dentro l’area B.
B
AB
A
•Ora non protrete che concordare che:
• P(A|B)=P(AB)/P(B)
•Quindi: P(AB)=P(A|B) *P(B)
Metodi Probailistici, Statistici e Processi
Stocastici
14
Esempio
•
•
•
•
•
Nel gioco del lotto, si vince con il 6. Qual è la probabilità, in sei estrazioni senza
rimpiazzo, su 90 numeri di ottenere 6?
Giochiamo 1 colonna e calcoliamo la probabilità di vincere. La probabilità è che
la prima cifra estratta sia una delle nostre 6, la seconda sia una delle rimanenti
5 e così via. Indichiamo con I l’evento “la prima cifra estratta è una di quelle
giocate da noi,” con II l’evento “la seconda cifra è esatta dato che la prima è una
delle nostre 6,”, con III l’evento ““la terza cifra è una delle rimanenti 4, dato che
le prime due sono delle nostre 6,” etc.
Dobbiamo calcolare: P(I,II,III,IV,IV,VI). Utilizziamo la probabilità condizionale:
P(I,II,III,IV,V,VI)= P(VI | I,II,III,IV,IV)*P(V,IV,III,II,I)= P(VI | I,II,III,IV,IV)*P(V |
IV,III,II,I)* P(IV,III,II,I)= …=P(VI | I,II,III,IV,IV)*P(V | IV,III,II,I)* …*P(II |I)*P(I)
La probailità che la prima sia una delle nostre è data da 6/90. La probabilità
che la seconda sia una delle cifre giocate dato che la prima è una delle 6 è
5/89. Così via per le altre. Dunque:
6 5 4 3 2 1
1
1
P(I, II, III, IV, V, VI ) 


90 89 88 87 86 85  90  622 106
 
6
Metodi Probailistici, Statistici e Processi
Stocastici
15
IL teorema della probabilità Totale
A4
A1
UE
A2
A3
1  P( A1 )  P( A 2 )  P( A 3 )
 P( A 4 )
• Teorema probabilità totale: dati N eventi mutuamente esclusivi
(A1, A2,…,AN) e esaustivi, la probabilità di un altro evento E in
U è data da:
P(E)  P(E A1 )  P( A1 )  P(E A 2 )  P( A 2 )  ...  P(E AN )  P( AN )
Metodi Probailistici, Statistici e Processi
Stocastici
16
Esempio
•
•
•
•
•
•
•
•
•
•
•
Ad una lotteria, si gioca con una scatola che contiene cappelli eleganti e sportivi
in egual proporzione. Il gioco è il seguente. Si estrae un cappello. Se è
elegante si ha diritto a tirare una moneta. Se esce testa, si estrae un altro
cappello. Non si ha diritto ad altre estrazioni. Qual è la probabilità di vincere
due cappelli eleganti?
Soluzione: Applichiamo il teorema della probabilità totale a P(2 cappelli eleganti):
P(2 cappelli eleganti)=P(II cap. el.|1 estrazione)*P(1estrazione)+P(II cap. el.|II
estrazione)*P(II estrazioni).
Chiaramente P(2 cappelli|1 estrazione)=0, quindi:
P(II cappelli elegante)=P(II cap. el.|II estrazione)*P(IIestrazione).
P(II estrazione)= P(II estrazioni|I sprt)*P(I sprt)+P(II estrazione|I eleg)*P(I eleg)
Ora: se il primo è sportivo non si ha diritto a seconda estrazione.
Osserviamo poi che: P(II estrazione| I eleg)= P(testa) =1/2
Quindi: P(II estrazione)=1/2·1/2=0.25
Inoltre: P(II cap. el .)=P(II cap. el.|II estrazione)*P(II estrazione)=1/2*0.25=0.125
Per esercizio calcolare:
– La probabiltà di uscire con un cappello
– La probabilità di uscire con un cappello elegante e con uno sportivo
•
Ripetere gli stessi calcoli se I cappelli sono in proporzione 2/3 sportivi/eleganti
Metodi Probailistici, Statistici e Processi
Stocastici
17
Variabile Casuale
• Sia S lo spazio degli stati. Per stato si può
intendere il risultato di un esperimento
statistico, ovvero un evento casuale.
• Scriviamo: sS per denotare che l’esito s
appartiene ad S. Ora, s è un evento casuale.
• Introduciamo una funzione matematica che
lega il risultato dell’esperimento, s, ad un
numero reale, x.
• Scriviamo: X: S
Metodi Probailistici, Statistici e Processi
Stocastici
18
Esempio
• Teniamo in considerazione gli arrivi di clienti
al vostro negozio. Siete soggetti ad un
mercato perfettamente concorrenziale, per
cui il numero di clienti che arriva nel tempo dt
non è deterministico ma casuale.
• Supponiamo che il break-even del vostro
negozio sia 50 clienti al giorno. Quindi la
giornata è in profitto se il numero di clienti (s)
è >50, in perdita se s<50.
• Introduciamo x=1 se la giornata è in profitto,
x=0 se la giornata è in perdita. X: S(0,1), è
una variabile casuale nel senso definito prima
Metodi Probailistici, Statistici e Processi
Stocastici
19
Probabilità di una variabile casuale
• Riprendendo il nostro esempio, la probabilità che X
sia pari ad 1 è la probabilità che s abbia più di 50
clienti, ovvero P(X=1)=P(S>50).
• Detto s1 l’insieme di tutti gli eventi per cui è X=1, s1 è
la contro-immagine di 1, ovvero: X-1(1)=s1.
• Più in generale:
P(XA)=P[s  X-1(A)]
• cioè la probabilità che il valore della variabile casuale
X sia nell’intervallo A è pari alla probabilità che gli
eventi casuali s cadano nella controimmagine di A
Metodi Probailistici, Statistici e Processi
Stocastici
20
Funzione di Partizione
• La funzione di partizione (cumulative distribution) di una
variabile casuale risponde alla definizione di essere la
probabilità che il valore della variabile casuale sia
inferiore ad un valore di riefrimento.
• Scriviamo:
FX(x)=P(X<=x)
• Per una variabile discreta: FX ( x )   P( X  y )
yx
• Per una variabile continua deve esistere una funzione
f(u) tale che:
x
FX ( x) 
 f (u )du

• La funzione f(u) è detta densità di probabilità di X
Metodi Probailistici, Statistici e Processi
Stocastici
21
Relazione tra F(x) ed f(x)
• Se f(x) è continua, allora vale:
F' ( x )  f ( x )
• Esempio. Sia 0<T< una variabile casuale caratterizzata
da una distribuzione esponenziale, ovvero f(t) dt=e- tdt è
la probabilità che T abbia un valore compreso tra t e dt.
• Qual è la probabilità che T<t?
Soluzione
t
• P(T<t)=F(t)=  λeλudu  1  eλt
0
Metodi Probailistici, Statistici e Processi
Stocastici
22
Valore atteso

• Il valore atteso di una
variabile
aleatoria
continua è definito da:
E[ X] 
 xf ( x )dx


• Esempio:
1
E[T]   tλe dt 
λ
0
• Per
una
variabile
discreta:
• Esempio: calcolare il
valore atteso della
variabile aleatoria in
Tabella a fianco
E[ X]   xiP( X  xi )
Metodi Probailistici, Statistici e Processi
Stocastici
 λt
i
i
Xi
pi
Xipi
E[X]
1
0.1
3
0.3
51.89
2
0.2
4
0.8
3
0.1
22
2.2
4
0.15
46
6.9
5
0.12
77
9.24
6
0.05
89
4.45
7
0.28
100
28
23
Varianza
• La varianza esprime lo scostamento quadratico medio
dal valor medio. E’ definita da:


VX  E ( x  Ex)2   ( x  Ex)2f ( x)dx
X
• Notiamo la relazione tra V[X] e E[X2]. Si ha:
VX   ( x 2  2xEX  EX )f ( x )dx  E[ X2 ]  2EX xf ( x )dx  EX 
2
X
 E[ X2 ]  EX
2
X
2
• E[X2] è detto momento di ordine 2 o secondo momento
della distribuzione f(x).
Metodi Probailistici, Statistici e Processi
Stocastici
24
Skewness
• E’ il parametro che misura il grado di asimmetria di una distribuzione.
• La definiamo come momento centrale del III ordine:
sk   x  μ f ( x )dx
3
• Se la distribuzione è simmetrica la skewness è nulIa.
• Di sotto la skewness delle distribuzioni più comuni
Distribuzione
Binomiale
Skewness
1  2p
np (1  p)
Beta
Esponenziale
Gamma
2(b  a) 1  a  b
(2a  b)
ab
2
2
γ
Normale
Poisson
Uniforme
0

λ
0
1
2
Metodi Probailistici, Statistici e Processi
Stocastici
25
Funzione generatrice dei momenti
• Abbiamo definito i momenti di X come E[X], E[X2],
E[X3],…, E[Xn].
• La funzione generatrice dei momenti è una funzione
definita come segue:
tX
Ψ(t )  E X [e ]
• I momenti di X possono essere ottenuti per
differenziazione della funzione generatrice, valutando
la derivata n-esima in t=0.
E[ Xi ]  Ψi (0)
Metodi Probailistici, Statistici e Processi
Stocastici
26
Capitolo II: Distribuzioni Notevoli
Metodi Probailistici, Statistici e Processi
Stocastici
27
Distribuzione binomiale
•
•
•
•
•
•
•
•
•
Consideriamo un fenomeno casuale caratterizzato da due soli possibili
esiti (+/-; testa/croce). Consideriamo ora una serie di N eventi in cui l’esito
di ogni esperimento è indipendente dall’esito dell’esprimento precedente.
Una possibile realizzazione dell’esperimento è la seguente: +,+,+,-,-,+,,+,-,-.
Abbiamo ottenuto 5+ e 5-. Se indichiamo con p e q le probabilità di + e –
rispettivamente, e consideriamo l’ipotesi di indipendenza, la probabilità di
questa serie è: p5*q5.
La seguente serie avrebbe potuto realizzarsi: -,-,-,+,+,-,+,-,+,+.
Anche la probabilità di questa realizzazione è: p5*q5.
Ora, supponiamo di essere interessati solo al numero di eventi, ovvero
per noi sono di successo tutte le possibili serie in cui compaiono 5 testa e
5 croce.
La probabilità di successo per serie di 10 lanci è data dalla probabilità di
tutte le possibili permutazioni di 5 elementi su 10. Quante sono?
Sono 10 
 
Dove  5  è il buon vecchio coefficiente binomiale. Quindi la probabilità
10 
di una sere 5/5 è:
P(5,10;p, q)   p5 q5
5 
 
Metodi Probailistici, Statistici e Processi
Stocastici
28
Distribuzione binomiale (2)
• In generale, la probabilità di k eventi su n tentativi in
cui ad ogni tentativo solo 2 sono i possibili esiti è data
da:
n k
P(n, k; p)   p (1  p)nk
k 
• Notiamo che q=1-p.
• La precendente ditribuzione è detta binomiale o di
Bernoulli.
Metodi Probailistici, Statistici e Processi
Stocastici
29
Momenti della distribuzione binomiale
• La funzione caratteristica della distribuzione binomiale
è:
n k
Ψ( t )   e  p (1  p)nk  (1  p  e tp)n
k 0
k 
n
kt
• Ne segue:
d
EK   Ψ' (0)  (1  p  e tp)n
dt
 
E K 2  Ψ' ' (0) 
t 0
 (1  p  e tp)n1ne tp t 0  np
d
(1  p  e tp)n1ne tp t 0  n2p 2 + np - np 2
dt
• Quindi: V[X]=E[K2]-E[K] 2=np(1-p)
Metodi Probailistici, Statistici e Processi
Stocastici
30
La distribuzione ipergeometrica
• Consideriamo il seguente problema. Dovete testare una serie di
prodotti. Avete a disposizione un lotto di N prodotti, dei quali M sono
difettosi. Prendiamo un campione di n oggetti tra questi. Qual è la
probabilità che x degli n oggetti siano difettosi?
N
(
)
• Innanzitutto consideriamo che su N oggetti, vi sono
modi di
n
selezionare
n oggetti. Quindi il nostro “spazio” delle probabilità diventa
N
fatto da ( n ) elementi.
• Adesso chiediamoci: abbiamo a disposizione N oggetti, dobbiamo
scelglierne x difettosi tra M e n-x non difettosi tra N-M. In quanti modi si
può fare? Supponiamo che gli oggetti siano “X” (difettoso) e “-” non
difettoso. Si potrebbero disporre su una linea come:
• X - - X X - - - X X - X – X ………..X.
• Potremmo anche ordinarli e non cambierebbe nulla:
• X X X X X X X ………..X - - - - - -… -.
• Ora dobbiamo formare un gruppo di n in cui x siano difettosi. Possiamo
scegliere x difettosi su M. In quanti modi? (M)
x
Metodi Probailistici, Statistici e Processi
Stocastici
31
La distribuzione ipergeometrica (2)
• Analogamente dobbiamo scegliere gli n-x oggetti non difettosi tra gli NM oggetti non difettosi. Come nel caso precedente, se gli oggetti sono
indistinguibili a priori, abbiamo (Nn  Mx ) modi possibili.
NM
m
(
)
( ) nello scegliere gli
• Possiamo quindi combinare gli
con
gli
nx
x
oggetti. Quindi i modi possibili di creare serie di n oggetti di cui x sono
difettosi su un lotto di N è: (Nn  Mx ) (mx )
N
• Dunque, se ( n ) è il numero totale di casi possibili, la probabilità di creare
n-tuple con x elementi difettosi dato un lotto di N elementi è:
 M  N  M 
 

x nx 
P( X  x )   
 N
 
n
• Che prende il nome di distribuzione ipergeometrica
Metodi Probailistici, Statistici e Processi
Stocastici
32
Esempio
Metodi Probailistici, Statistici e Processi
Stocastici
 55 100  55 
 

6
10

6
  25%
P( X  6)   
100 


 10 
P(X=x;n=10;N=100;M=55)
0.3
Hypergeometric
Distribution
• Supponiamo di avere a
che fare con un’urna
che
contiene
100
schede elettorali.
Si
scontrano due candidati
al ballottaggio. A fine
voto si saprà che il
candidato A avrà 55 voti
e il candidato B 45.
Qual è la probabilità
che,
estraendo
10
schede, 6 siano di A e 4
siano di B?
• Soluzione:
N=500;
M=55; n=10; x=6.
0.25
0.2
0.15
0.1
0.05
0
9
8
7
6
5
4
3
2
x
33
Esempio (2)
• Chiediamoci ora, qual è
la probabilità che su 20
schede le schede di A e
B estratte mantengano
la
stessa
proporzione(12 a 8)?
 55 100  55 
 

12
20

12
  18%
P( X  12)   
100 


20


P(X=x;n=20;N=100;M=55)
Hypergeometric
Distribution
0.25
0.2
0.15
0.1
0.05
0
17 16 15 14 13 12 11 10
9
8
7
6
5
4
3
2
x
Metodi Probailistici, Statistici e Processi
Stocastici
34
Dalla distribuzione binomiale…
• Consideriamo la distribuzione di una variabile random che segua una
distribuzione binomiale con np= lasciamo tendere n ad infinito e p che
tende a 0, con  è costante.
• Osserviamo cosa succede alla distribuzione binomiale:
1 n!
 k
 n  k k
n!
1

lim P(n, k ; p)  lim
( ) (1  )  lim
( ) k (1  ) n  k
n 
n  k! ( n  k )! n
n
k! n (n  k )! n
n

(1  ) n  e 
n

(1  )  k  1
n
n n  an 1n n 1  ...  n
n!
1 k
1 k
 ( )  nk
(
) 1
n  k 1
(n  k )! n
n  bn  k 1n
 ...  n n
Metodi Probailistici, Statistici e Processi
Stocastici
35
..alla distribuzione di Poisson
λ λ
lim P(n,k;p)  e  P(k; λ)
n
k!
k
• P è detta distribuzione di Poisson
•  prende il nome di rateo o tasso della
distribuzione
• Significato: probabilità di avere k eventi, dato il
tasso .
Metodi Probailistici, Statistici e Processi
Stocastici
36
Momenti della distribuzione di Poisson

k
t
k

λ
(
e
λ
)
Poisson
tk
λ
λ
λ ( e t 1)
Ψ
(t)   e
e e 
e
k!
k!
k 0
k 0
d λ( e t 1)
λ ( e t 1)
t
Ek   e

e
λ
e
t 0
t 0  λ
dt
d λ( e t 1) t
2
Ek  e
λe t 0  λ(1  λ)
dt
 
• Quindi:
V[k]  λ  λ  λ  λ
2
Metodi Probailistici, Statistici e Processi
Stocastici
2
37
Distribuzione di Gauss
• Una variabile X (-, +) segue la distribuzione di
Gauss N(,) se la sua densità di probabilità è data
da:
1 x μ 2
)
σ
 (
1
f (x) 
e 2
σ 2π
• La corrispondente distribuzione cumulativa è:
x
1 x
 (
1
FX ( x)  
e 2
  2
Metodi Probailistici, Statistici e Processi
Stocastici

)2
38
Grafici
Distribuzione Normale Standard
3000
2500
fG ( x)
f(x)
2000
1500
1000
500
0
-4
-3
-2
-1
0
x
1
2
3
4
Cumulative Gaussian Distribution
10000
9000
8000
PG ( x  X)
7000
6000
5000
4000
3000
2000
1000
0
-5
-4
-3
-2
-1
0
1
2
3
4
x
Metodi Probailistici, Statistici e Processi
Stocastici
39
Funzioni di Variabile Casuale
• Regola per funzioni di variabili casuali
• Sia X una variabile casuale e y=g(x) funzione di X. A sua volta Y
è una variabile aleatoria. Qual è la probabilità che il valore di Y
sia intorno ad y?
• Per semplicità consideriamo g(x) monotona crescente o
decrescente. f(x) è una corrispondenza biunivoca, quindi la
probabilità che Y sia in dy attorno a y è la stessa che X sia in dx
attorno x. Quindi: fY(y)dy=fX(x)dx. Ne segue:
f ( y )  f ( x ) x g1( y ) 
1
dy
dx
x  g 1 ( y )
• Se f(x) non è monotona crescente, allora vi saranno più punti in
cui è x=f-1(y). La precedente formula si generalizza in:
f ( y)   f ( xi ) 
i
Metodi Probailistici, Statistici e Processi
Stocastici
1
dy
dx
x i  g1 ( y )
40
Dalla distribuzione normale…
• Sia Y tale che lnY=X e X~N(, ). Qual è la
distribuzione di Y?
• Si applica la precedente regola in quanto ex è una
funzione monotona crescente. Calcoliamo:
dy
x dy
e ,
y
x  g 1 ( y )
dx
dx
1 x 2
1 ln( y )   2
(
)
 (
)
1
1
2 
2

f X ( x) 
e
; f X ( x) x  g 1 ( y ) 
e
 2
 2
1
fY ( y )  f X ( x) 
dy
dx
Metodi Probailistici, Statistici e Processi
Stocastici
1 ln( y )  
1
x g ( y )
 (
1

e 2
y 2

)2
41
…alla distribuzione Log-normale…
•La distribuzione:
fY ( y ) 
1
e
ξy 2π
1 ln( y )η 2
 (
)
2
ξ
prende il nome di distribuzione lognormale e rappresenta la
distribuzione di una variable il cui logaritmo segue una
distribuzione gaussiana.
•Notate che X=ln(Y) è ~N( ,2 ), mentre Y ~LN( , 2) e  ,
non sono il valor medio e la deviazione standard di Y.
•Valgono le seguenti relazioni trai parametri  ed  della
distribuzione lognormale e il valor medio () e la varianza (2) di
1
Y:
(   )

2
 Y  e
2


Mediana  e
 2
( 2  2 )
2
e 1
 Y  e


Metodi Probailistici, Statistici e Processi
Stocastici


42
Grafici della distribuzione lognormale
.20
fL ( x)
f ( x)
0.1
0
0
0
20
0.07
1
PL ( x  X)
x
50
1
f2( x) 0.5
0
0
0
0.07
Metodi Probailistici, Statistici e Processi
Stocastici
40
20
40
x
50
43
La distribuzione Beta
• La distribuzione beta della variabile X, con ax  b è
definita come segue:
 1 ( x - a ) r -1 (b - x) q -1
a ≤ x ≤b

 X ( x; q, r )    (q, r ) (b - a ) q  r -1
0 altrimenti

con
1
 ( q, r )  ∫
( x) r -1 (1 - x) q -1 dx
0
• (q,r) è detta funzione beta.
E[ x] =
• Momenti della distribuzione:
Metodi Probailistici, Statistici e Processi
Stocastici
r (b - a )
+a
q+r
rq (b - a )2
V [x] =
( r + q )2 ( r + q + 1 )
44
La distribuzione Beta (2)
• Grafico
per
b=10, q=2,r=3
• Grafico
per
b=10,
(simmetrico)
a=-10,
a=-10,
q=3,r=3
b(x;3,3)
b(x;2,3)
0.016
0.014
0.014
0.012
0.012
0.01
0.01
0.008
0.008
0.006
0.006
0.004
9.71
8.55
7.39
6.23
5.07
3.91
2.75
1.59
-0.7
x
0.43
-1.9
-3
-4.2
-5.4
-6.5
-7.7
-10
9.71
8.55
7.39
6.23
5.07
3.91
2.75
1.59
-0.7
0.43
-3
-1.9
-4.2
-5.4
-6.5
-7.7
-10
0
-8.8
0.002
0
-8.8
0.004
0.002
x
b(x;3,3)
9.71
8.55
7.39
6.23
5.07
3.91
2.75
1.59
0.43
-0.7
-1.9
-3
-4.2
-5.4
-6.5
-7.7
-8.8
q=4,r=3
-10
•
0.016
0.014
0.012
0.01
0.008
0.006
0.004
0.002
0
x
Metodi Probailistici, Statistici e Processi
Stocastici
45
La distribuzione 
• Una variabile continua  () segue una distribuzione  se la sua
densità di probabilità è data da:
• Dove:
βα ( λ  μ)α1 β( λμ)
γ( λ; α,β,μ) 
e
Γ(α)
–  (parametro di forma), (parametro di scala)>0 e
– () è la funzione , una funzione notevole, che generalizza il concetto di
fattoriale ai numeri non interi. () è definita come segue:

Γ α   x α1e x dx
0
• I parametri  (parametro di locazione) e sono legati al valore medio ed
alla varianza di  dalle seguenti relazioni:
α
Eλ  μ 
β
Metodi Probailistici, Statistici e Processi
Stocastici
α
Vλ  μ  2
β
46
Grafici della distribuzione 
f(,2,1,3)
1.2
1
0.8
0.6
0.4
0.2
f(,2,1,3)
12
12.8
13.6
14.4
12.8
13.6
14.4
11.2
12
11.2
9.6
10.4
10.4
8
8.8
7.2
6.4
5.6
4
4.8
3.2
2.4
1.6
0
0.35
0.8
0
0.4
0.3
0.25
0.2
0.15
0.1
0.05
f(,2,3,2)
14.4
13.5
12.6
11.7
10.8
9.9
9
8.1
7.2
6.3
5.4
4.5
3.6
2.7
1.8
0
0.9
0
1.2
1
0.8
0.6
0.4
0.2
9.6
8
8.8
7.2
6.4
5.6
4.8
4
3.2
2.4
1.6
0
Metodi Probailistici, Statistici e Processi
Stocastici
0.8
0
47
Problemi
• Utilizzando la regola del cambio di variabile, dato
X~N(0,1), trovare la distribuzione di X2. Notate che
è una distribuzione 2.
• Per ciascuna delle distribuzioni presentate, eccetto
la beta, trovare, :
– La funzione generatrice dei momenti
– I primi tre momenti: E[X], E[X2], E[X3]
– La varianza
• Per la distribuzione beta, trovare: il modo, la
mediana,la media e la varianza.
Metodi Probailistici, Statistici e Processi
Stocastici
48
Problemi
• Considerate la funzione () .
– Dimostrate che vale la seguente relazione:
()= (-1 )(-1).
– Deducetene che, se  è intero, si riduce alla
formula del fattoriale.
Metodi Probailistici, Statistici e Processi
Stocastici
49
Capitolo III:
Propagazione dell’Incertezza
Metodi Probailistici, Statistici e Processi
Stocastici
50
L’approssimazione del valore atteso
• Sia Y=g(x) una funzione di variabile casuale X.
• Utilizziamo l’espansione di Taylor per g(x) in X.
g( x )  g(μX )  g' (μX )( x  μX )  ( x  μX )2
g' ' (μX )
 ...
2
• Passiamo al valore atteso di ambo i membri
g' ' (μX ) 

Eg( x )  Eg(μX )  Eg' (μX )( x  μX )  E ( x  μX )2
 ... 
2 

g' ' (μX )
 g(μX )  g' (μ)E( x  μX ) 
E ( x  μX )2  ...
2


• Quindi otteniamo:
Eg( x )  g(μX ) 
Metodi Probailistici, Statistici e Processi
Stocastici
g' ' (μX )
Vx   ... 
2
51
Esempio
• Sia y=+v0t la legge oraria di un grave. Sia v incerta,
con una distribuzione normale, (v=10,2v=5) (unità
standard). Quanto tempo impega il grave a
percorrere y=100m?
• Soluzione: t=g(v)=100/v.
• f(v)=100/10=10
• f’’(v)=(200/v3)| v =0.2
• E[t]=100/10+0.1*5=10.5
Metodi Probailistici, Statistici e Processi
Stocastici
52
Approssimazione della Varianza
• Se V[X] è “il valore dell’incertezza” in in X, quanto è il
valore dell’incertezza in f(x)?
• La varianza si calcola sempre tramite l’approssimazione
di Taylor su g(x) e introducendola nell’equazione:
Vg( x )   g( x )  Eg( x ) f ( x )dx
2
• Per esempio, fermiamo l’approssimazione di Taylor al
primo ordine:
Vg( x )   g(μX )  g' (μX )( x  μX )  g(μX ) f ( x )dx  g' (μX )2 V[ x]
2
Metodi Probailistici, Statistici e Processi
Stocastici
53
Approssimazione al II ordine della Varianza
• Si considerino l’approssimazione al secondo ordine
del valore atteso e della funzione g(x).
g( x )  g(μ)  g' (μ)( x  μ)  ( x  μ)2
g' ' (μ)
2
Eg( x )  g(μ) 
• Sostituendo in V[g(x)] otteniamo:
g' ' (μ)
Vx 
2
2
g' ' (μ)
g' ' (μ)


Vg( x )   g(μ)  g' (μ)( x  μ)  ( x  μ)2
 g(μ) 
Vx  f ( x )dx 
22
2


g' ' (μ) g' ' (μ)


  g' (μ)( x  μ)  ( x  μ)2

Vx  f ( x )dx
2
2


2
 2

g' '2 (μ) 2
2
4 g' ' (μ)

V x  
 g' (μ)( x  μ)  ( x  μ)

4
4
 f ( x )dx 
 
2

g' (μ)g' ' (μ)
g' ' (μ) 
3 g' ' (μ)
2




2
g
'
(
μ
)(
x

μ
)

2
(
x

μ
)
V
x

2
(
x

μ
)
V
x

2
2
4 
2
g' '2 (μ)
2
2
3 g' (μ)g' ' (μ)
4 g' ' (μ)
 V[ x]g' (μ)  V x 
 E[( x  μ) ]
 E[( x  μ) ]
4
2
4
Metodi Probailistici, Statistici e Processi
Stocastici
54
Il Teorema di Inversione
• Innazitutto dimostriamo che y=FX(x) è caratterizzata
da una distribuzione uniforme.
• Per farlo, notiamo che F(x) è una funzione monotona
crescente. Quidi, per la formula del cambio di
variabile si ha:
f (y)  f (x) 
1
dy
dx
x  g 1 ( y )
 f (x) 
1
1
 f ( x)
1
dF
f (x)
dx
• Quindi la distribuzione di y=F(x) è una distribuzione
uniforme.
A questo punto, risolvendo la relazione in funzione di
X, otteniamo: x=F-1(y)
Metodi Probailistici, Statistici e Processi
Stocastici
55
Il Teorema di Inversione 2
• Il teorema di inversione ci dice che, se y è
distribuita secondo una uniforme, x=F-1(y) è
distribuita secondo F(x) o, se si vuole, f(x).
Metodi Probailistici, Statistici e Processi
Stocastici
56
Metodo Monte Carlo
• Campionamento di un valore di P.up
• Per ogni valore di P.up si valuta il modello.
• 2 informazioni:
– Frequenza della decisione migliore
– Distribuzione di ciascuna delle alternative
Metodi Probailistici, Statistici e Processi
Stocastici
57
Campionamento: il cuore del Monte Carlo
• 1) Generatore di numeri casuali “u” tra 0 e 1
0
1
u
• (I numeri sono generati con distribuzione uniforme)
• 3) Supponiamo che il parametro incerto  sia
caratterizzato dalla distribuzione cumulativa in figura:
Distribuzione cumulativa esponenziale
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Metodi Probailistici, Statistici e Processi
Stocastici
0
0.1
0.2
0.3
0.4
0.5
x
0.6
0.7
0.8
0.9
1
58
Campionamento
1
Distribuzione cumulativa esponenziale
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
• Inversione:
0
0.1
0.2
0.3
0.4
0.5
x
0.6
0.7
0.8
0.9
1
1
x  F (u )
• I valori di  così ottenuti seguono la
densità/cumulativa da cui abbiamo invertito
Metodi Probailistici, Statistici e Processi
Stocastici
59
Esempio
• Valutare il volume del solido mediante metodo Monte
Carlo.
V0
V
nin
V  lim
 V0
n N
Metodi Probailistici, Statistici e Processi
Stocastici
60
Problemi
1
•
Campionare 100 numeri casuali da una distribuzione esponenziale di tasso =1.
•
Disegnare l’istogramma della frequenza e il cumulativo
•
Stimare valor medio e varianza
•
Ripetere l’esercizio con 1000 dati.
2
Sia Y=X1/2 con X>=0 distribuito secondo la distribuzione (1,1,0). Disegnare la distribuzione di X. Mediante
la formula del cambio di variabile calcolare la distribuzione di Y.
Disegnare la distribuzione di Y.
Calcolare il valore atteso e la varianza di Y.
Calcolare il valore atteso e la varianza di Y con lo sviluppo di Taylor al I ordine. Che errore commettete?
Utilizzate lo sviluppo in serie del II ordine. Che errore commettete?
3
Siano X e Y due variabili casuali, con Y=arcsin(x), -1<x<1. X è distribuito mediante una distribuzione
esponenziale: f(x)=e-x/K.
Utilizzate l'approssimazione di Taylor al I ordine per calcolare la varianza di Y e il suo valore atteso
Ottenere l'espressione analitica esatta della varianza. Confrontate il risultato con il risultato precedente.
Ripetete ora con l'approssimazione del II ordine.
Mediante il metodo Monte Carlo disegnate il grafico della densità e della distribuzione cumulativa di Y, con
1000 campionamenti (In questo caso, campionate dalla gaussiana 1000 valori di x e sostituite in Y).
Confrontatelo con il grafico analitico.
Sul campione Monte Carlo ottenuto, calcolate il valore atteso e la varianza. Che errore commette rispetto al
valore ottenuto analiticamente?
Metodi Probailistici, Statistici e Processi
Stocastici
61
Capitolo IV:
Analisi Dei Dati
Metodi Probailistici, Statistici e Processi
Stocastici
62
Introduzione
• Inferenza statistica: a volte si parte da un insieme di
dati, che rappresentano gli esiti di un fenomeno
casuale. Per esempio I dati di concentrazione di una
sostanza tossica in un determinato terreno possono
variare in maniera casuale nelle varie zone:
50ppm,25ppm,17ppm,22ppm. Oppure gli arrivi degli
ordinativi in vari giorni o periodi dell’anno sono 10,
20, 15,7,9,30. Se da un punto di vista di consuntivo
tali dati sono importanti, possono e devono risultare
utili anche in vista di una stima del comportamento
futuro dei due sistemi (l’inquinamento del terreno e
l’azienda).
Metodi Probailistici, Statistici e Processi
Stocastici
63
Stima dei Parametri
• Da un punto di vista statistico, si dice che
l’analista ha a disposizione un campione
X1,X2,…XN che proviene da una popolazione
che è:
– con distribuzione non specificata
– con distribuzione di forma nota, ma con valore dei
parametri della distribuzione non noti
• Nel primo caso si parla di:
– Inferenza statistica non parametrica
• Nel secondo caso si parla di:
– Inferenza statistica parametrica
Metodi Probailistici, Statistici e Processi
Stocastici
64
Statistica
• Trattiamo la stima parametrica
• Definizione: Statistica. Si dice una statistica qualunque
funzione T(X1,X2,…,XN) – o anche T(·) - tale che:
– è funzione degli elementi del campione
– non contiene parametri incogniti
• Per esempio, nel caso degli arrivi di ordinativi all’azienda la
media del campione
6
^
μ
X
i1
6
i
 15.17
• è una statistica della distribuzione del campione
• Notiamo che in qualche modo la statistica sintetizza o
manipola l’informazione originaria del campione
Metodi Probailistici, Statistici e Processi
Stocastici
65
Statistiche Sufficienti e Teorema di Fisher-Neyman
• Definizione: Se X1,X2,…,XN costiuiscono un campione casuale semplice
e Bernoulliano, con corrispondente variabile casuale X, con funzione di
probabilità f(x;)(*), allora T(·) è sufficiente per f(x;) se e solo se la
distribuzione del campione condizionata al valore t assunto da T è la
stessa per qualunque valore di .
• Dal punto di vista pratico non è facile utilizzare la definizione precedente
per stabilire se una statistica è sufficiente. Si ricorre allora al seguente
criterio di Fisher-Neyman:
• T(·) è sufficiente per f(x;) se e solo se vale:
n
f ( x1, x 2 ,..., x n ; θ)   fi ( x i ; θ)  gT( x1, x 2 ,..., x n ); θ  hx1, x 2 ,..., x n 
i1
• Con h e g funzioni non negative. Notiamo che g dipende dagli xi solo
tramite T.
•
(*)  è il vettore dei parametri della distribuzione di X. Per esempio in una distribuzione  è =(,,).
Metodi Probailistici, Statistici e Processi
Stocastici
66
Stimatori
•
•
•
•
In vista dell’utilizzo predittivo dei dati, si può cercare di creare una statistica T
che ci permetta di stimare . Per esempio, in una distribuzione esponenziale,
ci potrebbe interessare trovare il valore del parametro .
Chiaramente uno stimatore sarà tanto migliore quanto meglio saprà utilizzare
l’informazione contenuta nel campione per stimare . In più, all’aumentare del
numero di variabili nel campione, vorremmo che ^=T(·) tenda al vero .
Un esempio: sia X1,X2,…,XN un campione da una distribuzione esponenziale
che vogliamo utilizzare per stimare . Vale: =1/E, con E valor medio della
N
distribuzione esponenziale.
Quindi potremmo dapprima calcolare
^
•
e poi utilizzare la relazione
λ
^
E 
x
i 1
i
N
1
^
μE
•
Definizione. Sia X~f(x;) e X1,X2,…,XN un campione casuale semplice di X. Si
dice stimatore di  qualsiasi statistica T che venga utilizzata per stimare .
Metodi Probailistici, Statistici e Processi
Stocastici
67
Proprietà degli Stimatori
• Stimatore sufficiente: è uno stimatore che deriva da
una statistica sufficiente.
– Uno stimatore sufficiente utilizza tutta l’informazione nel
campione
• Efficienza:
– Erorre semplice medio:
– Errore quadratico medio:
 __

 __

E θ * θ   E θ  θ 
2
2
__
__ 








 
 
E   *     E      


 
 




• L’efficienza degli stimatori è, nella pratica, da
intendersi in modo relativo. Infatti non sempre è
assicurata l’esistenza di uno stimatore efficiente in
senso assoluto, cioè che minimizza uno dei due
errori
Metodi Probailistici, Statistici e Processi
Stocastici
68
Proprietà degli stimatori: distorsione (bias)
• Uno stimatore di dice corretto o non distorto se:
^
E    
 
• Dimostriamo che se uno stimatore è corretto, allora l’errore
quadratico medio e la varianza dello stimatore coincidono.
2
2
__
__
__
__
__
 __







 
 
 
  
 __ 
 __  2
 __ 
EMQ ( )  E      E    E      E (  E   )  (  E   )   V    (  E   )  V    d 2
 
   
 
   
 
 
 


__
 __ 
con d    E   det to distorsion e
 
• Se  è uno stimatore non distorto, allora d=0 e la varianza di
 coincide con l’errore quadratico medio.
Metodi Probailistici, Statistici e Processi
Stocastici
69
La distribuzione della media di un campione gaussiano
N
• Valore atteso:
E[ X] 
E[ Xi ]
i1
N
• Varianza del valore atteso:
NμX

 μX
N
N
X
2
2
N
σ
σ
σ 2X  V[ X]  E[( X  μX )2 ]  V[ i1 ]  2X  X
N
N
N
i
• Distribuzione: Gaussiana.
– Segue dal fatto che la somma di varibili normali
indipendenti è ancora una variabile normale
Metodi Probailistici, Statistici e Processi
Stocastici
70
La distribuzione della media di campione non gaussiano
• Il teorema del limite centrale assicura che la
somma di n varibili casuali indipendenti e
identicamente
distribuite
tende
ad
una
distribuzione gaussiana al tendere di n all’infinito.
• In virtù del teorema del limite centrale, la
distribuzione
del
campione
è,
per
N
sufficientemente grande:
σX
N(X,
)
N
• Ovvero, il valor medio del campione è distribuito
secondo una normale anche se la distribuzione di
X non lo è…!
Metodi Probailistici, Statistici e Processi
Stocastici
71
Stima della varianza della distribuzione
• Definiamo varianza campionaria la quantità:
S2 
N
2
(
X

X
)
 i
i1
N 1
• Si può verificare che la varianza campionaria ha valore atteso
pari a X2, la varianza della distribuzione della popolazione.
• In termini di stimatori, S2 è uno stimatore corretto della
varianza della popolazione.
• Notiamo che se per X2 viene utilizzato lo stimatore:
N
σ ^2 
2
(
X

X
)
 i
i1
N
• Si ottiene una stima della varianza della popolazione distorta.
Infatti, vale:
Metodi Probailistici, Statistici e Processi
Stocastici
72
La varianza campionaria
N
E[ ( X i  X ) 2 ]
i 1
N
N
 
Dim . : E[V X ]  E[
 ( X
N
 E[
i 1
i
N

i
 X)
]  E[
N

 ( X
N
2
i 1
 ( X
]  E[
i 1
 )  ( X  )
i
i 1
N
(X
i 1
i
  )2  N ( X   )2
N
2
]
  ) 2  2( X i   )( X   )  ( X   ) 2
N
N
i 1

N
N
2
i
N 1 2
 X
N
 ( X i   ) 2  2( X   ) ( X i   )  N ( X   ) 2
N
 E[
i 1
 )  ( X  )
N
 E[
(X

N
]  E[
(X
i 1
i

]
  )2  2N ( X   )2  N ( X   )2
N
]
N X2  N X2 / N
]

N
N 1 2
X
N
• Quindi la varianza del campione è uno stimatore
distorto della varianza della popolazione
Metodi Probailistici, Statistici e Processi
Stocastici
73
Proprietà degli stimatori: consistenza
• Consistenza in senso debole:


lim P θN  θ  ε  1
N
– Ovvero al tendere del numero di elementi nel campione, con
probabilità 1 l’errore semplice medio tende a 0
• Consistenza in senso forte:
lim EQMN  0
N 
• Al tendere di N all’infinito, l’errore quadratico medio tende a 0.
• La consistenza in senso forte implica la consistenza in senso
debole.
Metodi Probailistici, Statistici e Processi
Stocastici
74
La funzione di verosimiglianza
• Sia X~f(x;) una variabile aleatoria e X={x1,…,xn} un
corrispondente campione.
• Si consideri un campione bernoulliano. Si dice funzione di
verosimiglianza del campione la seguente densità:
N
L( X; θ)   f ( x i ;θ)
i1
• Interpretazione: la funzione di verosimiglianza è legata
alla probabilità del campione come segue:
P( X;θ)  f ( x1;θ)dx1  f ( x2;θ)dx2...  f ( xN;θ)dxN
Metodi Probailistici, Statistici e Processi
Stocastici
75
Un esempio classico
• Sia X~N(;2X), ed X un campione da N(;2X). Costruiamo la funzione
di verosimiglianza:
 1
L( X; θ)   
e
i1 
 σ X 2π
N
1 x i μX 2
(
)
2 σX
N
x μ
1
( i X )2
2 i 1 σ X
 


1
 e
 

  σ X 2π 
N
• Quali sono le due statistiche che massimizzano la verosimiglianza per la
stima di  e X?

L( X; θ)  0
μX
•

L( X; θ)  0
σ X
Il membro di sinistra della prima equazione risulta:
N
x μ
1
(
N
μ

x
)

( i X )2
X
i




1 
2 i 1 σ X
i1
L( X; θ)  
e

μX
σX
 σ X 2π 
N
Metodi Probailistici, Statistici e Processi
Stocastici
N
76
Un esempio classico (cont.)
N
• Che implica:
N
(N   x i )  0  μMLE

X
 xi
i1
N
• Dunque la media del campione è una stima del parametro  della
distribuzione.
• Passando alla seconda equazione, si ottiene:
i1
N

σ X
2
L( X; θ) 
 
N
 
  1 

 σX
σ X  2π 
 1  N

) σX
 (
2
2
π


N
2 ( 2 1)
 
 σX
N
2 N / 2
2 N / 2
e
x μ
1
( i X )2
2 i 1 σ X


e
2
σ X
 ( xi μX )2 
i 1
2
 1 
 N
2

) σX
 e 2σ X (
2
 2π 


 
N
( 1)
2

2 N / 2
N
e
x μ
1
( i X )2
2 i 1 σ X


N
x μ
1
( i X )2
2 i 1 σ X

 
1
2
σX
2
 
 1  

σX


σ
 2π 
X
N
N
N
N / 2

  ( x i  μ X )2 

i1
2 2

(σ X )


N
N
 ( xi μX )2
i 1
e
2σ X
2
N
 
 1 
2

 σX
 2π 
(
N 2
)
2
Metodi Probailistici, Statistici e Processi
Stocastici
 
 2 N N
2
σ
(
)

(
x

μ
)

X
 X 2 i1 i



77
Un esempio classico (cont.)
N
•
•
•
•
•
•
Che implica: σ 2 MLE 
X
 ( x i  μX )
2
i 1
N
A questo punto dobbiamo notare che X non è noto. E quindi dobbiamo sostituite
la sua stima, tramite X, ovvero:
N
2
(
X

X
)

i
MLE
σ 2X
 i1
N
Dunque lo stimatore di massima verosimiglianza della varianza della distribuzione
normale è dato dall’espressione di cui sopra.
A questo punto ci domandiamo: sono stimatori distorti?
Per saperlo occorre calcolare il termine d2 introdotto in precedenza, e quindi E[^].
Cominciamo con lo stimatore di massima verosimiglianza di . Abbiamo:
N
 Xi
E[μMLE
]  E[ i1 ]  μ
X
N
•
•
Ne segue: E[XMLE]= e d2=0. Quindi lo stimatore XMLE è corretto.
Consideriamo lo stimatore della varianza e ripetiamo lo stesso ragionamento.
Metodi Probailistici, Statistici e Processi
Stocastici
78
Un esempio classico (Cont.)
N
• Abbiamo:
E X [σ 2X
MLE
 ( Xi  X )
]  E[ i1
N
2
]
• Che dimostra che la varianza stimata con il
metodo della massima verosimiglianza è uno
stimatore distorto della varianza della
popolazione
Metodi Probailistici, Statistici e Processi
Stocastici
79
Capitolo V
L’approccio Bayesiano
Metodi Probailistici, Statistici e Processi
Stocastici
80
Probabilità e Informazione
• Problema: vi è data una scatola contenente due
gioielli. La scatola è costruita in modo tale che con
la stessa probabilità (1/2) i due gioielli sono tutti e
due d’oro (evento A) o uno è d’oro e uno d’argento
(evento B). Per sapere il contenuto della scatola vi è
permesso di estrarre uno dei due gioielli dalla
scatola. Supponete che sia d’oro.
– Secondo
voi
avete
guadagnato
informazioni
dall’estrazione?
– La probabilità che l’altro sia d’oro è ancora del 50%?
– Sareste disposti a pagare per estrarre?
Metodi Probailistici, Statistici e Processi
Stocastici
81
Se assumiamo che:
La probabilità di un evento è
soggettiva
La probabilità è il nostro grado di
confidenza nel realizzarsi di un evento
P(E) cambia con l’informazione…
Metodi Probailistici, Statistici e Processi
Stocastici
82
Il Teorema di Bayes
• Ipotesi: A e B sono due eventi. L’evento A è
accaduto.
• Tesi: la probabilità di B dato che A è avvenuto
cambia come segue:
P(B) prima che A avvenisse
P(B A ) 
P(B)  P( A B)
Prob. di B ora che A è avvenuto
Metodi Probailistici, Statistici e Processi
Stocastici
Probabilità di A dato B
P( A )
Prob. che A avvenisse
83
Applichiamolo al problema
• Eventi:
• A: tutti e due i gioielli sono d’oro
• o: l’anello estratto è d’oro
• Il teorema dice:
P( A o) 
P( A )  P(o A )
P(o)
• P(A)=probabilità che tutti e due siano d’oro prima
dell’estrazione=1/2
• P(o)=probabilità che un anello sia d’oro=3/4
• P(o|A)=probabilità che l’anello sia d’oro dato A=1 (tutti e due gli
anelli sono d’oro)
• Quindi:
1/ 2  1
P( A o) 
 2/3
3/4
Metodi Probailistici, Statistici e Processi
Stocastici
84
Dimostrazione del Teorema
Punto di Partenza
P( AB)  P( AB)
Formula della probabilità condizionale
P( A B)  P(B)  P(B A )  P( A )
Tesi
P( A B) 
Metodi Probailistici, Statistici e Processi
Stocastici
P(B A )  P( A )
P(B)
85
Teorema di Bayes nel continuo
• Incertezza epistemica e teorema di Bayes
sono collegati in quanto sappiamo che
possiamo usare l’evidenza per aggiornare le
probabilità.
• Ad esempio, supponete di avere una moneta
e di voler sapere se la probabilità che esca
testa o croce sia del 50%.
• Come fate?
• Tirate la moneta….
Metodi Probailistici, Statistici e Processi
Stocastici
86
Formula
• La densità di probabilità di un parametro, dopo aver
raccolto l’evidenza (E) cambia come segue:
() 
L ( E  )   0 ( )

 L( E  )  
0
()d

• L(E)=MOW likelihood o verosimiglianza
• 0() è la densità di probabilità di  prima dell’evidenza
detta distribuzione a priori
• () è la densità di probabilità di  dopo l’evidenza detta
distribuzione a posteriori
Metodi Probailistici, Statistici e Processi
Stocastici
87
Deriviamolo
• Prendiamo la formula del teorema di Bayes nel discreto:
P( A j E) 
P(E A j )  P( A j )
n
 P(E A )  P( A )
i
i
i1
• Passiamo al continuo: in questo caso vogliamo sapere la
probabilità che un parametro nella distribuzione assuma un
determinato valore dato che un certo evento si è verificato
• Quindi l’evento Aj è:  assume il valore *
• Da cui: P(Aj)0()d 0()=densità a priori
• Quindi: P(EAj) ha il significato di probabilità che l’evidenza
E si realizzi dato che  sia pari a * . Si scrive L(E,  ) ed è
chiamata funzione verosimiglianza: ma è anche il MOW!!!
Metodi Probailistici, Statistici e Processi
Stocastici
88
Deriviamolo
• Il denominatore esprime la somma delle probabilità
dell’evidenza dati tutti i possibili eventi. Nel caso
dell’ncertezza epistemica i possibili eventi sono i
valori del parametro . Quindi:

n
 P(E A )  P( A )   L(E ) ()d
i1
i
i
0

• Sostituendo i vari termini si trova la formula del
teorema di Bayes per stribuzioni continue che
abbiamo mostrato prima
Metodi Probailistici, Statistici e Processi
Stocastici
89
E’ una moneta onesta?
• Quale è il modello aleatorio?
 n k
P(k,n  k )     p  (1  p)nk
k 
• 2) Quale è il valore di p?
• E’ una binomiale:
• Supponiamo di non sapere nulla su p e allora scegliamo una
distribuzione a priori non informativa: la uniforme
0 (p)  1 0  p  1, 0
altr .
• Raccogliamo l’evidenza.
• Al primo lancio esce testa
• Al secondo croce
• Al terzo testa
Metodi Probailistici, Statistici e Processi
Stocastici
90
Ristulato
•
•
•
Primo lancio
– Evidenza t.
– MOW: L(tp)=p
– Priori: 0
Secondo lancio:
– Evidenza è c
– MOW: L(cp)=(1-p)
– Priori: 1
Terzo lancio:
– Evidenza t
– MOW: L(tp)=p
– Priori: 2
• Equivalentemente:
– Evidenza: t,c,t
– L(tctp)=p2(1-p)
– Priori: 0
Metodi Probailistici, Statistici e Processi
Stocastici
1(p) 
L( t p)  0 (p)


p 1
 2p
1
 L(E p)   (p)dp  pdp
0

 2 (p) 
0
L( tc p)  1(p)


p  (1  p)
1
 L(tc p)   (p)dp  (p  p
1

2

)dp
0
 6(p  p )
2
3 (p) 
L( tc p)   2 (p)


 L(tc p)  2 (p)dp

p 2  (1  p)
1

2
p
  (1  p)dp
0
 12(p 2  p 3 )
3 (p) 
L( tct p)  0 (p)

 L(tc p)  2 (p)dp


p 2  (1  p)  1
1

2
p
  (1  p)  1dp
0
 12(p 2  p3 )
91
Grafico
2
1.8
3
1.6
2
1.4
1.2
1
1
0
0.8
0.6
0.4
0.2
0
0
0.1
0.2
Metodi Probailistici, Statistici e Processi
Stocastici
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
92
Distribuzioni Coniugate
• Likelihood
• Distr. A Priori
– Poisson
– Gamma
 t
e ( t )
P(n, t ) 
n!
n
• Distr. a Posteriori
β' λα' 1
π( λ ,α' , β' ) =
e
Γ ( α' )
Metodi Probailistici, Statistici e Processi
Stocastici
 1 
(, , ) 
e
 ( )
• dove:
β' λ
α'  α  r
β'  β  t
93
Distribuzioni Coniugate
• Distr. A Priori di :
• Likelihood
– Normale
– Normale
1
fX ( x ) 
e
σ x 2π
• Distr.
a
Normale
1 x μx 2
 (
)
2 σx
Posteriori:
1
fG ( x ) 
e
σ' x 2π
1
π0 (m) 
e
σμ 2π
• dove:
μ 
'
1 x μ'
 ( ' )2
2 σx
Metodi Probailistici, Statistici e Processi
Stocastici
σ 'x 
1 mμx 2
 (
)
2 σμ
μX (σ x )2  nx(σμ0 )2
(σ x )2  n(σμ0 )2
(σ x / n)2 (σ μ )2
( σ μ ) 2  ( σ x )2 / n
94
Distribuzioni Coniugate
• Likelihood
– Binomiale
n k
  p (1  p)nk
k 
• Distr. a Posteriori:
Beta
π1(p)  p( q' 1) (1  p)r ' 1
Metodi Probailistici, Statistici e Processi
Stocastici
• Distr. A Priori di :
– Beta
π 0 (p)  p( r 1) (1  p)q1
• dove:
r'  r  k
q'  q  n - k
95
Riassunto delle Distribuzioni Coniugate
Modello Aleatorio
Distribuzio Distribuzione a
ne a Priori Posteriori
Binomiale
Beta
Beta
Poisson
Gamma
Gamma
Normale
Normale
Normale
Normale
Gamma
Gamma
Negative binominal
Beta
Beta
Metodi Probailistici, Statistici e Processi
Stocastici
96
Stima Bayesiana dei Parametri
• Supponiamo di avere un campione t=(t1, t2,…, tN) da una
distribuzione esponenziale, con parametro  non noto.
• Se la distribuzione di partenza è una distribuzione (,,0),
qual è la distribuzione di  una volta raccolta l’evidenza?
• La funzione di verosimiglianza del campione è:
N
L( t; α, β)   λe
N
 λt i
ti

 λ e i 1
N
λ
i1
• Da cui la disribuzione a posteriori risulta:
 βλ α 1 α
ti e
λ β
N
N

λ e i 1
N  λ  t i βλ α 1
 λ ( β   t i ) N α 1
λ e i 1 e λ
e
λ
i 1
Γ ( α)
π 1( λ ) 


N
N
N
βλ α 1 α
λ β
N  λ  ti e
N  λ  t i βλ α 1
 λ ( β   t i ) N α 1
 λ e i 1 Γ ( α ) d λ  λ e i 1 e λ d λ  e i  1 λ d λ
N
N
λ
Metodi Probailistici, Statistici e Processi
Stocastici
97
Stima Bayesiana
• Supponiamo di avere a disposizione
seguenti dati:
• t=(1,19,42,15,61,70,93), =2, =2.
• Disegnamo I grafici delle due distribuzioni
i
40
0.7
0
0.6
0.5
1
30
0.4
20
0.3
0.2
10
0.1
0
0.2
0.4
0.6
0.8
Metodi Probailistici, Statistici e Processi
Stocastici
1
0
0.2
0.4
0.6
0.8
1
98
Stima Bayesiana
•

Come stimatore Bayesiano di  utilizziamo:
 λe
λ  E Λ λ 
 ti ) λN α1dλ
i 1
0

•
 λ(β
N

0
e
 λ( β
N
 ti ) λN α1dλ
i 1
E[] minimizza l’errore quadratico dello stimatore:


2



E
λ̂

λ
2



min E λ̂  λ  
 2E λ̂  λ  0  λ̂  E[λ]


λ̂
λ̂

•
•


Per il nostro esempio numerico: E[]=0.0297029703
Notiamo che l’approccio bayesiano ci consente anche di identificare un intervallo
di confidenza per . Per esempio l’intervallo di confidenza 10% simmetrico [5%,
 95%] è ottenuto risolvendo le due equazioni:
λ 05
 π (λ)dλ  0.05
1
•

0
λ 95
 π (λ)dλ  0.95
1
0
Per il nostro esempio: 5%=0.0155 e 95%=0.0477
Metodi Probailistici, Statistici e Processi
Stocastici
99
Problemi
• 4) Dimostrare che
1,+T)
π 1( λ ) 
e
 λ( β

e

λ( β
N
 ti ) λN α1
i 1
è equivalente ad una (+N-
N
 ti ) λN α1dλ
i 1
• 5) Per l’esempio, trovate il valore dello stimatore di massima
verosimiglianza e confrontatelo con lo stimatore Bayesiano E[]. (Sol.:
0.0232 vs. 0.0297).
• 6) X~N(8,9).  e  sono caratterizzati da una distribuzione di incertezza a
priori N(10,4). E’ dato il campione (18.6,13.1, 6.9, 12.6, 6.9, 9.0, 6.4,
13.4, 12.4, 6.8). Trovate:
– Gli stimatore di massima verosimiglianza del valor medio e della varianza
• Sol.: 10.6
– Gli stimatori Bayesiani
• Sol.:
μ' 
μ(σ x )2  nx(σμ0 )2
(σ x )2  n(σμ0 )2
 10.5
σ 
'
x
(σ x / n)2 (σ μ )2
( σ μ )2  ( σ x )2 / n
 0.27
– L’intervallo di confidenza simmetrico del 10%.
• Sol.:
Metodi Probailistici, Statistici e Processi
Stocastici
100
Capitolo VI:
Statistica Multivariata
Metodi Probailistici, Statistici e Processi
Stocastici
101
Distribuzioni multivariate
• Consideriamo un fenomeno casuale in cui si combinino due variabili.
Ad esempio, I ricavi di un supermercato derivano dai clienti che entrano
nel supermercato e dal tipo di acquisti che i clienti effettuano.
Modellizziamo il problema chiamando X la variabile aleatoria relativa al
numero di clienti che entrano nel supermercato e Y quella relativa al
valore dell’acquisto. Chiaramente quanto si venderà è funzione di X e
Y.
• F(x,y) sarà la probabilità che arrivino X<=x clienti e che acquistino per
un valore pari ad Y<=y. Se a questa funzione cumulativa corrisponde
una funzione densità di probabilità, scriveremo: f(x,y)dxdy la probabilità
che arrivino x clienti e comperino per un valore y.
• Qual è la probabilità che i clienti comperino X<=x indipendentemente da
x

y?
FX ( x )   dx '  dy' f ( x ' , y' )


• Analogo ragionamento si applica alla determinazione della distribuzione
marginale FY(y).
Metodi Probailistici, Statistici e Processi
Stocastici
102
Funzione Partizione
F( x, y) : P(X  x  Y  y)
AXx
BYy
F( x, y)  P(AB)
FX ( x ) : P(X  x )
FY ( y) : P(Y  y)
M arg inali
Metodi Probailistici, Statistici e Processi
Stocastici
103
Distribuzioni Multivariate
• Più formalmente, se xy è il nostro spazio degli eventi, dove
un evento è una combinazione dei valori di xy FXY(x,y)
rappresenta la probabilità che X sia minore di x e, allo
stesso tempo, Y sia minore di y:
• FXY(x,y)=P(Xx,Y  y).
• Per soddisfare gli assiomi della probabilità deve essere:
• F(, )=1
• F(, y)=FY(y), F(x, )=FX(x)
• F(-, -)=0,
• F(-, y)=0, F(x, -)=0
• F(, y)=FY(y)
Metodi Probailistici, Statistici e Processi
Stocastici
104
Distribuzioni multivariate
• Ora, logicamente ci si aspetta che Y dipenda in
qualche modo da X. Infatti, più clenti arrivano più
sarà facile raggiungere valori alti di Y. Ma, se per
caso, in un mondo poco reale, si verificasse che Y
non dipende da X, ci troveremmo di fronte al fatto
che P(X<=x) è indipendente dal valore di Y. Dunque:
• P(X,Y)=P(X<=x) P(Y<=y)
• Quindi: F(X,Y)=FX(x) FY(y)
• od anche: f(x,y)dxdy=f(x)dx f(y)dy
• Diremo che X e Y sono indipendenti se:
fX|Y(x|y)=fX(x)
Metodi Probailistici, Statistici e Processi
Stocastici
105
Esempio
• Considerate due variabilie X e Y caratterizzate dalla
y
( x )
seguente possibile densità:
e x
f ( x, y ) 
c
• Trovate c
• Sol:  f ( x, y)  1  c  e dxdy 1  c  1
• X e Y sono indipendenti?
• Sono indipendenti se possiamo scrivere: fX|Y(x|y) =
fX(x).
f (x, y)
f
(x
|
y)

 f (x).
• Ovvero:
Nel nostro caso è facile
f (y)
verificare che questa condizione non può essere
verificata e quindi le due variabili non sono
indipendenti. La ragione è legata alla presenza del
termine di interazione y/x
y
( x )
x
XY
X| Y
X
Y
Metodi Probailistici, Statistici e Processi
Stocastici
106
Valore atteso condizionale
EX Y  y    xf ( x y )dx
• Si può dimostrare che:
EX   fY ( y )dy  xf ( x y )dx
• Nel caso X e Y siano indipendenti
EX Y    fY ( y )dy  xf ( x )dx   xf ( x )dx EX
Metodi Probailistici, Statistici e Processi
Stocastici
107
Esempio
• Dati X e Y e la loro distribuzione:
• Trovare il valore atteso condizionale di X, quello di Y
e I corrispondenti valori attesi non condizionali
Metodi Probailistici, Statistici e Processi
Stocastici
108
Covarianza e Coefficiente di Correlazione
• Siano X ed Y due variabili casuali. Si definisce Covarianza
di X con Y il seguente:
Cov[ XY]  E( X  μX )( Y  μY )   ( X  μX )( Y  μY )fXY ( x, y )dxdy
• Si definisce coefficiente di correlazione il seguente rapporto:
Cov[ XY]
ρ
σ Xσ Y
• Vale:  1  ρ  1
• Dimostrazione:
Dalla diseg. di Schwarz :
 ( X  μ )( Y  μ )f
X
Y

2
  ( X  μX )2 fXY ( x, y )dxdy   ( Y  μY )2 fXY ( x, y )dxdy
XY ( x, y )dxdy
ma : ( X  μX )2 fXY ( x, y )dxdy  E X [( x  μX )2 ]  σ X
 ( X  μ
X
)2 fXY ( x, y )dxdy  E Y [( x  μY )2 ]  σ Y
Quindi : Cov[ XY]2  σ Y σ X , da cui
2
2
2
e
2
 σ Y σ X  Cov[ XY]  σ Y σ X .
Sostituend o in ρ si chiude la dim ostr.
Metodi Probailistici, Statistici e Processi
Stocastici
109
Un esempio
• Dopo attenta riflessione stabilite che le vendite della vostra azienda (y)
dipendono, da:
– X1: Condizioni generali dell’economia (che sintetizzate nell’indice
della fiducia dei consumatori)
– X2: Qualità della produzione, che stimate in base al numero di
elementi difettosi scartati durante l’anno.
• Nei dieci mesi passati raccogliete i seguenti dati:
Fiducia
Numero
Consumatori (scala Prodotti
1-10 per semplicità) difettosi
5
6
7
6
5
4
6
3
4
4.5
Metodi Probailistici, Statistici e Processi
Stocastici
50
36
34
31
44
60
55
40
33
35
110
Covarianza e Coefficiente di Correlazione per
l’esempio
• Decidete di analizzare un poco i dati:
Numero prodotti difettosi
Scatter plot
Cov[ X1X2 ]  2.14
70
60
50
40
ρ  0.19
30
20
10
0
0
1
2
3
4
5
6
7
8
Fiducia consumatori
• Vi sembrano ragionevoli?
Metodi Probailistici, Statistici e Processi
Stocastici
111
Esempio
• Date due variabili X e Y con la seguente distribuzione:
trovare la loro covarianza.
• Dobbiamo trovare i valori medi.
f ( x, y)  e
Metodi Probailistici, Statistici e Processi
Stocastici
( x  y )
112
Distr. della somma di variabili casuali
• Siano X1~d1(X1), e X2, d2(X2), dove d sta per una
distribuzione generica, e siano X1 e X2 indipendenti.
• Qual è la distribuzione di Y=X1+X2?
• Scriviamo la funzione caratteristica della variabile Y=
X1+X2. Si ha:
ΨY ( t )  E[e tY ]  E[e t ( x1  x 2 ) ]  indipend.
 E[e tx1 ]E[e tx2 ]  ΨX1 ( t )ΨX2 ( t )
Posto che X1(t) e X2(t) siano definite.
• Dalla precedente relazione è possibile ricavare tutti i
momenti di Y.
• Generalizzare le precedente formula al caso di n
variabili indipendenti
Metodi Probailistici, Statistici e Processi
Stocastici
113
Distr. della somma di variabili Gaussiane
• Siano X1, X1~N(1,12), e X2, X2~N(2,22), due variabili
casuali, indipendenti con distribuzione gaussiana.
• Qual è la distribuzione di Y=X1+X2?
• Dalla pagina precendete si ha:
ΨY ( t )  E[e tY ]  E[e t( x1  x 2 ) ]  E[e tx1 ]E[e tx2 ] 
e
2 2

 μ1t  σ1 t

2





e
2 2

 μ2 t  σ 2 t

2





e


2

2
2 t 
( μ1 μ2 )t  σ1  σ 2

2 

• Quindi Y~N(1+ 2,12+22)
• Generalizzate il precedente risultato alla somma di N
variabili gaussiane indipendenti
Metodi Probailistici, Statistici e Processi
Stocastici
114
Distribuzione della combinazione lineare di
Varibili Gaussiane
•
•
Siano X1, X1~N(1,12), e X2, X2~N(2,22), due variabili casuali, indipendenti con
distribuzione gaussiana.
Qual è la distribuzione di Y=a1X1+a2X2?
ΨY ( t )  E[e tY ]  E[et( a1x1 a2 x 2 ) ]  E[eta1x1 ]E[e ta2 x 2 ] 
e
2 2

 a1μ1t  a12 σ1 t

2





e
2 2

 μ2 t  a2 2 σ 2 t

2





e


2

2 2
2 2 t 
( a1μ1  a2μ2 )t  a1 σ1  a2 σ 2

2 

•
•
•
Ne segue: Y~N(a11+a2 2, a12 12+a2222)
Si generalizza (dimostrare per esercizio) come segue. Dato
con Xi tutti gaussiani e indipendenti, Xi~N(i, i2) , Y ha distribuzione gaussiana
•
con valor medio
Metodi Probailistici, Statistici e Processi
Stocastici
e varianza
115
La distribuzione bivariata di Gauss
• Consideriamo X1 e X2 distribuiti secondo la
distribuzione congiunta:
f ( x1, x 2 ) 
1
2πσ1σ 2 1  ρ
Metodi Probailistici, Statistici e Processi
Stocastici
 x1 μ1 

(

2 
2(1ρ )  σ1 
1
2
e
116
Capitolo VII:
Regressione Lineare
Metodi Probailistici, Statistici e Processi
Stocastici
117
Regressione Lineare Multivariata
• Supponiamo di avere a disposizione un modello che può essere
matematicamente descritto dalla relazione:
Y  f ( x)
• con x=x1,x2,…xn vettore di variabili casuali.
• Se f(x) fosse nota, ricadremmo nel caso di funzione di variabili casuali.
• Tuttavia, nella maggioranza dei casi f(x) non è nota. L’informazione che
si ha a disposizione, invece, è una serie di valori Yi =f(xi), (i=1…m), in
corrispondenza della serie di campioni xi. Lo scopo è quello, quindi di
cercare di spegare Y in termine delle variabili x1,x2,…xm.
• La domanda che ci poniamo è: riusciamo ad avere informazioni sulla f(x)
dalla serie di generazioni xi?
• Risposta sì. Anzi, quanto più siamo disposti a spendere in termini di
informazioni e tempo di calcolo, tanto più riusciremo a ricevere in termini
di dettagli sulla forma funzionale della f(x).
• Il modo più semplice di procedere dal punto numerico è quello di
approssimare la f(x) con una forma funzionale lineare e additiva del tipo:
Metodi Probailistici, Statistici e Processi
Stocastici
118
Regressione Lineare Multipla
Y  β  β1X1  β2 X2  ...  βn Xn  ε( X)
• Dove I sono i coefficienti della regressione lineare e  è un termine che
contiene tutte le dipendenze di ordine superiore di Y da X.
• IL modello di cui sopra è detto di regressione lineare multipla
• Il termine  I xi è detto componente sistematica, il termine  è la
componente accidentale
• Per semplicità supponiamo f: XR2R. La regressione lineare su f risulta:
Y  β  β1X1  β2 X2  ε( X1, X2 )
• Supponiamo ora di avere i seguenti due campioni di X in Tabella
i
X1
X2
Yi
1
1.5
1.3
4.2
2
3.2
2.4
7.1
• In corrispondenza otteniamo i valori di Y in tabella.
• Inserendo nel modello otteniamo il sistema lineare:
Metodi Probailistici, Statistici e Processi
Stocastici
β11.5  β21.3  ε1  4.2

β13.2  β2 2.4  ε 2  7.1
119
Regressione Lineare multipla
• che può essere risolto per determinare i I, supponendo nulla la
componente accidentale. Il problema non può tuttativa essere risolto con
esattezza. Infatti, notiamo che se solo se avessimo tre campioni, il
sistema potrebbe presenterebbe un’unica soluzione. Soluzione che non
esiste in generale quando i campioni fossero 4.
Metodi Probailistici, Statistici e Processi
Stocastici
120
Notazione
•
Generalizziamo la notazione della tabella precedente.
i
X1
X2
Xm
Yi
1
x11
x11
x1m
Y1
2
x21
x22
X2m Y2
Xn1
xn2
xnm
…
n
•
Yn
In notazione vettoriale e matriciale
 y1 
y 
y   2
 ... 
 
yn 
Metodi Probailistici, Statistici e Processi
Stocastici
 x11
X  
 x n1
x1m 


x nm 
121
Un esempio
• Dopo attenta riflessione stabilite che le vendite della vostra azienda (y)
dipendono, da:
– X1: Condizioni generali dell’economia (che sintetizzate nell’indice
della fiducia dei consumatori)
– X2: Qualità della produzione, che stimate in base al numero di
elementi difettosi scartati durante l’anno.
• Nei dieci mesi passati raccogliete i seguenti dati:
Fiducia
Numero
Consumatori (scala Prodotti
1-10 per semplicità) difettosi
10
15
23
12
11
7
9
8
11
13
5
6
7
6
5
4
6
3
4
4.5
Metodi Probailistici, Statistici e Processi
Stocastici
50
36
34
31
44
60
55
40
33
35
Scatter plot
Numero prodotti difettosi
Vendite
70
60
50
40
30
20
10
0
0
1
2
3
4
5
6
7
8
Fiducia consumatori
122
Un esempio
• Utilizzando la notazione precedente abbiamo:
 5
10 
 6
15 

 
 7
23 
 6
 
12

 
 5
 11
y 
X   4
7

9
 6
 
 3
8

 11
 4
 
4.5
13 


• Notiamo che: YX1=0.71 e YX2=-0.58
Metodi Probailistici, Statistici e Processi
Stocastici
50
36
34
31
44
60
55
40
33
35
















123
Le Ipotesi della regressione lineare semplice
Ey i X   β0   β j x is
n
1. Linearità:
s 1
Notiamo che l’errore ha valore atteso nullo
2. Omoschedasticità:
Vyi X  σ2  cos t.
La varianza delle yi è costante al variare delle osservazioni.
3. Incorrelazione subordinata: Cov[ yi , yk X]  0 i,k i  k
4. Rango pieno: rango(X)=m
Le righe o colonne di X sono linearmente indipendenti
Metodi Probailistici, Statistici e Processi
Stocastici
124
Proprietà degli errori i
• Per ogni i, I hanno le medie condizionale e marginale nulle:
Eεi X  0 e Eεi   0
• Varianza marginale e condizionale sono pari a 2
Vε X  σ
i
2
2


e V εi  σ
• Sono tra loro incorrelati
Metodi Probailistici, Statistici e Processi
Stocastici
125
Stima dei 
• Finora abbiamo visto il modello ed abbiamo visto le proprietà del
modello di regressione lineare semplice in termini degli errori. Ma
come stimiamo i coefficienti ?
• Li stimiamo con il metodo dei minimi quadrati come segue.
Supponiamo per il momento m=2. Le n osservazioi yi sono n punti in
R3 .
• L’approssimazione lineare, fissata la matrice delle osservazioni X,
disegna un insieme di piani che variano al variare di 1 e 2 . Quale
errore quadratico commettiamo utilizzando il generico piano?
n
R(β, β1, β2 )   ( y i  β  β1x i1  β2 x i2 )2
i1
• Il piano che utilizzeremo per la regressione lineare sarà quello che
minimizza l’errore quadratico della regressione.
• Da un punto di vista geometrico è il piano che ha distanza minima dalle
osservazioni
Metodi Probailistici, Statistici e Processi
Stocastici
126
Interpretazione Geometrica
( x, y , z)
Metodi Probailistici, Statistici e Processi
Stocastici
u , ( x, y , z)
127
Espressione dei  e teorema di Gauss Markov
• Si può dimostrare che l’espressione dei  è data da:
1
β̂  ( X* X* ) X* y
T
T
• Dove X*T è la trasposta della matrice X* e X*-1 la sua inversa.
• In questo caso abbiamo incluso nella matrice X la prima
colonna pari a tutti 1 per formare la matrice X*.
• Teorema di Gauss-Markov: lo stimatore  dei
minimi quadrati è lineare, corretto ed è lo stimatore
di varianza minima
Metodi Probailistici, Statistici e Processi
Stocastici
128
Errore e Coefficiente di Determinazione
•
•
•
Lo stimatore corretto della varianza degli errori (ricordiamo che il valor
n
n
2
2
T
medio è nullo!) è:
ε̂ i
y i  x iβ̂

SQR 
 i1
 i1
nm nm
nm
 n 2
  ε̂ i 
L’errore standard della regressione è invece definito da:
 i1 

SEE 
nm




Il coefficiente di determinazione del modello è definito da:
 ŷ  y 
n
R 
2
i1
n
 y
2


ε̂
 i
n
2
i
i1
•

i
y

2
 1
i1
 y
n
i1
i
y

2
R dà una misura della bontà del modello e tanto più si avvicina ad uno
tanto meglio il modello di regressione spiega Y in termini degli X.
Metodi Probailistici, Statistici e Processi
Stocastici
129
Risultato della regressione
• La regressione lineare produce il
regressione con I seguenti coefficienti:
2
1

-0.2
2.3
8.9
piano
di
u , ( x, y , z)
Metodi Probailistici, Statistici e Processi
Stocastici
130
Risultato della regressione (cont.)
Errore nella regressione lineare (vettore dei residui)
1
-0.1
2
-0.4
3
4.9
4
-4.4
5
-0.3
6
1.4
7
-2.3
8
0.5
9
-0.3
10
1.0
Somma degli erorri
 ŷ  y 
n
R2 
i1
n
i1
i
y

2
 1
2


ε̂
 i
i1
 y
n
i1
i
y
Metodi Probailistici, Statistici e Processi
Stocastici
.y
10.1
15.4
18.1
16.4
11.3
5.6
11.3
7.5
11.3
n
2
i
 y
0.0
y^
Ortogonalit
à
12.0

2
 0.72
131
Un esempio analitico
•
•
•
La produttività della vostra azienda è legata,
pensate, al tasso di rinnovo dei macchinari (X1) e
alle motivazioni del personale (X2).
Avete a disposizione I seguenti dati:
Si determini:
Y
X1
X2
2
1
0.4
4
2
0.7
6
3
0.9
L’espressione in forma sintetica del modello di regressione
I coefficienti di regressione
I residui
Mostrate che la somma dei residui è pari a 0 e che il
vettore dei residui è ortogonale al vettore delle stime
5. Calcolate il coefficiente di determinazione del modello
1.
2.
3.
4.
Metodi Probailistici, Statistici e Processi
Stocastici
132
Esempio analitico
1.
2.
1 1 0.4
2
X  1 2 0.7 y  4
 
1 3 0.9
6
1 1 0.4
X  1 2 0.7
1 3 0.9
ŷ1  β0  β1  0.4β 2

ŷ 2  β0  2β1  0.7β 2
ŷ  β  3β  0.9β
0
1
2
 3
3
1
1 
 1

T
X   1
2
3  XX  6

0.4 0.7 0.9
2
3
1 
 3
( XXT )1 XT   2
5
3 
 10 20  10
2 
24
 100
 19

38
 150
14 4.5  ( XXT )1   24
 100  150 600 
4.5 1.46
6
0
( XXT )1 XT y  2
0
3. Errori dell’ordine di 10-14
Metodi Probailistici, Statistici e Processi
Stocastici
133
Limiti della regressione lineare
Scatter Plot
1.2
1
0.8
y=sin(x)
0.6
yregress
Linear (yregress)
0.4
0.2
0
0
1
Metodi Probailistici, Statistici e Processi
Stocastici
2
3
4
134
Parte II:
Processi stocastici
Metodi Probailistici, Statistici e Processi
Stocastici
135
Somma di un Numero Casuale di Variabili casuali
•
Siete i gestori di un supermercato. Ogni cliente spende Xi, dove I è il numero
che indica l’i-esimo cliente. In media I clienti spendono 75EUR a testa. Il
numero medio di clienti giornaliero è una variabile casuale N con valor medio
300. Quanto vi aspettate di incassare al giorno?
N
•
Soluzione. L’incasso giornaliero è dato da:
I   Xi
i 1
•
•
N


Dobbiamo quindi calcolare il valore atteso di I: E
I  E   Xi 
 i1 
Per farlo, condizioniamo sul valore che assumerà N. Abbiamo:
E[I]  EN EI N  K 
K  K
EI N  K   E  Xi    E[ Xi ]  KμX
 i1  i1
EN EI N  K   EN [NμX ]  μXEN [N]  μXμN
•
Quindi ci attentiamo un incasso di 75*300=22500EUR/Giorno
Metodi Probailistici, Statistici e Processi
Stocastici
136
Capitolo VIII:
Processi di Poisson
Metodi Probailistici, Statistici e Processi
Stocastici
137
Processi di Conteggio
•
•
•
•
Consideriamo un processo stocastico, in cui siamo
interessati a contare arrivi e tempi di arrivo. Per esempio gli
arrivi di clienti al supermercato, di telefonate ad un centralino
etc.
Denotiamo con N(t) il numero di eventi che si verificano nel
tempo t, cioè nell’intervallo di tempo 0-t.
N(t)=numero di eventi tra 0 e t.
Non è difficile intuire che:
1. N(t) è un numero intero non negativo, t
2. N(s)<=N(t) se s<t
3. N(t)-N(s) è il numero di eventi che si sono verificati nel
tempo t-s. Si chiamerà incremento dei conteggi tra t e s.
Notazione: indicheremo con tk il tempo del k-esimo arrivo.
Metodi Probailistici, Statistici e Processi
Stocastici
138
Processi di Conteggio (2)
•
Il tempo Xk=Tk-Tk-1 è il tempo di attesa tra il k-esimo e il k-1-esimo evento
•
Es. Supponete che il supermercato apra alle 9. Il primo cliente arriva alle
9.01 e il secondo alle 9.05. Abbiamo T1=1min, T2=5min, X2=4min
•
Vale che: Tn=X1+X2+…Xn
•
Due proprietà sono di interesse: indipendenza e stazionarietà degli
incrementi
1.
Incrementi Indipendenti: Un processo viene detto ad incrementi
indipendenti, se i numeri di eventi che si verificano in intervalli di tempo
disgiunti sono indipendenti tra loro: P[N(t+s)-N(t)=k|N(t’+s)-N(t’)]=
P[N(t+s)-N(t)=k]
2.
Incrementi Stazionari: Un processo viene detto ad incrementi stazionari
se il numero di eventi che si verifica in un intervallo dipende solo dalla
lunghezza dell’intervallo. Sia s la lunghezza dell’intervallo. In termini di
probabilità si scrive: P[N(t+s)-N(t)=k]=P[N(t’+s)-N(t’)=k]
Metodi Probailistici, Statistici e Processi
Stocastici
139
Processi di Poisson
•
Un processo di conteggio è detto processo di
Poisson se verifica le seguenti proprietà:
1. N(0)=0
2. Il processo è a incrementi indipendenti
3. Il processo è a incrementi stazionari e la
probabilità di k eventi nel tempo t è data da:

s 
PN ( s  t )  N (t )  k  
k
k!
•
e
 s
 è detto intensità o tasso del processo
Metodi Probailistici, Statistici e Processi
Stocastici
140
Distribuzione dei tempi di arrivo
• Quanto dobbiamo attendere per il primo arrivo?
• In termini di probabilità, scriviamo la domanda come: qual è la
probabilità che X1 sia maggiore di t): P(X1>t).
• La
risposta
è
la
distribuzione
cumulativa
di
X1:
P(X1>t)=P[N(t)=0]=P(; k=0)=e-t
• Qual è la distribuzione di X2?
• P(X2>t|X1=s)=P[N(t-s)=0|X1=s]= grazie a proprietà di intervalli
indipendenti = P[N(t-s)=0]= P(;k=0)=e-(t-s)
• Ne segue:
• I tempi di arrivo X1,X2,...,Xn di un processo di Poisson sono
variabili aleatorie indipendenti con legge esponenziale di
tasso 
Metodi Probailistici, Statistici e Processi
Stocastici
141
Distribuzione di Tn
• La distribuzione del tempo di attesa Tn risponde alla
domanda: come è distribuita la somma degli Xi? Infatti:
Tn=X1+X2+…Xn
• Dunque:P[Tn>t]=P[X1+X2+…Xn >t]
• Si dimostra che Tn~(,n)
• Ricordiamo che I tempi di arrivo sono iid esponenziali.
Utilizziamo la funzione generatrice dei momenti:
 
E e sTn
 s  Xi 
 E e i1   E e s ( X1  X 2 ...  X N )  E e sX1 e sX2 ...e sX N 




N

    
 

 
 indip .  E e sX1 E e sX2 ...E e sX N  identic .  E e sX1
Metodi Probailistici, Statistici e Processi
Stocastici
N
 λ 


 λ s
N
142
Esempio
• Gli arrivi orari ad un supermercato sono distribuiti secondo
una Poisson di media 100[1/ore].
• Qual è il tempo di attesa perchè arrivino 500 clenti?
• Risposta: 5 ore
Metodi Probailistici, Statistici e Processi
Stocastici
143
Processi di Poisson con selezione
• Consideriamo un processo di Poisson con arrivi di
tasso .
• Ad ogni arrivo associamo un tasso di successo p.
Per esempio successo è se un cliente compera più di
tre tipi di prodotto diverso.
• Indichiamo con M(t) il numero di successi ottenuti
fino al tempo t.
• M(t) viene detto processo di Poisson con selezione.
• Si dimostra che:
• M(t) e un processo di Poisson di intensità p.
Metodi Probailistici, Statistici e Processi
Stocastici
144
Applicazione
• Supponiamo che se un cliente compera più di tre
prodotti il guadagno sia G. Se compera meno di tre
prodotti si ha una perdita L. Quali sono i valori del
tasso di arrivo dei clienti e della probabilità p per
avere il break-even, se gli arrivi orari seguono un
processo di poisson di tasso  e la probabilità che
comperino più di tre prodotti è p?
• Sol.
Poissimo dividere il processo in due
sottoprocessi di tassi p e (1-p) rispettivamente. Il
valore atteso degli acquisti in un’ora è dato
rispettivamente da: p e (1-p). Affinchè vi sia break
even occorre che
• pG= (1-p)L p/(1-p)=L/G
Metodi Probailistici, Statistici e Processi
Stocastici
145
Processi di Poisson composti
• Consideriamo un processo in cui gli eventi costituiscono un processo di
poisson di tasso . Ogni volta che un evento si realizza, si ha una
conseguenza Xi . Per esempio I clienti giungono al supermercato nei tempi
ti ed ognuno spende un ammontare Xi. Quanto spendono in totale i clienti, e
, dunque, quanto incassa il supermercato? N ( t )
X( t )   X i
i 1
• Il processo X(t) è detto processo di Poisson composto. In generale lo
caratterizzeranno due distribuzioni, quella di Poisson e quella degli Xi. La
distribuzione degli Xi potrà essere continua o discreta.
λ
Pr ocesso Poisson Composto 
F(X)
Metodi Probailistici, Statistici e Processi
Stocastici
146
Valori Attesi
• I processi che coinvolgono la somma di variabili
casuali sono più facilmente trattabili in termini della
funzione generatrice dei momenti. Nel nostro caso
dobbiamo calcolare:

Ψ(X( t ))  E esX( t )

N(t)
  s N( t ) X i 

  s N( t ) X i  
 s  Xi 
 E e i1   E N ( t ) E e i1  N( t )  E N ( t ) E e i1  



 
 

 
 

 
E e E e ...E e  
E e   E Ψ (s)  

 E N ( t ) E X es ( X1  X 2 ...  X N ) N( t )  E N ( t ) E X esX1 e sX2 ...esX N 
 E N(t)
 E N(t)
sX1
X
sX N
sX 2
X
X
sXi N ( t )
X
N(t)
N(t)
X
(λt ) n e  λt  (ΨX (s)λt ) n e  λt λt ( ΨX (s ) 1)
  ΨX (s)

e
n!
n!
n 0
n 0

n
Metodi Probailistici, Statistici e Processi
Stocastici
147
Valori Attesi (cont.)
• Da cui, derivando la funzione generatrice dei
momenti, è facile verificare che:
E[X( t )]  λtE[X]
V[X( t )]  λtE[X ]
2
Metodi Probailistici, Statistici e Processi
Stocastici
148
Applicazione
• I clienti che arrivano al supermercato spendono secondo la
seguente tabella: EUR p
p
EUR
i
25
30
35
40
45
50
55
60
65
70
75
80
85
90
i
2%
3%
3%
3%
3%
4%
4%
4%
4%
4%
5%
5%
3%
3%
95
100
105
110
115
120
125
130
135
140
145
150
155
160
5%
5%
4%
4%
4%
4%
4%
3%
3%
3%
3%
3%
3%
2%
• Arrivano in media 100 clienti all’ora. Nell’arco di una giornata (8
ore), quanto incassa il supermercato?
• Risposta: 100*8*E[euro spesi]=100*8*91.6=73280 EUR
• Incertezza (vedi esempio Excel)
Metodi Probailistici, Statistici e Processi
Stocastici
149
La rovina dell’assicuratore
The compound Poisson process is very
important in insurance, as a model for the
arrival of claims at an insurance office. The
standard model assumes that premiums
arrive at a constant rate c and looks to find
the probability that the surplus
S(t) = S(0) + ct - X(t)
ever hits 0 (ruin occurs).
Metodi Probailistici, Statistici e Processi
Stocastici
150
Capitolo IX:
Processi di Markov Discreti e Omogenei
Metodi Probailistici, Statistici e Processi
Stocastici
151
Gestione di Magazzino
• Siete i gestori di un concessionario di automobili di lusso.
Avete posto per 7 auto. Il tempo di consegna delle
automobili è di due giorni, per cui se ordinate l’auto al
Venerdì, per il Lunedì mattina sono in vetrina. Se al Venerdì
della n-esima settimana avete 2 auto o meno di 2 in vetrina,
ne ordinate altre in modo da riportavi a 7. Le vendite
arrivano secondo una distribuzione di Poisson con media 4
e sono pronta consegna.
• Chiamiamo Xn il “numero di auto in vetrina all’inizio della nesima settimana.” Xn è una variabile aleatoria. Infatti,
dipendendo dal numero di vendite, potremmo avere
7,6,5,4,3 auto in vetrina ogni Lunedì mattina. Analizziamo
come si piò descrivere il comportamento di X
• Per il nostro problema, notiamo che se mettiamo sull’asse
orizzontale il numero della settimana e su quello verticale le
auto vendute, abbiamo un risultato del tipo:
Metodi Probailistici, Statistici e Processi
Stocastici
152
Evoluzione temporale: Processi Discreti
X
Xn
7
6
5
.....
4
3
2
1
0
1
2
3
...
...
n-1 n
n+1 ...
t
• Notiamo che il sistema procede “ a scatti nel
tempo”, ovvero ogni settimana il sistema si
evolve.
• Tale tipo di processo è detto discreto
(ovviamente dal punto di vista temporale)
Metodi Probailistici, Statistici e Processi
Stocastici
153
Stati del sistema ed Evoluzione temporale
• Chiamiamo stati del sistema (S) i valori che la variabile aleatoria
X può assumere.
• Nella figura della pagina precedente, si tratta dell’asse verticale.
• Nel nostro caso sono 3,4,5,6,7. Abbiamo quindi 5 stati possibili.
• In generale useremo la notazione S={1,2,…,N} per indicare gli
stati del sistema
• Dato il sistema in un determinato stato alla n-esima settimana,
alla n+1-esima il sistema può rimanere ancora nello stesso stato
o passare ad un altro stato la settimana successiva
• Per esempio, se abbiamo 4 auto in vetrina alla 30-esima
settimana (X30), e se non si presentano clienti, avremo ancora 4
auto il lunedì della n+1-esima settimana. Se vendiamo 2 auto,
X31=7.
Metodi Probailistici, Statistici e Processi
Stocastici
154
Diagramma degli stati
• E’ una rappresentazione grafica degli stati del
sistema e delle transizioni che il sistema può
compiere
p23
p12
1
2
p22
3
p33
p31
Metodi Probailistici, Statistici e Processi
Stocastici
155
Probabilità di transizione e Processi di Markov
• Il sistema si muove da uno stato all’altro con della probabilità, che
vengono dette probabilità di transizione.
• Le probabilità di transizione rispondono alla domanda: qual è la
probabilità che il sistema si muova nello stato j ad n+1 dato che al
tempo n era nello stato i e nei tempi precedenti in Xn-1,…X0?
• In notazione probablistica, la probabilità cercata è:
P( Xn1  j Xn  i,Xn1,..., X0 )
• Ora, un processo viene detto Markoviano se la probabilità che il
sistema passi allo stato j al tempo n+1, dato che è nello stato i al
tempo n, dipende solo dal fatto che il sistema è nello stato I al tempo n
e non dipende dagli stati nei quali il sistema si trovava prima di i.
Ovvero, è indipendente dal modo in cui il sistema è arrivato in i.
• In formule:
pij (n)  P( Xn1  j Xn  i,Xn1,..., X0 )  P( Xn1  j Xn  i)
Metodi Probailistici, Statistici e Processi
Stocastici
156
La matrice di Markov
• Si definisce matrice di Markov una matrice:
 p11 (k )
 p (k )
P (k )   21
 ...

 pn1 (k )
p12 (k ) ...
p22 (k ) ...
...
...
pn 2 (k ) ...
p1n (k ) 
p2 n (k )
... 

pnn (k ) 
• i cui elementi sono le probabilità di transizione di un sistema
markoviano. La i-esima riga descrive lo stato di partenza, la j-esima
colonna lo stato di arrivo.
• Si dimostra che gli elementi della matrice soddisfano le seguenti
proprietà:
1) pij ( k )  0 i, j
N
2)  pij ( k )  1 i
j 1
• La seconda proprità dice che, se il sistema è in i al tempo n, allora con
probabilità 1 al tempo n+1 sarà in uno degli stati del sistema
Metodi Probailistici, Statistici e Processi
Stocastici
157
E’ un magazzino Markoviano?
•
•
•
Studiamo se il processo che abbiamo a disposizione nella nostra gesione di
magazzino è un processo di Markov.
Innazitutto scriviamo Xn+1 in forma matematica:
7 se Xn  Vn  2
Xn1  
Xn se Xn  Vn  2
Dove Vn rappresenta le vendite della n-esima settimana. Ricaviamo poi la
probabilità di Xn.
P( Xn1  j Xn  i, Xn1,..., X0 )  P( Xn  Vn  j Xn  i, Xn1,..., X0 ) 
 P(i  Vn  j Xn  i, Xn1,..., X0 )  P( Vn  i  j Xn  i, Xn1,..., X0 )
•
P(Vn)=s dipende solo da vendite in settimana n-esima e non dalle vedntie delle
settimane precedenti. Quindi possiamo scrivere:
pij (n)  P( Xn1  j Xn  i)
•
•
Si tratta quindi di un processo di Markov.
In più notiamo che la probabilità non dipende dal fatto di essere nella
settimana n-esima. Si tratta quindi di un processo di Markov omogeneo.
Metodi Probailistici, Statistici e Processi
Stocastici
158
Definizione di Processo di Markov Omogeneo
• Un processo stocastico sullo spazio degli stati S, si
dice di Markov discreto se n:
pij (n)  P( Xn1  j Xn  i,Xn1,..., X0 )  P( Xn1  j Xn  i)
• E’ omogeneo se verifica
pij  P( Xn1  j Xn  i)
• ovvero la matrice di Markov non dipende dal
tempo n.
Metodi Probailistici, Statistici e Processi
Stocastici
159
La matrice di Markov nel nostro esempio
• La matrice sarà della forma:
p11 p12
p
p 22
P(n)   21
 ... ...

p 51 p 52
... p15 
... p 2n 
... ... 

... p 55 
• dove
abbiamo
catalogato
X1=3,X2=4,…,X5=7
• Si ha:
gli
stati
P( Vn  i  j) j  3,.., 6; i  j  1,..., 7

pij  P( Xn1  7 Xn  i)  P( Xn  Vn  2 Xn  i)  P( Vn  i  2)

P( Xn1  7 Xn  7)  P( Vn  i  2)  P( Vn  0)
Metodi Probailistici, Statistici e Processi
Stocastici
come
j  7; i  3,..., 6
160
Matrice di Markov dell’esempio
• L’ultimo passo prima di riempire la matrice è quello di calcolare
le pij mediante la distribuzione di Poisson.
λk  λ
P( V  k; λ)  e
k!
p11  P( V  0; λ  4)  0.018
0
1
2
3
4
5
6
=4 0.018
0.073
0.146
0.195
0.195
0.156
0.104
k
• Infine:
0
0
0
.981 
 0.018
 0.073 0.018

0
0
0
.
909


P(n)  0.1465 0.073 0.018
0
0.762 


0
.
195
0
.
1465
0
.
073
0
.
018
0
.
566


 0.156 0.195 0.1465 0.073 0.21487
Metodi Probailistici, Statistici e Processi
Stocastici
161
Evoluzione temporale della matrice di transizione
• Indichiamo con ai le probabilità iniziali del sistema: ai=P(X0=i) (non è
condizionale!!!)
• Qual è la probabilità che al tempo k, Xk=j dato X0=i?
• Definiamo la matrice delle probabilità di transizione a k-passi come:
P( k )
p(k )11 p( k )12
 (k )
(k )
p
p
21
22

 ...
...
 (k )
(k )
p n1 p n2
... p( k )1n 

... p( k ) 2n 
...
... 

... p( k )nn 
(k )
• Dove pij  P( Xk  j X0  i)
• Indichiamo la probabilità incondizionale di Xk=j con a(k)
• Che differenza c’è tra a(k) e P(k)?
Metodi Probailistici, Statistici e Processi
Stocastici
162
Evoluzione temporale della matrice di transizione
• Calcoliamo P(0) e P(1).
• Per P(0) notiamo che pij=P(X0=j|X0=i)=1 se i=j, altrimenti=0.
P( 0 )
p( 0 )11 p( 0 )12
 (0)
(0)
p
p
21
22

 ...
...
 (0)
(0)
p n1 p n2
... p( 0 )1n   1 0 ... 0 
 

... p( 0 ) 2n   0 1 ... 0 


... ... ... ... 
...
...


(0) 
0
0
...
1
... p nn  

• Per P(1), notiamo che: pij(1)=P(X1=j|X0=i)=pij. Quindi P(1)=P
Metodi Probailistici, Statistici e Processi
Stocastici
163
La distribuzione non condizionale
• Definiamo: a( k )  a  P( k )
• a(k) è la distribuzione (discreta) della probabilità che
il sistema si trovi in un determinato stato per t=k.
• Infatti, per definizione a(k) è un vettore il cui
elemento s-esimo è dato da:
as
(k )
n
  al  pls
l1
(k )
n
  p( X0  l)  p( Xk  s X0  l)  p( Xk  s)
l1
Metodi Probailistici, Statistici e Processi
Stocastici
164
Teorema: relazione tra P(k) e P
• Per un processo markoviano discreto e
omogeneo vale:
(k )
P
P
k
Dim. :
pij
(k )
N
 P( Xk  j X0  i)   P( Xk  j Xk 1  s, X 0  i)P( Xk 1  s X0  i) 
s 1
N
  pis
s 1
N
P( Xk  j Xk 1  s)   pis
( k 1)
s 1
( k 1)
p sj
( k 1)
che in forma matriciale equivale a scrivere:P  P
Quindi per k=2, si vede che P( 2)  P P  P2 ;
per k=3, P( 3 )  P( 2)P  P2P  P3
Per k=s vale:P( s)  P( s1)P  P( s2)PP  ...  Ps
Metodi Probailistici, Statistici e Processi
Stocastici
(k )
P
165
Un esempio
• Consideriamo il seguente gioco. Una pallina può trovarsi sulla metà
superiore o inferiore del flipper, rimbalzare da una metà all’altra ed
uscire. Rappresentiamo il problema con i seguenti stati:
– j=1: la pallina è sulla metà superire
p23
p12
– j=2:la pallina è sulla metà inferiore
– j=3: la pallina è uscita
3
2
1
• Determiniamo gli stati del sistema:
0.8 0.2 0 
P  0.5 0.3 0.2 0.8
 0
0
1 
0.2
0.2
3
2
1
0.5
0.3
• Lo stato 3 è detto assorbente, perchè il sistema può solo entrare in 3 e
non uscire
Metodi Probailistici, Statistici e Processi
Stocastici
166
Equazione di Chapman-Kolmogorv
• Il teorema di C-K stabilisce che le probabilità di
transizione a n passi soddisfano la seguente
equazione:
pij
( s l )
N
 p p
s
ik
l
kj
k 1
E quindi, in forma matriciale:
( sl )
P
Metodi Probailistici, Statistici e Processi
Stocastici
P P
s
l
167
Evoluzione Temporale per l’esempio
1
0.8
40
0.6
30
X40
0.4
20
20
0.2
30
40
0 1
1.5
Metodi Probailistici, Statistici e Processi
Stocastici
2
j
2.5
3
168
Esiste una distribuzione di probabilità limite?
• Dettagliamo la domanda nel titolo in tre punti:
– Per n che tende l’infinito, la distribuzione di Xn tende ad
una distribuzione limite?
– Se esiste tale distribuzione limite, è unica?
– Se esiste ed è unica, come si calcola?
• Notazione: indichiamo con
π  lim a
k 
(k )
ovvero
π j  lim P( Xk  j), j  1...N
k 
• Se il limite esiste,  è detta distribuzione limite del
processo
Metodi Probailistici, Statistici e Processi
Stocastici
169
Calcolo della distribuzione limite
• Teorema 1: se esiste una distribuzione limite, allora soddisfa le seguenti
N
proprietà:
1) π j   π ipij
i 1
N
2) π j  1
j1
• Dimostriamo la prima.
N
1) π j  lim P( Xk  j)  lim  P( Xk  j Xk 1  i)P( Xk 1  i) 
k 
k 
N
N
i1
i1
i1
N
N
 lim  pijP( Xk 1  i)   lim pijP( Xk 1  i)  pij lim P( Xk 1  i)   pij π i q.e.d.
k 
k 
• In forma matriciale:
Metodi Probailistici, Statistici e Processi
Stocastici
i1
k 
i1
  P
170
Esistenza della distribuzione limite
• Notiamo che dal punto di vista dell’algebra
lineare la distribuzione limite deve soddisfare
il sistema lineare:
( I  P )  0
T
• Ricordiamo che la condizione necessaria
affinchè il sistema non possegga la sola
soluzione nulla è:
det(P  I)  0
T
• Quindi non è garantita l’esistenza della
distribuzione limite
Metodi Probailistici, Statistici e Processi
Stocastici
171
Unicità della distribuzione limite
• Anche l’unicità della distribuzione limite non è
in genere garantita. Per un esempio vedi
Kulkarni, p.129.
Metodi Probailistici, Statistici e Processi
Stocastici
172
Periodicità, Irriducibilità e Esistenza
• Un processo di Markov discreto e omogeneo è detto periodico
di periodo d se >1 d è l’intero più grande per cui vale:
P( Xn  i X0  i)  0
• Con n multiplo di d. Se d=1 il processo è detto aperiodico.
• In pratica il concetto di periodicità risponde alla domanda: è
possibile tornare ad i dopo essere partiti da i? Se il processo è
periodico di periodo d allora è possibile tornare ad I solo ai tempi
d,2d,…kd. Non è possibile in tempi intermedi.
• Il periodo può essere calcolato per via grafica dai diagrammi di
transizione. Si deve definire un ciclo diretto nel diagramma
come il ciclo da un nodo a se stesso. Se tutti I cicli diretti nel
diagramma sono multipli di d allora il periodo è d.
Metodi Probailistici, Statistici e Processi
Stocastici
173
Periodicità, Irriducibilità e Esistenza
• Un processo di Markov discreto e omogeneo è detto
irriducibile se, i,j esiste k>0 tale che
P( X k  j X 0  i)  0
• La precedente proprietà dice che è possibile muoversi dallo
stato i allo stato j in uno o più passi per tutti gli stati i e j.
• Condizione sufficiente di esistenza e unicità:
un processo di Markov irriducibile e aperiodico
ammette un’unica distribuzione limite.
Metodi Probailistici, Statistici e Processi
Stocastici
174
Distribuzione Stazionaria
• Una distribuzione * è detta stazionaria se:
P( X0  i)  π i *
P( Xn  i)  π i *
• per tutti gli stati (i) e per tutti i tempi n≥0.
• Anche la distribuzione stazionaria, se
N
soddisferà:
esiste
1) π j *   π i * pij
i1
N
2) π j *  1
j1
• Ne segue che se esiste una distribuzione limite essa
è anche una distribuzione stazionaria
Metodi Probailistici, Statistici e Processi
Stocastici
175
Costi o ricavi associati agli stati
• Spesso il fatto che il sistema sia in un determinato stato comporta
all’azienda un costo/ricavo gestionale (es. costo di magazzino delle parti di
ricambio o ricavo da vendite)
• Per sapere quanto è il costo totale atteso, occorre sapere quanto tempo il
sistema sta in un determinato stato. Ora notiamo che per modelli
markoviani discreti il sistema scatta da uno stato all’altro ogni n. Quindi il
tempo totale che il sistema trascorre in uno stato non è altro che la somma
del numero di volte che, passa dallo stato di interesse. Denotiamo con j lo
stato di interesse e con Xk=j l’evento: il sistema è nello stato j al tempo k.
Leghiamo ad Xk la variabile Zj(k) definita come segue:
1 se Xk  j
Z j (k )  
0 altrimenti
• Il numero di volte in cui il sistema passa per lo stato j èk proprio la somma
delle variabili Zj(k). Quindi: N j (k )  Z j (1)  Z j (2)  ... Z j (k )   Z j (r )
r 0
• Saremo interessati al valore atteso di Nj(k)

Metodi Probailistici, Statistici e Processi
Stocastici
 

k

E Nj (k )  E Z j (1)  Z j (2)  ...Z j (k )  E Z j (r )
 r 0

176
1 0 0
K=0
1
1 se Xk  j
Z j (k )  
0 altrimenti
Metodi Probailistici, Statistici e Processi
Stocastici
177
Tempi di occupazione
• Il sistema patirà dallo stato X0=i. Definiamo con mij(k) il numero di volte in
cui il sistema passa per lo stato j partendo dallo stato i al tempo 0.


mij (k )  E Nj (k ) X0  i


M(k )  mij (k )
• In forma matriciale:
pij
(k )
 P( X k  j X 0  i )
i, j : 1...N
k
M(k )   Pr
• Si dimostra che:
r 0




k
 k
mij (k )  E N j (k ) X0  i  E Z j (r ) X0  i   E Z j (r ) X0  i 
 r 0
 r 0
  1 PX(r )  j X0  i  0  (1  PX(r )  j X0  i)   PX(r )  j X0  i   p(ijr )
k
k
r 0
• In forma matriciale:
k
k
r 0
k
k
r 0
r 0
r 0
r 0
mij (k )   p(ijr )  M(k )   P(r )   Pr
Metodi Probailistici, Statistici e Processi
Stocastici
178
Esempio
• Esempio. Se k=10, scrivere la matrice di occupazione dell’esempio
“Pallina da flipper”.
0.8 0.2 0 
P  0.5 0.3 0.2
 0
0
1 
• Utilizziamo la formula precedente
k
M(k )   Pr  P0  P1  P 2  ...  P10 
r 0
2
1 0 0 0.8 0.2 0  0.8 0.2 0 
0.8 0.2 0 
 0 1 0  0.5 0.3 0.2  0.5 0.3 0.2  ...  0.5 0.3 0.2
0 0 1  0
 0
0
1   0
0
1 
0
1 
10
 7 . 3 1 .9 1 .8 
 4.7 2.6 3.7
 0
0
11 
• Notiamo il risultato. Se partiamo da 3, stiamo in 3 per 11 volte…sempre!
Metodi Probailistici, Statistici e Processi
Stocastici
179
Costi condizionali
• Costi da associare agli stati: C(Xj) è il costo associato al fatto che il
sistema è nello stato j.
c  C(1) C(2) ... C(N)
• Il costo totale generato nel periodo 0..k, è:

 C( X )
r
r 0

n
n
• Il valore atteso è: E  C( Xr )
 r 0

• Vettore dei costi condizionale allo stato del sistema a k=0:

n

g(k )  gi (k )  E C( Xr ) X0  i, i  1...N
 r 0


• Possiamo quindi ricavare il valore atteso del costo come:
n
• Forma matriciale g(k )  E C( Xr )  M(k )  c
 r 0

N
• Forma vettoriale
gi (k )   mis (K )c(s), i  1,..., N
Metodi Probailistici, Statistici e Processi
Stocastici
s 1
180
Esempio
• Nell’esempio del gioco, ogni volta che la
pallina finisce nello stato 3 si perdono 2EUR,
ogni volta che siete nello stato 1 o 2 vincete 1
EUR. In 10 partite, quanti soldi si perdono se
si parte dallo stato 1? E dallo stato 2? E da
3? E se aveste a=[0.5 0.5 0], vi convene
giocare?
 5.6
 5.6
g  0.1  E  a  g  0.5 0.5 0  0.1   2.75
22 
22 
Metodi Probailistici, Statistici e Processi
Stocastici
181
La distribuzione dell’occupazione
• Sia Nj(k) il numero di volte in cui il sistema visita lo stato j nel tempo
0…k.
E N j (k )
• L’occupazione dello stato j viene definita da: π̂ j  lim

k 

k 1
• Interpretazione: è la frazione di tempo che il sistema spende nello stato
j.
• La distribuzione di occupazione (^), se esiste, soddisfa le seguenti
equazioni:
N
1) π̂ j   π̂ ipij
i 1
N
2) π̂ j  1
j1
• Un processo markoviano irriducibile ammette un’unica distribuzione di
occupazione che è uguale alla distribuzione stazionaria.
Metodi Probailistici, Statistici e Processi
Stocastici
182
Costo per unità di tempo
• Il costo per unità di tempo è definito come:
gi (k )
gi  lim
k  n  1
• Dove i denota lo stato di partenza.
• Si dimostra che soddisfa la seguente eguaglianza
per un processo di Markov irriducibile ed è
indipendente da i:
N
g   π̂ s c s
s 1
Metodi Probailistici, Statistici e Processi
Stocastici
183
Esempio 1
• Consideriamo un processo di Markov
S={1,2,3,4}, discreto e irriducibile che sia
caratterizzato dalla seguente distribuzione di
occupazione degli stati: ^=[0.27 0.45 0.2
0.08] e costi per stato: c=[400 500 600 700].
Il sistema si muove su base settimanale.
• Quanto vi costa, nel lungo periodo, il sistema
alla settimana?
• Sol.: 509EUR per settimana
Metodi Probailistici, Statistici e Processi
Stocastici
184
Problemi
• Consideriamo un gioco in cui il sistema ha tre stati e
può passare da uno stato all’altro con le seguenti
probabilità, k=0,1,…:
 0 .2 0 .3 0 .5 
0.25 0.35 0.4


 0.3 0.4 0.3
• E’ un processo irriducibile?
• Se lo stato 1 dà un profitto di +10, lo stato 2 una
vincita di +15 e lo stato 3 una perdita di -20, vi
conviene giocare fino a k=10 se le probabilità di
partenza sono [0.3 0.3 0.4]? (Ans. 1.15, sì)
• E all’infinito? (0.1667)
Metodi Probailistici, Statistici e Processi
Stocastici
185
Capitolo X:
Processi di Markov Continui nel Tempo
Metodi Probailistici, Statistici e Processi
Stocastici
186
Introduzione
• Nel caso dei processi di Markov discreti, si
individuavano una serie di istanti k=0,1,…,n n cui
lo stato del sistema veniva osservato.
Supponiamo ora che il sistema sia osservato con
continuità.
• Un esempio può essere quello di un satellite che
gira nello spazio e può essere in 2 stati,
funzionante o rotto. Ci chiediamo se al tempo T il
satellite sia funzionante o rotto.
Metodi Probailistici, Statistici e Processi
Stocastici
187
Definizione: Markov continuo
• Processo di Markov continuo nel tempo:
• Un processo stocastico è detto di Markov, continuo del tempo se vale:
P( X(s  t )  j X(s)  i, X(u) con 0  u  s) 
 P( X(s  t )  j X(s)  i)
• dove X(s+t) indica lo stato del sistema al tempo t+s. Notiamo che s+t
sostituisce k al pedice nella noazione precedente.
• Interpr.: la probabilità che il sistema passi dallo stato I che occupava in
s allo stato j dopo un tempo t dipende solo dallo stato in cui il sistema si
trovava in s e da s.
• Matrice delle probabilità di transizione


P(s  t )  pij (s, t )
Metodi Probailistici, Statistici e Processi
Stocastici
i. j  1...N
188
Definizione: Markov continuo omogeneo
• Processo di Markov continuo nel tempo è
omogeneo se vale:
P( X(s  t )  j X(s)  i)  P( X(t )  j X(0)  i)
• Interpr.: la probabilità che il sistema passi
dallo stato i che occupava in s allo stato j
dopo un tempo t dipende solo di due stati e
non dal tempo s.
• Matrice delle probabilità di transizione:
P(s  t )  pij ( t ) i. j  1...N
Metodi Probailistici, Statistici e Processi
Stocastici
189
Proprietà della matrice prob. transizione
• La matrice delle probailità di transizione soddisfa le seguenti
proprietà:
1) pij ( t )  0 t, i, j
2)  pij ( t )  1
j
N

3  pij ( t  s)   pir (s)prj ( t )
Chapman  Kolmogorov : 
r 1
3  forma matriciale : P(s  t )  P(s)P( t )  P( t )P(s)

• Dimostriamo la 3
N
pij ( t  s)  P( X(s  t )  j X(0)  i)   P( X(s  t )  j X(s)  r, X(0)  i)P( X(s)  r X(0)  i) 
r 1
N
N
r 1
r 1
  P( X(s  t )  j X(s)  r )P( X(s)  r X(0)  i)   P( X( t )  j X(0)  r )P( X(s)  r X(0)  i) 
N
N
r 1
r 1
  P( X( t )  j X(0)  r )P( X(s)  r X(0)  i)  pir (s)prj ( t )  in forma matriciale  P(s)P( t )
Metodi Probailistici, Statistici e Processi
Stocastici
190
Equazioni di Chapman Kolmogorov
 1  pii ( t )
 νi
lim
t 0
t

lim pij ( t )  q
ij
 t 0 t
•
Valgono i due seguenti lemma:
•
I=tasso istantaneo di uscita dallo stato i, qij tasso di transizione dallo stato i allo
stato j. Sono le probabilità condizionale che il sistema compia la transizione
dallo stato I allo stato j nell’intervallo di tempo dt, dato che è nello stato i a t.
Si dimostra che le probabilità di transizione soddisfano le seguenti equazioni:
•
•
N
d
Backward : pij (t )   qikpkj (t )  ν ipii (t )
dt
k i,k 1
se si condiziona su h.
N
d
Forward :
pij ( t )   qkjp jk ( t )  ν ipij ( t )
dt
k i,k 1
•
Se si condiziona su t.
Metodi Probailistici, Statistici e Processi
Stocastici
191
Equazioni di C-K (2)
• Poniamo:
 ν i se i  j
αij  
qij se i  j
• ij è detto rateo di transizione ed è la probabilità
che nel tempo dt il sistema passi allo stato j dato
che è nello stato i.
• Le equazioni di C-K si possono quindi riscrivere
N
come:
d
Backward :
dt
pij ( t )   αik pkj ( t )
k 1
N
d
Forward :
pij ( t )   αkjp jk ( t )
dt
k i,k 1
Metodi Probailistici, Statistici e Processi
Stocastici
192
Equazioni di C-K (3)
d
P  Α P  P  Α
dt
• Dove A e’ la matrice dei ratei di transizione del
sistema, P e’ il vettore delle probabilita’ degli stati
del sistema.
Metodi Probailistici, Statistici e Processi
Stocastici
193
Costruzione della matrice di transizione

P12
1
2
P21
1

2
• Esempio: componente soggetto a rottura e riparazione. 2 stati: in
funzione o in riparazione, con tassi di guasto  e riparazione .
• Chi sono P12 e P21? Sono le probabilita’ di transizione in dt. Quindi:
P12= e P21= 
• La matrice di transizione e’ costruita con le seguenti regole:
• (+) se il salto e’ in entrata allo stato, (-) se il salto e’ in uscita
• Prendiamo lo stato 1: si entra in 1 da due con tasso  (+), si esce con
tasso  (-).
• Quindi:
Metodi Probailistici, Statistici e Processi
Stocastici
194
La matrice di transizione
1
1 λ
2
μ
2
λ
μ
• La matrice di transizione e’:
 λ λ 
A

 μ  μ
Metodi Probailistici, Statistici e Processi
Stocastici
195
Equazione delle Pi(t)
• Definiamo le probabilità incondizionali che il sistema si
trovi nello stato i al tempo t come:
P1(t)
P2 (t )
Pi (t )
PN(t)
• Si dimostra (vedi seguito) che le equazioni soddisfatte
dalle probabilità incondizionali sono:
d
P  PΑ
dt
Metodi Probailistici, Statistici e Processi
Stocastici
196
Differenza
• Che differenza c’è tra:
d
P  PA
dt
• e
d
P  PΑ
dt
Metodi Probailistici, Statistici e Processi
Stocastici
197
Soluzione delle equazioni
• E’ la probabilita’ che a t il componente sia nello
stato 1. Occorre risolvere il sistema di equazioni
differenziali lineari precedente. Modo piu’ usato in
affidabilita’ e’ mediante trasformata di Laplace.
• Con trasf. Laplace, le equazioni da differenziali
diventano algebriche. Dopo aver lavorato con
equazioni algebriche, occorre poi antitrasformare.
• Si ottiene dunque la disponibilita’ come funzione
del tempo. Il risultato per un componente singolo
soggetto a riparazioni e rotture e’ il seguente:
Metodi Probailistici, Statistici e Processi
Stocastici
198
Risultato
• Probabilità che il sistema
1=Disponibilita’ istantanea:
sia
nello
stato


P1( t ) 

 e (   )t
 
• Disponibilita’ asintotica:
μ
lim P1( t ) 
t 
μ λ
• Interpretazione: tempo che occorre
riparazione diviso il tempo totale
Metodi Probailistici, Statistici e Processi
Stocastici
in
media
alla
199
Probabilità limite
• Per t che tende ad infinito, se il processo
Markoviano è irriducibile, le probabilità limite
esistono e soddisfano le seguenti equazioni:
π  Α  0
N

π
(
t
)

1

j

• ovvero, j:
 j1
ν jPj 
N
N
 q P , e P (t )  1
s1,s j
ij s
j1
j
• Tale relazione esprime il bilancio tra le entrate e le
uscite dallo stato
Metodi Probailistici, Statistici e Processi
Stocastici
200
Esempio
• Si consideri un sistema con due componenti, con la possibilità di
riparare un solo componente alla volta, nel caso si rompa. I due
componenti sono identici e si rompono con tasso costante . Il tasso di
riparazione è . Rappresentare il sistema come processo di Markov,
scrivere le equazioni di C-K per il processo e trovare le probabilità
limite.

2
1
 0 2λ 0 


R  μ 0 λ 
 0 2μ 0
Metodi Probailistici, Statistici e Processi
Stocastici

2
3
2
2λ
0 
  2λ


A μ
λμ
μ 
 0
2μ
 2μ 
201
Distribuzione stazionaria
• Per
un
processo
di
Markov
continuo,irriducibile, la distribuzione limite è
anche la distribuzione stazionaria.
Metodi Probailistici, Statistici e Processi
Stocastici
202
Distribuzione di occupazione
• Sia T un tempo su cui osserviamo il sistema.
• Sia mij(T) il tempo speso dal sistema nello stato j dato
che è partito da I al tempo 0.
• Se il processo è irriducible, vale allora che:
– la frazione di tempo che il sistema passa nello stato j al
tendere di t all’infinito non dipende da i
– La frazione di tempo spesa da sistema nello stato j è:
lim
T 
mij (T )
T
 πj
– Quindi le probabilità limite si possono interpretare come
frazione del tempo che il sistema spende in un determonato
stato
Metodi Probailistici, Statistici e Processi
Stocastici
203
Modellazione dei Costi/Ricavo
• Il modello dei costi è il seguente.
• Sia c(X(t)) dt il costo istantaneo (tasso di costo)
associato al fatto che il sistema è nello stato j al
tempo t.
• Il
costo/ricavo
totale
che
il
sistema
sosterrà/produrrà nel tempo 0-T sarà:
T
C(T)   c(X( t ))dt
0
Metodi Probailistici, Statistici e Processi
Stocastici
204
Tasso di costo istantaneo limite
• Per un processo continuo, Markoviano, irriducibile
vale:
clim  π  c
• Esempio: supponiamo che se la macchina produce
incassiamo 1000. Se si rompe spendiamo costa 5000. Calcoliamo se, a regime, conviene investire
nella macchina quando =10-4 e =10-2.
 μ
π
 0.99
λ  μ

λ
 .01
λμ

c  1000  5000
• clim=+940, quindi conviene.
Metodi Probailistici, Statistici e Processi
Stocastici
205
Capitolo IX:
Problemi, dimostrazioni etc.
Metodi Probailistici, Statistici e Processi
Stocastici
206