σ - WEB Lab

Analisi statistica dell’Output
IL Simulatore è un’ adeguata rappresentazione della
Realtà!
E adesso?
Come va interpretato l’Output?
Quando le Osservazioni sono significative?
Quanti Run del Simulatore è corretto effettuare?
Per ottenere una determinata accuratezza dei risultati?
2
1
Analisi dell’Output
f( r )
r
SIMULATORE
Dal momento che l’Output di un Simulatore è funzione di
variabili aleatorie, l’Analisi è un problema di statistica
inferenziale. Due campi applicativi principali:
Ø Test e Convalida delle ipotesi (p.es., Test Goodness of Fit)
Ø Stima entro un certo livello di accuratezza (p.es., qual è la
differenza tra la media vera di una distribuzione teorica e la media
3
stimata ottenuta da osservazioni)
Tipi di Simulazione
Simulazione “Terminating “ o “Transienti”
Simula Sistemi che non raggiungono mai uno stato
stabile.
In questo caso la lunghezza del run è determinata dal
problema stesso.
Le misure di interesse sono definite:
v Nei termini del tempo richiesto per compiere uno
specifico insieme di attività.
v Nei termini del numero di attività necessarie per
raggiungere uno stato specifico, dato uno stato iniziale.
4
2
Simulazione “sistemi transienti”
q Simulazione del processo di ri-accensione (“cold
start”) di un elaboratore.
q Simulazione di Sistemi i cui parametri si modificano
col tempo.
Per l’accuratezza dei risultati:
Quante volte bisogna ripetere la Simulazione (con
differenti sequenze) per ottenere una determinata
accuratezza?
5
Simulazione “Steady-State”
(di interesse per il corso)
Simula Sistemi che raggiungono, dopo un determinato
transiente,uno stato stabile.
In questo caso sia le condizioni iniziali che la
lunghezza della Simulazione sono determinati dal
simulazionista.
Le misure di interesse sono definite in funzione di un
valore limite raggiunto con i run di simulazione tendenti
all’infinito.
6
3
ESEMPIO
Misura: Tempo medio di Attesa in coda Ta
Per (clock à infinito), la distribuzione del Tempo di
Attesa si definisce, e Ta converge ad un valore limite.
Caratteristiche dell’Analisi dell’Output:
v Dal momento che, in pratica, sia il run che le osservazioni
sono finite, bisogna determinare quanto la media stimata si
avvicina a quella teorica ottenuta dalla distribuzione.
v Per definizione di Steady-State, i valori dell’output devono
essere indipendenti dallo stato iniziale.
7
Tipi di Misure (1)
In genere, le misure di prestazione cercate sono valori
medi (talvolta varianze, molto più raramente
distribuzioni complete).
Per un Processo a tempo-discreto, date “n”
osservazioni x1 , x2 ,..., xn , la loro media è detta:
n
X ( n) = ∑
i =1
xi
n
Media Campionaria
Per un Processo a tempo-continuo:
T
X = ∫ X (t ) dt / T
0
8
4
Tipi di Misure (2)
La Media Campionaria è una variabile aleatoria la cui
distribuzione f ( X ) (per il “Teorema del Limite
Centrale”) è normale se f ( X ) è normale, altrimenti
tende a una distribuzione normale se “n” è grande
(n>30) con parametri :
E( X ) = µ
Valore Atteso
σ 2(X ) =
σ2
n
σ (X ) =
σ
n
Varianza
Deviazione
Standard
Tutti e tre danno una misura della dispersione delle
variabili aleatorie di una distribuzione.
9
Teorema del Limite Centrale
(Fondamentale per la Statistica
e per la Simulazione)
“La funzione di Distribuzione di una media aritmetica
calcolata su di un gran numero di variabili casuali
indipendenti e identicamente distribuite (i.i.d.)
è approssimabile con una
funzione di distribuzione normale”.
10
5
ESEMPIO
X (n) à Media osservata su “n” campioni i.i.d. (n grande)
µ à Media teorica
σ 2 à Varianza teorica
Cn =
X ( n) − µ
σ2
n
Variabile aleatoria con
distribuzione N(0,1)
I valori derivati per Cn (n grandi) seguono una
distribuzione normale con Media = 0
Varianza = 1
11
Applicazione del Teorema
del limite centrale
v Analisi dell’Output di un Simulatore
v Ogni run di Simulazione produce un campione di
osservazioni (derivate dalla stessa distribuzione) di uno
o più parametri di prestazione
v Altri run di Simulazione eseguiti con un diverso
insieme di “semi” producono altri campioni di
osservazioni statisticamente indipendenti
12
6
Applicazione del Teorema (2)
Sebbene la distribuzione non sia nota, il Teorema del Limite
Centrale ci assicura che la media teorica µ può essere stimata
mediante X (n) con un numero n grande di osservazioni i.i.d. in
quanto X (n ) è distribuita “normalmente”.
La media teorica sarà compresa con una certa probabilità
tra due valori che costituiranno il cosiddetto intervallo di
confidenza: a < µ < b
X (n) serve per calcolare “a” e “b”
13
Intervalli di Confidenza (1)
Problema :
Stimare quanto una media campionaria X
ottenuta da una Simulazione “finita”
approssimi la Media µ ottenuta dalla
Distribuzione Teorica.
Soluzione :
Si determina una misura detta Intervallo
di Confidenza.
Metodo
1) Per n grande, la variabile :
C ( n) = z =
X (n) − µ
σ/ n
È anch’essa normale con N(0,1), media=0 e varianza=1.
7
Intervalli di Confidenza (2)
La funzione cumulativa Fz (u) = prob(−∞ ≤ z ≤ u) è tabulata in
tutti i manuali di statistica.
2) Si prenda un valore di “u” tale che
α
Fz (u ) = 1 − ( )
2
dove
α
= uα < 1
2
2
prob( z > uα ) = 1 − F (uα ) =
3) Di conseguenza:
2
Perché la normale è simmetrica
prob( z ≤ −uα ) = α
intorno alla media (=0)
2
2
α
2
2
15
Intervalli di Confidenza(2)
4)Si ha, quindi :
prob (−uα ≤ z ≤ u α ) = 1 − α
2
prob( −uα ≤
2
2
X −µ
≤ uα ) = 1 − α
σ
2
n
prob[ X −
Intervallo di
confidenza
Livello di
confidenza
σ
σ
uα ≤ µ ≤ X +
uα ] = 1 − α
n 2
n 2
16
8
Intervalli di Confidenza(3)
5) Per calcolare uα si usa la tabella della
2
α
distribuzione normale:
F (u ) = 1 − ( )
α
2
2
Ø Se si sceglie ad esempio, un livello di confidenza del
95% :
Ø
1 − α = 0.95 − − > α = 0.05 − − > α = 0.025
2
F (uα ) = 1 −
2
Ø Dalla Tavola bisogna ricavare il valore di uα
2
F (uα ) = 0.975
che
1.960
2
α
= 0.975
2
tale
Ø Allora, è possibile affermare che la media teorica µ
17
cade nell’intervallo X ± 1.960 σ al 95% di probabilità.
n
Tavola della Normale (1)
α
α
2
a
µ
2
b
18
9
Tavola della Normale (2)
Distribuzione cumulativa normale
z
-4.265
-3.719
-3.090
-2.576
-2.326
-2.054
-1.960
-1.881
X
µ -4.265σ
µ -3.719σ
µ -3.090σ
µ -2.576 σ
µ -2.326 σ
µ -2.054σ
µ -1.960 σ
µ -1.881 σ
Area
0.00001
0.0001
0.001
0.005
0.01
0.02
0.025
0.03
z
0
0.126
0.253
0.385
0.524
0.674
0.842
1.036
X
µ
µ +0.126σ
µ +0.253σ
µ +0.385 σ
µ +0.524 σ
µ +0.674 σ
µ+0.842 σ
µ +1.036 σ
Area
0.50
0.55
0.60
0.65
0.70
0.75
0.80
0.85
Tavola della Normale (3)
z
-1.751
-1.645
-1.555
-1.476
-1.405
-1.341
-1.282
-1.036
-0.842
X
µ-1.751σ
µ-1.645σ
µ-1.555σ
µ-1.476 σ
µ-1.405σ
µ-1.341σ
µ-1.282σ
µ-1.036 σ
µ-0.842σ
Area
0.04
0.05
0.06
0.07
0.08
0.09
0.10
0.15
0.20
z
1.282
1.341
1.405
1.476
1.555
1.645
1.751
1.881
1.960
X
Area
µ +1.282 σ 0.90
µ +1.341 σ 0.91
µ +1.405 σ 0.92
µ +1.476 σ 0.93
µ +1.555 σ 0.94
µ +1.645 σ 0.95
µ +1.751 σ 0.96
µ +1.881 σ 0.97
µ +1.960σ 0.975
10
Tavola della Normale (4)
z
-0.674
-0.524
-0.385
-0.253
-0.126
X
µ-0.674σ
µ-0.524σ
µ-0.385σ
µ-0.253σ
µ-0.126σ
Area
0.25
0.30
0.35
0.40
0.45
z
X
Area
2.054 µ +2.054 σ 0.98
2.326 µ +2.326 σ 0.99
2.576 µ +2.576 σ 0.995
3.090 µ +3.090 σ 0.999
3.719 µ +3.719 σ 0.9999
4.265 µ +4.265 σ 0.99999
21
Problema della varianza teorica
Nella pratica, la Varianza σ 2, necessaria per il calcolo
dell’intervallo di confidenza, non è nota.
Pertanto la si sostituisce con la varianza campionaria
Vale soltanto per
osservazioni indipendenti
Ora la variabile standard
non è più normale, ma Student-T
1 n
s =
( xi − X ) 2
∑
n − 1 i =1
2
t=
X −µ
s
n
22
11
Problema della varianza teorica (2)
Di conseguenza l’intervallo di confidenza è dato da :
X−
s
s
tα ≤ µ ≤ X +
tα
n 2
n 2
tα dovrebbe essere calcolato dalla tabella della
2
funzione di distribuzione Student-t.
Tuttavia, poiché per n grandi (>30), la funzione Student-t
tende alla funzione normale, è possibile in molti casi
utilizzare la tavola della normale con minima
23
approssimazione.
Problema della “Normalità”
Il Teorema del Limite Centrale assicura che la media di
n variabili aleatorie (n>c) indipendenti e
identicamente distribuite è approssimativamente
distribuita normalmente.
Tutti i calcoli statistici sfruttano queste proprietà, per
cui è importante far presente che i campioni di utenti
consecutivi (ovvero osservazioni di eventi consecutivi)
non possono risultare indipendenti. E’ molto probabile
che vi siano correlazioni tra le osservazioni e quindi si
viola il principio della i.i.d. su cui si basa il Teorema.
12
Come ricondursi in condizioni di
osservazioni i.i.d
• Per risolvere il problema della “normalità” si
utilizzano strumenti che rendono indipendenti le
osservazioni
• In pratica, si aumenta il numero di run del
simulatore, possibilmente con semi differenti.
• Tre metodi principali:
– Metodo Rigenerativo
– Metodo Prove Ripetute
– Metodo Batch
25
Metodo Rigenerativo
Applicabile solo nel caso in cui il sistema si riporta
naturalmente in condizioni “iniziali”
Batch 1
Batch 2
Batch 3
Tempo di simulazione
13
Metodo Rigenerativo(1)
Può essere applicato a quei Simulatori che, ad un istante
aleatorio (punto rigenerativo) ritornano nello stesso
stato del precedente punto rigenerativo.
Dal momento che questi punti rappresentano stati
identici del Simulatore, il comportamento di un ciclo
rigenerativo è indipendente dagli altri cicli. In
particolare, le variabili di Output di cicli differenti
sono indipendenti.
Dal momento che la lunghezza dei cicli è random si
devono modificare le istruzioni per il calcolo
dell’intervallo di confidenza.
27
Metodo Batch
Output parameter
Servono periodi di generatori di numeri pseudo-casuali
molto lunghi ovvero devono poter essere sufficienti poche
osservazioni
0
Transient
Period
batch1
t
t+T
batch2
batch3
batch4
t+2T t+3T
t+4T
batch n
…….
t+nT
28
14
Metodo Batch (1)
Il Metodo Batch supera il problema del Transiente
suddividendo un run molto lungo del Simulatore in un
insieme di k sotto-run (Batch) di lunghezza n.
- Calcola una media campionaria per ogni Batch
- Usa queste k medie per calcolare la media
campionaria e la varianza campionaria
dell’esperimento che servono per il calcolo
dell’intervallo di confidenza.
29
Metodo Batch (2)
q L’eliminazione del Transiente va fatta solo prima del
Batch 1.
q Se la dimensione del Batch è sufficientemente grande,
le medie campionarie saranno approssimativamente
indipendenti e normalmente distribuite.
q Poiché vi è un solo Transiente da eliminare il metodo
Batch risulta essere il più efficiente.
30
15
Metodo Prove Ripetute
Oggi è il metodo più utilizzato, in quanto pone meno vincoli
ed il tempo di computazione (additivo per l’eliminazione
del periodo transiente) tipicamente non è più un problema
Parametro di output
Run
0
Batch1
t
t+T
Run 1
Run
0
Batch2
t
Run2
Run
t+T
0
……
Batch n
t
Run n
t+T
31
Metodo Prove Ripetute (2)
“Rigenerazione Artificiale”
E’ il metodo più semplice per ottenere osservazioni
indipendenti.
q Si effettuano k run (“repliche”) del Simulatore,
ciascuno con sequenze pseudo-casuali diverse.
q In ciascun run si effettuano “ mk“ ( può essere un
numero casuale) osservazioni (autocorrelate) della
variabile analizzata.
32
16
Metodo Prove Ripetute (3)
q Al termine si ottengono k campioni, ciascuno di
osservazioni, potenzialmente autocorrelate :
Osservazione #1
x 11 x 12 ..... x 1 m 1
x
22
.........
x 31 x
32
... x
x
k 2
.........
x
21
k 1
x
q Si calcolano:
3 m
mk
x
2 m
2
x
km
k
3
mj
Osservazione #k
mj
y j = ∑ x ji
z j = ∑ x ji
i =1
2
i =1
33
Metodo Prove Ripetute (4)
q Se il sistema ha raggiunto la stazionarietà e i k
esperimenti sono stati condotti con sequenze di numeri
random indipendenti, le tre serie
y1 ,..., y k
z1 ,..., z k
m1 ,..., mk
possono considerarsi i .i.d.
Se m1 ,..., mk sono uguali,
i calcoli seguenti si semplificano
34
17
Metodo Prove Ripetute (5)
q Per il metodo delle prove ripetute è possibile
utilizzare l’ analisi statistica classica per il calcolo di
2
E(X) e σ ( X )
mj
X = E( X ) =
E ( ∑ x ji )
i =1
E (m j )
nj
=
δ
γ
σ 2 ( X ) = E( X 2 ) − E 2 ( X ) =
X 2 = E( X 2 ) =
E (∑ xij
2
i =1
E (m j )
=
λ
γ
λ δ 2
−( )
γ
γ
35
ANALISI STATISTICA
DELL’ OUTPUT
NUMERO RUN DI
SIMULAZIONE
36
18
Numero di prove necessario
• Si stabilisce un ERRORE ACCETTABILE “e” tra la
media teorica µ e la stima X(n)
• Il numero di prove ripetute (o campioni di osservazioni)
per garantire per la differenza tra µ e X(n) sia inferiore ad
“e” è dato da
 t n −1,1−α 2 S (n )  Se N>n bisogna aumentare le prove
 Se N<n si può accettare N=n
N = 
e


Deviazione standard campionaria
S (n)
Prove da effettuare
Dove:
2
t n −1,1−α 2
numero prove effettuate
Valore della Distribuzione Student-T con n-1 gradi
di libertà e livello di confidenza α
Esempio:
Prova i
Media Xi
[Xi-X(10)]2
1
1,96
10,163
2
8,66
12,334
3
6,37
1,493
4
2,12
9,168
5
5,16
0,0001
6
5,63
0,232
7
2,20
8,690
8
5,67
0,272
9
8,01
8,191
10
5,70
0,304
51,48/10=5,184
MEDIA CAMPIONARIA
50,85/9=5,65
VARIANZA CAMPIONARIA
38
19
Esempio(2):
• Media Campionaria
X(10)=51,48/10=5,148
• Varianza Campionaria
S2=50,85/9=5,65
• Deviazione Standard Campionaria S(10)=2,38
• Valore critico Student-t
tn-1,1-α/2=2,262
– Gradi di libertà n-1=9 à 10 prove – 1
– Livello di confidenza α=0,10
• Errore
e=1
5,184
e=1
µ
N=((2,262*2,38)/1)2=28,9 à 29 prove ripetute !
39
ANALISI STATISTICA
DELL’ OUTPUT
TECNICHE PER LA
RIDUZIONE DELLA VARIANZA
(CENNI)
40
20
Nota
• All’ aumentare della probabilità (ovvero al
diminuire di α) l’ intervallo di confidenza
diventa più ampio
Compromesso: è meglio essere “confidenti
al 95% e 12<µ<15 piuttosto che essere
confidenti al 99% e 8<µ<19
41
Nota (2)
• E’ auspicabile, ma non sempre possibile che l’
intervallo di confidenza abbia un’ ampiezza non
superiore al 10%, massimo 15 – 20%
• Restringere l’ intervallo di confidenza significa
ridurre la VARIANZA, ciò si ottiene con:
– Più osservazioni per prova (run) e/o
– Più prove ripetute
42
21
Una tecnica per la riduzione della
VARIANZA à USO DI VARIABILI
ANTITETICHE
• Per ogni prova si effettuano in realtà due repliche
– Una con la sequenza di variabili pseudocasuali generate
{r1,r2,…,rz}
– La seconda con la sequenza di variabili antitetiche
{1-r1,1-r2,…,1-rz}
• Per esempio il numero antitetico di 0,21235 è
1 – 0,21235 = 0,78765
• I risultati dei valori di prestazione osservati nelle
due repliche sono “mediati”
• La media rappresenta l’ output osservato per ogni
prova
43
Una tecnica per la riduzione della
VARIANZA à USO DI VARIABILI
ANTITETICHE(2)
µ
• MOTIVAZIONE à
Ridurre la probabilità
che un valore
osservato sia
dipendente da una
polarizzazione dei
numeri generati a
sinistra o a destra della
media
44
22