Analisi statistica dell’Output IL Simulatore è un’ adeguata rappresentazione della Realtà! E adesso? Come va interpretato l’Output? Quando le Osservazioni sono significative? Quanti Run del Simulatore è corretto effettuare? Per ottenere una determinata accuratezza dei risultati? 2 1 Analisi dell’Output f( r ) r SIMULATORE Dal momento che l’Output di un Simulatore è funzione di variabili aleatorie, l’Analisi è un problema di statistica inferenziale. Due campi applicativi principali: Ø Test e Convalida delle ipotesi (p.es., Test Goodness of Fit) Ø Stima entro un certo livello di accuratezza (p.es., qual è la differenza tra la media vera di una distribuzione teorica e la media 3 stimata ottenuta da osservazioni) Tipi di Simulazione Simulazione “Terminating “ o “Transienti” Simula Sistemi che non raggiungono mai uno stato stabile. In questo caso la lunghezza del run è determinata dal problema stesso. Le misure di interesse sono definite: v Nei termini del tempo richiesto per compiere uno specifico insieme di attività. v Nei termini del numero di attività necessarie per raggiungere uno stato specifico, dato uno stato iniziale. 4 2 Simulazione “sistemi transienti” q Simulazione del processo di ri-accensione (“cold start”) di un elaboratore. q Simulazione di Sistemi i cui parametri si modificano col tempo. Per l’accuratezza dei risultati: Quante volte bisogna ripetere la Simulazione (con differenti sequenze) per ottenere una determinata accuratezza? 5 Simulazione “Steady-State” (di interesse per il corso) Simula Sistemi che raggiungono, dopo un determinato transiente,uno stato stabile. In questo caso sia le condizioni iniziali che la lunghezza della Simulazione sono determinati dal simulazionista. Le misure di interesse sono definite in funzione di un valore limite raggiunto con i run di simulazione tendenti all’infinito. 6 3 ESEMPIO Misura: Tempo medio di Attesa in coda Ta Per (clock à infinito), la distribuzione del Tempo di Attesa si definisce, e Ta converge ad un valore limite. Caratteristiche dell’Analisi dell’Output: v Dal momento che, in pratica, sia il run che le osservazioni sono finite, bisogna determinare quanto la media stimata si avvicina a quella teorica ottenuta dalla distribuzione. v Per definizione di Steady-State, i valori dell’output devono essere indipendenti dallo stato iniziale. 7 Tipi di Misure (1) In genere, le misure di prestazione cercate sono valori medi (talvolta varianze, molto più raramente distribuzioni complete). Per un Processo a tempo-discreto, date “n” osservazioni x1 , x2 ,..., xn , la loro media è detta: n X ( n) = ∑ i =1 xi n Media Campionaria Per un Processo a tempo-continuo: T X = ∫ X (t ) dt / T 0 8 4 Tipi di Misure (2) La Media Campionaria è una variabile aleatoria la cui distribuzione f ( X ) (per il “Teorema del Limite Centrale”) è normale se f ( X ) è normale, altrimenti tende a una distribuzione normale se “n” è grande (n>30) con parametri : E( X ) = µ Valore Atteso σ 2(X ) = σ2 n σ (X ) = σ n Varianza Deviazione Standard Tutti e tre danno una misura della dispersione delle variabili aleatorie di una distribuzione. 9 Teorema del Limite Centrale (Fondamentale per la Statistica e per la Simulazione) “La funzione di Distribuzione di una media aritmetica calcolata su di un gran numero di variabili casuali indipendenti e identicamente distribuite (i.i.d.) è approssimabile con una funzione di distribuzione normale”. 10 5 ESEMPIO X (n) à Media osservata su “n” campioni i.i.d. (n grande) µ à Media teorica σ 2 à Varianza teorica Cn = X ( n) − µ σ2 n Variabile aleatoria con distribuzione N(0,1) I valori derivati per Cn (n grandi) seguono una distribuzione normale con Media = 0 Varianza = 1 11 Applicazione del Teorema del limite centrale v Analisi dell’Output di un Simulatore v Ogni run di Simulazione produce un campione di osservazioni (derivate dalla stessa distribuzione) di uno o più parametri di prestazione v Altri run di Simulazione eseguiti con un diverso insieme di “semi” producono altri campioni di osservazioni statisticamente indipendenti 12 6 Applicazione del Teorema (2) Sebbene la distribuzione non sia nota, il Teorema del Limite Centrale ci assicura che la media teorica µ può essere stimata mediante X (n) con un numero n grande di osservazioni i.i.d. in quanto X (n ) è distribuita “normalmente”. La media teorica sarà compresa con una certa probabilità tra due valori che costituiranno il cosiddetto intervallo di confidenza: a < µ < b X (n) serve per calcolare “a” e “b” 13 Intervalli di Confidenza (1) Problema : Stimare quanto una media campionaria X ottenuta da una Simulazione “finita” approssimi la Media µ ottenuta dalla Distribuzione Teorica. Soluzione : Si determina una misura detta Intervallo di Confidenza. Metodo 1) Per n grande, la variabile : C ( n) = z = X (n) − µ σ/ n È anch’essa normale con N(0,1), media=0 e varianza=1. 7 Intervalli di Confidenza (2) La funzione cumulativa Fz (u) = prob(−∞ ≤ z ≤ u) è tabulata in tutti i manuali di statistica. 2) Si prenda un valore di “u” tale che α Fz (u ) = 1 − ( ) 2 dove α = uα < 1 2 2 prob( z > uα ) = 1 − F (uα ) = 3) Di conseguenza: 2 Perché la normale è simmetrica prob( z ≤ −uα ) = α intorno alla media (=0) 2 2 α 2 2 15 Intervalli di Confidenza(2) 4)Si ha, quindi : prob (−uα ≤ z ≤ u α ) = 1 − α 2 prob( −uα ≤ 2 2 X −µ ≤ uα ) = 1 − α σ 2 n prob[ X − Intervallo di confidenza Livello di confidenza σ σ uα ≤ µ ≤ X + uα ] = 1 − α n 2 n 2 16 8 Intervalli di Confidenza(3) 5) Per calcolare uα si usa la tabella della 2 α distribuzione normale: F (u ) = 1 − ( ) α 2 2 Ø Se si sceglie ad esempio, un livello di confidenza del 95% : Ø 1 − α = 0.95 − − > α = 0.05 − − > α = 0.025 2 F (uα ) = 1 − 2 Ø Dalla Tavola bisogna ricavare il valore di uα 2 F (uα ) = 0.975 che 1.960 2 α = 0.975 2 tale Ø Allora, è possibile affermare che la media teorica µ 17 cade nell’intervallo X ± 1.960 σ al 95% di probabilità. n Tavola della Normale (1) α α 2 a µ 2 b 18 9 Tavola della Normale (2) Distribuzione cumulativa normale z -4.265 -3.719 -3.090 -2.576 -2.326 -2.054 -1.960 -1.881 X µ -4.265σ µ -3.719σ µ -3.090σ µ -2.576 σ µ -2.326 σ µ -2.054σ µ -1.960 σ µ -1.881 σ Area 0.00001 0.0001 0.001 0.005 0.01 0.02 0.025 0.03 z 0 0.126 0.253 0.385 0.524 0.674 0.842 1.036 X µ µ +0.126σ µ +0.253σ µ +0.385 σ µ +0.524 σ µ +0.674 σ µ+0.842 σ µ +1.036 σ Area 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 Tavola della Normale (3) z -1.751 -1.645 -1.555 -1.476 -1.405 -1.341 -1.282 -1.036 -0.842 X µ-1.751σ µ-1.645σ µ-1.555σ µ-1.476 σ µ-1.405σ µ-1.341σ µ-1.282σ µ-1.036 σ µ-0.842σ Area 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.15 0.20 z 1.282 1.341 1.405 1.476 1.555 1.645 1.751 1.881 1.960 X Area µ +1.282 σ 0.90 µ +1.341 σ 0.91 µ +1.405 σ 0.92 µ +1.476 σ 0.93 µ +1.555 σ 0.94 µ +1.645 σ 0.95 µ +1.751 σ 0.96 µ +1.881 σ 0.97 µ +1.960σ 0.975 10 Tavola della Normale (4) z -0.674 -0.524 -0.385 -0.253 -0.126 X µ-0.674σ µ-0.524σ µ-0.385σ µ-0.253σ µ-0.126σ Area 0.25 0.30 0.35 0.40 0.45 z X Area 2.054 µ +2.054 σ 0.98 2.326 µ +2.326 σ 0.99 2.576 µ +2.576 σ 0.995 3.090 µ +3.090 σ 0.999 3.719 µ +3.719 σ 0.9999 4.265 µ +4.265 σ 0.99999 21 Problema della varianza teorica Nella pratica, la Varianza σ 2, necessaria per il calcolo dell’intervallo di confidenza, non è nota. Pertanto la si sostituisce con la varianza campionaria Vale soltanto per osservazioni indipendenti Ora la variabile standard non è più normale, ma Student-T 1 n s = ( xi − X ) 2 ∑ n − 1 i =1 2 t= X −µ s n 22 11 Problema della varianza teorica (2) Di conseguenza l’intervallo di confidenza è dato da : X− s s tα ≤ µ ≤ X + tα n 2 n 2 tα dovrebbe essere calcolato dalla tabella della 2 funzione di distribuzione Student-t. Tuttavia, poiché per n grandi (>30), la funzione Student-t tende alla funzione normale, è possibile in molti casi utilizzare la tavola della normale con minima 23 approssimazione. Problema della “Normalità” Il Teorema del Limite Centrale assicura che la media di n variabili aleatorie (n>c) indipendenti e identicamente distribuite è approssimativamente distribuita normalmente. Tutti i calcoli statistici sfruttano queste proprietà, per cui è importante far presente che i campioni di utenti consecutivi (ovvero osservazioni di eventi consecutivi) non possono risultare indipendenti. E’ molto probabile che vi siano correlazioni tra le osservazioni e quindi si viola il principio della i.i.d. su cui si basa il Teorema. 12 Come ricondursi in condizioni di osservazioni i.i.d • Per risolvere il problema della “normalità” si utilizzano strumenti che rendono indipendenti le osservazioni • In pratica, si aumenta il numero di run del simulatore, possibilmente con semi differenti. • Tre metodi principali: – Metodo Rigenerativo – Metodo Prove Ripetute – Metodo Batch 25 Metodo Rigenerativo Applicabile solo nel caso in cui il sistema si riporta naturalmente in condizioni “iniziali” Batch 1 Batch 2 Batch 3 Tempo di simulazione 13 Metodo Rigenerativo(1) Può essere applicato a quei Simulatori che, ad un istante aleatorio (punto rigenerativo) ritornano nello stesso stato del precedente punto rigenerativo. Dal momento che questi punti rappresentano stati identici del Simulatore, il comportamento di un ciclo rigenerativo è indipendente dagli altri cicli. In particolare, le variabili di Output di cicli differenti sono indipendenti. Dal momento che la lunghezza dei cicli è random si devono modificare le istruzioni per il calcolo dell’intervallo di confidenza. 27 Metodo Batch Output parameter Servono periodi di generatori di numeri pseudo-casuali molto lunghi ovvero devono poter essere sufficienti poche osservazioni 0 Transient Period batch1 t t+T batch2 batch3 batch4 t+2T t+3T t+4T batch n ……. t+nT 28 14 Metodo Batch (1) Il Metodo Batch supera il problema del Transiente suddividendo un run molto lungo del Simulatore in un insieme di k sotto-run (Batch) di lunghezza n. - Calcola una media campionaria per ogni Batch - Usa queste k medie per calcolare la media campionaria e la varianza campionaria dell’esperimento che servono per il calcolo dell’intervallo di confidenza. 29 Metodo Batch (2) q L’eliminazione del Transiente va fatta solo prima del Batch 1. q Se la dimensione del Batch è sufficientemente grande, le medie campionarie saranno approssimativamente indipendenti e normalmente distribuite. q Poiché vi è un solo Transiente da eliminare il metodo Batch risulta essere il più efficiente. 30 15 Metodo Prove Ripetute Oggi è il metodo più utilizzato, in quanto pone meno vincoli ed il tempo di computazione (additivo per l’eliminazione del periodo transiente) tipicamente non è più un problema Parametro di output Run 0 Batch1 t t+T Run 1 Run 0 Batch2 t Run2 Run t+T 0 …… Batch n t Run n t+T 31 Metodo Prove Ripetute (2) “Rigenerazione Artificiale” E’ il metodo più semplice per ottenere osservazioni indipendenti. q Si effettuano k run (“repliche”) del Simulatore, ciascuno con sequenze pseudo-casuali diverse. q In ciascun run si effettuano “ mk“ ( può essere un numero casuale) osservazioni (autocorrelate) della variabile analizzata. 32 16 Metodo Prove Ripetute (3) q Al termine si ottengono k campioni, ciascuno di osservazioni, potenzialmente autocorrelate : Osservazione #1 x 11 x 12 ..... x 1 m 1 x 22 ......... x 31 x 32 ... x x k 2 ......... x 21 k 1 x q Si calcolano: 3 m mk x 2 m 2 x km k 3 mj Osservazione #k mj y j = ∑ x ji z j = ∑ x ji i =1 2 i =1 33 Metodo Prove Ripetute (4) q Se il sistema ha raggiunto la stazionarietà e i k esperimenti sono stati condotti con sequenze di numeri random indipendenti, le tre serie y1 ,..., y k z1 ,..., z k m1 ,..., mk possono considerarsi i .i.d. Se m1 ,..., mk sono uguali, i calcoli seguenti si semplificano 34 17 Metodo Prove Ripetute (5) q Per il metodo delle prove ripetute è possibile utilizzare l’ analisi statistica classica per il calcolo di 2 E(X) e σ ( X ) mj X = E( X ) = E ( ∑ x ji ) i =1 E (m j ) nj = δ γ σ 2 ( X ) = E( X 2 ) − E 2 ( X ) = X 2 = E( X 2 ) = E (∑ xij 2 i =1 E (m j ) = λ γ λ δ 2 −( ) γ γ 35 ANALISI STATISTICA DELL’ OUTPUT NUMERO RUN DI SIMULAZIONE 36 18 Numero di prove necessario • Si stabilisce un ERRORE ACCETTABILE “e” tra la media teorica µ e la stima X(n) • Il numero di prove ripetute (o campioni di osservazioni) per garantire per la differenza tra µ e X(n) sia inferiore ad “e” è dato da t n −1,1−α 2 S (n ) Se N>n bisogna aumentare le prove Se N<n si può accettare N=n N = e Deviazione standard campionaria S (n) Prove da effettuare Dove: 2 t n −1,1−α 2 numero prove effettuate Valore della Distribuzione Student-T con n-1 gradi di libertà e livello di confidenza α Esempio: Prova i Media Xi [Xi-X(10)]2 1 1,96 10,163 2 8,66 12,334 3 6,37 1,493 4 2,12 9,168 5 5,16 0,0001 6 5,63 0,232 7 2,20 8,690 8 5,67 0,272 9 8,01 8,191 10 5,70 0,304 51,48/10=5,184 MEDIA CAMPIONARIA 50,85/9=5,65 VARIANZA CAMPIONARIA 38 19 Esempio(2): • Media Campionaria X(10)=51,48/10=5,148 • Varianza Campionaria S2=50,85/9=5,65 • Deviazione Standard Campionaria S(10)=2,38 • Valore critico Student-t tn-1,1-α/2=2,262 – Gradi di libertà n-1=9 à 10 prove – 1 – Livello di confidenza α=0,10 • Errore e=1 5,184 e=1 µ N=((2,262*2,38)/1)2=28,9 à 29 prove ripetute ! 39 ANALISI STATISTICA DELL’ OUTPUT TECNICHE PER LA RIDUZIONE DELLA VARIANZA (CENNI) 40 20 Nota • All’ aumentare della probabilità (ovvero al diminuire di α) l’ intervallo di confidenza diventa più ampio Compromesso: è meglio essere “confidenti al 95% e 12<µ<15 piuttosto che essere confidenti al 99% e 8<µ<19 41 Nota (2) • E’ auspicabile, ma non sempre possibile che l’ intervallo di confidenza abbia un’ ampiezza non superiore al 10%, massimo 15 – 20% • Restringere l’ intervallo di confidenza significa ridurre la VARIANZA, ciò si ottiene con: – Più osservazioni per prova (run) e/o – Più prove ripetute 42 21 Una tecnica per la riduzione della VARIANZA à USO DI VARIABILI ANTITETICHE • Per ogni prova si effettuano in realtà due repliche – Una con la sequenza di variabili pseudocasuali generate {r1,r2,…,rz} – La seconda con la sequenza di variabili antitetiche {1-r1,1-r2,…,1-rz} • Per esempio il numero antitetico di 0,21235 è 1 – 0,21235 = 0,78765 • I risultati dei valori di prestazione osservati nelle due repliche sono “mediati” • La media rappresenta l’ output osservato per ogni prova 43 Una tecnica per la riduzione della VARIANZA à USO DI VARIABILI ANTITETICHE(2) µ • MOTIVAZIONE à Ridurre la probabilità che un valore osservato sia dipendente da una polarizzazione dei numeri generati a sinistra o a destra della media 44 22