Parte 5 L’ambiente di sviluppo ARENA® 1 Caratteristiche Arena® • distributore: Rockwell Software • applicazioni: Manufacturing, supply chain, business process, military, warehousing e logistics improvement • sistemi operativi: Windows 95, 98, ME, NT, 2000 e XP • caratteristiche: ambiente grafico, run-time debugger, fitting delle distribuzioni di input, supporto all’analisi dell’output, riusabilità (oggetti e template), animazione, esecuzione e visualizzazione real-time 2 Moduli di dati: Entità Principali proprietà • Entity Type: • Initial Picture: nome (unico) del tipo di entità rappresentazione grafica • Holding Cost/Hour: costo orario di attraversamento del sistema da parte dell’entità • Costi iniziali: costo che l’entità ha prima ancora di entrare nel sistema. I costi sono classificati in: • Initial VA Cost: costo delle attività a valore aggiunto • Initial NVA Cost: costo delle attività non a valore aggiunto • Initial Waiting Cost: costo dei tempi di attesa • Initial Transfer Cost: costo dei trasferimenti • Initial Other Cost: altri costi 3 Moduli di dati: Code Principali proprietà • Name: • Type: Nome (unico) della coda disciplina di attesa: First In First Out, Last In First Out, Lowest Attribute Value (first) Highest Attribute Value (first) • Attribute Name: Se la disciplina di attesa è del tipo Lowest Attribute Value oppure Highest Attribute Value, l’ordinamento viene fatto rispetto a questo attributo. • Shared: indica se la coda è condivisa da più risorse 4 Moduli di dati: Risorse Principali proprietà • Name: • Type: • Capacity: nome (unico) della risorsa indica se la risorsa è a capacità fissa o variabile numero di entità processabili simultaneamente • Costi: time-dependent: costi orari di utilizzo (Busy/Hour) e di fermo (Idle/Hour) time-independent: costo per unità processata (Per Use) • StateSet Name: • Initial State: insieme che definisce i possibili stati della risorsa stato iniziale • Failures: • Failure Rule: failures associate alla risorsa comportamento della risorsa nei confronti dell’entità se si verifica una failure durante un processamento (Ignore, Wait, Preempt) 5 Moduli di dati: Variabili e Sets Principali proprietà delle variabili • Name: • Rows: • Columns: • Clear Option: nome (unico) della variabile numero di righe (se la variabile è un vettore o tabella) numero di colonne (se la variabile è un vettore o tabella) le variabili sono inizializzate ogni volta che lo sono le statistiche (Statistics) ogni volta che lo è il sistema (System) mai (None) • Initial Values: valori iniziali Principali proprietà degli insiemi • Name: • Type: • Members: nome (unico) dell’insieme Tipo di insieme (Resource, Entity Type, …) Lista degli elementi dell’insieme 6 Moduli di Flowchart (1) Creazione di un’entità Create 0 rappresenta il punto di ingresso delle entità nel sistema Principali proprietà • Name: • Entity Type: • Type: • Entities per Arrival: • Max Arrivals: • First Creation: identificatore del modulo tipo di entità generata modalità di generazione (con tempi di interarrivo esponenziali, costanti o distribuiti secondo una funzione di probabilità) numerosità del gruppo di arrivo numero totale di entità generate istante di arrivo della prima entità 7 Moduli di Flowchart (2) Distruzione di un’entità Dispose 0 rappresenta il punto di uscita delle entità dal sistema Principali proprietà • Name: • Record Entity Statistics: Identificatore del modulo vero se le statistiche delle entità in arrivo vanno memorizzate (wait time, transfer time, total time, value added cost, …) 8 Moduli di Flowchart (3) Process 0 Processamento di un’entità rappresenta un attività svolta dalle entità che lo attraversano. Serve anche per definire sottomodelli • Name: identificativo del modulo • Type: standard processing oppure subModel. • Action: tipo di processamento: Delay: è richiesto un tempo di processamento ma nessuna risorsa Seize Delay: è richiesto un tempo di processamento e una risorsa che viene allocata ma non rilasciata Seize Delay Release: è richiesto un tempo di processamento e una risorsa che viene allocata e rilasciata Delay Release: è richiesto un tempo di processamento, trascorso il quale una risorsa precedentemente allocata è rilasciata. Esempi: lavorazione di una parte, servizio di un cliente, ... 9 Moduli di Flowchart (3) Process 0 • Priority: • Resources: • Delay Type: • Units: • Allocation: Processamento di un’entità rappresenta un attività svolta dalle entità che lo attraversano. Serve anche per definire sottomodelli livello di priorità delle entità che attraversano il modulo risorsa o insieme di risorse usate per il processamento distribuzione utilizzata per generare i tempi di processamento unità di misura del tempo indica in quali categorie vanno conteggiati i tempi e costi di processamento Esempi: lavorazione di una parte, servizio di un cliente, ... 10 Moduli di Flowchart (4) Assign Assegnamento di variabili e attributi L’operazione avviene quando una entità attraversa il modulo • Name: • Assignments: • Type: Identificatore unico del modulo specifica l’assegnamento da effettuare ogni volta che un’entità attraversa il modulo. Per modificare variabili di sistema utilizzare Other. 11 Moduli di Flowchart (5) 0 Decide 0 • Name: •Type: False True Instradamento logico di un’entità Permette di implementare processi che decidono. In base alla condizione l’entità viene instradata su uno dei 2 rami di uscita del modulo. identificativo del modulo decisione su condizione (es: Entity.WaitTime >= 2) oppure su base probabilistica (es: 50% true) Esempi: rilavorazione di parti difettose, selezione di diversi tipi di clienti, regole di dispatching, selezione del server in stadi multi-processore 12 Moduli di Flowchart (6) Record Salvataggio di dati e/o statistiche Permette di collezionare statistiche • Name: identificativo del modulo • Type: Tipo di statistica Count: incremento/decremento di una statistica Entity statistics: statistiche generali sulle entità (informazioni su tempi e costi) Time Interval: differenza tra il valore di un attributo e il tempo corrente di simulazione Time Between: tempi di interarrivo delle entità nel modulo Expression: espressione specifica 13 Moduli di Flowchart (7) Raggruppamento di più entità Batch 0 • Name: • Type: • Batch Size: • Save Criterion: • Rule: Le entità che raggiungono il modulo attendono in una coda fino a quando il lotto non è completato. A quel punto viene generata una entità rappresentativa del lotto. Identificativo del modulo Tipo di raggruppamento (Temporaneo o Permanente) Dimensione del lotto Criterio per assegnare il valore all’attributo rappresentante (First, Last, Sum, Product) Regola di batching: tutte le entità (any Entity) o solo quelle con caratteristiche date (by Attribute) Esempi: assemblaggio, raggruppamento di utenti in particolari trasporti, ... 14 Moduli di Flowchart (8) 0 Separate Original 0 Duplicate • Name: •Type: •Percent Cost to Duplicates: •# of Duplicates: Separazione di più entità Permette di duplicare entità singole o di separare lotti precedentemente creati con il modulo Batch. Identificativo del modulo Tipo di separazione (Duplicate Original, Split Existing Batch) Allocazione dei tempi e costi delle entità entranti nei duplicati uscenti. Numero di duplicati Esempi: separare i singoli oggetti di un container, avviare diverse pratiche da un ordine di produzione (e.g., ordine e fattura), ... 15 Esempi (basic Process) Moduli • Modulo Process (Smart007) • Modulo Assign (Smart022) • Modulo Decide (Smart005) • Modulo Record (Smart163) • Moduli Batch e Separate (Smart002) • Batching by Attribute (Smart057) • Uso delle espressioni (Smart026) Animazione • Animazione nei flowcharts (Smart035) • Animazione delle entità (Smart023) • Animazione dello stato delle risorse (Smart010) 16 Esempi (basic Process) Code • Numero di clienti in coda (Smart058) • Tempo trascorso nel sistema (Smart043) • Abbandono della coda (Smarts154) • Disciplina di attesa per priorità (Smarts158) • Gestione di code miste (Smarts115) • Gestione dinamica delle priorità (Smarts085) Risorse • Schedulazione di risorse (Smarts114) • Risorse a capacità multipla (Smarts004) • Report sui costi delle risorse (Smarts019) • Seizing multiplo (Smarts118) 17 Advanced Transfer (1) Station Stazione fisica Definisce una stazione corrispondente ad una locazione fisica o logica dove avviene il processamento di una entità • Name: • Station Type: • Station Name: Identificativo del modulo Stazione singola o insieme di stazioni Identificativo della stazione Esempi: isole di lavorazione, punti di carico o scarico merce, … 18 Advanced Transfer (2) Enter • Name: • Station Type: • Station Name: • Delay: • Allocation: • Transfer In: Stazione fisica (advanced) E’ una versione avanzata del modulo Station. Una entità può raggiungere il modulo anche attraverso una connessione grafica Identificativo del modulo Stazione singola o insieme di stazioni Identificativo della stazione Ritardo che subisce l’entità che arriva e che tipicamente rappresenta il tempo di scarico da un transfer device categorie di tempo e costo in cui verrà contabilizzato il ritardo indica la risorsa (eventualmente) da liberare quando l’entità entra nel modulo. La risorsa può essere un trasportatore, un conveyor o una risorsa generica 19 Advanced Transfer (3) Route Trasferimento di una entità Smista l’entità alla sua stazione di destinazione • Name: Identificativo del modulo • Route Time: Tempo di trasferimento alla stazione di destinazione • Destination Type: Station oppure Sequential Le entità trasferite con il modulo Route possono essere animate associando opportune stazioni grafiche alle stazioni corrispondenti ai punti di partenza e di arrivo delle entità. 20 Advanced Transfer (4) Leave Trasferimento di un’entità (advanced) E’ una versione avanzata del modulo Route • Name: • Allocation: • Transfer Out: • Queue Type: • Connect Type: Identificativo del modulo categorie di tempo e costo in cui verrà contabilizzato il ritardo Indica il tipo di risorsa necessaria per il trasferimento (request transporter, access conveyor, seize resource o none) Indica la disciplina di attesa per il trasferimento Indica qual è la modalità di trasferimento dell’entità (Connect, Convey, Route, Transport) Tipicamente Transfer Out e Connect Type concordano sul mezzo di trasporto; per esempio Transfer Out = Request Transporter implica Connect Type = Transport 21 Advanced Transfer (5) Request • Name: • Transporter Name: • Selection Rule: • Velocity: • Queue Type: Assegnamento di transporter a entità L’entità attende nel modulo fino a quando il transporter selezionato non arriva nella locazione dell’entità. identificativo del modulo indica il transporter richiesto regola si selezione del transporter (Cyclical, Random, Preferred Order, Specific Member, Largest Distance, e Smallest Distance) specifica la velocità con la quale il transporter specificato si muoverà verso la stazione richiedente disciplina adottata per l’attesa di un transporter 22 Advanced Transfer (6) Transport Spostamento di transporter e entità Il trasferimento avviene tra 2 stazioni ed è possibile solo se l’entità ha già acquisito il controllo del transporter con il modulo Request. • Name: • Transporter Name: • Destination Type: • Station Name: • Velocity: Identificativo del modulo Indica in transporter da utilizzare Sequential oppure Station Stazione di destinazione specifica la velocità con la quale il transporter specificato si muoverà verso la stazione di destinazione 23 Advanced Transfer (7) Free Rilascio di un transporter Se non richiesto da altre entità, il transporter attenderà inattivo presso la stazione di destinazione dell’entità. • Name: •Transporter Name: Identificativo del modulo nome del transporter che sarà liberato. Se non specificato sarà l’ultimo transporter allocato all’entità in ordine di tempo 24 Esempi (advanced Transfer) Moduli • Modulo Route (Smarts073) • Routing delle entità (Smarts169) • Moduli Request Transport Free (Smarts146) • Moduli Leave Transport Free (Smarts148) Altri Esempi • PickStation tra stazioni singole (Smarts113) • PickStation in un set di Stazioni (Smarts138) 25 Esempi (Advanced) • Sottomodelli (Smarts008) • Scrittura su file e Lettura da file (Smarts154 e Smarts162) • Variabili di Sistema (Smarts144) • Variabili associate alle code (Smarts141) • Variabili associate alle risorse (Smarts139) • Entità che fungono da logica di controllo (Smarts018) • Condizioni avanzate di terminazione (Smarts130) • Automation (Smarts182) • Lettura da Excel con Automation (Smarts100) • User Function in Automation (Smarts161) • Animazione (Smarts074) 26 Esempi (sistemi di produzione) • Blocking Flow Line (Smart125) • Flow Line con buffer limitati (Smarts082) • Parallel machine (Smarts173) • Job Shop A (Smarts172) • Job Shop B (Smarts168) 27 Parte 6 Scelta delle distribuzioni di input 28 Motivazioni • Per eseguire simulazioni che comprendono sorgenti di incertezza si devono selezionare le loro distribuzioni di probabilità • la simulazione procede generando valori (realizzazioni) dalle distribuzioni scelte Esempio: La simulazione di un lancio di un dado si ottiene scegliendo una legge di probabilità con 6 valori equiprobabili. • Dati reali (se possono essere collezionati) sulla v.a. di interesse guidano la scelta della distribuzione 29 Metodi basati su dati reali 1. I dati collezionati sono utilizzati direttamente per alimentare la simulazione (Trace-driven simulation) 2. I dati collezionati sono utilizzati per definire una distribuzione empirica che li descriva 3. I dati collezionati sono utilizzati per individuare una distribuzione teorica che li rappresenti • (1) è consigliato nella validazione del modello, ma non permette una analisi previsionale • (2) preferibile a (1) • (3) preferibile a (2) quando possibile 30 Distribuzione Teorica vs. Distribuzione Empirica • una DE può presentare irregolarità dipendenti dai dati (particolarmente se i dati sono scarsi), mentre una DT rappresenta meglio il comportamento generale. • una DE non permette la generazione di realizzazioni al di fuori degli intervalli osservati (i.e., può escludere eventi “eccezionali”) • le DT possono essere modificate più semplicemente delle DE, in quanto è sufficiente modificare i suoi parametri. Esempio: variazione nella frequenza media degli arrivi 31 Distribuzione Teorica vs. Distribuzione Empirica • anche in casi in cui esistono motivi fisici per scegliere una DT, è consigliabile l’utilizzo di serie storiche come supporto empirico (validazione) • in numerosi casi pratici non esiste una DT che presenta un buon “fitting” con i dati osservati. • Una DT può generare valori molto grandi (anche se con probabilità molto basse) che non corrispondono a realizzazioni praticamente significative 32 Distribuzioni empiriche • osservazioni X1, …, Xn ordinate per valori crescenti • Distribuzione continua lineare a tratti: 0 se x < X1 i − 1 x − Xi F ( x) = + se X i ≤ x < X i +1 , n − 1 ( n − 1 )( X − X ) i +1 i se x ≥ X n 1 per i = 1,..., n − 1 1 4/5 3/5 2/5 1/5 X1 X2 X3 X4 X5 X6 33 Esempio • Valori osservati: 0.4, 1, 2, 2.5, 3, 3.6, 4 0 se x < X1 i − 1 x − Xi F ( x) = + se X i ≤ x < X i +1 , n − 1 (n − 1)( X i +1 − X i ) se x ≥ X n 1 per i = 1,..., n − 1 1 5/6 2/3 1/2 1/3 1/6 0.4 1 2 2.5 3 3.6 4 34 Scelta di una distribuzione teorica Step 1: Verifica dell’indipendenza delle osservazioni Step 2: Identificazione di una famiglia candidata di distribuzioni Step 3: Stima dei parametri Step 4: Verifica sui dati reali della rappresentatività della distribuzione 35 Step 1: Indipendenza delle osservazioni Molte tecniche per la scelta di una distribuzione teorica richiedono che le osservazioni X1, X2, …, Xn siano indipendenti. In certi casi le osservazioni collezionate in un intervallo di tempo possono essere dipendenti. Esempio. X1, X2, …, Xn rappresentano le temperature misurate ogni ora in una certa città, a partire dalla mezzanotte: campioni vicini in tempo sono positivamente correlati Esempio. X1, X2, …, Xn rappresentano i ritardi dei clienti misurati nella coda di un sistema a singolo servente: se la frequenza media degli arrivi è paragonabile al service rate medio il sistema è soggetto a congestione e gli Xi sono positivamente correlati. 36 Correlazione di variabili aleatorie Siano date n coppie di realizzazioni, (X1, Y1), (X2, Y2),…, (Xn, Yn) di 2 v.a. X e Y. X e Y sono v.a. correlate se il coefficiente di correlazione è non nulla: ρ =E[( X i − E ( X ))((Yi − E (Y )))] = E[ X iYi ] − E ( X ) E (Y ) 37 Diagrammi a scattering 0,6 v.a. non correlate (ρ = -0,004) Y 0,4 0,2 0 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 -0,2 X -0,4 -0,6 0,6 v.a. correlate (ρ = 0,9958) Y 0,4 0,2 0 -0,6 -0,4 -0,2 0 -0,2 0,2 0,4 0,6 X -0,4 -0,6 38 Auto-correlazione Una tecnica informale per verificare l’indipendenza di un insieme di dati X1, X2, …, Xn è basata sulla stima del coefficiente di autocorrelazione tra tutte le coppie di osservazioni distanti j : n− j ρˆ j = ∑(X i =1 i − X n )( X i + j − X n ) ( n − j ) S n2 Se le osservazioni X1, X2, …, Xn sono indipendenti, allora ρj = 0 per j = 1, 2, …, n-1 Dato che ρ̂ j è una stima di ρ, può essere ρˆ j ≠ 0 anche se le Xi sono indipendenti. Tuttavia, valori molto distanti da 0 sono un forte indizio della dipendenza delle osservazioni 39 Diagrammi di auto-correlazione: esempio ρ̂ j 0,2 max = 0.159 0,15 0,1 0,05 0 -0,05 -0,1 -0,15 1 3 5 7 9 11 13 15 17 19 j min = -0.129 Diagramma da 100 realizzazioni indipendenti di una distribuzione esponenziale con β = 1 40 Diagrammi di auto-correlazione: esempio ρ̂ j 1 0,8 max = 0.77 0,6 0,4 0,2 0 -0,2 1 3 5 7 9 11 13 15 17 19 j min = -0.22 -0,4 Diagramma da 100 ritardi in coda di un M/M/1 con ρ = 0.8 41 Step 2: Ipotizzare una distribuzione Ipotesi teorica: il ruolo della sorgente di incertezza può suggerire la scelta o l’eliminazione di una distribuzione dall’insieme delle candidate Esempio. Se gli arrivi ad un centro di servizio sono individuali, ad un rate costante e tali che i numeri di clienti che arrivano in intervalli disgiunti sono indipendenti, esistono ragioni teoriche per ipotizzare che i tempi di interarrivo siano v.a. IID con distribuzione esponenziale Esempio. I tempi di servizio di una facility non sono modellati da una (generica) distribuzione normale, in quanto le sue realizzazioni possono assumere valori negativi. 42 Distribuzione Bernoulli p(x) se x = 0 1 − p p ( x) = p se x = 1 0 altrimenti 0 F ( x) = 1 − p 1 •Range: •Parametri: •Valor medio: •Varianza: se x < 0 se 0 ≤ x < 1 se 1 ≤ x p 1- p 0 1 {0, 1} p ∈(0,1) E(X) = p V(X) = p(1 – p ) •Applicazioni: esperimento con due possibili risultati 43 Distribuzione Binomiale n x n− x p (1 − p ) x p ( x) = 0 se x ∈ {0,1,K , n} altrimenti p(x) 0.6 0.5 0.4 0.3 0.2 0.1 0 t=5 p = 0.5 44 Distribuzione Binomiale •Range: •Parametri: •Valor medio: •Varianza: {0, 1} n > 0 intero , p ∈(0,1) E(X) = np V(X) = np(1 – p) •Applicazioni: numero di successi in n esperimenti bernoulliani ciascuno con probabilità p di successo; numero di parti difettose in un lotto di dimensione n; 45 Distribuzione di Poisson e − λ (λ ) k p ( x ) = k! 0 per k = 0, 1, 2,...; altrimenti 0,25 λ=4 0,2 0,15 λ=8 0,1 0,05 0 0 5 10 15 20 25 46 Distribuzione di Poisson •Range: •Parametri: •Valor medio: •Varianza: N λ>0 E(X) = λ V(X) = λ •Applicazioni: processi di arrivo poissoniani; numero di eventi in processi senza memoria; clienti in una giornata, telefonate in un’ora,… 47 Ipotizzare una distribuzione: v.a. discrete Tecnica del diagramma a bastone: X1, X2, …, Xn dati • Per ogni possibile valore xj che può essere assunto dai dati sia hj la proporzione degli Xi pari a xj. • Definire il diagramma con un segmento verticale di altezza hj in corrispondenza di ciascun valore xj. • Confrontare graficamente la forma di h(x) con la legge di probabilità ipotizzata 48 Distribuzione uniforme: U(a,b) 1 a≤ x≤b f ( x ) = b − a 0 altrimenti 0 x − a F ( x) = b − a 1 •Range: •Parametri: •Valor medio: •Varianza: se x < a se a ≤ x ≤ b se f (x) 1 b−a a b x x>b [a, b] a, b con a < b; E(X) = (a + b)/2 V(X) = (b – a)2/12 •Applicazioni: utilizzata come primo modello nei casi in cui l’informazione disponibile è scarsa. Nei simulatori è utilizzata per derivare le altre distribuzioni 49 Distribuzione esponenziale: expo(λ) f (x) 1,2 1 0,8 expo(1) 0,6 •Range: •Parametri: •Valor medio: •Varianza: 0,4 0,2 6,8 6 6,4 5,6 5,2 4,8 4 4,4 3,6 3,2 2,8 2,4 2 1,6 0,8 0 0 0,4 1 − e − λx se x ≥ 0 F ( x) = altrimenti 0 1,2 λ e − λx x≥0 f ( x) = altrimenti 0 [0, ∞) λ>0 E(X) = 1/λ V(X) = 1/λ 2 •Applicazioni: tempi di interarrivo quando il numero di arrivi in un intervallo di tempo fissato ha una distribuzione di Poisson 50 Distribuzione normale: N( µ ,σ ) f (x) 0,45 f ( x) = 1 e 2πσ ( x−µ )2 − 2σ 2 0,4 0,35 N(0,1) 0,3 0,25 0,2 0,15 0,1 0,05 3,92 3,48 2,6 3,04 2,16 1,72 1,28 0,4 0,84 -0 -0,5 -0,9 -1,4 -1,8 -2,2 -2,7 -3,1 -4 •Range: •Parametri: •Valor medio: •Varianza: -3,6 0 (-∞ , ∞) µ∈R,σ>0 E(X) = µ V(X) = σ 2 •Applicazioni: La distribuzione normale è la distribuzione limite di molte altre distribuzioni di probabilità. Può quindi essere utilizzata per variabili che descrivono disturbi risultati da tante piccole azioni (ritardi dovuti al traffico, errori di misura, …) 51 Distribuzione Gamma: gamma(α, β ) β −α x α −1e − x / β f (x ) = (α − 1)! 0 se x ≥ 0 altrimenti α −1( x / β ) j −x / β se x ≥ 0 1− e ∑ F(x ) = j ! j =0 0 altrimenti •Range: •Parametri: •Valor medio: •Varianza: solo per α intero: distribuzione Erlang [0, ∞) a > 0, β > 0 E(X) = αβ V(X) = αβ 2 •Applicazioni: buona approssimazione di tempi di servizio: expo(1/β) = gamma(1,β); tempo totale di servizio di a serventi in serie ognuno con tempi di servizio esponenziali 52 Distribuzione Gamma: gamma(α, β ) 63.185 gamd( z ix , α , β , t0) 80 60 α gamd( z ix , α + 1 , β , t0) gamd( z ix , α + 1 , β + 0.02 , t0) 40 α+1 gamd( z ix , α + 3 , β + 0.02 , t0) 20 − 0.1 0 α+2 0 0 10 α+3 20 ix 30 40 40 53 Ipotizzare una distribuzione: v.a. continue Tecnica dell’istogramma: X1, X2, …, Xn dati • suddividere l’intervallo dei valori coperti dai dati in k intervalli adiacenti [b0, b1), [b1, b2), …, [bk-1, bk) di uguale ampiezza ∆b. • Per j = 1, 2, …, k definire hj come la proporzione degli Xi contenuti nell’intervallo j. • Definire la funzione: 0 se x < b0 h( x) = h j se b j −1 ≤ x < b j , per 0 se x ≥ bk j = 1,..., k • Confrontare graficamente la forma di h( x ) con la ddp ipotizzata. 54 Fondamento del metodo Sia X una v.a. distribuita come gli Xi , con ddp f. Allora, per j fissato, j =1, 2, …, k, risulta: bj P (b j −1 ≤ X ≤ b j ) = ∫ f ( x)dx = ∆b f ( y ) j b j −1 per un certo y j ∈ (b j −1 , b j ) teorema del valor medio Ma hj approssima P (b j −1 ≤ X ≤ b j ) ⇒ h ( y j ) = h j ≈ ∆b f ( y j ) Quindi, h( y ) è approx. proporzionale a f ( y ) ⇒ h ed f hanno forme simili •Difficoltà: non esistono criteri generali per scegliere k. Regola di Sturges: k = 1 + log2n. In genere, preferibile scegliere il più piccolo k che genera un istogramma “smooth” 55 Esempi • Xi ~ N(0,1) 12 35 k=3 30 25 k = 11 10 8 20 6 15 4 10 5 2 0 0 1 2 3 1 2 3 4 5 6 7 8 9 10 11 3,5 3 2,5 k = 41 2 1,5 1 0,5 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 56 Step 3: Stima dei parametri Definizione. La popolazione oggetto è la totalità degli elementi in esame dai quali si vogliono ottenere informazioni (es: una v.a. X). Definizione. Un campione è un gruppo di elementi estratti da una popolazione (es: un certo numero di realizzazioni di X) allo scopo di raccogliere informazioni sulla popolazione stessa. Il campione è casuale se le estrazioni degli elementi sono indipendenti. Definizione. Una statistica campionaria è una funzione delle realizzazioni di una v.a., a sua volta v.a. osservabile. Il valor medio di una statistica campionaria può essere utilizzato per stimare un parametro della funzione di distribuzione della popolazione. 57 Metodi per la stima dei parametri Problema: Data la distribuzione di probabilità f della popolazione, determinare sulla base di un campione X1,…,Xn un valore per ognuno dei parametri che caratterizzano f che sia la miglior approssimazione possibile dei parametri incogniti. Stime puntuali • Metodo dei momenti Si impone che i parametri della distribuzione coincidano con gli stimatori forniti dalle statistiche campionarie (media e varianza campionaria) 2. Metodo della massima verosimiglianza Si determinano i parametri in modo che sia massima la probabilità che i campioni osservati siano stati estratti dalla distribuzione ipotizzata Stime per intervalli • Intervalli di confidenza Si determina un intervallo in cui il parametro che si sta stimando cade con probabilità fissata. 58 Statistiche campionarie: media e varianza campionaria X1, X2 , …, Xn osservazioni di variabili aleatorie IID ognuna con valor medio E(Xi) = µ e varianza Var(Xi) = σ 2 [non noti] • Media campionaria n X (n ) = ∑ Xi i =1 stimatore corretto di µ, i.e., E[ X ( n )] = µ n • Varianza campionaria n ∑[ X i − X ( n )]2 S 2 ( n ) = i =1 stimatore corretto di σ 2, i.e., E[ S 2 ( n )] = σ 2 n −1 59 Stima di Var(X( n )) Motivazione: X (n ) è una v.a. con varianza Var [ X ( n )] differire notevolmente da µ in alcuni esperimenti. e può n 1 n 1 n 1 2 Var [ X ( n )] = Var ( ∑ X i ) = E( ∑ X i − µ ) = 2 Var ( ∑ X i ) = n i =1 n i =1 n i =1 1 n 1 σ2 2 = 2 ∑Var ( X i ) = 2 nσ = n n i =1 n indipendenza degli Xi S 2 ( n ) Estimatore corretto di n Var [ X ( n )] 60 Massima verosimiglianza Dati osservati IID: X1, X2, …, Xn ddp ipotizzata: fθ(x), parametro ignoto θ Una misura della probabilità di aver ottenuto le osservazioni X1, X2, …, Xn proprio dalla distribuzione ipotizzata è data dalla funzione di verosimiglianza: L(θ)= fθ(X1) fθ(X2) … fθ(Xn) Il metodo della massima verosimiglianza consiste nello scegliere come estimatore del valore ignoto θ il valore θˆ che massimizza L(θ) 61