Statistica e teoria probabilistica del rischio Fabrizio Savi Università degli Studi “La Sapienza”, Roma Scuola in Ingegneria dell’Emergenza Martedi 15/06/2004 Firenze, 1966 Tanaro, 1994 Lodi, 2002 Rischio Idraulico Il Danno D causato da evento di piena, è definito come: D=EV Rt = E(Dt)= E(EV) E(Nt) = E V t/T Il Rischio Idraulico risulta dal prodotto di tre fattori R = P ·E ·V ∞ EADi = ∫ Dp(D )dD 0 P: Pericolosità della situazione idraulica Frequenza (probabilità) delle inondazioni E: Valore degli elementi a rischio Importanza sociale ed economica dei beni e delle attività minacciate e numero delle persone in pericolo V: Vulnerabilità degli elementi a rischio Dipende dalla capacità di difesa degli elementi a rischio e alla violenza del fenomeno calamitoso Rischio Idraulico IL CODICE HEC-FDA h Tirante-Portata F Frequenza-Portata Q D Q Danno-Frequenza F Danno-Tirante h D EADi ≅ h −1 ∑ D j ( f j − f j +1) + D1 f1 + Dh f h j =2 Rischio Idraulico Rischio tempo di ritorno T (anni) T è definito come il numero di anni che mediamente intercorre tra due superamenti del valore Q’ da parte della grandezza idrologica Q T(Q’) = media (τ1, τ2, τ3, ..) Rischio Idraulico Il significato concreto di tempo di ritorno è poco evidente e facilmente equivocabile. Per chiarirne meglio il significato è opportuno fare riferimento al concetto di probabilità di pericolo (hazard) idrologico HN , probabilità che in N anni, periodo di esercizio dell’opera, si verifichi una piena superiore a quella di progetto. Legame tra T e HN : HN(Q’) = 1 - ( 1 - 1/T )N Per valori di T >> N : HN(Q’) = N/T Fissata la vita attesa dell’opera N il tempo di ritorno T definisce la probabilità che l’opera sia deficitaria nei confronti della sicurezza idrologica nel corso degli N anni di esercizio previsti. Procedure statistiche L'analisi della frequenza dei valori misurati della grandezza idrologica consente di definire quantitativamente il rischio idraulico in termini di tempo di ritorno T, che è legato alla probabilità di non superamento P (XT) = P (x ≤ XT) dalla: P = 1− 1 TR L’analisi della frequenza del campione (o dei campioni) delle misure della variabile idrologica ha lo scopo di definire, secondo una procedura efficiente e robusta, la forma della funzione di distribuzione (o ripartizione) di probabilità (FDP) della variabile, ossia il legame tra la variabile e il tempo di ritorno: XT = X(T) Procedure statistiche Analisi di tipo locale “at site” 9Scelta della distribuzione 9Scelta della procedura di stima dei parametri 9Indagine di tipo POT (Peaks Over Threshold) o AFS (Annual Flood Series) ……… Procedure statistiche Al solito il legame tra la variabile e il tempo di ritorno viene individuato elaborando i suoi massimi annui anche non consecutivi questa procedura viene definita come elaborazione delle serie dei massimi annui Il calcolo statistico ipotizza che la variabile di interesse - ad es. la portata al colmo della massima piena dell’anno - sia distribuita in probabilità secondo una legge sconosciuta che dobbiamo identificare Il campione dei valori registrati nel passato serie storica è una delle infinite possibili realizzazioni del processo casuale che segue la legge sconosciuta Dalla misura della frequenza con la quale sono stati misurati i valori storici stimiamo la probabilità delle future realizzazioni Procedure statistiche Distribuzioni di frequenza Realizzazioni casuali di massimi annui di portata 1.00 0.90 0.80 frequenza 0.70 Estraendo a caso da una popolazione diversi campioni si ottengono differenti distribuzioni di frequenza campione1 FDP vera campione2 campione3 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0 1000 2000 3000 4000 3 portata (m /s) Non sappiamo assegnare la corretta frequenza Procedure statistiche L’analisi di frequenza applicata ai 3 campioni precedenti fornisce tre risultati tra loro differenti T (anni) Q (m3/s) 200 4690 4986 3865 500 5491 1 5851 2 4430 3 La distribuzione di probabilità di una variabile casuale è completamente definita quando, dopo aver scelto la legge teorica, ne siano stati determinati i parametri. Per la stima dei parametri si possono usare diverse procedure: •il metodo dei momenti (MOM), •il metodo della massima verosimiglianza (ML), •il metodo dei momenti pesati in probabilità (PWM) Procedure statistiche Avvertenze nell’uso di un’analisi di tipo locale 9 E’ consigliabile utilizzare i risultati di un’analisi “at site” solo se T ≤ 2-3 · N con N dimensione del campione sperimentale (il Flood Estimation Handbook inglese non accetta valutazioni ottenute per T > 2 · N ) 9 Se si ricorre ad un’analisi “at site” il numero di parametri che caratterizza la distribuzione utilizzata deve essere il minore possibile (Gumbel 2 parametri, GEV 3 parametri) Definizioni e assiomi fondamentali Statistica idrologica Esperimento casuale Ogni fenomeno il cui risultato non può essere previsto con certezza Spazio di probabilità o campionario Insieme Ω di tutti i possibili risultati, esaustivi e mutualmente esclusivi, di un dato esperimento casuale. Tali possibili risultati sono detti punti campionari o eventi. Tripletta (Ω,A,P) dove • Ω : spazio campione, insieme di tutti i possibili risultati di un esperimento concettuale; •A: spazio degli eventi, insieme di tutti gli eventi ; •P: funzione di probabilità, P: A∈[0,1] e t.c • P(A) ≥ 0, ∀ A⊇Α • P(Ω) = 1 • P(∪Ai) = ΣiP(Ai) se Ai indipendenti (anche infiniti) Statistica idrologica Evento DATO UNO SPAZIO CAMPIONARIO Ω RELATIVO AD UN CERTO ESPERIMENTO CASUALE, UN EVENTO È SEMPRE UN SOTTOINSIEME DI Ω. Tuttavia: •se Ω è costituito da un numero finito o da un’infinità numerabile di punti campionari, è evento ogni sottoinsieme A di Ω; •se invece Ω è costituito da un’infinità non numerabile di punti, non tutti i possibili sottoinsiemi di Ω sono eventi ma soltanto i cosiddetti sottoinsiemi ammissibili di Ω. Dato uno spazio campionario Ω relativo ad un certo esperimento casuale, l'evento A si verifica (si realizza) solo se il risultato dell'esperimento casuale è un qualsiasi punto campionario di A; in caso contrario A non si verifica. Statistica idrologica Teoria degli insiemi L'evento certo Ω (coincidente con l'intero spazio campionario) rappresenta l'insieme universale, mentre l'evento impossibile ø corrisponde all'insieme vuoto . Relazione di inclusione: un evento A è incluso nell'evento B, e si scrive A ⊆ B, se ogni punto campionario di A appartiene anche a B (non è detto che valga il viceversa). Relazione di uguaglianza: due eventi A e B sono uguali se contengono gli stessi punti campionari, ovvero se contemporaneamente A⊆BeB⊆A Statistica idrologica Teoria degli insiemi Operazione di negazione: La negazione (complementazione nella teoria degli insiemi) di un evento A è l'evento à costituito da tutti i punti campionari di Q che non appartengono ad A. Diagramma di Venn per l'inclusione e la negazione dove il quadrato rappresenta l'intero spazio campionario Ω e A⊆B Statistica idrologica Teoria degli insiemi Operazione di intersezione: L'intersezione tra due eventi A e B è l'evento E1= A ∩ B costituito da tutti i punti campionari che appartengono sia ad A che a B. Operazione di unione: L'unione tra due eventi A e B è l'evento E2 = A ∪ B costituito da tutti i punti campionari che appartengono ad almeno uno fra A e B. Operazione di differenza: La differenza fra due eventi A e B è l'evento E3 = A-B costituito da tutti i punti campionari che appartengono ad A ma non a B Statistica idrologica Teoria degli insiemi Condizionamento: si vuol analizzare un certo evento A (l’evento condizionato) avendo a disposizione una certa informazione B (l’evento condizionante). L'evento A | B (A condizionatamente ad B o, più semplicemente, A dato B) riguarda l’analisi di A assumendo verificato l'evento condizionante (informazione) B. Si sottolinea che l’espressione assumendo verificato non significa necessariamente che B si è verificato, ma solo che si ragiona come se si fosse verificato (si ragiona cioè sulla base dell’informazione a disposizione). Statistica idrologica La probabilità DEFINIZIONE CLASSICA DELLA PROBABILITÀ: La probabilità di un evento A è data dal rapporto: n A numero dei casi favorevoli P( A ) = = numero dei casi possibili n purché tutti i casi siano ugualmente possibili. CRITICHE: • circolarità della definizione: affermare che tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non si può definire un concetto utilizzando se stesso). •non sempre è possibile procedere all’enumerazione dei casi favorevoli e dei casi possibili; • anche nei casi in cui si possa effettuare tale enumerazione, non è infrequente la circostanza in cui non tutti i casi sono ugualmente possibili. Statistica idrologica La probabilità DEFINIZIONE FREQUENTISTA DELLA PROBABILITÀ: La probabilità di un evento ripetibile A è data dal rapporto fra nA, il numero di volte in cui A si è verificato, ed n, il numero delle prove, quando il numero delle prove tende ad infinito nA P ( A ) = lim n→ ∞ n supposto che tutte le prove siano effettuate nelle stesse condizioni. Statistica idrologica La probabilità DEFINIZIONE ASSIOMATICA DELLA PROBABILITÀ: Siano dati un esperimento casuale, con il suo spazio campionario Ω e la corrispondente σ-algebra A (l’insieme degli eventi generati da Ω). Allora la probabilità è una funzione che ad ogni evento (elemento di A) associa un numero fra 0 e 1, in simboli P: A → [0,1] A → P(A), che soddisfa le seguenti proprietà: 1. P(A) ≥ 0 (ridondante, ma è bene sottolinearla) 2. P(Ω) = 1 3. Se A ∩ B = ø (cioè A e B sono incompatibili), allora P(A ∪ B) = P(A) + P(B) Statistica idrologica La probabilità: relazioni P(A) ≤ 1 P(ø) = 0 A ⊆ B ⇒ P(A) ≤ P(B) P(A ∪ B) = P(A) + P(B) – P(A ∩ B) L'ultima relazione per 3 eventi diventa P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) + - P(B ∩ C) + P(A ∩ B ∩C) che ovviamente si riduce a P(A ∪ B ∪ C) = P(A) + P(B) + P(C) quando i 3 eventi sono tra loro incompatibili. Per k eventi tale relazione diventa: Statistica idrologica Definizioni Dato un esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio campionario e A è la σ-algebra generata da Ω, è detta spazio misurabile. Se a questa coppia aggiungiamo la (funzione) probabilità otteniamo la tripletta (Ω, A, P(.)) detta spazio probabilistico. Statistica idrologica La probabilità condizionata DEFINIZIONE DI PROBABILITÀ CONDIZIONATA: Assumendo P(B) > 0, la probabilità di A | B è data da P( A ∩ B ) P( A B ) = P( B ) FORMULA DELLE PROBABILITÀ COMPOSTE: P(A ∩ B) = P(A | B) P(B) = P(B | A) P(A) Tale relazione si dimostra ricavando P(A ∩ B) in funzione degli altri elementi sia nella definizione di P(A | B) che di P(B | A) (si ricorda che, per la proprietà commutativa, A ∩ B = B ∩ A e quindi P(A ∩ B) = P(B ∩ A)). Statistica idrologica FORMULA DELLA PROBABILITÀ MARGINALE: P(B) = P(B | A) P(A) + P(B | A ) P( A ) Dim. P(B) = P(B ∩ Ω) = P[B ∩ (A ∪ A )] = P[(B ∩ A) ∪ (B ∩ A )]= = P(B ∩ A) + P(B ∩ A ) = P(B | A) P(A) + P(B | A ) P( A ), Dove, fra le altre cose, si sfrutta il fatto che (B ∩ A) e (B ∩ A ) sono incompatibili e la formula delle probabilità composte. FORMULA DI BAYES: P ( B A )· P ( A ) P( A B ) = P( B ) Tale formula può essere ricavata immediatamente dalla formula delle probabilità composte. Si sottolinea che nella pratica il denominatore P(B) è spesso calcolato a partire da P(B | A), P(B | A ), P(A) e P( A ) utilizzando la formula della probabilità marginale. Statistica idrologica Indipendenza fra eventi Avere l’informazione che si è realizzato un certo evento B, non è detto che modifichi necessariamente la probabilità di verificarsi di un altro evento A; può accadere cioè che la valutazione di probabilità rimanga la stessa che si aveva senza avere l’informazione, ovvero P(A | B) = P(A) E’ ragionevole definire questa situazione come indipendenza, e più in particolare A indipendente da B. D’altra parte se ciò accade, sostituendo tale relazione nella formula di Bayes per P(B |A) si ottiene immediatamente P(B | A) = P(B) ovvero che B è indipendente da A. Questo significa che la relazione di indipendenza fra due eventi è biunivoca Statistica idrologica Indipendenza fra eventi Inoltre se la relazione P(A | B) = P(A) si sostituisce nella formula delle probabilità P(A ∩ B) = P(A) P(B), che esprime quindi la formula delle probabilità composte per eventi indipendenti. Statistica idrologica Definizione di indipendenza Due eventi A e B sono fra loro indipendenti se (una qualsiasi implica le altre due): P(A | B) = P(A), oppure P(B | A) = P(B), oppure P(A ∩ B) = P(A) P(B). Più in generale, k eventi A1, A2, ..., Ak sono indipendenti se per ogni sottoinsieme di eventi Ai1 , Ai2 , …, Ais con s = 2, 3, ...,k. Statistica idrologica Variabili casuali Definizione di variabile casuale (X): Dato uno spazio probabilistico (Ω, A, P(.)), una variabile casuale è una funzione che ad ogni punto campionario associa un numero reale, in simboli X: Ω → R ω → X(ω), che soddisfa la seguente proprietà: ogni insieme del tipo {ω∈Ω: X(ω) ≤ x} è un evento, cioè un elemento di A. Statistica idrologica Variabili casuali Per identificare una variabile casuale occorre indicare: 1. quali valori può assumere (popolazione); 2. come la probabilità è distribuita su tali valori. Le variabili casuali possono essere continue, se il loro valore può variare con continuità tra zero ed il massimo possibile ossia se possono assumere un insieme continuo (e quindi non numerabile) di valori, oppure discrete, se possono assumere un numero finito oppure un'infinità numerabile di valori. Il campione della variabile casuale è costituito da una serie di osservazioni x1, x2, …, xn della variabile stessa. Statistica idrologica DEFINIZIONE DI FUNZIONE DI RIPARTIZIONE (o funzione delle probabilità cumulate) Data una variabile casuale X, la funzione di ripartizione di X è la funzione: F(x) = P(X ≤ x), dove x è un qualsiasi numero reale. È definita sia per v.c. discrete che continue. È semplicemente al variare di x, la probabilità che questa assuma valori minori o uguali ad x, è la probabilità cumulata da –∞ fino al punto x. Statistica idrologica PROPRIETÀ DELLA FUNZIONE DI RIPARTIZIONE 1. La funzione di ripartizione essendo una probabilità gode ovviamente delle proprietà della probabilità; in particolare 0 ≤ F(x) ≤ 1 2. Valgono i limiti lim F ( x ) = 0 e x → −∞ lim F ( x ) = 1 x → +∞ 3. F(x) monotona non decrescente 4. F(x) continua a destra nel caso discreto (i punti di discontinuità si collocano in corrispondenza dei valori x1, x2, ..., xk assunti dalla variabile) e assolutamente continua nel caso continuo. Statistica idrologica DEFINIZIONE DI FUNZIONE DI MASSA (di probabilità) Sia X una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori). La funzione di massa di X è la funzione f(x) = P(X = x) Tale funzione vale quindi f(xi) = P(X = xi) se i = 1, …, k, mentre vale 0 per gli altri valori di x. La funzione di massa di una v.c. discreta, quindi, è semplicemente (X = x), cioè la probabilità che X sia uguale ad x. Statistica idrologica PROPRIETÀ DELLA FUNZIONE DI MASSA 1. La funzione di massa essendo una probabilità gode ovviamente delle proprietà della probabilità; in particolare 0 ≤ f(xi) ≤ 1 2. k ∑ f ( xi ) = 1 i =1 Statistica idrologica DEFINIZIONE DI FUNZIONE DI DENSITÀ (di probabilità) Sia X una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞). La funzione di densità di X è la funzione: P ( x < X ≤ x + dx ) f ( x ) = lim dx dx →0 La funzione di densità in x, allora, rappresenta quanto vale la probabilità “intorno ad x” in rapporto all’ampiezza di tale “intorno”. Il termine funzione di densità serve proprio ad evocare quanto illustrato: quanto è densa la probabilità in ciascun punto. PROPRIETÀ DELLA FUNZIONE DI DENSITÀ t 1. f(x) ≥ 0 2. ∫ 0 f ( x )dx = 1 Statistica idrologica Può risultare utile, descrivere una variabile casuale con degli INDICI CARATTERISTICI, anziché procedere ad una sua rappresentazione completa mediante la funzione di distribuzione, la funzione di massa o la funzione di densità. A questo scopo, come riferimento per questa sezione supporremo che X sia: • o una v.c. discreta che assume valori, ordinati in senso crescente, x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità numerabile di valori) con funzione di massa f(x); • oppure una v.c. continua che assume valori nell’intervallo (a, b) (eventualmente a può essere –∞ e b +∞) con funzione di densità f(x). Statistica idrologica Momenti di una variabile casuale DEFINIZIONE DI VALORE ATTESO (MOMENTO). Sia X una v.c. con funzione di massa o funzione di densità f(x) e sia g(X) una trasformazione di X. Il valore atteso di g(X) è dato da Si evidenzia che un valore atteso è una costante ed in sintesi si può affermare che è la somma pesata, sulla base della distribuzione della v.c., di una opportuna trasformazione dei valori assunti dalla v.c. stessa. Statistica idrologica Momenti di una variabile casuale VALORE ATTESO DI UNA COSTANTE Se g(X) = k costante, allora E[g(X)] = E(k) = k Il valore atteso di una costante è uguale alla costante stessa. PROPRIETÀ DI OMOGENEITÀ Sia c è una costante, allora E[c·g(X)] = c·E[g(X)] Il valore atteso di una costante per g è uguale alla costante per il valore atteso di g Statistica idrologica Momenti di una variabile casuale PROPRIETÀ DI ADDITIVITÀ Siano g1(.) e g2(.) due funzioni, allora E[g1(X)+g2(X)] = E[g1(X)] + E[g2(X)] Il valore atteso di una somma è uguale alla somma dei valori attesi PROPRIETÀ DI LINEARITÀ Siano c1 e c2 due costanti, g1(.) e g2(.) due funzioni. Allora E[c1·g1(X) + c2· g2(X)] = c1 ·E[g1(X)] + c2· E[g2(X)]. Il valore atteso di una combinazione lineare è uguale alla combinazione lineare dei valori attesi Statistica idrologica Momento r-mo dall’origine Se si pone g(X) = Xr, per r = 0, 1, 2,..., si ottiene il momento r-mo dall'origine, definito da Per r = 0 si ottiene µ0, il momento dall’origine di ordine 0 che risulta sempre uguale ad 1. Infatti µ0 = E(X0) = E(1) = 1, ricordando che il valore atteso di una costante è la costante stessa. Per r = 1 si ottiene µ1, il momento primo dall’origine: µ1=E(X) Tale momento viene di solito chiamato VALORE ATTESO o MEDIA ed è spesso indicato con µ. Statistica idrologica Momento r-mo centrale Se si pone g(X) = (X-µ)r, per r = 0, 1, 2,..., dove µ = E(X), si ottiene il momento r-mo centrale, definito da Per r = 2 si ottiene µ2 , il momento primo dall’origine: µ2=E[(X – µ)2] Tale momento viene di solito chiamato VARIANZA ( σ2). Si definisce poi lo SCARTO QUADRATICO MEDIO σ=√( σ2). Statistica idrologica Essendo la media e la varianza gli indici caratteristici più utilizzati per sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale X, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla varianza di particolari trasformazioni di X. Trasformazione lineare: Y = a + b·X. Se con µX e σX2 si indicano rispettivamente la media e la varianza di X, allora la media e la varianza della variabile trasformata Y risultano: σY2 = a + b · σX2 µY = a + b·µX e “la media di una trasformazione lineare è uguale alla trasformazione lineare della media originaria”, mentre “la varianza di una trasformazione lineare è pari alla varianza originaria per il quadrato del coefficiente angolare della trasformazione”. Statistica idrologica Momento r-mo standardizzato Se si pone g(X) = [(X-µ)/σ]r, per r = 0, 1, 2,..., dove µ = E(X) e σ=E(Xµ)2 , si ottiene il momento r-mo standardizzato, definito da La trasformazione g(X) = [(X-µ)/σ]r è detta standardizzazione ed è interessante in quanto oltre a procedere alla traslazione nel punto medio µ utilizza come "nuova unità di misura" il valore assunto dalla deviazione standard σ. Statistica idrologica Momento r-mo standardizzato Statistica idrologica Quantili DEFINIZIONE DI QUANTILE Sia X una v.c. con funzione di ripartizione F(x). Il p-mo quantile, con 0 < p < 1, è il valore Q(p) che lascia a sinistra una probabilità p, cioè tale che P[X ≤ Q(p)] = p Il quantile Q(0.5) è detto mediana (Me) ed esprime il valore “intorno” al quale si collocano i valori che la v.c. X assume. In particolare la mediana è il valore in corrispondenza del quale si registra una probabilità 1/2 di valori inferiori e 1/2 di valori superiori. I quantili Q(0.25) e Q(0.75) sono detti 1° e 3° quartile e sono i valori che lasciano rispettivamente 1/4 di probabilità a sinistra e 3/4 a destra e 3/4 di probabilità a sinistra e 1/4 a destra. Statistica idrologica Quantili MODA È il valore della modalità cui corrisponde la probabilità (nel caso discreto) o la densità di probabilità (nel caso continuo) più elevata. Statistica idrologica Variabili casuali multiple Le v.c. viste in precedenza sono v.c. semplici, nel senso che ad ogni punto campionario è associato un solo numero reale. In taluni casi occorre considerare più v.c. contemporaneamente e ricorrere ad un’analisi multidimensionale o multivariata, cioè a più variabili. La v.c. (X1, X2),ad è una v.c. doppia; per semplificare la simbologia la identificheremo con (X, Y).