Statistica e teoria probabilistica del rischio
Fabrizio Savi
Università degli Studi
“La Sapienza”, Roma
Scuola in Ingegneria dell’Emergenza
Martedi 15/06/2004
Firenze, 1966
Tanaro, 1994
Lodi, 2002
Rischio Idraulico
Il Danno D causato da evento di piena, è definito come:
D=EV
Rt = E(Dt)= E(EV) E(Nt) = E V t/T
Il Rischio Idraulico risulta dal prodotto di tre fattori
R = P ·E ·V
∞
EADi = ∫ Dp(D )dD
0
P: Pericolosità della situazione idraulica
Frequenza (probabilità) delle inondazioni
E: Valore degli elementi a rischio
Importanza sociale ed economica dei
beni e delle attività minacciate e numero
delle persone in pericolo
V: Vulnerabilità degli elementi a rischio
Dipende dalla capacità di difesa degli
elementi a rischio e alla violenza del
fenomeno calamitoso
Rischio Idraulico
IL CODICE HEC-FDA
h
Tirante-Portata
F
Frequenza-Portata
Q
D
Q
Danno-Frequenza
F
Danno-Tirante
h
D
EADi ≅
h −1
∑ D j ( f j − f j +1) + D1 f1 + Dh f h
j =2
Rischio Idraulico
Rischio
tempo di ritorno T (anni)
T è definito come il numero di anni che mediamente intercorre
tra due superamenti del valore Q’ da parte della grandezza
idrologica Q
T(Q’) = media (τ1, τ2, τ3, ..)
Rischio Idraulico
Il significato concreto di tempo di ritorno è poco evidente e
facilmente equivocabile. Per chiarirne meglio il significato è
opportuno fare riferimento al concetto di probabilità di pericolo
(hazard) idrologico HN , probabilità che in N anni, periodo di
esercizio dell’opera, si verifichi una piena superiore a quella di
progetto.
Legame tra T e HN :
HN(Q’) = 1 - ( 1 - 1/T )N
Per valori di T >> N : HN(Q’) = N/T
Fissata la vita attesa dell’opera N il tempo di ritorno T definisce la
probabilità che l’opera sia deficitaria nei confronti della sicurezza
idrologica nel corso degli N anni di esercizio previsti.
Procedure statistiche
L'analisi della frequenza dei valori misurati della grandezza
idrologica consente di definire quantitativamente il rischio idraulico
in termini di tempo di ritorno T, che è legato alla probabilità di non
superamento P (XT) = P (x ≤ XT) dalla:
P = 1−
1
TR
L’analisi della frequenza del campione (o dei campioni) delle misure
della variabile idrologica ha lo scopo di definire, secondo una
procedura efficiente e robusta, la forma della funzione di
distribuzione (o ripartizione) di probabilità (FDP) della variabile,
ossia il legame tra la variabile e il tempo di ritorno:
XT = X(T)
Procedure statistiche
Analisi di tipo locale “at site”
9Scelta della distribuzione
9Scelta della procedura di
stima dei parametri
9Indagine di tipo POT (Peaks
Over Threshold) o AFS
(Annual Flood Series)
………
Procedure statistiche
Al solito il legame tra la variabile e il tempo di ritorno viene
individuato elaborando i suoi massimi annui anche non consecutivi
questa procedura viene definita come elaborazione delle serie dei
massimi annui
Il calcolo statistico ipotizza che la variabile di interesse - ad es. la
portata al colmo della massima piena dell’anno - sia distribuita in
probabilità secondo una legge sconosciuta che dobbiamo
identificare
Il campione dei valori registrati nel passato serie storica è una delle
infinite possibili realizzazioni del processo casuale che segue la legge
sconosciuta
Dalla misura della frequenza con la quale sono stati misurati i valori
storici stimiamo la probabilità delle future realizzazioni
Procedure statistiche
Distribuzioni di frequenza
Realizzazioni casuali di massimi annui di portata
1.00
0.90
0.80
frequenza
0.70
Estraendo a caso da una
popolazione
diversi
campioni si ottengono
differenti distribuzioni di
frequenza
campione1
FDP vera
campione2
campione3
0.60
0.50
0.40
0.30
0.20
0.10
0.00
0
1000
2000
3000
4000
3
portata (m /s)
Non sappiamo assegnare
la corretta frequenza
Procedure statistiche
L’analisi di frequenza applicata ai 3 campioni precedenti
fornisce tre risultati tra loro differenti
T (anni)
Q (m3/s)
200
4690
4986
3865
500
5491 1
5851 2
4430 3
La distribuzione di probabilità di una variabile casuale è
completamente definita quando, dopo aver scelto la legge teorica, ne
siano stati determinati i parametri.
Per la stima dei parametri si possono usare diverse procedure:
•il metodo dei momenti (MOM),
•il metodo della massima verosimiglianza (ML),
•il metodo dei momenti pesati in probabilità (PWM)
Procedure statistiche
Avvertenze nell’uso di un’analisi di tipo locale
9 E’ consigliabile utilizzare i risultati di un’analisi “at site” solo
se T ≤ 2-3 · N con N dimensione del campione sperimentale
(il Flood Estimation Handbook inglese non accetta valutazioni
ottenute per T > 2 · N )
9 Se si ricorre ad un’analisi “at site” il numero di parametri che
caratterizza la distribuzione utilizzata deve essere il minore
possibile (Gumbel 2 parametri, GEV 3 parametri)
Definizioni
e
assiomi fondamentali
Statistica idrologica
Esperimento casuale
Ogni fenomeno il cui risultato non può essere previsto con certezza
Spazio di probabilità o campionario
Insieme Ω di tutti i possibili risultati, esaustivi e mutualmente
esclusivi, di un dato esperimento casuale.
Tali possibili risultati sono detti punti campionari o eventi.
Tripletta (Ω,A,P) dove
• Ω : spazio campione, insieme di tutti i possibili risultati di un
esperimento concettuale;
•A: spazio degli eventi, insieme di tutti gli eventi ;
•P: funzione di probabilità, P: A∈[0,1] e t.c
• P(A) ≥ 0, ∀ A⊇Α
• P(Ω) = 1
• P(∪Ai) = ΣiP(Ai) se Ai indipendenti (anche infiniti)
Statistica idrologica
Evento
DATO UNO SPAZIO CAMPIONARIO Ω RELATIVO AD UN
CERTO ESPERIMENTO CASUALE, UN EVENTO È SEMPRE
UN SOTTOINSIEME DI Ω.
Tuttavia:
•se Ω è costituito da un numero finito o da un’infinità numerabile di
punti campionari, è evento ogni sottoinsieme A di Ω;
•se invece Ω è costituito da un’infinità non numerabile di punti, non
tutti i possibili sottoinsiemi di Ω sono eventi ma soltanto i cosiddetti
sottoinsiemi ammissibili di Ω.
Dato uno spazio campionario Ω relativo ad un certo esperimento
casuale, l'evento A si verifica (si realizza) solo se il risultato
dell'esperimento casuale è un qualsiasi punto campionario di A; in
caso contrario A non si verifica.
Statistica idrologica
Teoria degli insiemi
L'evento certo Ω (coincidente con l'intero spazio campionario)
rappresenta l'insieme universale, mentre l'evento impossibile ø
corrisponde all'insieme vuoto .
Relazione di inclusione: un evento A è incluso nell'evento B, e si
scrive A ⊆ B, se ogni punto campionario di A appartiene anche a B
(non è detto che valga il viceversa).
Relazione di uguaglianza: due eventi A e B sono uguali se
contengono
gli
stessi
punti
campionari,
ovvero
se
contemporaneamente
A⊆BeB⊆A
Statistica idrologica
Teoria degli insiemi
Operazione di negazione: La negazione (complementazione nella
teoria degli insiemi) di un evento A è l'evento à costituito da tutti i
punti campionari di Q che non appartengono ad A.
Diagramma di Venn per l'inclusione e la
negazione dove il quadrato rappresenta l'intero
spazio campionario Ω e A⊆B
Statistica idrologica
Teoria degli insiemi
Operazione di intersezione: L'intersezione tra due
eventi A e B è l'evento E1= A ∩ B costituito da tutti i
punti campionari che appartengono sia ad A che a B.
Operazione di unione: L'unione tra due eventi A e B è
l'evento E2 = A ∪ B costituito da tutti i punti
campionari che appartengono ad almeno uno fra A e B.
Operazione di differenza: La differenza fra due
eventi A e B è l'evento E3 = A-B costituito da tutti
i punti campionari che appartengono ad A ma non a B
Statistica idrologica
Teoria degli insiemi
Condizionamento: si vuol analizzare un certo evento A (l’evento
condizionato) avendo a disposizione una certa informazione B
(l’evento condizionante).
L'evento A | B (A condizionatamente ad B o, più semplicemente, A
dato B) riguarda l’analisi di A assumendo verificato l'evento
condizionante (informazione) B.
Si sottolinea che l’espressione assumendo verificato non significa
necessariamente che B si è verificato, ma solo che si ragiona come se
si fosse verificato (si ragiona cioè sulla base dell’informazione a
disposizione).
Statistica idrologica
La probabilità
DEFINIZIONE CLASSICA DELLA PROBABILITÀ:
La probabilità di un evento A è data dal rapporto:
n A numero dei casi favorevoli
P( A ) =
=
numero dei casi possibili
n
purché tutti i casi siano ugualmente possibili.
CRITICHE:
• circolarità della definizione: affermare che tutti i casi sono ugualmente possibili
significa dire che sono ugualmente probabili (non si può definire un concetto
utilizzando se stesso).
•non sempre è possibile procedere all’enumerazione dei casi favorevoli e dei casi
possibili;
• anche nei casi in cui si possa effettuare tale enumerazione, non è infrequente la
circostanza in cui non tutti i casi sono ugualmente possibili.
Statistica idrologica
La probabilità
DEFINIZIONE FREQUENTISTA DELLA PROBABILITÀ:
La probabilità di un evento ripetibile A è data dal rapporto fra nA, il
numero di volte in cui A si è verificato, ed n, il numero delle prove,
quando il numero delle prove tende ad infinito
nA
P ( A ) = lim
n→ ∞ n
supposto che tutte le prove siano effettuate nelle stesse condizioni.
Statistica idrologica
La probabilità
DEFINIZIONE ASSIOMATICA DELLA PROBABILITÀ:
Siano dati un esperimento casuale, con il suo spazio campionario Ω e
la corrispondente σ-algebra A (l’insieme degli eventi generati da Ω).
Allora la probabilità è una funzione che ad ogni evento (elemento di
A) associa un numero fra 0 e 1, in simboli
P: A → [0,1]
A → P(A),
che soddisfa le seguenti proprietà:
1. P(A) ≥ 0 (ridondante, ma è bene sottolinearla)
2. P(Ω) = 1
3. Se A ∩ B = ø (cioè A e B sono incompatibili), allora
P(A ∪ B) = P(A) + P(B)
Statistica idrologica
La probabilità: relazioni
P(A) ≤ 1
P(ø) = 0
A ⊆ B ⇒ P(A) ≤ P(B)
P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
L'ultima relazione per 3 eventi diventa
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) +
- P(B ∩ C) + P(A ∩ B ∩C)
che ovviamente si riduce a P(A ∪ B ∪ C) = P(A) + P(B) + P(C)
quando i 3 eventi sono tra loro incompatibili.
Per k eventi tale relazione diventa:
Statistica idrologica
Definizioni
Dato un esperimento casuale, la coppia (Ω, A), dove Ω è lo spazio
campionario e A è la σ-algebra generata da Ω, è detta spazio
misurabile.
Se a questa coppia aggiungiamo la (funzione) probabilità otteniamo
la tripletta (Ω, A, P(.)) detta spazio probabilistico.
Statistica idrologica
La probabilità condizionata
DEFINIZIONE DI PROBABILITÀ CONDIZIONATA:
Assumendo P(B) > 0, la probabilità di A | B è data da
P( A ∩ B )
P( A B ) =
P( B )
FORMULA DELLE PROBABILITÀ COMPOSTE:
P(A ∩ B) = P(A | B) P(B) = P(B | A) P(A)
Tale relazione si dimostra ricavando P(A ∩ B) in funzione degli altri
elementi sia nella definizione di P(A | B) che di P(B | A) (si ricorda
che, per la proprietà commutativa, A ∩ B = B ∩ A e quindi
P(A ∩ B) = P(B ∩ A)).
Statistica idrologica
FORMULA DELLA PROBABILITÀ MARGINALE:
P(B) = P(B | A) P(A) + P(B | A ) P( A )
Dim.
P(B) = P(B ∩ Ω) = P[B ∩ (A ∪ A )] = P[(B ∩ A) ∪ (B ∩ A )]=
= P(B ∩ A) + P(B ∩ A ) = P(B | A) P(A) + P(B | A ) P( A ),
Dove, fra le altre cose, si sfrutta il fatto che (B ∩ A) e (B ∩ A ) sono
incompatibili e la formula delle probabilità composte.
FORMULA DI BAYES:
P ( B A )· P ( A )
P( A B ) =
P( B )
Tale formula può essere ricavata immediatamente dalla formula delle
probabilità composte. Si sottolinea che nella pratica il denominatore
P(B) è spesso calcolato a partire da P(B | A), P(B | A ), P(A) e P( A )
utilizzando la formula della probabilità marginale.
Statistica idrologica
Indipendenza fra eventi
Avere l’informazione che si è realizzato un certo evento B, non è
detto che modifichi necessariamente la probabilità di verificarsi di un
altro evento A; può accadere cioè che la valutazione di probabilità
rimanga la stessa che si aveva senza avere l’informazione, ovvero
P(A | B) = P(A)
E’ ragionevole definire questa situazione come indipendenza, e più in
particolare A indipendente da B.
D’altra parte se ciò accade, sostituendo tale relazione nella formula
di Bayes per P(B |A) si ottiene immediatamente
P(B | A) = P(B)
ovvero che B è indipendente da A.
Questo significa che la relazione di indipendenza fra due eventi è
biunivoca
Statistica idrologica
Indipendenza fra eventi
Inoltre se la relazione P(A | B) = P(A) si sostituisce nella formula
delle probabilità
P(A ∩ B) = P(A) P(B),
che esprime quindi la formula delle probabilità composte per eventi
indipendenti.
Statistica idrologica
Definizione di indipendenza
Due eventi A e B sono fra loro indipendenti se (una qualsiasi implica
le altre due):
P(A | B) = P(A),
oppure
P(B | A) = P(B),
oppure
P(A ∩ B) = P(A) P(B).
Più in generale, k eventi A1, A2, ..., Ak sono indipendenti se
per ogni sottoinsieme di eventi Ai1 , Ai2 , …, Ais con s = 2, 3, ...,k.
Statistica idrologica
Variabili casuali
Definizione di variabile casuale (X):
Dato uno spazio probabilistico (Ω, A, P(.)), una variabile casuale è
una funzione che ad ogni punto campionario associa un numero
reale, in simboli
X: Ω → R
ω → X(ω),
che soddisfa la seguente proprietà: ogni insieme del tipo
{ω∈Ω: X(ω) ≤ x}
è un evento, cioè un elemento di A.
Statistica idrologica
Variabili casuali
Per identificare una variabile casuale occorre indicare:
1. quali valori può assumere (popolazione);
2. come la probabilità è distribuita su tali valori.
Le variabili casuali possono essere continue, se il loro valore può
variare con continuità tra zero ed il massimo possibile ossia se
possono assumere un insieme continuo (e quindi non numerabile) di
valori, oppure discrete, se possono assumere un numero finito oppure
un'infinità numerabile di valori.
Il campione della variabile casuale è costituito da una serie di
osservazioni x1, x2, …, xn della variabile stessa.
Statistica idrologica
DEFINIZIONE DI FUNZIONE DI RIPARTIZIONE
(o funzione delle probabilità cumulate)
Data una variabile casuale X, la funzione di ripartizione di X è la
funzione:
F(x) = P(X ≤ x),
dove x è un qualsiasi numero reale.
È definita sia per v.c. discrete che continue.
È semplicemente al variare di x, la probabilità che questa assuma
valori minori o uguali ad x, è la probabilità cumulata da –∞ fino al
punto x.
Statistica idrologica
PROPRIETÀ DELLA FUNZIONE DI RIPARTIZIONE
1. La funzione di ripartizione essendo una probabilità gode
ovviamente delle proprietà della probabilità; in particolare
0 ≤ F(x) ≤ 1
2. Valgono i limiti
lim F ( x ) = 0 e
x → −∞
lim F ( x ) = 1
x → +∞
3. F(x) monotona non decrescente
4. F(x) continua a destra nel caso discreto (i punti di discontinuità si
collocano in corrispondenza dei valori x1, x2, ..., xk assunti dalla
variabile) e assolutamente continua nel caso continuo.
Statistica idrologica
DEFINIZIONE DI FUNZIONE DI MASSA (di probabilità)
Sia X una v.c. discreta che assume valori, ordinati in senso crescente,
x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità
numerabile di valori).
La funzione di massa di X è la funzione
f(x) = P(X = x)
Tale funzione vale quindi
f(xi) = P(X = xi)
se i = 1, …, k, mentre vale 0 per gli altri valori di x.
La funzione di massa di una v.c. discreta, quindi, è semplicemente
(X = x), cioè la probabilità che X sia uguale ad x.
Statistica idrologica
PROPRIETÀ DELLA FUNZIONE DI MASSA
1. La funzione di massa essendo una probabilità gode ovviamente
delle
proprietà
della
probabilità;
in
particolare
0 ≤ f(xi) ≤ 1
2.
k
∑ f ( xi ) = 1
i =1
Statistica idrologica
DEFINIZIONE DI FUNZIONE DI DENSITÀ (di probabilità)
Sia X una v.c. continua che assume valori nell’intervallo (a, b)
(eventualmente a può essere –∞ e b +∞).
La funzione di densità di X è la funzione:
P ( x < X ≤ x + dx )
f ( x ) = lim
dx
dx →0
La funzione di densità in x, allora, rappresenta quanto vale la
probabilità “intorno ad x” in rapporto all’ampiezza di tale “intorno”.
Il termine funzione di densità serve proprio ad evocare quanto
illustrato: quanto è densa la probabilità in ciascun punto.
PROPRIETÀ DELLA FUNZIONE DI DENSITÀ
t
1. f(x) ≥ 0
2.
∫
0
f ( x )dx = 1
Statistica idrologica
Può risultare utile, descrivere una variabile casuale con degli
INDICI CARATTERISTICI, anziché procedere ad una sua
rappresentazione completa mediante la funzione di distribuzione, la
funzione di massa o la funzione di densità.
A questo scopo, come riferimento per questa sezione supporremo che
X sia:
• o una v.c. discreta che assume valori, ordinati in senso crescente,
x1, …, xk (eventualmente k è ∞ se la v.c. assume un’infinità
numerabile di valori) con funzione di massa f(x);
• oppure una v.c. continua che assume valori nell’intervallo (a, b)
(eventualmente a può essere –∞ e b +∞) con funzione di densità f(x).
Statistica idrologica
Momenti di una variabile casuale
DEFINIZIONE DI VALORE ATTESO (MOMENTO).
Sia X una v.c. con funzione di massa o funzione di densità f(x) e sia
g(X) una trasformazione di X. Il valore atteso di g(X) è dato da
Si evidenzia che un valore atteso è una costante ed in sintesi si può
affermare che è la somma pesata, sulla base della distribuzione della
v.c., di una opportuna trasformazione dei valori assunti dalla v.c.
stessa.
Statistica idrologica
Momenti di una variabile casuale
VALORE ATTESO DI UNA COSTANTE
Se g(X) = k costante, allora E[g(X)] = E(k) = k
Il valore atteso di una costante è uguale alla costante stessa.
PROPRIETÀ DI OMOGENEITÀ
Sia c è una costante, allora E[c·g(X)] = c·E[g(X)]
Il valore atteso di una costante per g è uguale alla costante per il
valore atteso di g
Statistica idrologica
Momenti di una variabile casuale
PROPRIETÀ DI ADDITIVITÀ
Siano g1(.) e g2(.) due funzioni, allora
E[g1(X)+g2(X)] = E[g1(X)] + E[g2(X)]
Il valore atteso di una somma è uguale alla somma dei valori attesi
PROPRIETÀ DI LINEARITÀ
Siano c1 e c2 due costanti, g1(.) e g2(.) due funzioni. Allora
E[c1·g1(X) + c2· g2(X)] = c1 ·E[g1(X)] + c2· E[g2(X)].
Il valore atteso di una combinazione lineare è uguale alla
combinazione lineare dei valori attesi
Statistica idrologica
Momento r-mo dall’origine
Se si pone g(X) = Xr, per r = 0, 1, 2,..., si ottiene il momento r-mo
dall'origine, definito da
Per r = 0 si ottiene µ0, il momento dall’origine di ordine 0 che risulta
sempre uguale ad 1. Infatti µ0 = E(X0) = E(1) = 1, ricordando che il
valore atteso di una costante è la costante stessa.
Per r = 1 si ottiene µ1, il momento primo dall’origine:
µ1=E(X)
Tale momento viene di solito chiamato VALORE ATTESO o MEDIA
ed è spesso indicato con µ.
Statistica idrologica
Momento r-mo centrale
Se si pone g(X) = (X-µ)r, per r = 0, 1, 2,..., dove µ = E(X), si ottiene il
momento r-mo centrale, definito da
Per r = 2 si ottiene µ2 , il momento primo dall’origine:
µ2=E[(X – µ)2]
Tale momento viene di solito chiamato VARIANZA ( σ2).
Si definisce poi lo SCARTO QUADRATICO MEDIO σ=√( σ2).
Statistica idrologica
Essendo la media e la varianza gli indici caratteristici più utilizzati
per sintetizzare in un solo valore, rispettivamente, la tipicità e la
variabilità di una variabile casuale X, si incontrano spesso situazioni
in cui interessa valutare l’effetto sulla media e sulla varianza di
particolari trasformazioni di X.
Trasformazione lineare:
Y = a + b·X.
Se con µX e σX2 si indicano rispettivamente la media e la varianza di
X, allora la media e la varianza della variabile trasformata Y
risultano:
σY2 = a + b · σX2
µY = a + b·µX e
“la media di una trasformazione lineare è uguale alla trasformazione
lineare della media originaria”, mentre “la varianza di una
trasformazione lineare è pari alla varianza originaria per il quadrato
del coefficiente angolare della trasformazione”.
Statistica idrologica
Momento r-mo standardizzato
Se si pone g(X) = [(X-µ)/σ]r, per r = 0, 1, 2,..., dove µ = E(X) e σ=E(Xµ)2 , si ottiene il momento r-mo standardizzato, definito da
La trasformazione g(X) = [(X-µ)/σ]r è detta standardizzazione ed è
interessante in quanto oltre a procedere alla traslazione nel punto
medio µ utilizza come "nuova unità di misura" il valore assunto
dalla deviazione standard σ.
Statistica idrologica
Momento r-mo standardizzato
Statistica idrologica
Quantili
DEFINIZIONE DI QUANTILE
Sia X una v.c. con funzione di ripartizione F(x). Il p-mo quantile, con
0 < p < 1, è il valore Q(p) che lascia a sinistra una probabilità p, cioè
tale che
P[X ≤ Q(p)] = p
Il quantile Q(0.5) è detto mediana (Me) ed esprime il valore “intorno”
al quale si collocano i valori che la v.c. X assume. In particolare la
mediana è il valore in corrispondenza del quale si registra una
probabilità 1/2 di valori inferiori e 1/2 di valori superiori.
I quantili Q(0.25) e Q(0.75) sono detti 1° e 3° quartile e sono i valori
che lasciano rispettivamente 1/4 di probabilità a sinistra e 3/4 a
destra e 3/4 di probabilità a sinistra e 1/4 a destra.
Statistica idrologica
Quantili
MODA
È il valore della modalità cui corrisponde la probabilità (nel caso
discreto) o la densità di probabilità (nel caso continuo) più elevata.
Statistica idrologica
Variabili casuali multiple
Le v.c. viste in precedenza sono v.c. semplici, nel senso che ad ogni
punto campionario è associato un solo numero reale.
In taluni casi occorre considerare più v.c. contemporaneamente e
ricorrere ad un’analisi multidimensionale o multivariata, cioè a più
variabili.
La v.c. (X1, X2),ad è una v.c. doppia; per semplificare la simbologia
la identificheremo con (X, Y).