Il cigno nero
nei sistemi informatici
Claudio Telmon
[email protected]
F.Baiardi & D.Sgandurra
{baiardi, daniele}@di.unipi.it
Milano, 26 Marzo 2008
La crisi dei mercati
finanziari: cosa imparare?
• L'attuale crisi dei mercati finanziari ha mostrato
(fra l'altro) una vulnerabilità a singoli eventi
catastrofici
– Crisi di singoli settori del mercato
• Parte del problema è dovuto ad un uso
improprio di strumenti statistici nella gestione
del rischio
– Basandosi sulla storia passata, si traggono
conclusioni sul futuro senza che queste conclusioni
siano realmente giustificate
Il cigno nero
• Nassim Nicholas Taleb (epistemologo, studioso di
matematica finanziaria) ha coniato il termine di
CignoNero: Un evento raro e catastrofico, non
prevedibile a priori ma giustificabile a posteriori
– Fino a che non si è visto un cigno nero, la sua esistenza
non era nemmeno ipotizzata, e quindi non “prevedibile”
– Una volta scoperti, è risultato “ovvio” che potessero
esistere
Senno di poi?
• Tratta problematiche di gestione del rischio da parecchi
anni, particolarmente nel settore dei derivati
• Scrive sull'uso improprio della statistica
– Dal libro “Il cigno nero”, 2006: The government-sponsored
institution Fannie Mae, when I look at its risks, seems to be
sitting on a barrel of dynamite, vulnerable to the slightest
hiccup. But not to worry: their large staff of scientists deemed
these events "unlikely".
• Il problema: quanto è possibile prevedere del futuro dagli
eventi passati, usando correttamente strumenti statistici?
Il paradosso del tacchino
50
0
Column 1
-50
-100
-150
Column 2
Column 3
-200
-250
Row 1
Il paradosso del tacchino
• Per 1000 giorni, un tacchino viene accudito e
ingrassato
• Può convincersi che continuerà così all'infinito,
e costruire modelli matematici che lo
“dimostrano”
• Al 1001-esimo giorno, avviene un unico evento
che smentisce tutte le sue previsioni
Cosa ha sbagliato il
tacchino?
• Lui non conosce (epistemologicamente) il
fenomeno, osserva solo un campione
• Nel campione prevale una parte del fenomeno,
e il tacchino ne deduce che sia tutto lì
• A posteriori (abbiamo più conoscenza non solo
più informazioni) è facile giustificare quello che
è successo
• È facile illudersi che l'approccio del tacchino
fosse giusto e che mancasse solo qualche dato:
ma l'errore è stata l'impostazione
Statistica e gestione del
rischio
• Quanto ci aiutano gli eventi passati nel valutare
i rischi futuri?
• Il modello non è nei dati, i dati vengono
interpretati in base alla nostra conoscenza del
fenomeno
– Le deduzioni che facciamo sono comunque basate
su un modello entro il quale ci muoviamo
• Dati n punti, esistono infinite curve che li
attraversano
– E infinite distribuzioni possono essere ricavate da un
campione
Diversi tipi di problemi
Contesto
semplice/noto
Spazio
di probabilità
complesso/in evoluzione
Limitato/
Mediocristan
Facile
La statistica funziona
benissimo
Facile
Gli errori sono
limitati
Illimitato/
Extremistan
Difficile
ma le difficoltà sono note
Alcuni problemi studiati
in letteratura
La statistica non funziona
È il regno dei cigni neri
E la sicurezza informatica?
• Sappiamo che per la valutazione del rischio ci
sono grossi problemi nella stima della
probabilità
– Solo un problema di dati?
• Per molte aziende il danno è sostanzialmente
illimitato
– Sicuramente lo è per Internet nel complesso
• Il contesto è in continua rapida evoluzione
– Nuove tecnologie, attacchi e servizi, evoluzione del
contesto socio-economico (YouTube, Facebook...)
Alcuni cigni neri
• 1988, il worm di Morris: 6.000 sistemi su 60.000
infettati e bloccati, il 25% di Internet
disconnessa
• 2000, attacchi di DDoS a Yahoo, Amazon,
CNN...
• In entrambi i casi:
– Nessun dato a priori giustificava una previsione
dell'evento
– A posteriori sono risultati più che giustificabili
Come comportarsi?
• Se non sappiamo quale sarà il problema e
nemmeno la sua natura, come ci proteggiamo?
• Dobbiamo evitare le situazioni in cui l'impatto
può essere illimitato
– Cerchiamo di mitigare gli effetti dei cigni neri
• La ridondanza è importante (anche secondo
Taleb), ma è nemica dell'efficienza
– In particolare dal punto di vista degli investimenti
E la business continuity?
• L'impostazione è quella giusta, se si evita di
pianificare per i problemi noti
• Anche quando si tratta di IT, l'attenzione è
sempre su problemi non-IT
– Catastrofi naturali, danni alle infrastrutture...
– Sommosse, pandemie...
• Quanti piani di BC tengono conto degli effetti di
un worm che renda inutilizzabile un'architettura
per alcuni giorni? Eppure non sarebbe un cigno
nero...
Sistemi ICT nel quarto quadrante
• Billing infrastructures
• Una classe di sistemi definiti sostanzialmente in
base al danno associato agli attacchi possibili
• Una infrastruttura ICT per addebitare ai vari
clienti il servizio da essi utilizzato
• Composta da
– Nodi periferici
– Backbone di interconnessione ed elaborazione
Billing Infrastructure
P
Nodo del backbone
P
P
Connessione
periferia/backbone
Backbone
P
Nodo periferico
P
struttura di interconnessione
Nodi periferici
• Misurano la quantità di servizio utilizzato da un
cliente e predispongono dati per la fatturazione
(Pos, autostrade, pay tv, … )
• Distribuiti su un'area geografica vasta
• Possono
– erogare il servizio
– essere collegati a dispositivi specializzati per
misurare il servizio (metering infrastructure)
– interagire con l'erogazione per ottimizzare costi e/o
prestazioni (advance metering infrastructure)
Backbone
• Comprende interconnessione e nodi di
elaborazioni
• Memorizza informazioni sul consumo e sulla
fatturazione
• Interagisce con i nodi periferici per gestire la
distribuzione del servizio e fatturare i clienti
• Determina il comportamento dei nodi periferici
Proprietà di interesse
• Un attacco ad un nodo periferico ha un impatto
finito
• Un attacco al backbone ha un impatto illimitato
• un attacco permette all'attaccante di controllare
un numero di componenti tali da permettere un
impatto illimitato anche se può non essere suo
interesse provocare un tale impatto
Impatto illimitato
• Modella l'impossibilità di conoscere l'impatto
effettivo che dipende da
– Processo aziendale collegato
– Esistenza di altre infrastrutture collegate al
backbone
– Impossibilità di prevedere tutti i possibili effetti
dell'interruzione o modifica del servizio
Attaccanti
• Nodo periferico
– un cliente disonesto che non vuole pagare per il
servizio
– attacco può essere anche eseguito da terzi
• Backbone
– concorrente, crimine organizzato, terrorista
– il provocare o meno l'impatto dipende
dall'attaccante e non dal backbone
– anche in questo caso è possibile la delega di un
attacco a terzi
Impatto Complessivo
• Risulta dall'unione di due processi stocastici
– Impatto dovuto ad attacchi alla periferia
– Impatto dovuto ad attacchi al backbone
• Due processi estremamente diversi
– Impatto dovuto alla periferia è finito
– Impatto dovuto al backbone
• Illimitato
• Difficilmente approssimabile
– Non è nemmeno banale distinguere i due processi
unicamente in base all'impatto
Impatto della periferia - I
• L'impatto di un attacco al singolo un nodo
periferico è limitato dalla somma di due costi
– Fattura dell'utente
– Costo del nodo periferico
• Anche ammettendo di non conoscere la
distribuzione di probabilità dell'impatto
– Media finita
– Varianza finita
Impatto della periferia - II
• Per il teorema limite centrale, la perdita
complessiva della periferia può essere descritta
da una distribuzione normale con
– Media = somma delle medie
– Varianza = somma delle varianze
• Il numero degli addendi
– dipende
• dal numero di clienti disonesti
• dall'esistenza di attacchi automatici
– è comunque di 3-4 ordini di grandezza superiore a
quello richiesto da una approssimazione accurata
Curva normale
• Decresce esponenzialmente
• E' una forma “mild” di casualità (Mandelbrot)
oppure Mediocristan (Taleb)
• Questa limitata casualità è evidenziata dalla
coda sottile = raggiunge velocemente l'asintodo
• Tipica di un fenomeno che è somma di altri
fenomeni e dove gli spostamenti dalla media dei
singoli fenomeni si compensano (mondo fisico)
Impatto del backbone - I
• X è un processo causale che rappresenta l'impatto di un
attacco al backbone di una singola minaccia
• Ciò che caratterizza la billing infrastructure è che è
sufficiente un solo attacco con successo di una sola
minaccia per provocare un impatto illimitato
• Quindi non è interessata a tanti attacchi con impatto
ridotto ma ad un singolo impatto
• Da un punto di vista matematico
lim d→∞ (Prob(X1+...+Xn>d)/(Prob(max(X1,..., Xn)>d)) = 1
che formalizza la proprietà che all'attaccante basta un
attacco per raggiungere i suoi obiettivi
Impatto del backbone - II
• Una visione alternativa è espressa dalle condizioni
i) lim δ→∞ Prob(X>δ+h) / Prob(X>δ) = 1 per ogni h
Oppure
ii) ∀ h ∃ w | v> w → Prob(X> h*v)/Prob(X>v)
è indipendente da h
• Le condizioni affermano che, al crescere del valore
dell'impatto, se la minaccia riesce a superare una certa
soglia di danno, allora è in grado di provocare un
qualunque danno
Impatto del backbone - III
• Nei casi precedenti la distribuzione di
probabilità dell'impatto complessivo è del
tipo heavy tailed o slowly varying
• tende a zero con un andamento più lento
di una esponenziale
• wild randomness (Mandelbrot) =
extremistan (Taleb)
Heavy tailed
• Un caso interessante di distribuzione heavy
tailed è quella di una legge power law
• Power law
– Pr[X>x] la probabilità di X>x = (m/x)k
dove m, k >0, d>m
– Pr[X<x] = 1- (m/x)k
– Densità = k (m/x)k (1/x)
– Se 0<m<1 i momenti (media, varianza, .. .)
sono tutti infiniti
Altra ragione pro power law
• Per minimizzare i costi del backbone si utilizza
una strategia di tipo preferential attachment o
“the rich will become richer”
• Questa strategia porta a reti di tipo scale free,
dove il numero di connessioni decresce come
una power law
• Danno di attacco ad una rete scale free è
descritto da una power law
• Power law con momenti infiniti
Power law vs normale
Curve in log-space
Cammino casuale con generatore gaussiano
vs cammino con generatore power law
Sornette, D. - Critical phenomena in natural sciences. Chaos, fractals, self-organization and
disorder. Concepts and tools
Power law vs normale:
importanza della scala
normale
Power law
Generazione di punti con coordinate casuali con leggi normale e power law
F.Clementi, T.Di Matteo, M.Gallegati “The power law tail exponent of income distribution
Physica, 2006
Alcune power law - I
Alcune power law - II
Media e Varianza infinite
Da Mandelbrot
Normale + Power Laws
• E' possibile distinguere quale attacco ha
generato un danno solo in presenza di una
infrastruttura in grado di ricordare gli attacchi ed
i loro effetti
• Da una semplice sequenza di impatti non si può
distinguere quale dei due processi stocastici ha
generato un impatto
• Necessità di forensics
Risk Management con
impatto illimitato
• Nelle parole di Taleb “forget optimization and
embrace redundancy”
• Introduzione di ridondanza per aumentare la
robustezza di fronte agli attacchi
• Possiamo parlare di ridondanza effettiva solo se
si ha indipendenza completa rispetto ad un
qualunque attacco con successo
Rischio, Robustezza e
Ottimizzazione
systems designed for high performance naturally
organize into highly structured, statistically unlikely
states that are robust to perturbations they were
designed to handle, yet fragile to rare perturbations
and design flaws ...
high-performance engineering leads to systems that
are robust to stresses for which they were designed
but fragile to errors or unforeseen events
M.E.J. Newman, M. Girvan, and JD Farmer, “Optimal
design, robustness, and risk aversion” Phys. Rev.
Lett. 89, 028301 (2002)
How to avoid being the turkey
• Ridondanza & indipendenza completa sono
estremamente complesse sia da un punto di
vista hardware che software
• Possono richiedere ad esempio
– Fornitori diversi sia hardware che software
– Esecuzione simultanea con sincronizzazione
– Non solo parallelismo ma anche decentralizzazione
• Alcune strategie tradizionali non sono in realtà
adeguate, ad esempio ridondanza tripla