Il cigno nero nei sistemi informatici Claudio Telmon [email protected] F.Baiardi & D.Sgandurra {baiardi, daniele}@di.unipi.it Milano, 26 Marzo 2008 La crisi dei mercati finanziari: cosa imparare? • L'attuale crisi dei mercati finanziari ha mostrato (fra l'altro) una vulnerabilità a singoli eventi catastrofici – Crisi di singoli settori del mercato • Parte del problema è dovuto ad un uso improprio di strumenti statistici nella gestione del rischio – Basandosi sulla storia passata, si traggono conclusioni sul futuro senza che queste conclusioni siano realmente giustificate Il cigno nero • Nassim Nicholas Taleb (epistemologo, studioso di matematica finanziaria) ha coniato il termine di CignoNero: Un evento raro e catastrofico, non prevedibile a priori ma giustificabile a posteriori – Fino a che non si è visto un cigno nero, la sua esistenza non era nemmeno ipotizzata, e quindi non “prevedibile” – Una volta scoperti, è risultato “ovvio” che potessero esistere Senno di poi? • Tratta problematiche di gestione del rischio da parecchi anni, particolarmente nel settore dei derivati • Scrive sull'uso improprio della statistica – Dal libro “Il cigno nero”, 2006: The government-sponsored institution Fannie Mae, when I look at its risks, seems to be sitting on a barrel of dynamite, vulnerable to the slightest hiccup. But not to worry: their large staff of scientists deemed these events "unlikely". • Il problema: quanto è possibile prevedere del futuro dagli eventi passati, usando correttamente strumenti statistici? Il paradosso del tacchino 50 0 Column 1 -50 -100 -150 Column 2 Column 3 -200 -250 Row 1 Il paradosso del tacchino • Per 1000 giorni, un tacchino viene accudito e ingrassato • Può convincersi che continuerà così all'infinito, e costruire modelli matematici che lo “dimostrano” • Al 1001-esimo giorno, avviene un unico evento che smentisce tutte le sue previsioni Cosa ha sbagliato il tacchino? • Lui non conosce (epistemologicamente) il fenomeno, osserva solo un campione • Nel campione prevale una parte del fenomeno, e il tacchino ne deduce che sia tutto lì • A posteriori (abbiamo più conoscenza non solo più informazioni) è facile giustificare quello che è successo • È facile illudersi che l'approccio del tacchino fosse giusto e che mancasse solo qualche dato: ma l'errore è stata l'impostazione Statistica e gestione del rischio • Quanto ci aiutano gli eventi passati nel valutare i rischi futuri? • Il modello non è nei dati, i dati vengono interpretati in base alla nostra conoscenza del fenomeno – Le deduzioni che facciamo sono comunque basate su un modello entro il quale ci muoviamo • Dati n punti, esistono infinite curve che li attraversano – E infinite distribuzioni possono essere ricavate da un campione Diversi tipi di problemi Contesto semplice/noto Spazio di probabilità complesso/in evoluzione Limitato/ Mediocristan Facile La statistica funziona benissimo Facile Gli errori sono limitati Illimitato/ Extremistan Difficile ma le difficoltà sono note Alcuni problemi studiati in letteratura La statistica non funziona È il regno dei cigni neri E la sicurezza informatica? • Sappiamo che per la valutazione del rischio ci sono grossi problemi nella stima della probabilità – Solo un problema di dati? • Per molte aziende il danno è sostanzialmente illimitato – Sicuramente lo è per Internet nel complesso • Il contesto è in continua rapida evoluzione – Nuove tecnologie, attacchi e servizi, evoluzione del contesto socio-economico (YouTube, Facebook...) Alcuni cigni neri • 1988, il worm di Morris: 6.000 sistemi su 60.000 infettati e bloccati, il 25% di Internet disconnessa • 2000, attacchi di DDoS a Yahoo, Amazon, CNN... • In entrambi i casi: – Nessun dato a priori giustificava una previsione dell'evento – A posteriori sono risultati più che giustificabili Come comportarsi? • Se non sappiamo quale sarà il problema e nemmeno la sua natura, come ci proteggiamo? • Dobbiamo evitare le situazioni in cui l'impatto può essere illimitato – Cerchiamo di mitigare gli effetti dei cigni neri • La ridondanza è importante (anche secondo Taleb), ma è nemica dell'efficienza – In particolare dal punto di vista degli investimenti E la business continuity? • L'impostazione è quella giusta, se si evita di pianificare per i problemi noti • Anche quando si tratta di IT, l'attenzione è sempre su problemi non-IT – Catastrofi naturali, danni alle infrastrutture... – Sommosse, pandemie... • Quanti piani di BC tengono conto degli effetti di un worm che renda inutilizzabile un'architettura per alcuni giorni? Eppure non sarebbe un cigno nero... Sistemi ICT nel quarto quadrante • Billing infrastructures • Una classe di sistemi definiti sostanzialmente in base al danno associato agli attacchi possibili • Una infrastruttura ICT per addebitare ai vari clienti il servizio da essi utilizzato • Composta da – Nodi periferici – Backbone di interconnessione ed elaborazione Billing Infrastructure P Nodo del backbone P P Connessione periferia/backbone Backbone P Nodo periferico P struttura di interconnessione Nodi periferici • Misurano la quantità di servizio utilizzato da un cliente e predispongono dati per la fatturazione (Pos, autostrade, pay tv, … ) • Distribuiti su un'area geografica vasta • Possono – erogare il servizio – essere collegati a dispositivi specializzati per misurare il servizio (metering infrastructure) – interagire con l'erogazione per ottimizzare costi e/o prestazioni (advance metering infrastructure) Backbone • Comprende interconnessione e nodi di elaborazioni • Memorizza informazioni sul consumo e sulla fatturazione • Interagisce con i nodi periferici per gestire la distribuzione del servizio e fatturare i clienti • Determina il comportamento dei nodi periferici Proprietà di interesse • Un attacco ad un nodo periferico ha un impatto finito • Un attacco al backbone ha un impatto illimitato • un attacco permette all'attaccante di controllare un numero di componenti tali da permettere un impatto illimitato anche se può non essere suo interesse provocare un tale impatto Impatto illimitato • Modella l'impossibilità di conoscere l'impatto effettivo che dipende da – Processo aziendale collegato – Esistenza di altre infrastrutture collegate al backbone – Impossibilità di prevedere tutti i possibili effetti dell'interruzione o modifica del servizio Attaccanti • Nodo periferico – un cliente disonesto che non vuole pagare per il servizio – attacco può essere anche eseguito da terzi • Backbone – concorrente, crimine organizzato, terrorista – il provocare o meno l'impatto dipende dall'attaccante e non dal backbone – anche in questo caso è possibile la delega di un attacco a terzi Impatto Complessivo • Risulta dall'unione di due processi stocastici – Impatto dovuto ad attacchi alla periferia – Impatto dovuto ad attacchi al backbone • Due processi estremamente diversi – Impatto dovuto alla periferia è finito – Impatto dovuto al backbone • Illimitato • Difficilmente approssimabile – Non è nemmeno banale distinguere i due processi unicamente in base all'impatto Impatto della periferia - I • L'impatto di un attacco al singolo un nodo periferico è limitato dalla somma di due costi – Fattura dell'utente – Costo del nodo periferico • Anche ammettendo di non conoscere la distribuzione di probabilità dell'impatto – Media finita – Varianza finita Impatto della periferia - II • Per il teorema limite centrale, la perdita complessiva della periferia può essere descritta da una distribuzione normale con – Media = somma delle medie – Varianza = somma delle varianze • Il numero degli addendi – dipende • dal numero di clienti disonesti • dall'esistenza di attacchi automatici – è comunque di 3-4 ordini di grandezza superiore a quello richiesto da una approssimazione accurata Curva normale • Decresce esponenzialmente • E' una forma “mild” di casualità (Mandelbrot) oppure Mediocristan (Taleb) • Questa limitata casualità è evidenziata dalla coda sottile = raggiunge velocemente l'asintodo • Tipica di un fenomeno che è somma di altri fenomeni e dove gli spostamenti dalla media dei singoli fenomeni si compensano (mondo fisico) Impatto del backbone - I • X è un processo causale che rappresenta l'impatto di un attacco al backbone di una singola minaccia • Ciò che caratterizza la billing infrastructure è che è sufficiente un solo attacco con successo di una sola minaccia per provocare un impatto illimitato • Quindi non è interessata a tanti attacchi con impatto ridotto ma ad un singolo impatto • Da un punto di vista matematico lim d→∞ (Prob(X1+...+Xn>d)/(Prob(max(X1,..., Xn)>d)) = 1 che formalizza la proprietà che all'attaccante basta un attacco per raggiungere i suoi obiettivi Impatto del backbone - II • Una visione alternativa è espressa dalle condizioni i) lim δ→∞ Prob(X>δ+h) / Prob(X>δ) = 1 per ogni h Oppure ii) ∀ h ∃ w | v> w → Prob(X> h*v)/Prob(X>v) è indipendente da h • Le condizioni affermano che, al crescere del valore dell'impatto, se la minaccia riesce a superare una certa soglia di danno, allora è in grado di provocare un qualunque danno Impatto del backbone - III • Nei casi precedenti la distribuzione di probabilità dell'impatto complessivo è del tipo heavy tailed o slowly varying • tende a zero con un andamento più lento di una esponenziale • wild randomness (Mandelbrot) = extremistan (Taleb) Heavy tailed • Un caso interessante di distribuzione heavy tailed è quella di una legge power law • Power law – Pr[X>x] la probabilità di X>x = (m/x)k dove m, k >0, d>m – Pr[X<x] = 1- (m/x)k – Densità = k (m/x)k (1/x) – Se 0<m<1 i momenti (media, varianza, .. .) sono tutti infiniti Altra ragione pro power law • Per minimizzare i costi del backbone si utilizza una strategia di tipo preferential attachment o “the rich will become richer” • Questa strategia porta a reti di tipo scale free, dove il numero di connessioni decresce come una power law • Danno di attacco ad una rete scale free è descritto da una power law • Power law con momenti infiniti Power law vs normale Curve in log-space Cammino casuale con generatore gaussiano vs cammino con generatore power law Sornette, D. - Critical phenomena in natural sciences. Chaos, fractals, self-organization and disorder. Concepts and tools Power law vs normale: importanza della scala normale Power law Generazione di punti con coordinate casuali con leggi normale e power law F.Clementi, T.Di Matteo, M.Gallegati “The power law tail exponent of income distribution Physica, 2006 Alcune power law - I Alcune power law - II Media e Varianza infinite Da Mandelbrot Normale + Power Laws • E' possibile distinguere quale attacco ha generato un danno solo in presenza di una infrastruttura in grado di ricordare gli attacchi ed i loro effetti • Da una semplice sequenza di impatti non si può distinguere quale dei due processi stocastici ha generato un impatto • Necessità di forensics Risk Management con impatto illimitato • Nelle parole di Taleb “forget optimization and embrace redundancy” • Introduzione di ridondanza per aumentare la robustezza di fronte agli attacchi • Possiamo parlare di ridondanza effettiva solo se si ha indipendenza completa rispetto ad un qualunque attacco con successo Rischio, Robustezza e Ottimizzazione systems designed for high performance naturally organize into highly structured, statistically unlikely states that are robust to perturbations they were designed to handle, yet fragile to rare perturbations and design flaws ... high-performance engineering leads to systems that are robust to stresses for which they were designed but fragile to errors or unforeseen events M.E.J. Newman, M. Girvan, and JD Farmer, “Optimal design, robustness, and risk aversion” Phys. Rev. Lett. 89, 028301 (2002) How to avoid being the turkey • Ridondanza & indipendenza completa sono estremamente complesse sia da un punto di vista hardware che software • Possono richiedere ad esempio – Fornitori diversi sia hardware che software – Esecuzione simultanea con sincronizzazione – Non solo parallelismo ma anche decentralizzazione • Alcune strategie tradizionali non sono in realtà adeguate, ad esempio ridondanza tripla