Servizio Sistemi Informativi Piano di Continuità Operativa Redatto da: Luca Bettini - Anna Guerri Collaborazione: Versione: 02.00.00 Data emissione: 01 Ottobre 2015 Firma Rivisto: Giovanni Di Trapani Approvato: Giovanni Di Trapani Distribuito a: Data Servizio Sistemi Informativi 1. Introduzione Il Piano di continuità operativa è il documento principale che contiene le attività, le azioni ed i piani relativi alla continuità operativa di un ente. La sfera di interesse della continuità operativa va oltre il solo ambito informatico, interessando l’intera funzionalità dell’Ente. La continuità operativa può quindi essere intesa come "l’insieme di attività volte a ripristinare lo stato del sistema informatico o parte di esso, compresi gli aspetti fisici e organizzativi e le persone necessarie per il suo funzionamento, con l'obiettivo di riportarlo alle condizioni antecedenti a un evento disastroso”. 1.1 Obiettivi Quello descritto nel presente documento è un piano logistico finalizzato a documentare il modo in cui l’ente ha la possibilità di far tornare operative le sue funzioni critiche entro un predeterminato periodo di tempo dopo un disastro o un grave danno. In altri termini il PCO (Piano di Continuità Operativa) costituisce lo strumento attraverso cui l’ente si prepara per futuri incidenti che possono minacciare le sue funzioni vitali e la sua sopravvivenza a lungo termine. Il PCO è parte del processo organizzativo attraverso cui si cerca di ridurre il rischio operativo e consiste nelle attività di miglioramento della sicurezza informatica e della gestione del rischio. Il processo di gestione della continuità operativa comprende anche il cosiddetto Disaster Recovery, che normalmente è riferito soprattutto al ripristino delle funzionalità dei sistemi informatici. La redazione di un PCO consente di: • • • • • Reagire per assicurare il ripristino della situazione ottimale, in caso di processi critici; Guidare le scelte in caso di crisi; Stabilire le procedure alternative per garantire l'operatività; Minimizzare il tempo di interruzione dei processi critici; Garantire l'efficacia delle procedure di ripristino. Il maggior elemento di criticità è costituito invece dal seguire di pari passo l'evoluzione della tecnologia, del mercati e della clientela, tutti fattori in la cui velocità di cambiamento è impressionante. L'unica maniera per ridurre la complessità portandola ad una dimensione gestibile ed efficace, mantenendo costi controllati, è la gradualità nella soluzione, sia come numero di processi considerati, sia come profondità e dettaglio dell'analisi. L'aumento toutcourt del numero di risorse dedicate (sia interne, che esterne) e del budget economico, ha un andamento inferiore rispetto al volume di soluzioni prodotte, in quanto la fruibilità delle soluzioni (condizione necessaria per essere effettivamente tale) rischierebbe di scontrarsi con una struttura non pronta a recepirle e ad attuarle in caso di necessità. Il piano include: la descrizione del response team, le responsabilità e l’organizzazione; la definizione dello staff di supporto e di coordinamento; l’individuazione della sede ed equipaggiamento del Centro di emergenza (crisi) Pag. 2 di 15 Servizio Sistemi Informativi Il PCO contiene le procedure di continuità, in particolare i processi mission critical e le funzioni vitali dell’organizzazione, quali sono le risorse disponibili e come devono essere utilizzate per assicurare la continuità. Si indicheranno: • • • l'uso e la locazione e protezione di informazioni critiche; gli strumenti di telecomunicazione; i requisiti del personale necessari per garantire il livello prefissato di servizio Gli eventi più importanti che bloccano la normale operatività possono essere logici o fisici, come ad esempio: • • • • • • • • Black-out elettrico Perdita di connettività Incendio, allagamento, crollo Attacco virale massiccio (disturbo, worm, denial of service) Attacchi logici e di hacker (interfaccia, applicazione, dati, server): attacco di intercettazione e deduzione (alla riservatezza), di intrusione (alla riservatezza ed integrità), di disturbo (alla disponibilità), spamming Attacchi fisici (furto o danneggiamento) Down di sistema (server, apparati di rete o servizio), di natura hardware o software Altri eventi distruttivi quali terremoti o altre catastrofi naturali. Sistema informativo SISCoTEL Nel caso specifico del nostro ente, i sistemi informativi sono molto complessi ed hanno il loro cuore operativo nel Centro Elaborazione Dati situato al terzo piano della sede legale, in via Maurizio Quadrio 11, a Tirano (SO). La Server Farm del CED, accessibile solo al personale autorizzato, comprende una decina di server (in parte fisici, in parte virtuali) con sistemi operativi Windows® Server, Linux CentOs e Zentyal. La struttura complessiva del Sistema Informativo Sovracomunale SISCoTEL è già stata dettagliatamente illustrata in precedenza, quando è stata inviata a DigitPA la sua descrizione particolareggiata, in allegato allo Studio di Fattibilità Tecnica, nel mese di aprile 2013. Riassumendo comunque in estrema sintesi, si tratta di una VPN che mette in comunicazione 10 comuni del mandamento (Aprica, Bianzone, Grosio, Grosotto, Lovero, Mazzo di Valtellina, Sernio, Tovo Sant’Agata, Vervio e Villa di Tirano) con la Comunità Montana, la quale eroga i servizi necessari alla gestione corrente tramite applicativi web (PA Digitale) ed altri software con diversa architettura, più adatti per un utilizzo di tipo locale (Maggioli, Se Te). L’architettura standard dei servizi applicativi utilizza il classico modello a tre livelli (three-tier), così definiti: 1. Web Server; 2. Application Server; 3. Data Base Server (RDBMS). Per ognuno dei livelli, originariamente erano stati predisposti due server fisici in cluster, con sistema operativo Windows® Server, mentre ora i server sono stati totalmente virtualizzati Pag. 3 di 15 Servizio Sistemi Informativi su sistema operativo Linux CentOs (che essendo un sistema operativo di tipo open source, permette un notevole risparmio dal punto di vista economico). La politica dell’ente è (ed è sempre stata) quella di cercare di prevenire il più possibile gli eventi negativi/distruttivi piuttosto che di fronteggiarli una volta avvenuti, predisponendo una serie di misure preventive. Elenchiamo di seguito le suddette misure: • • • • • • • • • Ogni macchina possiede componenti fisici ridondati, e i dischi fissi (di tipo “hot plug”) operano in modalità RAID 5, dando modo all’operatore, in caso di problemi hardware, di poterli sostituire in modo immediato e senza alcun rischio per l’incolumità dei dati; Per far fronte alle possibili perdite di dati, giornalmente vengono eseguite copie di sicurezza dei dati più importanti (backup). Di questi processi si parlerà dettagliatamente in seguito; Per far fronte a possibili attacchi virali massicci (disturbo, worm, denial of service) e/o attacchi logici e di hacker (interfaccia, applicazione, dati, server), come ad esempio attacco di intercettazione e deduzione (alla riservatezza), di intrusione (alla riservatezza ed integrità), di disturbo (alla disponibilità), o spamming vengono utilizzati: software antivirus professionali, costantemente aggiornati; sistemi firewall avanzati, di tipo software; sistemi antispam; Per quel che riguarda il pericolo incendi, all’interno della server farm è presente un sistema antincendio a gas inerte, per ridurre al minimo gli effetti distruttivi dovuti sia al fuoco sia ai metodi di spegnimento alternativi; Per evitare danni fisici al sistema, la Server Farm è accessibile solo al personale autorizzato tramite una serratura a combinazione; Per evitare danni dovuti all’eccessivo calore e/o agli sbalzi di temperatura, l’ambiente è mantenuto a temperatura costante da un sistema di condizionamento costantemente sotto controllo e manutenzione; Per contrastare gli sbalzi di tensione ed i black-out di breve durata, all’interno della Server Farm sono presenti vari UPS su cui è distribuito in modo uniforme ed incrociato il carico elettrico; Per fronteggiare i black-out prolungati, al pianterreno dello stabile è attivo un gruppo elettrogeno diesel, che viene periodicamente avviato per verificarne l’effettiva funzionalità; La connettività verso i comuni si basa su una rete Wireless costantemente monitorata, ed in caso di problemi su questo tipo di connessione interviene automaticamente una linea di backup di tipo ADSL. Responsabilità Le responsabilità della messa in opera del suddetto piano ricadono sul responsabile del Settore Territorio e Sistemi Informativi, Dott. Giovanni Di Trapani, sui tecnici informatici che si occupano della manutenzione della Server Farm aziendale, Dott. Anna Guerri e Dott. Luca Bettini, coadiuvati dal personale specializzato della ditta TechSYS di Mazzo di Valtellina (SO). Per quanto riguarda la suite URBI, ovvero l’insieme degli applicativi web Pag. 4 di 15 Servizio Sistemi Informativi nativi su cui è imperniata la gestione associata dei servizi, il sistemista di riferimento della software house proprietaria, la PA Digitale di Lodi, è Claudio Terribile. Per gli applicativi Maggioli (eXpers e SerFin), che vari comuni del mandamento utilizzano per la gestione della Contabilità e del Personale, il principale tecnico di riferimento è Mauro Margolfo della ditta ZeroGroup di Breno (BS). Per gli applicativi della ditta Se Te di Sondrio (EureCAT e Trib), che la maggior parte dei comuni del mandamento utilizzano per la gestione del Catasto e dei Tributi, il tecnico di riferimento è Costel Mohai, della ditta Se Te di Sondrio. Per quanto riguarda la cartografia digitalizzata fruibile tramite il sito della Comunità Montana (Sistema Informativo Territoriale Integrato), il riferimento è Sergio Segala della ditta R3Gis di Merano (BZ). 1.3 Esercitazione e manutenzione Per evitare errori, monitorare la sicurezza e gestire i mezzi alternativi, per poter controllare l’effettiva efficacia delle procedure di emergenza, sono programmate delle esercitazioni periodiche con cadenza annuale (di tipo simulativo) che hanno lo scopo di completare il quadro della vera e propria formazione del personale addetto, che è comunque costantemente a contatto con le svariate problematiche che possono insorgere all’interno del sistema. 1.4 Aggiornamenti Il presente documento verrà costantemente aggiornato con la gestione dei processi secondo la logica del Ciclo di Deming (ciclo di PDCA), un modello ideato da W. Edwards Deming negli anni cinquanta e pensato per il miglioramento continuo della qualità in un'ottica a lungo raggio. Pag. 5 di 15 Servizio Sistemi Informativi Il PDCA o ruota di Deming è la rappresentazione visiva di un ciclo “virtuoso” di miglioramento continuo per prodotti, processi, problemi specifici. Si parte dal piano, si fa una prova pratica, si verificano i risultati, se non vanno bene si corregge, se vanno bene si mette a sistema, per poi ricominciare di nuovo. Plan: pianifica Prima di muoversi occorre un piano che parte dalla definizione di problemi e obiettivi, pianifica compiti, assegna responsabilità, studia il caso, analizza le cause della criticità, definisce azioni correttive. Do: prova Dopo aver pianificato si comincia a fare qualcosa, un prototipo, una prova, una simulazione, un intervento su piccola scala. Pag. 6 di 15 Servizio Sistemi Informativi Check: verifica Si analizzano le cose che sono uscite fuori, per vedere se rispondono agli obiettivi, se funzionano, se risolvono il problema, se producono inconvenienti ed effetti collaterali. Se tutto va bene si passa all’ultima fase, altrimenti si apportano le modifiche correttive, fino a quando funziona tutto bene. Act: agisci Se tutto funziona come desiderato, si rende stabile il cambiamento e lo si inserisce in produzione. Pag. 7 di 15 Servizio Sistemi Informativi 2. Attivazione del piano 2.1 Dichiarazione di disastro o di incidente Gli eventi che possono determinare disservizi sono svariati, ma possono essere suddivisi in due grandi categorie: Interruzioni di servizio Di questa categoria fanno parte: • • • • • • Black-out elettrici Interruzioni delle linee di comunicazione Cancellazione accidentale di piccole porzioni di dati Attacchi virali massicci e/o attacchi logici e di hacker Problemi logici di tipo software Problemi fisici sull’ hardware Disastri Di questa categoria fanno parte: • • • Incendi Terremoti o altre catastrofi naturali Attacchi fisici (furti o vandalismi) Nel caso delle interruzioni di servizio, che occasionalmente possono avvenire, il problema normalmente può essere gestito senza particolari problemi dai tecnici che si occupano della manutenzione del CED, senza che venga convocato il Comitato di Crisi. Nel caso in cui si verificasse invece uno degli eventi classificati come disastrosi, il Responsabile del Settore Territorio e Sistemi Informativi e Presidente del Comitato di Crisi Dott. Giovanni Di Trapani (vedi a pag. 10) dichiara lo stato di emergenza e pone in stato di allerta sia i tecnici informatici addetti della manutenzione del CED che tutte le altre figure facenti parte del Comitato di Crisi. 2.2 Valutazione del danno I tecnici informatici addetti alla manutenzione della Server Farm, supportati dalla ditta TechSYS, si occupano della valutazione dei danni subiti dal Sistema Informativo, sia dal punto di vista fisico che dal punto di vista dei sistemi operativi e degli applicativi, e delle loro possibili ripercussioni sui servizi offerti ai comuni del mandamento. Virtualizzazione Va detto, per completezza, che il sistema informativo sta rapidamente procedendo verso una completa virtualizzazione, e che quindi le componenti hardware stanno progressivamente diminuendo: vanno di conseguenza riducendosi sempre più le probabilità che avvengano guasti di tipo fisico. L’obiettivo finale dell’amministrazione è quello di Pag. 8 di 15 Servizio Sistemi Informativi arrivare al più presto ad avere solamente due/tre macchine molto performanti, da utilizzare per virtualizzare tutti i server fisici attualmente facenti parte del sistema. 2.3 Procedure di azione e continuità Danni hardware Se i danni subiti dal sistema fossero di tipo fisico, questo potrebbe comportare la necessità di sostituire (parzialmente o completamente) le macchine coinvolte nell’incidente, o per lo meno alcune delle loro componenti hardware. Questo potrebbe essere lo scenario peggiore, in quanto si renderebbe necessario l’acquisto quasi immediato di nuovi dispositivi, magari anche particolarmente costosi. Ripristino “standard” Nell’ipotesi (assai probabile) che i danni subiti dal sistema abbiano comportato delle perdite di dati e/o delle anomalie sui database, l’operazione fondamentale da eseguire è ovviamente quella relativa al loro ripristino. A questo scopo possono essere utilizzati i file di backup, quelli presenti sul NAS-QNAP interno oppure le loro copie, disponibili presso la Comunità Montana di Sondrio, presso la quale periodicamente vengono sincronizzati i backup, sfruttando la connessione WiFi a 100 Mbps fra i due enti. Attualmente i backup di sistema, che riguardano tutti i dati critici presenti sui vari server, sono realizzati tramite Acronis True Image (soluzione di backup proprietaria fra le più utilizzate), giornalmente per quanto riguarda gli applicativi e i database, settimanalmente per ciò che concerne il firewall ed altri dati di minor importanza. Per quanto riguarda le macchine virtualizzate sulla piattaforma VMWare, il software utilizzato per il backup incrementale è Acronis Appliance. Le procedure di ripristino sono illustrate in modo completo ed esauriente in un apposito documento presente all’interno della Server Farm. Facciamo notare comunque che le operazioni di ripristino sono state già messe in atto varie volte con pieno successo, anche se su piccole porzioni di dati. Ripristino “avanzato” Potrebbe rendersi necessario ricorrere a metodi di recupero più avanzati, come ad esempio il ripristino di interi server virtuali, sia sulle stesse macchine fisiche presenti nella sede di Tirano sia, nel caso di danni fisici molto gravi (ad esempio in seguito ad un incendio), sulle macchine fisiche della C.M. di Sondrio, con l’idea di utilizzare la connessione WiFi ad alta velocità (100 MBps) fra i due enti recentemente realizzata per poter ristabilire, almeno temporaneamente, tutti i servizi “vitali”. Questa procedura può essere messa in atto sfruttando le “immagini” delle varie macchine virtuali, salvate con cadenza giornaliera su un supporto di memoria di tipo NAS (Network Attached Storage) presso la Comunità Montana di Sondrio (che effettua, in modo “incrociato”, lo stesso tipo di salvataggio presso di noi). 2.4 Organizzazione del team e responsabilità Pag. 9 di 15 Servizio Sistemi Informativi Il team che si occupa della manutenzione del Sistema Informativo ha come responsabile di riferimento il Dott. Giovanni Di Trapani, che si appoggia al tecnico informatico operante in loco ed ai tecnici TechSYS, i quali forniscono consulenza tecnica avanzata da remoto oppure on-site, se necessario, per eventuali operazioni di configurazione di tipo avanzato. 2.5 Comitato di gestione della crisi (comitato di crisi) Composizione del team In data 18 dicembre 2012 è stato ufficialmente nominato dall’ente il Comitato di Crisi relativamente al Servizio Sistemi Informativi. Le figure preposte sono le seguenti: • • il Responsabile del Settore Territorio e Sistemi Informativi (ed anche Responsabile della Conservazione Sostitutiva), Dr. Giovanni Di Trapani (presidente comitato) i tecnici informatici che si occupano della manutenzione del sistema SISCoTEL, Dr.ssa Anna Guerri e Dott. Luca Bettini (referenti tecnici) Queste figure, nel loro insieme, sono incaricate di assumere le decisioni necessarie per il ripristino nei tempi previsti delle funzionalità dei sistemi informativi. Il comitato di crisi svolge i seguenti i compiti: definizione e approvazione del piano di continuità operativa; valutazione delle situazioni di emergenza e dichiarazione dello stato di crisi; avvio delle attività di recupero e controllo del loro svolgimento; rapporti con l’esterno e comunicazioni ai dipendenti; attivazione del processo di rientro, che deve essere attuato da specifici gruppi operativi, ma deve essere continuamente monitorato dal comitato per assicurare la verifica dello stato di avanzamento complessivo e risolvere i casi dubbi. Il comitato si riunisce di norma almeno una volta l’anno per valutare lo stato del progetto di continuità, verificarne le criticità, attuare e pianificare le iniziative per il miglioramento continuo del progetto stesso. In condizioni di emergenza prende invece il controllo di tutte le operazioni e assume la responsabilità sulle decisioni per affrontare l’emergenza, ridurne l’impatto e soprattutto ripristinare le condizioni preesistenti. Il centro di emergenza (o crisi) viene organizzato presso la sede della Comunità Montana di Tirano, in Via M. Quadrio 11 (Tel. 0342-708540, Fax 0342-708530), o in alternativa, se la suddetta sede per qualche ragione dovesse risultare impraticabile, presso la Comunità Montana di Sondrio, in via Nazario Sauro 33 (Tel. 0342-210332, Fax 0342-210334). Entrambe queste locazioni dispongono, in condizioni normali, di tutti i mezzi di telecomunicazione più aggiornati (telefono, fax, e-mail, ecc.). Tempistiche Pag. 10 di 15 Servizio Sistemi Informativi Ricordiamo che, come riportato nello Studio di Fattibilità Tecnica, i servizi offerti dal sistema sovracomunale SISCoTEL hanno Classe di criticità Media e come Soluzione Tecnologica la Tier 3, ovvero presentano: • Recovery Time Objective (RTO, massimo tempo di indisponibilità del servizio, ovvero tempo entro il quale il servizio da proteggere deve essere ripristinato) compreso tra 4 ore e 3 giorni; • Recovery Point Objective (RPO, perdita dati sostenibile, in termini di distanza temporale tra il verificarsi dell’emergenza e l’ultimo salvataggio utile e ripristinabile dei dati) compreso tra 1 e 3 giorni . Pag. 11 di 15 Servizio Sistemi Informativi RPO ed RTO Disastro RPO Recovery Point Objective RTO Recovery Time Objective Pag. 12 di 15 Servizio Sistemi Informativi 3. Comunicazioni 3.1 Soggetti da informare Nel caso si verificassero eventi di tipo disastroso i soggetti da informare, nel caso specifico del nostro ente, sono: • • • • • • • le amministrazioni comunali facenti parte del SISCoTEL i tecnici informatici della Ditta TechSYS i tecnici informatici della Comunità Montana di Sondrio i sistemisti di PA Digitale i sistemisti di Maggioli i tecnici di SeTe i tecnici di R3 GIS 3.2 Contatti Interni • Dott. Giovanni Di Trapani (Responsabile Settore Territorio e Sistemi Informativi) Email: [email protected] Tel: 0342-708516 Cell: 339-3926981 • Dott. Anna Guerri / Dott. Luca Bettini (Tecnici informatici in loco) Email: [email protected] Tel 1: 0342-708540 Tel 2: 0342-708539 Cell: 339-1265996 / 339-8691051 Esterni • Ditta Techsys s.a.s. di Pozzi Giovanni & C. (Sistemisti) Email: [email protected] Tel: 0342-852521 • Geom. Claudio Terribile (Sistemista di PA Digitale, referente tecnico per URBI) Email: [email protected] Tel: 037-15935403 • Mauro Margolfo (Tecnico di ZeroGroup, referente tecnico Maggioli) Email: [email protected] Tel: 030-2419511 Pag. 13 di 15 Servizio Sistemi Informativi • Geom. Lorenzo Bertolini (Responsabile ditta Se Te) Email: [email protected] Tel: 0342-200296 • Sergio Segala (Technical coordinator di R3 GIS) Email: [email protected] Tel: 0473-494949 Pag. 14 di 15 Servizio Sistemi Informativi Indice 1. Introduzione..................................................................................................................... Pag. 2 1.1. Obiettivi ...................................................................................................................... Pag. 2 1.2. Responsabilità ............................................................................................................ Pag. 5 1.3. Esercitazione e manutenzione.................................................................................... Pag. 5 1.4. Aggiornamenti ............................................................................................................ Pag. 5 2. Attivazione del piano ...................................................................................................... Pag. 8 2.1. Dichiarazione di disastro o di incidente....................................................................... Pag. 8 2.2. Valutazione del danno ................................................................................................ Pag. 8 2.3. Procedure di azione e continuità ................................................................................ Pag. 9 2.4. Organizzazione del team e responsabilità ................................................................ Pag. 10 2.5. Comitato di gestione della Crisi ................................................................................ Pag. 10 3. Comunicazioni............................................................................................................... Pag. 13 3.1. Soggetti da informare ............................................................................................... Pag. 13 Pag. 15 di 15