Piano di Continuità Operativa - Comunita Montana Valtellina di Tirano

Servizio Sistemi Informativi
Piano di Continuità Operativa
Redatto da:
Luca Bettini - Anna Guerri
Collaborazione:
Versione:
02.00.00
Data emissione:
01 Ottobre 2015
Firma
Rivisto:
Giovanni Di Trapani
Approvato:
Giovanni Di Trapani
Distribuito a:
Data
Servizio Sistemi Informativi
1. Introduzione
Il Piano di continuità operativa è il documento principale che contiene le attività, le azioni
ed i piani relativi alla continuità operativa di un ente. La sfera di interesse della continuità
operativa va oltre il solo ambito informatico, interessando l’intera funzionalità dell’Ente. La
continuità operativa può quindi essere intesa come "l’insieme di attività volte a ripristinare lo
stato del sistema informatico o parte di esso, compresi gli aspetti fisici e organizzativi e le
persone necessarie per il suo funzionamento, con l'obiettivo di riportarlo alle condizioni
antecedenti a un evento disastroso”.
1.1 Obiettivi
Quello descritto nel presente documento è un piano logistico finalizzato a documentare il
modo in cui l’ente ha la possibilità di far tornare operative le sue funzioni critiche entro un
predeterminato periodo di tempo dopo un disastro o un grave danno. In altri termini il PCO
(Piano di Continuità Operativa) costituisce lo strumento attraverso cui l’ente si prepara per
futuri incidenti che possono minacciare le sue funzioni vitali e la sua sopravvivenza a lungo
termine. Il PCO è parte del processo organizzativo attraverso cui si cerca di ridurre il rischio
operativo e consiste nelle attività di miglioramento della sicurezza informatica e della
gestione del rischio. Il processo di gestione della continuità operativa comprende anche il
cosiddetto Disaster Recovery, che normalmente è riferito soprattutto al ripristino delle
funzionalità dei sistemi informatici.
La redazione di un PCO consente di:
•
•
•
•
•
Reagire per assicurare il ripristino della situazione ottimale, in caso di processi
critici;
Guidare le scelte in caso di crisi;
Stabilire le procedure alternative per garantire l'operatività;
Minimizzare il tempo di interruzione dei processi critici;
Garantire l'efficacia delle procedure di ripristino.
Il maggior elemento di criticità è costituito invece dal seguire di pari passo l'evoluzione della
tecnologia, del mercati e della clientela, tutti fattori in la cui velocità di cambiamento è
impressionante. L'unica maniera per ridurre la complessità portandola ad una dimensione
gestibile ed efficace, mantenendo costi controllati, è la gradualità nella soluzione, sia come
numero di processi considerati, sia come profondità e dettaglio dell'analisi. L'aumento toutcourt del numero di risorse dedicate (sia interne, che esterne) e del budget economico, ha
un andamento inferiore rispetto al volume di soluzioni prodotte, in quanto la fruibilità delle
soluzioni (condizione necessaria per essere effettivamente tale) rischierebbe di scontrarsi
con una struttura non pronta a recepirle e ad attuarle in caso di necessità.
Il piano include:
la descrizione del response team, le responsabilità e l’organizzazione;
la definizione dello staff di supporto e di coordinamento;
l’individuazione della sede ed equipaggiamento del Centro di emergenza (crisi)
Pag. 2 di 15
Servizio Sistemi Informativi
Il PCO contiene le procedure di continuità, in particolare i processi mission critical e le
funzioni vitali dell’organizzazione, quali sono le risorse disponibili e come devono essere
utilizzate per assicurare la continuità.
Si indicheranno:
•
•
•
l'uso e la locazione e protezione di informazioni critiche;
gli strumenti di telecomunicazione;
i requisiti del personale necessari per garantire il livello prefissato di servizio
Gli eventi più importanti che bloccano la normale operatività possono essere logici o fisici,
come ad esempio:
•
•
•
•
•
•
•
•
Black-out elettrico
Perdita di connettività
Incendio, allagamento, crollo
Attacco virale massiccio (disturbo, worm, denial of service)
Attacchi logici e di hacker (interfaccia, applicazione, dati, server): attacco di
intercettazione e deduzione (alla riservatezza), di intrusione (alla riservatezza ed
integrità), di disturbo (alla disponibilità), spamming
Attacchi fisici (furto o danneggiamento)
Down di sistema (server, apparati di rete o servizio), di natura hardware o software
Altri
eventi
distruttivi
quali
terremoti
o
altre
catastrofi
naturali.
Sistema informativo SISCoTEL
Nel caso specifico del nostro ente, i sistemi informativi sono molto complessi ed hanno il
loro cuore operativo nel Centro Elaborazione Dati situato al terzo piano della sede legale, in
via Maurizio Quadrio 11, a Tirano (SO). La Server Farm del CED, accessibile solo al
personale autorizzato, comprende una decina di server (in parte fisici, in parte virtuali) con
sistemi operativi Windows® Server, Linux CentOs e Zentyal.
La struttura complessiva del Sistema Informativo Sovracomunale SISCoTEL è già stata
dettagliatamente illustrata in precedenza, quando è stata inviata a DigitPA la sua
descrizione particolareggiata, in allegato allo Studio di Fattibilità Tecnica, nel mese di aprile
2013. Riassumendo comunque in estrema sintesi, si tratta di una VPN che mette in
comunicazione 10 comuni del mandamento (Aprica, Bianzone, Grosio, Grosotto, Lovero,
Mazzo di Valtellina, Sernio, Tovo Sant’Agata, Vervio e Villa di Tirano) con la Comunità
Montana, la quale eroga i servizi necessari alla gestione corrente tramite applicativi web
(PA Digitale) ed altri software con diversa architettura, più adatti per un utilizzo di tipo locale
(Maggioli, Se Te). L’architettura standard dei servizi applicativi utilizza il classico modello a
tre livelli (three-tier), così definiti:
1. Web Server;
2. Application Server;
3. Data Base Server (RDBMS).
Per ognuno dei livelli, originariamente erano stati predisposti due server fisici in cluster, con
sistema operativo Windows® Server, mentre ora i server sono stati totalmente virtualizzati
Pag. 3 di 15
Servizio Sistemi Informativi
su sistema operativo Linux CentOs (che essendo un sistema operativo di tipo open source,
permette un notevole risparmio dal punto di vista economico).
La politica dell’ente è (ed è sempre stata) quella di cercare di prevenire il più possibile gli
eventi negativi/distruttivi piuttosto che di fronteggiarli una volta avvenuti, predisponendo una
serie di misure preventive.
Elenchiamo di seguito le suddette misure:
•
•
•
•
•
•
•
•
•
Ogni macchina possiede componenti fisici ridondati, e i dischi fissi (di tipo “hot plug”)
operano in modalità RAID 5, dando modo all’operatore, in caso di problemi
hardware, di poterli sostituire in modo immediato e senza alcun rischio per
l’incolumità dei dati;
Per far fronte alle possibili perdite di dati, giornalmente vengono eseguite copie di
sicurezza dei dati più importanti (backup). Di questi processi si parlerà
dettagliatamente in seguito;
Per far fronte a possibili attacchi virali massicci (disturbo, worm, denial of service)
e/o attacchi logici e di hacker (interfaccia, applicazione, dati, server), come ad
esempio attacco di intercettazione e deduzione (alla riservatezza), di intrusione (alla
riservatezza ed integrità), di disturbo (alla disponibilità), o spamming vengono
utilizzati:
software antivirus professionali, costantemente aggiornati;
sistemi firewall avanzati, di tipo software;
sistemi antispam;
Per quel che riguarda il pericolo incendi, all’interno della server farm è presente un
sistema antincendio a gas inerte, per ridurre al minimo gli effetti distruttivi dovuti sia
al fuoco sia ai metodi di spegnimento alternativi;
Per evitare danni fisici al sistema, la Server Farm è accessibile solo al personale
autorizzato tramite una serratura a combinazione;
Per evitare danni dovuti all’eccessivo calore e/o agli sbalzi di temperatura,
l’ambiente è mantenuto a temperatura costante da un sistema di condizionamento
costantemente sotto controllo e manutenzione;
Per contrastare gli sbalzi di tensione ed i black-out di breve durata, all’interno della
Server Farm sono presenti vari UPS su cui è distribuito in modo uniforme ed
incrociato il carico elettrico;
Per fronteggiare i black-out prolungati, al pianterreno dello stabile è attivo un gruppo
elettrogeno diesel, che viene periodicamente avviato per verificarne l’effettiva
funzionalità;
La connettività verso i comuni si basa su una rete Wireless costantemente
monitorata, ed in caso di problemi su questo tipo di connessione interviene
automaticamente una linea di backup di tipo ADSL.
Responsabilità
Le responsabilità della messa in opera del suddetto piano ricadono sul responsabile del
Settore Territorio e Sistemi Informativi, Dott. Giovanni Di Trapani, sui tecnici informatici che
si occupano della manutenzione della Server Farm aziendale, Dott. Anna Guerri e Dott.
Luca Bettini, coadiuvati dal personale specializzato della ditta TechSYS di Mazzo di
Valtellina (SO). Per quanto riguarda la suite URBI, ovvero l’insieme degli applicativi web
Pag. 4 di 15
Servizio Sistemi Informativi
nativi su cui è imperniata la gestione associata dei servizi, il sistemista di riferimento della
software house proprietaria, la PA Digitale di Lodi, è Claudio Terribile.
Per gli applicativi Maggioli (eXpers e SerFin), che vari comuni del mandamento utilizzano
per la gestione della Contabilità e del Personale, il principale tecnico di riferimento è Mauro
Margolfo della ditta ZeroGroup di Breno (BS).
Per gli applicativi della ditta Se Te di Sondrio (EureCAT e Trib), che la maggior parte dei
comuni del mandamento utilizzano per la gestione del Catasto e dei Tributi, il tecnico di
riferimento è Costel Mohai, della ditta Se Te di Sondrio.
Per quanto riguarda la cartografia digitalizzata fruibile tramite il sito della Comunità Montana
(Sistema Informativo Territoriale Integrato), il riferimento è Sergio Segala della ditta R3Gis
di Merano (BZ).
1.3 Esercitazione e manutenzione
Per evitare errori, monitorare la sicurezza e gestire i mezzi alternativi, per poter controllare
l’effettiva efficacia delle procedure di emergenza, sono programmate delle esercitazioni
periodiche con cadenza annuale (di tipo simulativo) che hanno lo scopo di completare il
quadro della vera e propria formazione del personale addetto, che è comunque
costantemente a contatto con le svariate problematiche che possono insorgere all’interno
del sistema.
1.4 Aggiornamenti
Il presente documento verrà costantemente aggiornato con la gestione dei processi
secondo la logica del Ciclo di Deming (ciclo di PDCA), un modello ideato da W. Edwards
Deming negli anni cinquanta e pensato per il miglioramento continuo della qualità in
un'ottica a lungo raggio.
Pag. 5 di 15
Servizio Sistemi Informativi
Il PDCA o ruota di Deming è la rappresentazione visiva di un ciclo “virtuoso” di
miglioramento continuo per prodotti, processi, problemi specifici. Si parte dal piano, si fa
una prova pratica, si verificano i risultati, se non vanno bene si corregge, se vanno bene si
mette a sistema, per poi ricominciare di nuovo.
Plan: pianifica
Prima di muoversi occorre un piano che parte dalla definizione di problemi e obiettivi,
pianifica compiti, assegna responsabilità, studia il caso, analizza le cause della criticità,
definisce azioni correttive.
Do: prova
Dopo aver pianificato si comincia a fare qualcosa, un prototipo, una prova, una
simulazione, un intervento su piccola scala.
Pag. 6 di 15
Servizio Sistemi Informativi
Check: verifica
Si analizzano le cose che sono uscite fuori, per vedere se rispondono agli obiettivi, se
funzionano, se risolvono il problema, se producono inconvenienti ed effetti collaterali. Se
tutto va bene si passa all’ultima fase, altrimenti si apportano le modifiche correttive, fino a
quando funziona tutto bene.
Act: agisci
Se tutto funziona come desiderato, si rende stabile il cambiamento e lo si inserisce in
produzione.
Pag. 7 di 15
Servizio Sistemi Informativi
2. Attivazione del piano
2.1 Dichiarazione di disastro o di incidente
Gli eventi che possono determinare disservizi sono svariati, ma possono essere suddivisi in
due grandi categorie:
Interruzioni di servizio
Di questa categoria fanno parte:
•
•
•
•
•
•
Black-out elettrici
Interruzioni delle linee di comunicazione
Cancellazione accidentale di piccole porzioni di dati
Attacchi virali massicci e/o attacchi logici e di hacker
Problemi logici di tipo software
Problemi fisici sull’ hardware
Disastri
Di questa categoria fanno parte:
•
•
•
Incendi
Terremoti o altre catastrofi naturali
Attacchi fisici (furti o vandalismi)
Nel caso delle interruzioni di servizio, che occasionalmente possono avvenire, il problema
normalmente può essere gestito senza particolari problemi dai tecnici che si occupano della
manutenzione del CED, senza che venga convocato il Comitato di Crisi.
Nel caso in cui si verificasse invece uno degli eventi classificati come disastrosi, il
Responsabile del Settore Territorio e Sistemi Informativi e Presidente del Comitato di Crisi
Dott. Giovanni Di Trapani (vedi a pag. 10) dichiara lo stato di emergenza e pone in stato di
allerta sia i tecnici informatici addetti della manutenzione del CED che tutte le altre figure
facenti parte del Comitato di Crisi.
2.2 Valutazione del danno
I tecnici informatici addetti alla manutenzione della Server Farm, supportati dalla ditta
TechSYS, si occupano della valutazione dei danni subiti dal Sistema Informativo, sia dal
punto di vista fisico che dal punto di vista dei sistemi operativi e degli applicativi, e delle loro
possibili ripercussioni sui servizi offerti ai comuni del mandamento.
Virtualizzazione
Va detto, per completezza, che il sistema informativo sta rapidamente procedendo verso
una completa virtualizzazione, e che quindi le componenti hardware stanno
progressivamente diminuendo: vanno di conseguenza riducendosi sempre più le probabilità
che avvengano guasti di tipo fisico. L’obiettivo finale dell’amministrazione è quello di
Pag. 8 di 15
Servizio Sistemi Informativi
arrivare al più presto ad avere solamente due/tre macchine molto performanti, da utilizzare
per virtualizzare tutti i server fisici attualmente facenti parte del sistema.
2.3 Procedure di azione e continuità
Danni hardware
Se i danni subiti dal sistema fossero di tipo fisico, questo potrebbe comportare la necessità
di sostituire (parzialmente o completamente) le macchine coinvolte nell’incidente, o per lo
meno alcune delle loro componenti hardware. Questo potrebbe essere lo scenario
peggiore, in quanto si renderebbe necessario l’acquisto quasi immediato di nuovi
dispositivi, magari anche particolarmente costosi.
Ripristino “standard”
Nell’ipotesi (assai probabile) che i danni subiti dal sistema abbiano comportato delle perdite
di dati e/o delle anomalie sui database, l’operazione fondamentale da eseguire è
ovviamente quella relativa al loro ripristino. A questo scopo possono essere utilizzati i file di
backup, quelli presenti sul NAS-QNAP interno oppure le loro copie, disponibili presso la
Comunità Montana di Sondrio, presso la quale periodicamente vengono sincronizzati i
backup, sfruttando la connessione WiFi a 100 Mbps fra i due enti.
Attualmente i backup di sistema, che riguardano tutti i dati critici presenti sui vari server,
sono realizzati tramite Acronis True Image (soluzione di backup proprietaria fra le più
utilizzate), giornalmente per quanto riguarda gli applicativi e i database, settimanalmente
per ciò che concerne il firewall ed altri dati di minor importanza.
Per quanto riguarda le macchine virtualizzate sulla piattaforma VMWare, il software
utilizzato per il backup incrementale è Acronis Appliance.
Le procedure di ripristino sono illustrate in modo completo ed esauriente in un apposito
documento presente all’interno della Server Farm. Facciamo notare comunque che le
operazioni di ripristino sono state già messe in atto varie volte con pieno successo, anche
se su piccole porzioni di dati.
Ripristino “avanzato”
Potrebbe rendersi necessario ricorrere a metodi di recupero più avanzati, come ad esempio
il ripristino di interi server virtuali, sia sulle stesse macchine fisiche presenti nella sede di
Tirano sia, nel caso di danni fisici molto gravi (ad esempio in seguito ad un incendio), sulle
macchine fisiche della C.M. di Sondrio, con l’idea di utilizzare la connessione WiFi ad alta
velocità (100 MBps) fra i due enti recentemente realizzata per poter ristabilire, almeno
temporaneamente, tutti i servizi “vitali”. Questa procedura può essere messa in atto
sfruttando le “immagini” delle varie macchine virtuali, salvate con cadenza giornaliera su un
supporto di memoria di tipo NAS (Network Attached Storage) presso la Comunità Montana
di Sondrio (che effettua, in modo “incrociato”, lo stesso tipo di salvataggio presso di noi).
2.4 Organizzazione del team e responsabilità
Pag. 9 di 15
Servizio Sistemi Informativi
Il team che si occupa della manutenzione del Sistema Informativo ha come responsabile di
riferimento il Dott. Giovanni Di Trapani, che si appoggia al tecnico informatico operante in
loco ed ai tecnici TechSYS, i quali forniscono consulenza tecnica avanzata da remoto
oppure on-site, se necessario, per eventuali operazioni di configurazione di tipo avanzato.
2.5 Comitato di gestione della crisi (comitato di crisi)
Composizione del team
In data 18 dicembre 2012 è stato ufficialmente nominato dall’ente il Comitato di Crisi
relativamente al Servizio Sistemi Informativi.
Le figure preposte sono le seguenti:
•
•
il Responsabile del Settore Territorio e Sistemi Informativi (ed anche Responsabile
della Conservazione Sostitutiva), Dr. Giovanni Di Trapani (presidente comitato)
i tecnici informatici che si occupano della manutenzione del sistema SISCoTEL,
Dr.ssa Anna Guerri e Dott. Luca Bettini (referenti tecnici)
Queste figure, nel loro insieme, sono incaricate di assumere le decisioni necessarie per il
ripristino nei tempi previsti delle funzionalità dei sistemi informativi.
Il comitato di crisi svolge i seguenti i compiti:
definizione e approvazione del piano di continuità operativa;
valutazione delle situazioni di emergenza e dichiarazione dello stato di crisi;
avvio delle attività di recupero e controllo del loro svolgimento;
rapporti con l’esterno e comunicazioni ai dipendenti;
attivazione del processo di rientro, che deve essere attuato da specifici gruppi
operativi, ma deve essere continuamente monitorato dal comitato per assicurare la
verifica dello stato di avanzamento complessivo e risolvere i casi dubbi.
Il comitato si riunisce di norma almeno una volta l’anno per valutare lo stato del progetto di
continuità, verificarne le criticità, attuare e pianificare le iniziative per il miglioramento
continuo del progetto stesso.
In condizioni di emergenza prende invece il controllo di tutte le operazioni e assume la
responsabilità sulle decisioni per affrontare l’emergenza, ridurne l’impatto e soprattutto
ripristinare le condizioni preesistenti.
Il centro di emergenza (o crisi) viene organizzato presso la sede della Comunità Montana di
Tirano, in Via M. Quadrio 11 (Tel. 0342-708540, Fax 0342-708530), o in alternativa, se la
suddetta sede per qualche ragione dovesse risultare impraticabile, presso la Comunità
Montana di Sondrio, in via Nazario Sauro 33 (Tel. 0342-210332, Fax 0342-210334).
Entrambe queste locazioni dispongono, in condizioni normali, di tutti i mezzi di
telecomunicazione più aggiornati (telefono, fax, e-mail, ecc.).
Tempistiche
Pag. 10 di 15
Servizio Sistemi Informativi
Ricordiamo che, come riportato nello Studio di Fattibilità Tecnica, i servizi offerti dal sistema
sovracomunale SISCoTEL hanno Classe di criticità Media e come Soluzione Tecnologica la
Tier 3, ovvero presentano:
•
Recovery Time Objective (RTO, massimo tempo di indisponibilità del servizio,
ovvero tempo entro il quale il servizio da proteggere deve essere ripristinato)
compreso tra 4 ore e 3 giorni;
• Recovery Point Objective (RPO, perdita dati sostenibile, in termini di distanza
temporale tra il verificarsi dell’emergenza e l’ultimo salvataggio utile e ripristinabile
dei dati) compreso tra 1 e 3 giorni .
Pag. 11 di 15
Servizio Sistemi Informativi
RPO ed RTO
Disastro
RPO Recovery Point Objective
RTO Recovery Time Objective
Pag. 12 di 15
Servizio Sistemi Informativi
3. Comunicazioni
3.1 Soggetti da informare
Nel caso si verificassero eventi di tipo disastroso i soggetti da informare, nel caso specifico
del nostro ente, sono:
•
•
•
•
•
•
•
le amministrazioni comunali facenti parte del SISCoTEL
i tecnici informatici della Ditta TechSYS
i tecnici informatici della Comunità Montana di Sondrio
i sistemisti di PA Digitale
i sistemisti di Maggioli
i tecnici di SeTe
i tecnici di R3 GIS
3.2 Contatti
Interni
• Dott. Giovanni Di Trapani
(Responsabile Settore Territorio e Sistemi Informativi)
Email: [email protected]
Tel: 0342-708516
Cell: 339-3926981
• Dott. Anna Guerri / Dott. Luca Bettini
(Tecnici informatici in loco)
Email: [email protected]
Tel 1: 0342-708540
Tel 2: 0342-708539
Cell: 339-1265996 / 339-8691051
Esterni
• Ditta Techsys s.a.s. di Pozzi Giovanni & C.
(Sistemisti)
Email: [email protected]
Tel: 0342-852521
• Geom. Claudio Terribile
(Sistemista di PA Digitale, referente tecnico per URBI)
Email: [email protected]
Tel: 037-15935403
• Mauro Margolfo
(Tecnico di ZeroGroup, referente tecnico Maggioli)
Email: [email protected]
Tel: 030-2419511
Pag. 13 di 15
Servizio Sistemi Informativi
• Geom. Lorenzo Bertolini
(Responsabile ditta Se Te)
Email: [email protected]
Tel: 0342-200296
• Sergio Segala
(Technical coordinator di R3 GIS)
Email: [email protected]
Tel: 0473-494949
Pag. 14 di 15
Servizio Sistemi Informativi
Indice
1. Introduzione..................................................................................................................... Pag. 2
1.1. Obiettivi ...................................................................................................................... Pag. 2
1.2. Responsabilità ............................................................................................................ Pag. 5
1.3. Esercitazione e manutenzione.................................................................................... Pag. 5
1.4. Aggiornamenti ............................................................................................................ Pag. 5
2. Attivazione del piano ...................................................................................................... Pag. 8
2.1. Dichiarazione di disastro o di incidente....................................................................... Pag. 8
2.2. Valutazione del danno ................................................................................................ Pag. 8
2.3. Procedure di azione e continuità ................................................................................ Pag. 9
2.4. Organizzazione del team e responsabilità ................................................................ Pag. 10
2.5. Comitato di gestione della Crisi ................................................................................ Pag. 10
3. Comunicazioni............................................................................................................... Pag. 13
3.1. Soggetti da informare ............................................................................................... Pag. 13
Pag. 15 di 15