Come prevenire l`alterazione dei dati nel caso di interruzioni

Come prevenire
l’alterazione dei dati nel
caso di interruzioni
prolungate
dell’alimentazione
A cura di Ted Ives
White Paper n. 10
Revisione 1
Abstract
Malgrado i progressi della tecnologia informatica, le interruzioni dell'alimentazione
continuano a essere una causa importante di interruzione delle attività di PC e server.
La protezione dei computer con gruppi di continuità (Uninterruptible Power Supply; UPS)
è solo una parte di una soluzione totale: occorre anche il software per la gestione
dell'alimentazione per impedire alterazioni di dati dopo lunghi periodi di black-out. In questo
documento si discute di varie configurazioni del software e delle procedure ottimali per
assicurare la continuità operativa.
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
2
Premesse
Un'interruzione prolungata dell'alimentazione, che si può verificare in qualsiasi momento, può impedire ai
computer non protetti di chiudersi corettamente. I sistemi operativi dei PC e dei server non sono progettati
per sopportare le interruzioni improvvise di alimentazione; si affidano piuttosto a un insieme di processi
interni che preparano il computer all'arresto, quali il salvataggio del contenuto della memoria, la chiusura
di applicazioni e servizi, ecc. L'arresto eseguito in questo modo viene spesso definito “ordinato” o “corretto”.
Gli arresti improvvisi, invece, possono causare la perdita o l'alterazione dei dati, nonché un rallentamento
del tempo di ripristino non appena si ristabilisce l'alimentazione elettrica.
Un gruppo di continuità (Uninterruptible Power Supply, UPS) può proteggere il sistema dai danni causati dai
blackout e migliorare la disponibilità del server, poiché consente agli utenti di continuare a lavorare durante
le interruzioni dell'alimentazione di breve durata. Durante i blackout più prolungati (ovvero quelli che
potrebbero superare l'autonomia dell'UPS), il software di arresto UPS di cui può essere dotato il sistema
comunica con il gruppo di continuità ed esegue automaticamente un arresto ordinato prima che la batteria
dell’UPS si esaurisca.
Introduzione
Le cause delle interruzioni prolungate dell'alimentazione sono molteplici e vanno dal guasto di un
trasformatore locale provocato da un fulmine a interruzioni di servizio del fornitore di energia elettrica. In ogni
caso, è necessario prendere provvedimenti per proteggere i sistemi e i dati memorizzati dagli effetti nocivi
di un arresto irregolare. Una delle cause della potenziale alterazione dei dati nel caso di un'interruzione
prolungata dell'alimentazione è la chiusura anomala delle applicazioni o del sistema operativo mentre
è in corso l'elaborazione dei dati. Questa situazione può compromettere documenti, strutture di file system
(ad esempio, le tabelle di allocazione dei file, o FAT) o dati dinamici delle applicazioni e, in molti casi, può
comportare un aumento del tempo di ripristino non appena si ristabilisce l'alimentazione, dato che il sistema
operativo o l'applicazione tentano di ricostruire le FAT alterate.
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
3
Un altro motivo di preoccupazione risiede nell’hard-disk dei computer. Mentre, nel corso dell'ultimo
decennio, l'industria ha senz'altro fatto progressi nella tecnologia dei dischi rigidi per prevenire gli arresti
anomali o “hard crash” (in cui la testina di lettura/scrittura dell'unità, se non “parcheggiata” correttamente,
può “atterrare” sul disco danneggiandone fisicamente la superficie), un altro passo avanti in tale tecnologia
ha invece contribuito alla possibilità di alterazione dei dati. Per ottenere prestazioni di livello elevato,
i controller dei dischi rigidi spesso sono progettati in modo da sfruttare tecniche di caching che implicano
la scrittura temporanea dei dati nella memoria e poi, in un momento successivo, la scrittura dei dati sul
disco rigido. Nel caso di interruzioni dell'alimentazione, però, le informazioni presenti nella cache vengono
perse e questo può causare l'alterazione dei file o dei dati.
Non sono necessarie ricerche approfondite nelle pubblicazioni aziendali e governative per scoprire che,
nonostante i progressi tecnologici, l'alterazione dei dati causata da interruzioni dell'alimentazione continua
ad essere un problema molto diffuso nell'industria IT. Questa situazione è messa in evidenza dalle seguenti
citazioni tratte dal mondo industriale:
“Anche un'interruzione di un istante può avere effetti devastanti su clienti particolarmente sensibili ai
problemi di alimentazione, quali i fornitori di servizi Internet, i data center, le reti di telecomunicazioni
wireless, il commercio on-line, i produttori di microcircuiti per computer e i centri di ricerca medica. In
questi casi, le interruzioni dell'alimentazione possono causare l'alterazione dei dati, circuiti bruciati,
il danneggiamento di file e, in definitiva, la perdita di clienti.
- “Stime del costo delle interruzioni dell'alimentazione elettrica per singole industrie, settori e per
l'economia statunitense”
Febbraio 2002, U.S. Dept. of Energy Office of Power Technologies (Dipartimento statunitense per
l'energia - Ufficio per le tecnologie di alimentazione)
“Il mancato riavvio dopo un'interruzione dell'alimentazione è di solito causato da file alterati
o da un disco rigido danneggiato; nessuno di questi problemi può essere riparato dall'opzione Ultima
configurazione valida.”
- “MCSE Microsoft® Windows® XP Professional Readiness Review
esame 70-270, sezione 70-270.04.03.002, 28/11/2001
“I guasti totali o “black-out” si traducono nella perdita completa dell'alimentazione elettrica ai sistemi di
rete o di elaborazione; questi guasti possono causare arresti anomali dei sistemi e delle reti, blocchi dei
PC e l'alterazione di dati critici provenienti da server e workstation.”
- “Power Protection Basics” (Principi fondamentali della protezione dell'alimentazione), marzo 2002,
Contingency Planning Management Magazine
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
4
“Il sistema e i dati che contiene possono essere alterati da un'interruzione dell'alimentazione... un
UPS può proteggere il sistema in caso di blackout. Normalmente un UPS fornisce... un'alimentazione
temporanea che può essere sufficiente ad eseguire un arresto ordinato.”
- Pubblicazione speciale 800-34 Contingency Planning Guide for Information Technology Systems
National Institute of Standards and Technology, giugno 2002
Configurazioni consigliate per il software UPS
Configurazione 1: protezione di un singolo computer con un singolo UPS
In questa configurazione ogni computer è protetto dal proprio UPS, collegato al computer tramite un cavo
seriale o USB. Il software UPS viene installato nel computer per fornire automaticamente un arresto ordinato
nel caso di un'interruzione dell'alimentazione di lunga durata. In questo caso l'UPS viene gestito localmente
dal computer connesso. Questa è la configurazione più semplice ed è molto diffusa nelle configurazioni
distribuite di server e workstation.
Figura 1 - Protezione di un singolo computer con un singolo UPS
Server con
software per UPS
Console di
gestione
UPS
Alimentazione elettrica
Comunicazione Seriale o USB
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
5
Configurazione 2: protezione di due/tre computer con un singolo UPS
In questa configurazione, più computer sono collegati via porta seriale a un UPS più grande (di solito
con capacità nominale di 1500 VA o più). Un computer è collegato direttamente alla porta seriale dell'UPS,
mentre gli altri due sono collegati a una scheda di espansione installata nell'UPS, che mette a disposizione
due porte seriali aggiuntive. In questa situazione, tutti e tre i computer possono essere arrestati in modo
ordinato, ma la gestione dell'UPS avviene dal computer collegato direttamente all'UPS stesso. Poiché lo
standard USB prevede la comunicazione con un solo sistema, in questa configurazione non è possibile
usare connettori USB. Questo schema può essere esteso alla gestione di un massimo di 24 computer
(con un collegamento a catena), ma la necessità di cavi supplementari fa sì che APC sconsigli questo
approccio.
Figura 2 - Protezione di due/tre computer con un singolo UPS
Servers con software per UPS
Scheda di
espansione
interfaccia
Console di
gestione
UPS con slot di espansione
Alimentazione elettrica
Comunicazione Seriale o USB
Configurazione 3: protezione di tre o più computer con un singolo UPS
Un approccio sempre più diffuso consiste nella gestione diretta dell'UPS attraverso una rete Ethernet.
Una scheda di gestione di rete (con un sistema operativo real-time e un watchdog hardware) installata
nell'UPS elimina la necessità della gestione basata su server. Un esempio di questa configurazione
è l'architettura InfraStruXure APC, che utilizza questo approccio. Il software installato nei computer con
questa configurazione deve solo svolgere le funzionalità di arresto, dato che le funzionalità di gestione
sono integrate nell'UPS stesso.
.
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
6
Figura 3 - Protezione di tre o più computer con un singolo UPS
Server con software per UPS
Console di
gestione
Scheda di rete
UPS con slot di espansione
Alimentazione elettrica
Rete dati
Diversi tipi di arresto del sistema operativo
I sistemi operativi moderni, come Microsoft Windows(r), includono una gestione dell'alimentazione sempre
più avanzata, compresi nuovi metodi di arresto. La scelta della soluzione giusta da adottare con il software
UPS può ridurre il tempo di ripristino dopo un'interruzione prolungata dell'alimentazione.
Arresto
Questo è il metodo tradizionale, in cui il sistema operativo riceve un comando di chiusura dal software di
arresto UPS e, prima di completare la chiusura, passa attraverso una sequenza di arresto dei processi attivi.
In un sistema Windows®, ad esempio, questo corrisponderebbe allo stato del computer in cui appare il
messaggio che dà il via libera allo spegnimento.
Arresto e spegnimento
Questo metodo è simile a quello descritto sopra, ma alla fine del processo il sistema operativo trasmette
al computer un comando di spegnimento ed entra in uno stato in cui non vi è più alcun assorbimento di
energia. Questo approccio (talvolta chiamato “load shedding” o distacco volontario del carico) può essere
utile nella configurazione 2 descritta sopra, in cui un computer può essere arrestato e spento per prolungare
l'autonomia degli altri computer. La funzionalità di arresto e spegnimento talvolta richiede un'impostazione
del BIOS per permettere la parte relativa allo spegnimento.
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
7
Sospensione
La modalità di sospensione (come quella utilizzata nei sistemi operativi Microsoft Windows® più recenti)
è simile ai metodi descritti sopra, ma include alcune fasi aggiuntive estremamente utili.
1.
Prima viene salvato lo stato del desktop del computer, compresi tutti i file e documenti aperti.
Questo viene fatto salvando l’intero contenuto della RAM sul disco rigido, in un file di grandi
dimensioni.
2.
Poi il sistema viene arrestato e spento.
3.
Quando si ristabilisce l'alimentazione e il sistema operativo si riavvia, la RAM viene ricaricata dal
disco rigido.
4.
Il desktop e tutte le applicazioni e file aperti vengono presentati esattamente come apparivano
prima della sospensione.
Rispetto ad altri metodi, questa soluzione offre l'importante vantaggio di conservare il lavoro in corso e lo
stato della macchina prima del blackout. Per questi motivi, APC consiglia vivamente ai clienti di prendere in
considerazione la scelta di questo metodo di arresto per il loro software UPS.
Standby
Quando un computer entra in modalità “standby” non si spegne completamente, ma viene posto in uno stato
in cui alcuni componenti (monitor, schede di I/O, ecc.) sono sottoalimentati. La DRAM continua ad essere
aggiornata, ecc. e quando il computer esce dalla modalità “standby” torna molto rapidamente allo stato
precedente. Se si seleziona un'impostazione di standby per il proprio computer, è importante accertarsi che
l'UPS selezionato possa “risvegliare” il sistema nel caso di un'interruzione prolungata dell'alimentazione, in
modo tale che sia possibile avviare un arresto ordinato; in caso contrario, il sistema resta nello stato di
standby fino a quando l'UPS non si è completamente scaricato, dopo di che il sistema viene disalimentato
(con un arresto improvviso).
Prassi ottimali
√ Acquistare un UPS con un'autonomia prolungata e/o un generatore
La quantità di dati standardizzati sull'affidabilità dell'alimentazione CA è molto limitata. Negli Stati Uniti,
tuttavia, sono state condotte due importanti indagini sull'affidabilità dell'alimentazione CA: una a cura di
AT&T Bell Labs e l'altra di IBM. Inoltre, con circa 8 milioni di sistemi UPS installati, molti dei quali sono in
grado di registrare i problemi di alimentazione, anche APC ha accumulato una certa esperienza. I dati delle
indagini citate concordano con l'esperienza di APC ed evidenziano i seguenti punti essenziali.
In una situazione tipica, la media annuale delle interruzioni dell'alimentazione sufficienti a causare problemi
di funzionamento dei sistemi informatici si aggira intorno a 15:
•
il 90% dei blackout ha una durata inferiore a 5 minuti (mentre il 10% supera i 5 minuti)
•
il 99% delle interruzioni ha una durata inferiore a un'ora (mentre l'1% supera l'ora)
•
la durata totale cumulativa delle interruzioni dell'alimentazione è di circa 100 minuti all'anno
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
8
Questi dati variano molto da un luogo all'altro e in molte aree geografiche degli Stati Uniti (ad esempio, la
Florida) la percentuale di interruzioni dell'alimentazione è superiore di un ordine di grandezza. Anche
problemi specifici legati alla costruzione possono far aumentare la percentuale fino a 3 ordini di grandezza.
Si ritiene che questi dati siano rappresentativi anche per il Giappone e l'Europa occidentale.
Poiché il 10% delle interruzioni supera i 5 minuti e l'1% supera l'ora, quando il costo dell'interruzione delle
attività è alto è il caso di considerare seriamente l'acquisto di un UPS con un'autonomia prolungata e/o un
generatore.
√ Proteggere i dispositivi di rete con UPS
Le applicazioni sono disponibili solo nella misura in cui lo è la rete attraverso la quale vi si accede. La
protezione dell'alimentazione per hub, router e switch è un fattore essenziale, ma spesso trascurato, per
garantire la disponibilità delle applicazioni. Inoltre, se i computer eseguono software di arresto UPS come
quello della configurazione 3 illustrata sopra, tale software, per poter comunicare correttamente, richiede che
la rete sia in funzione durante l'interruzione dell'alimentazione. Se la rete non è protetta, non verrà eseguito
l'arresto ordinato del computer.
√ Identificare i requisiti di tempo di ogni singolo computer per l'arresto
Il tempo richiesto per una chiusura corretta del sistema operativo varia da sistema a sistema; alcuni server
di posta elettronica con molti account, ad esempio, possono richiedere addirittura 20 minuti. Occorre quindi
accertarsi che le impostazioni del software UPS tengano conto delle esigenze specifiche di ciascun
computer e che siano definite correttamente.
Conclusione
Se nel computer protetto non è installato il software di arresto, la funzione effettiva dell'UPS è
semplicemente quella di ritardare l'inevitabile. Indipendentemente dalla configurazione, dalle prassi ottimali
e dal software UPS specifico utilizzato, APC consiglia vivamente ai clienti di non trascurare questo requisito;
il piccolo sforzo richiesto per installare e configurare questo software sarà ampiamente ripagato nel caso in
cui un'interruzione prolungata dell'alimentazione superi l'autonomia dell'UPS.
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
9
Bibliografia
Monitoring of Computer Installations for power line disturbances (Monitoraggio delle installazioni di computer
per quanto riguarda i disturbi della linea di alimentazione), Allen e Segall, IBM, conferenza invernale IEEE
PES, 1974.
Uno studio condotto dal 1969 al 1970 elaborando i dati di 38 mesi di monitoraggio
The Quality of US Commercial AC Power (La qualità dell'alimentazione CA commerciale negli Stati Uniti),
Goldstein e Speranza, ATT Bell Labs, conferenza Intellec, 1982
Uno studio condotto dal 1977 al 1979 in 24 località negli USA
Power Quality Site Surveys: Facts, Fiction, and Fallacies (Indagini sulla qualità dell'alimentazione eseguite
sul posto: fatti, invenzioni e false convinzioni), Martzloff, IEEE Transactions on Industry Applications,
Vol 24, n. 6
Informazioni sull'autore
Ted Ives è Product Line Manager per la gestione delle periferiche presso la sede APC di West Kingston ed
è responsabile delle schede di gestione di rete e del software PowerChute di APC.
2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi
sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario
del copyright. www.apc.com
Rev 2004-1
10