Come prevenire l’alterazione dei dati nel caso di interruzioni prolungate dell’alimentazione A cura di Ted Ives White Paper n. 10 Revisione 1 Abstract Malgrado i progressi della tecnologia informatica, le interruzioni dell'alimentazione continuano a essere una causa importante di interruzione delle attività di PC e server. La protezione dei computer con gruppi di continuità (Uninterruptible Power Supply; UPS) è solo una parte di una soluzione totale: occorre anche il software per la gestione dell'alimentazione per impedire alterazioni di dati dopo lunghi periodi di black-out. In questo documento si discute di varie configurazioni del software e delle procedure ottimali per assicurare la continuità operativa. 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 2 Premesse Un'interruzione prolungata dell'alimentazione, che si può verificare in qualsiasi momento, può impedire ai computer non protetti di chiudersi corettamente. I sistemi operativi dei PC e dei server non sono progettati per sopportare le interruzioni improvvise di alimentazione; si affidano piuttosto a un insieme di processi interni che preparano il computer all'arresto, quali il salvataggio del contenuto della memoria, la chiusura di applicazioni e servizi, ecc. L'arresto eseguito in questo modo viene spesso definito “ordinato” o “corretto”. Gli arresti improvvisi, invece, possono causare la perdita o l'alterazione dei dati, nonché un rallentamento del tempo di ripristino non appena si ristabilisce l'alimentazione elettrica. Un gruppo di continuità (Uninterruptible Power Supply, UPS) può proteggere il sistema dai danni causati dai blackout e migliorare la disponibilità del server, poiché consente agli utenti di continuare a lavorare durante le interruzioni dell'alimentazione di breve durata. Durante i blackout più prolungati (ovvero quelli che potrebbero superare l'autonomia dell'UPS), il software di arresto UPS di cui può essere dotato il sistema comunica con il gruppo di continuità ed esegue automaticamente un arresto ordinato prima che la batteria dell’UPS si esaurisca. Introduzione Le cause delle interruzioni prolungate dell'alimentazione sono molteplici e vanno dal guasto di un trasformatore locale provocato da un fulmine a interruzioni di servizio del fornitore di energia elettrica. In ogni caso, è necessario prendere provvedimenti per proteggere i sistemi e i dati memorizzati dagli effetti nocivi di un arresto irregolare. Una delle cause della potenziale alterazione dei dati nel caso di un'interruzione prolungata dell'alimentazione è la chiusura anomala delle applicazioni o del sistema operativo mentre è in corso l'elaborazione dei dati. Questa situazione può compromettere documenti, strutture di file system (ad esempio, le tabelle di allocazione dei file, o FAT) o dati dinamici delle applicazioni e, in molti casi, può comportare un aumento del tempo di ripristino non appena si ristabilisce l'alimentazione, dato che il sistema operativo o l'applicazione tentano di ricostruire le FAT alterate. 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 3 Un altro motivo di preoccupazione risiede nell’hard-disk dei computer. Mentre, nel corso dell'ultimo decennio, l'industria ha senz'altro fatto progressi nella tecnologia dei dischi rigidi per prevenire gli arresti anomali o “hard crash” (in cui la testina di lettura/scrittura dell'unità, se non “parcheggiata” correttamente, può “atterrare” sul disco danneggiandone fisicamente la superficie), un altro passo avanti in tale tecnologia ha invece contribuito alla possibilità di alterazione dei dati. Per ottenere prestazioni di livello elevato, i controller dei dischi rigidi spesso sono progettati in modo da sfruttare tecniche di caching che implicano la scrittura temporanea dei dati nella memoria e poi, in un momento successivo, la scrittura dei dati sul disco rigido. Nel caso di interruzioni dell'alimentazione, però, le informazioni presenti nella cache vengono perse e questo può causare l'alterazione dei file o dei dati. Non sono necessarie ricerche approfondite nelle pubblicazioni aziendali e governative per scoprire che, nonostante i progressi tecnologici, l'alterazione dei dati causata da interruzioni dell'alimentazione continua ad essere un problema molto diffuso nell'industria IT. Questa situazione è messa in evidenza dalle seguenti citazioni tratte dal mondo industriale: “Anche un'interruzione di un istante può avere effetti devastanti su clienti particolarmente sensibili ai problemi di alimentazione, quali i fornitori di servizi Internet, i data center, le reti di telecomunicazioni wireless, il commercio on-line, i produttori di microcircuiti per computer e i centri di ricerca medica. In questi casi, le interruzioni dell'alimentazione possono causare l'alterazione dei dati, circuiti bruciati, il danneggiamento di file e, in definitiva, la perdita di clienti. - “Stime del costo delle interruzioni dell'alimentazione elettrica per singole industrie, settori e per l'economia statunitense” Febbraio 2002, U.S. Dept. of Energy Office of Power Technologies (Dipartimento statunitense per l'energia - Ufficio per le tecnologie di alimentazione) “Il mancato riavvio dopo un'interruzione dell'alimentazione è di solito causato da file alterati o da un disco rigido danneggiato; nessuno di questi problemi può essere riparato dall'opzione Ultima configurazione valida.” - “MCSE Microsoft® Windows® XP Professional Readiness Review esame 70-270, sezione 70-270.04.03.002, 28/11/2001 “I guasti totali o “black-out” si traducono nella perdita completa dell'alimentazione elettrica ai sistemi di rete o di elaborazione; questi guasti possono causare arresti anomali dei sistemi e delle reti, blocchi dei PC e l'alterazione di dati critici provenienti da server e workstation.” - “Power Protection Basics” (Principi fondamentali della protezione dell'alimentazione), marzo 2002, Contingency Planning Management Magazine 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 4 “Il sistema e i dati che contiene possono essere alterati da un'interruzione dell'alimentazione... un UPS può proteggere il sistema in caso di blackout. Normalmente un UPS fornisce... un'alimentazione temporanea che può essere sufficiente ad eseguire un arresto ordinato.” - Pubblicazione speciale 800-34 Contingency Planning Guide for Information Technology Systems National Institute of Standards and Technology, giugno 2002 Configurazioni consigliate per il software UPS Configurazione 1: protezione di un singolo computer con un singolo UPS In questa configurazione ogni computer è protetto dal proprio UPS, collegato al computer tramite un cavo seriale o USB. Il software UPS viene installato nel computer per fornire automaticamente un arresto ordinato nel caso di un'interruzione dell'alimentazione di lunga durata. In questo caso l'UPS viene gestito localmente dal computer connesso. Questa è la configurazione più semplice ed è molto diffusa nelle configurazioni distribuite di server e workstation. Figura 1 - Protezione di un singolo computer con un singolo UPS Server con software per UPS Console di gestione UPS Alimentazione elettrica Comunicazione Seriale o USB 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 5 Configurazione 2: protezione di due/tre computer con un singolo UPS In questa configurazione, più computer sono collegati via porta seriale a un UPS più grande (di solito con capacità nominale di 1500 VA o più). Un computer è collegato direttamente alla porta seriale dell'UPS, mentre gli altri due sono collegati a una scheda di espansione installata nell'UPS, che mette a disposizione due porte seriali aggiuntive. In questa situazione, tutti e tre i computer possono essere arrestati in modo ordinato, ma la gestione dell'UPS avviene dal computer collegato direttamente all'UPS stesso. Poiché lo standard USB prevede la comunicazione con un solo sistema, in questa configurazione non è possibile usare connettori USB. Questo schema può essere esteso alla gestione di un massimo di 24 computer (con un collegamento a catena), ma la necessità di cavi supplementari fa sì che APC sconsigli questo approccio. Figura 2 - Protezione di due/tre computer con un singolo UPS Servers con software per UPS Scheda di espansione interfaccia Console di gestione UPS con slot di espansione Alimentazione elettrica Comunicazione Seriale o USB Configurazione 3: protezione di tre o più computer con un singolo UPS Un approccio sempre più diffuso consiste nella gestione diretta dell'UPS attraverso una rete Ethernet. Una scheda di gestione di rete (con un sistema operativo real-time e un watchdog hardware) installata nell'UPS elimina la necessità della gestione basata su server. Un esempio di questa configurazione è l'architettura InfraStruXure APC, che utilizza questo approccio. Il software installato nei computer con questa configurazione deve solo svolgere le funzionalità di arresto, dato che le funzionalità di gestione sono integrate nell'UPS stesso. . 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 6 Figura 3 - Protezione di tre o più computer con un singolo UPS Server con software per UPS Console di gestione Scheda di rete UPS con slot di espansione Alimentazione elettrica Rete dati Diversi tipi di arresto del sistema operativo I sistemi operativi moderni, come Microsoft Windows(r), includono una gestione dell'alimentazione sempre più avanzata, compresi nuovi metodi di arresto. La scelta della soluzione giusta da adottare con il software UPS può ridurre il tempo di ripristino dopo un'interruzione prolungata dell'alimentazione. Arresto Questo è il metodo tradizionale, in cui il sistema operativo riceve un comando di chiusura dal software di arresto UPS e, prima di completare la chiusura, passa attraverso una sequenza di arresto dei processi attivi. In un sistema Windows®, ad esempio, questo corrisponderebbe allo stato del computer in cui appare il messaggio che dà il via libera allo spegnimento. Arresto e spegnimento Questo metodo è simile a quello descritto sopra, ma alla fine del processo il sistema operativo trasmette al computer un comando di spegnimento ed entra in uno stato in cui non vi è più alcun assorbimento di energia. Questo approccio (talvolta chiamato “load shedding” o distacco volontario del carico) può essere utile nella configurazione 2 descritta sopra, in cui un computer può essere arrestato e spento per prolungare l'autonomia degli altri computer. La funzionalità di arresto e spegnimento talvolta richiede un'impostazione del BIOS per permettere la parte relativa allo spegnimento. 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 7 Sospensione La modalità di sospensione (come quella utilizzata nei sistemi operativi Microsoft Windows® più recenti) è simile ai metodi descritti sopra, ma include alcune fasi aggiuntive estremamente utili. 1. Prima viene salvato lo stato del desktop del computer, compresi tutti i file e documenti aperti. Questo viene fatto salvando l’intero contenuto della RAM sul disco rigido, in un file di grandi dimensioni. 2. Poi il sistema viene arrestato e spento. 3. Quando si ristabilisce l'alimentazione e il sistema operativo si riavvia, la RAM viene ricaricata dal disco rigido. 4. Il desktop e tutte le applicazioni e file aperti vengono presentati esattamente come apparivano prima della sospensione. Rispetto ad altri metodi, questa soluzione offre l'importante vantaggio di conservare il lavoro in corso e lo stato della macchina prima del blackout. Per questi motivi, APC consiglia vivamente ai clienti di prendere in considerazione la scelta di questo metodo di arresto per il loro software UPS. Standby Quando un computer entra in modalità “standby” non si spegne completamente, ma viene posto in uno stato in cui alcuni componenti (monitor, schede di I/O, ecc.) sono sottoalimentati. La DRAM continua ad essere aggiornata, ecc. e quando il computer esce dalla modalità “standby” torna molto rapidamente allo stato precedente. Se si seleziona un'impostazione di standby per il proprio computer, è importante accertarsi che l'UPS selezionato possa “risvegliare” il sistema nel caso di un'interruzione prolungata dell'alimentazione, in modo tale che sia possibile avviare un arresto ordinato; in caso contrario, il sistema resta nello stato di standby fino a quando l'UPS non si è completamente scaricato, dopo di che il sistema viene disalimentato (con un arresto improvviso). Prassi ottimali √ Acquistare un UPS con un'autonomia prolungata e/o un generatore La quantità di dati standardizzati sull'affidabilità dell'alimentazione CA è molto limitata. Negli Stati Uniti, tuttavia, sono state condotte due importanti indagini sull'affidabilità dell'alimentazione CA: una a cura di AT&T Bell Labs e l'altra di IBM. Inoltre, con circa 8 milioni di sistemi UPS installati, molti dei quali sono in grado di registrare i problemi di alimentazione, anche APC ha accumulato una certa esperienza. I dati delle indagini citate concordano con l'esperienza di APC ed evidenziano i seguenti punti essenziali. In una situazione tipica, la media annuale delle interruzioni dell'alimentazione sufficienti a causare problemi di funzionamento dei sistemi informatici si aggira intorno a 15: • il 90% dei blackout ha una durata inferiore a 5 minuti (mentre il 10% supera i 5 minuti) • il 99% delle interruzioni ha una durata inferiore a un'ora (mentre l'1% supera l'ora) • la durata totale cumulativa delle interruzioni dell'alimentazione è di circa 100 minuti all'anno 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 8 Questi dati variano molto da un luogo all'altro e in molte aree geografiche degli Stati Uniti (ad esempio, la Florida) la percentuale di interruzioni dell'alimentazione è superiore di un ordine di grandezza. Anche problemi specifici legati alla costruzione possono far aumentare la percentuale fino a 3 ordini di grandezza. Si ritiene che questi dati siano rappresentativi anche per il Giappone e l'Europa occidentale. Poiché il 10% delle interruzioni supera i 5 minuti e l'1% supera l'ora, quando il costo dell'interruzione delle attività è alto è il caso di considerare seriamente l'acquisto di un UPS con un'autonomia prolungata e/o un generatore. √ Proteggere i dispositivi di rete con UPS Le applicazioni sono disponibili solo nella misura in cui lo è la rete attraverso la quale vi si accede. La protezione dell'alimentazione per hub, router e switch è un fattore essenziale, ma spesso trascurato, per garantire la disponibilità delle applicazioni. Inoltre, se i computer eseguono software di arresto UPS come quello della configurazione 3 illustrata sopra, tale software, per poter comunicare correttamente, richiede che la rete sia in funzione durante l'interruzione dell'alimentazione. Se la rete non è protetta, non verrà eseguito l'arresto ordinato del computer. √ Identificare i requisiti di tempo di ogni singolo computer per l'arresto Il tempo richiesto per una chiusura corretta del sistema operativo varia da sistema a sistema; alcuni server di posta elettronica con molti account, ad esempio, possono richiedere addirittura 20 minuti. Occorre quindi accertarsi che le impostazioni del software UPS tengano conto delle esigenze specifiche di ciascun computer e che siano definite correttamente. Conclusione Se nel computer protetto non è installato il software di arresto, la funzione effettiva dell'UPS è semplicemente quella di ritardare l'inevitabile. Indipendentemente dalla configurazione, dalle prassi ottimali e dal software UPS specifico utilizzato, APC consiglia vivamente ai clienti di non trascurare questo requisito; il piccolo sforzo richiesto per installare e configurare questo software sarà ampiamente ripagato nel caso in cui un'interruzione prolungata dell'alimentazione superi l'autonomia dell'UPS. 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 9 Bibliografia Monitoring of Computer Installations for power line disturbances (Monitoraggio delle installazioni di computer per quanto riguarda i disturbi della linea di alimentazione), Allen e Segall, IBM, conferenza invernale IEEE PES, 1974. Uno studio condotto dal 1969 al 1970 elaborando i dati di 38 mesi di monitoraggio The Quality of US Commercial AC Power (La qualità dell'alimentazione CA commerciale negli Stati Uniti), Goldstein e Speranza, ATT Bell Labs, conferenza Intellec, 1982 Uno studio condotto dal 1977 al 1979 in 24 località negli USA Power Quality Site Surveys: Facts, Fiction, and Fallacies (Indagini sulla qualità dell'alimentazione eseguite sul posto: fatti, invenzioni e false convinzioni), Martzloff, IEEE Transactions on Industry Applications, Vol 24, n. 6 Informazioni sull'autore Ted Ives è Product Line Manager per la gestione delle periferiche presso la sede APC di West Kingston ed è responsabile delle schede di gestione di rete e del software PowerChute di APC. 2004 American Power Conversion. Tutti i diritti riservati. È vietato utilizzare, riprodurre, fotocopiare, trasmettere o memorizzare in qualsiasi sistema di recupero di qualsiasi natura ogni parte della presente pubblicazione in assenza di autorizzazione scritta concessa dal proprietario del copyright. www.apc.com Rev 2004-1 10