TECNOLOGIE 16 COMPUTERWORLD ITALIA 1 dicembre 2008 Deduplica: una nuova frontiera per risparmio e cura dell’ambiente Una tecnica che consente di risparmiare grandi quantità di storage negli ambienti virtualizzati ■ DI ROBERTO PATANO* Fare business costa ogni giorno di più e, se consideriamo la parte informatica, è da tempo che le imprese sono alla ricerca di soluzioni per ridurre l’overhead della struttura e per consolidare le risorse in un singolo ambiente, che sia più facile da gestire. L’ammontare delle informazioni e dei dati in molte organizzazioni raddoppia ogni anno e lo storage è diventato una risorsa fondamentale per vincere sui mercati moderni. Inoltre, con l’avvento dell’era della virtualizzazione, il bisogno e la richiesta di storage è aumentata fortemente, in quanto la virtualizzazione non fa altro che “condensare” i server in nient’altro che in alcuni grossi file che agiscono esattamente come i server su cui sono basati. Ecco quindi che la deduplica (qualche vendor la chiama anche deduplicazione, ndr) insieme ad altre funzionalità come RAIDDP, thin provisioning e snapshot, consente ai clienti di risparmiare grandi quantità di storage negli ambienti virtualizzati, permettendo loro di fare più cose con meno risorse. storage Cos’è la deduplica? La deduplica dei dati è una tecnologia che si è recentemente imposto all’attenzione e che è essenziale per riuscire a controllare la proliferazione dei dati. Le unità disco UNIX o Windows contengono migliaia, se non milioni di dati duplicati, a seconda dell’ampiezza degli archivi: infatti man mano che i dati vengono creati, distribuiti, sottoposti a backup, essi ven- gono duplicati e memorizzati senza interruzione in tutti i livelli di storage, portando come risultato finale a un utilizzo inefficiente delle risorse disco. Situazione che ha anche un risvolto poco rispettoso dell’ambiente, visto che un maggior numero di dischi, significa più energia per farli funzionare e più condizionamento per tenere la temperatura del data center nella fascia corretta. La deduplica elimina i dati ridondanti e fa riferimento unicamente all’oggetto originale, garantendo un vantaggio immediato in termini di spazio e migliorando l’efficienza, dato che identifica i blocchi di dati identici e li sostituisce con riferimenti ad un solo blocco condiviso (vedi figura in alto). Un aspetto importante è che lo stesso blocco di dati può appartenere a diversi file, oppure può apparire ripetutamente nello stesso file. Non importa: per un buon sistema di deduplica Non importa quante copie esistano di un determinato blocco di dati e dove esse siano. Con la deduplica il sistema ne terrà una sola. tutto questo non è un problema. Al verificarsi della situazione di uguaglianza, il sistema sostituisce al blocco ripetuto il puntatore alla posizione dove risiede l’unico blocco memorizzato, ottenendo immediatamente un beneficio in termini di risparmio di risorse al quale si sommano altri due elementi positivi: - riduzione dei costi di memorizzazione dati, grazie alla minor quantità di spazio necessario o agli intervalli più lunghi per gli upgrade di capacità; - vantaggi gestionali, con la possibilità di mettere “più dati” per ogni unità di memoria o di tenere online i dati per periodi più lunghi. Quali caratteristiche? Indipendentemente dalle scelte tecnologiche adottate dai fornitori, perché un sistema di deduplica sia veramente funzionale e utile per le aziende utenti deve soddisfare alcuni elementi: up to date Il CRM analitico per il vantaggio competitivo ANDREA BOSIO* liste elettorali o il pubblico registro automobilistico. L’ Consolidare i dati sui clienti La costruzione e l’alimentazione del Customer Database è cruciale perché mira a creare la migliore rappresentazione della propria clientela. A tal fine, sono essenziali le tecniche di pulizia e di analisi della qualità dei dati. Si utilizzano strumenti per la normalizzazione degli indirizzi, con cui è possibile ricondurre ad una forma comune indirizzi scritti in formati molto differenti: ad esempio Piazza Carlina, Piazza Carlo Emanuele II, P. C. Emanuele sono modi differenti per identificare una stessa piazza di Torino. Riconoscere gli indirizzi è fondamentale per molteplici attività, tra cui effettuare attività di mailing oppure per identificare i clienti che abitano in una determinata area geografica. L’Identity Resolution è il passo successivo alla normalizzazione dei dati, con cui si cerca di identificare il cliente. Questo tema è fondamentale per evitare di censire più volte uno stesso cliente nel Customer Database, come efficacia dell’offerta di un’azienda dipende in modo sostanziale da quanto il prodotto o il servizio offerto corrisponde alle esigenze di mercato. Gli strumenti di CRM Analitico permettono di conoscere e analizzare il comportamento dei consumatori, per costruire un’offerta che sia il più vicina possibile alle esigenze di ciascun potenziale cliente. L’implementazione di un sistema di CRM Analitico comporta l’integrazione di sottosistemi molto differenti. L’elemento fondamentale è il Customer Database, ovvero il database in cui si raccolgono tutte le informazioni ritenute significative sui clienti: dati anagrafici, dati socio-demografici, la storia degli acquisti, le relazioni con altri clienti. Queste informazioni vengono integrate a partire da tutti i sistemi aziendali: sistemi di gestione degli ordini, ERP, Call Center, siti web promozionali. Il Customer Database può essere arricchito anche con fonti dati esterne, come gli elenchi telefonici, le nel caso in cui su sistemi differenti il cliente sia stato censito in modo impreciso e incompleto. Un caso emblematico può essere quello di due parenti, omonimi, che vivono in uno stesso palazzo. Un sistema di Identity Resolution poco raffinato potrebbe utilizzare solamente l’uguaglianza di nome, cognome e indirizzo per identificare in questo caso un medesimo cliente, perdendo così informazioni importanti. Il primo cliente può essere Mario Rossi, che ha 72 anni e possiede un cellulare che usa raramente, e l’altro può essere Mario Rossi, che ha 25 anni e acquista ogni sei mesi l’ultimo modello di cellulare. Per una società di telefonia perdere questa differenza può voler dire perdere la distinzione tra due clienti a cui sarà opportuno rivolgersi utilizzando strategie differenti. Per il problema dell’Identity Resolution si usano un insieme di caratteristiche (numeri di telefono, codice fiscale, partita IVA, targa del veicolo posseduto, etc.) che pesate in maniera adeguata per ogni specifica realtà permettono di identificare che informazioni differenti sono riferite allo stesso cliente. Oltre agli strumenti per costruire e mantenere aggiornato il Customer Database, i sistemi di CRM Analitico incorporano le applicazioni che permettono di utilizzare al meglio le TECNOLOGIE 17 COMPUTERWORLD ITALIA 1 dicembre 2008 - utilizzare minime risorse di sistema, in modo che qualunque tipo di dato (che sia primario, secondario oppure di archivio) possa essere deduplicato senza impatto sulle attività del database; - consentire di programmare la deduplica nei momenti non di picco dell’attività, così che le applicazioni possano garantire prestazioni elevate pur in presenza di un forte risparmio di capacità storage; - essere facile da installare e semplice da utilizzare, oltre che consentire all’utente di scegliere in assoluta libertà quali dischi, LUN o volumi deduplicare. E consentire anche l’operazione inversa, qualora l’utente cambi idea o abbia necessità diverse; - possedere un ampio set di strumenti di gestione e controllo, per esempio per valutare quali set di dati possono dare i migliori risultati prima di effettuare la deduplica; - eseguire una validazione totale (byte per byte) prima di rimuovere ogni dato duplicato, per la massima garanzia e tranquillità. [CWI] * Business Development Manager NetApp Italia Sempre più sofisticati gli attacchi alle reti Il quarto rapporto annuale di Arbor Networks sulla sicurezza delle infrastrutture IT mondiali Secondo un rapporto pubblicato a metà novembre da Arbor Networks nel corso dell’ultimo anno gli eventi ostili contro le reti si sono moltiplicati ad un ritmo vertiginoso. Il quarto rapporto annuale sulla sicurezza delle infrastrutture IT mondiali di Arbor, che riunisce le risposte di quasi 70 operatori delle reti IP di Nord America, Sud America, Europa e Asia, si pone come obiettivo la divulgazione di dati utili agli operatori delle reti affinché possano prendere decisioni corrette riguardo l’utilizzo della tecnologia per la sicurezza delle reti al fine di proteggere le loro infrastrutture sensibili. gli attacchi meno estesi e più pericolosi – tra cui gli attacchi a livello di servizio e di applicazione, DNS poisoning e Route Hijacking – sono molto più difficili da contrastare degli attacchi di maggiore portata e possono provocare l’interruzione del servizio di rete o generare ulteriori danni. “Gli attacchi a livello applicativo sono più difficili da rilevare degli attacchi di saturazione”, rileva Danny McPherson, Chief Security Officer di Arbor Networks. “I provider devono sviluppare una profonda conoscenza delle applicazioni e dei servizi IP – come DNS, HTTP, VoIP, IM e P2P – per poter identificare e quindi mitigare tali attacchi. Per raggiungere tale obiettivo, gli ISP oggi devono essere in grado di rilevare e rimuovere chirurgicamente solo il traffico ostile senza alterare il traffico legittimo – garantendo sicurezza Attacchi in aumento Oltre al significativo aumento numerico degli attacchi portati contro le infrastrutture delle reti, il rapporto di quest’anno ha evidenziato che informazioni che si è riusciti a consolidare, in primis le funzionalità di segmentazione, con cui il Marketing può costruire elenchi di potenziali clienti accomunati da una serie di caratteristiche. Come sfruttare le informazioni acquisite Ad esempio, il sistema di CRM Analitico di una società automobilistica potrebbe essere utilizzato per estrarre una lista dei potenziali clienti maschi, tra i 35 e 40 anni, single, che abbiano acquistato automobili del segmento B, che abitano in una determinata zona, per invitarli a un test drive del nuovo modello spider presso la concessionaria a loro più vicina. Per avere una gestione globale delle relazioni con il cliente, i sistemi di CRM Analitico includono anche funzionalità di Campaign Management, attraverso cui è possibile definire campagne di marketing su un target di potenziali clienti e misurarne l’efficacia. I sistemi di CRM Analitico moderni incorporano anche funzionalità di Customer Intelligence, ovvero funzionalità di Business Intelligence mirate a conoscere il comportamento del mercato e a massimizzare la fedeltà degli utenti. Il Customer Database si presta anche ad attività di Data Mining poiché è la migliore rappresentazione del mercato in azienda. Attraverso algoritmi elaborati di analisi è possibile, così il massimo livello di soddisfazione dei clienti”. Gli attacchi che mirano a rendere indisponibile una rete agli utenti legittimi – gli attacchi DDoS (Distributed Denial of Service) – l’anno scorso sono stati dell’ordine di 40 gigabit. Gli attacchi più grandi rilevati nel corso degli ultimi due anni sono stati rispettivamente dell’ordine di 24 Gbps (gigabit al secondo) e di 17 Gbps, pari ad un aumento del 67% per quanto riguarda la portata degli attacchi rispetto all’anno scorso, un incremento di quasi 2,5 volte rispetto all’attacco più grande segnalato nel 2006 e un aumento di ben 100 volte rispetto al 2001. Inoltre, il 36% degli interpellati lo scorso anno ha riportato di aver osservato attacchi superiori a 1 Gbps. Quest’anno il numero degli intervistati che ha segnalato l’osservazione di attacchi di 1 gigabit al secondo o superiori è quasi raddoppiato. “Le dimensioni degli attacchi crescono ben più velocemente degli investimenti in velocità di trasmissione e in infrastrutture”, afferma McPherson. “E mentre la maggior parte degli ISP ora è dotata dell’infrastruttura necessaria per rilevare infatti, effettuare previsioni sul comportamento del mercato a seguito di determinati eventi. Infine il CRM Analitico può essere uno strumento molto utile a supporto del CRM Operativo, del Call Center, a cui può fornire le migliori informazioni sul cliente che interagisce con l’azienda, per aumentare l’efficacia delle chiamate. I sistemi di CRM Analitico sono sistemi molto complessi e articolati e che dipendono innanzitutto da fattori non tecnologici, ma strategici. Il tipo di prodotto o servizio che un’azienda offre può comportare implementazioni differenti: ad esempio gli elementi determinanti per conoscere un cliente per una società finanziaria saranno sicuramente molto diversi da quelli utili a una società che costruisce macchine agricole. La nazione in cui si va ad implementare il sistema è anche determinante, ad esempio per la scelta del software di normalizzazione degli indirizzi: in Giappone non esistono i nomi delle vie, mentre a Bruxelles tutte le vie sono censite sia in francese che fiammingo. Un pacchetto software di CRM Analitico che vada bene in tutte le realtà non è fattibile. D’altro canto una soluzione studiata attentamente per una determinata realtà può fornire invece un evidente vantaggio per conquistare un mercato. * Senior Consultant, Technology Reply Arbor Networks Arbor Networks fornisce servizi per la sicurezza di rete core-to-core e le prestazioni operative per le reti aziendali globali. Le soluzioni NBA (Network Behavioral Analysis) di Arbor sono costruite sulla piattaforma Arbor Peakflow, per garantire visualizzazioni in tempo reale delle attività di rete che consentono alle organizzazioni di proteggersi immediatamente da worm, attacchi DDoS, abuso interno, instabilità di traffico e routing, nonché di suddividere in segmenti e rafforzare le reti in vista di future minacce. gli attacchi di saturazione di banda, molti sono ancora quelli che non hanno la capacità di mitigarli in tempi rapidi”. VoIP e IPv6 minacce emergenti Sebbene le infrastrutture delle reti siano oggi costantemente sotto attacco da parte di diversi vettori, nel corso degli ultimi 12 mesi sono ancora bot e botnet a preoccupare maggiormente gli operatori delle reti. Le botnet (26%) continuano ad essere i principali vettori di problemi per gli operatori delle reti e i tecnici della sicurezza, seguiti a ruota dal DNS cache poisoning (23%) e dal BGP Route Hijacking (15%). Il sondaggio ha inoltre chiesto ai provider di indicare quali potessero essere le nuove minacce per il prossimo anno. Il 55% degli intervistati ha affermato che la portata e la frequenza delle minacce alla sicurezza tramite IPv6 tenderanno ad aumentare con la maggiore diffusione di tale protocollo, mentre solo l’8% degli intervistati ritiene che le minacce si ridurranno con una migliore distribuzione di IPv6. Dallo studio emerge che, i provider sono scarsamente preparati a proteggere dagli attacchi l’infrastruttura VoIP. Solo il 21% degli intervistati da Arbor Networks ha ammesso infine di disporre degli strumenti adeguati per rilevare le minacce contro i servizi o l’infrastruttura VoIP. [CWI]