Big Data e Calcolo Parallelo Luigi Roggia Thursday, May 9, 13 Tempi che cambiano... I sistemi informatici di ieri non sono più idonei a gestire le esigenze informative odierne Oggi più che mai è indispensabile ottimizzare tempi, risorse, qualità e strategie Enormi quantità di dati aspettano di essere strutturati ed analizzati per rivelare informazioni ancora non emerse Thursday, May 9, 13 L’invasione dei dati Ogni giorno il mondo in cui viviamo e lavoriamo produce incessantemente dati Esiste una netta differenza tra dati e informazioni: i dati di per sè sono pressochè inutili! Se i dati vengono raccolti ed archiviati senza un metodo adeguato, possono diventare costosi o impossibili da utilizzare in un secondo momento Thursday, May 9, 13 Big data e dati in generale Non esiste una definizione quantitaviva di quando un dataset diventi un large dataset; il termine Big Data è spesso usato impropriamente Per i veri large dataset sono indispensabili le nuove tecnologie nate e studiate appositamente Thursday, May 9, 13 Alcune delle strategie usate per i big data sono utili e convenienti anche per dataset più piccoli Database relazionali e non Esiste molta confusione su cosa sia effettivamente un database e su quanto sia importante un vero database in azienda! Un foglio Excel o un documento Access non rappresentano soluzioni per creare database la struttura logica più stabile, utile, performante e versatile è quella del database relazionale per i big data esistono invece i database non relazionali In alcuni casi un mix di database relazionali e non relazionali rappresenta la soluzione ottimale Thursday, May 9, 13 Database relazionale...? tbd_colore tbd_modello id_colore codice_colore descrizione_colore id_modello codice_modello descrizione_modello 1 K0123 Grigio Argento 1 PT002 Punto 2 S9111 Nero Notte 2 FR001 Freemont 3 L0091 Rosso Fuoco 3 CR004 Croma 4 K0125 Grigio Fucile 4 PD005 Panda tbl_produzione id_produzione id_colore id_modello anno_mese_produzione 1 1 4 201302 2 2 3 201302 3 2 1 201303 4 4 2 201304 Thursday, May 9, 13 Hardware e architettura di sistema Il mondo informatico è irreversibilmente lanciato verso le soluzioni web based, oggi chiamate “cloud” In questo contesto, l’acquisto di “ferro” non ha più molto senso e senz’altro è anti economico Il concetto di cloud è estremamente importante per il trattamento dei big data e offre soluzioni vincenti e strategiche anche per basi dati non necessariamente big Tenere i dati in casa su hardware proprietario, non è più la soluzione sempre corretta e conveniente Thursday, May 9, 13 Problemi dei big data Come gestire il file system Come effettuare il back up o la ridondanza dei dati Come eseguire analisi statistiche Come affrontare l’allestimento hardware Come eseguire ricerche veloci In realtà tutti questi punti possono essere affrontati anche per dataset di dimensioni standard e condurre a grandi ottimizzazioni... Thursday, May 9, 13 Calcolo parallelo e distribuito Thursday, May 9, 13 Calcolo parallelo e distribuito Solitamente questa situazione si verifica nel calcolo scientifico, soprattutto quando si fannno moodelli di sistemi fisici complessi Thursday, May 9, 13 Calcolo parallelo e distribuito Thursday, May 9, 13 Apache Hadoop The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Thursday, May 9, 13 Apache Hadoop Dispone di un file system distribuito, capace di gestire file di dimensioni ingenti Permette di aggiungere e rimuovere macchine al cluster con estrema facilità E’ compatibile con diversi linguaggi di programmazione Gestisce in modo automatico l’utilizzo dei nodi di calcolo Risolve il problema del plateau parallelo Thursday, May 9, 13 Apache Hadoop Thursday, May 9, 13 Data Science La nuova disciplina nata dalla necessità di trasformare i dati in informazioni e le informazioni in fatturato Unisce matematica, informatica, creatività e competenze di settore Il futuro appartiene alle aziende che sapranno sfruttare al meglio i dati Thursday, May 9, 13 Conclusione GMSL Consulting svolge consulenze di Data Science ed è in grado di progettare e realizzare soluzioni per la gestione e l’analisi di big data. www.gmslconsulting.it Thursday, May 9, 13