Big Data e Calcolo Parallelo
Luigi Roggia
Thursday, May 9, 13
Tempi che cambiano...
I sistemi informatici di ieri non sono più idonei a gestire le esigenze
informative odierne
Oggi più che mai è indispensabile ottimizzare tempi, risorse, qualità
e strategie
Enormi quantità di dati aspettano di essere strutturati ed analizzati
per rivelare informazioni ancora non emerse
Thursday, May 9, 13
L’invasione dei dati
Ogni giorno il mondo in cui
viviamo e lavoriamo produce
incessantemente dati
Esiste una netta differenza tra
dati e informazioni: i dati di
per sè sono pressochè inutili!
Se i dati vengono raccolti ed archiviati senza un metodo
adeguato, possono diventare costosi o impossibili da
utilizzare in un secondo momento
Thursday, May 9, 13
Big data e dati in generale
Non esiste una definizione quantitaviva di quando un dataset diventi
un large dataset; il termine Big Data è spesso usato impropriamente
Per i veri large dataset sono
indispensabili le nuove
tecnologie nate e studiate
appositamente
Thursday, May 9, 13
Alcune delle strategie usate
per i big data sono utili e
convenienti anche per dataset
più piccoli
Database relazionali e non
Esiste molta confusione su cosa sia effettivamente un database e su
quanto sia importante un vero database in azienda!
Un foglio Excel o un documento Access non rappresentano soluzioni
per creare database
la struttura logica più stabile, utile, performante e versatile è quella
del database relazionale
per i big data esistono invece i database non relazionali
In alcuni casi un mix di database relazionali e non relazionali
rappresenta la soluzione ottimale
Thursday, May 9, 13
Database relazionale...?
tbd_colore
tbd_modello
id_colore
codice_colore
descrizione_colore
id_modello codice_modello
descrizione_modello
1
K0123
Grigio Argento
1
PT002
Punto
2
S9111
Nero Notte
2
FR001
Freemont
3
L0091
Rosso Fuoco
3
CR004
Croma
4
K0125
Grigio Fucile
4
PD005
Panda
tbl_produzione
id_produzione
id_colore
id_modello
anno_mese_produzione
1
1
4
201302
2
2
3
201302
3
2
1
201303
4
4
2
201304
Thursday, May 9, 13
Hardware e architettura di sistema
Il mondo informatico è irreversibilmente lanciato verso le soluzioni
web based, oggi chiamate “cloud”
In questo contesto, l’acquisto di “ferro” non ha più molto senso e
senz’altro è anti economico
Il concetto di cloud è estremamente importante per il trattamento
dei big data e offre soluzioni vincenti e strategiche anche per basi
dati non necessariamente big
Tenere i dati in casa su hardware proprietario, non è più la soluzione
sempre corretta e conveniente
Thursday, May 9, 13
Problemi dei big data
Come gestire il file system
Come effettuare il back up o la ridondanza dei dati
Come eseguire analisi statistiche
Come affrontare l’allestimento hardware
Come eseguire ricerche veloci
In realtà tutti questi punti possono essere affrontati anche per dataset
di dimensioni standard e condurre a grandi ottimizzazioni...
Thursday, May 9, 13
Calcolo parallelo e distribuito
Thursday, May 9, 13
Calcolo parallelo e distribuito
Solitamente questa situazione
si verifica nel calcolo
scientifico, soprattutto quando
si fannno moodelli di sistemi
fisici complessi
Thursday, May 9, 13
Calcolo parallelo e distribuito
Thursday, May 9, 13
Apache Hadoop
The Apache Hadoop software library is a framework that allows for the distributed
processing of large data sets across clusters of computers using simple programming
models.
It is designed to scale up from single servers to thousands of machines, each offering
local computation and storage.
Thursday, May 9, 13
Apache Hadoop
Dispone di un file system distribuito, capace di gestire file di dimensioni ingenti
Permette di aggiungere e rimuovere macchine al cluster con estrema facilità
E’ compatibile con diversi linguaggi di programmazione
Gestisce in modo automatico l’utilizzo dei nodi di calcolo
Risolve il problema del plateau parallelo
Thursday, May 9, 13
Apache Hadoop
Thursday, May 9, 13
Data Science
La nuova disciplina nata dalla necessità di trasformare i dati in informazioni e le
informazioni in fatturato
Unisce matematica, informatica, creatività e competenze di settore
Il futuro appartiene alle aziende che sapranno sfruttare al meglio i dati
Thursday, May 9, 13
Conclusione
GMSL Consulting svolge consulenze di Data Science ed è in grado di progettare e
realizzare soluzioni per la gestione e l’analisi di big data.
www.gmslconsulting.it
Thursday, May 9, 13