Pentaho Data Integration Panoramica su PDI (Kettle) ● ● ● ● ● PDI (Kettle) è una libreria Java che interpreta procedure salvate XML Spoon è il tool grafico usato per sviluppare tali procedure Logica di funzionamento a componenti collegati fra di loro Connessione ai database tramite JDBC, files, Web Services Supporto a JavaScript e Java www.robertomarchetto.com L'ambiente di sviluppo www.robertomarchetto.com Esempio, database sorgente www.robertomarchetto.com Esempio, DWH destinazione www.robertomarchetto.com Schemi a confronto www.robertomarchetto.com Caricamento users_dimension Query users: SELECT u.id, CONCAT(u.first_name, ' ', u.last_name) as fullname, u.title FROM users u WHERE u.first_name is not null and u.last_name is not null www.robertomarchetto.com Testare la procedura www.robertomarchetto.com Caricamento accounts_dimension Query accounts: select a.id, a.name, a.industry, a.billing_address_postalcode, a.billing_address_city, a.billing_address_country from accounts a www.robertomarchetto.com Caricamento opportunities_fact Query opportunities: SELECT o.id, o.date_entered, o.date_closed, o.assigned_user_id, o.sales_stage, o.name, o.amount FROM opportunities o WHERE o.sales_stage in ('Closed Won', 'Closed Lost') ORDER BY o.id www.robertomarchetto.com Caricamento dates_dimension www.robertomarchetto.com Raggruppare il tutto in un Job www.robertomarchetto.com Utilizzare connessioni JNDI ● Registrare JNDI /simple-jndi/jdbc.properties oppure C:/Documents and Settings/<user>/.pentaho/simplejndi/default.properties www.robertomarchetto.com Opzioni di esecuzione ● Direttamente dall'ambiente Spoon ● Nel portale Pentaho ● Da command line (Kitchen, Pan) kitchen.bat /file:D:\Jobs\jobname.kjb /level:Basic ● In un ambiente cluster ● Su un web service (Carte) www.robertomarchetto.com Pubblicazione su Pentaho www.robertomarchetto.com Esecuzione da Pentaho www.robertomarchetto.com Schedulazione ● Utilizzando lo schedulatore di Pentaho ● Utilizzando uno scheduler come cron www.robertomarchetto.com