Pentaho Data Integration
Panoramica su PDI (Kettle)
●
●
●
●
●
PDI (Kettle) è una libreria Java che interpreta
procedure salvate XML
Spoon è il tool grafico usato per sviluppare tali
procedure
Logica di funzionamento a componenti collegati
fra di loro
Connessione ai database tramite JDBC, files,
Web Services
Supporto a JavaScript e Java
www.robertomarchetto.com
L'ambiente di sviluppo
www.robertomarchetto.com
Esempio, database sorgente
www.robertomarchetto.com
Esempio, DWH destinazione
www.robertomarchetto.com
Schemi a confronto
www.robertomarchetto.com
Caricamento users_dimension
Query users:
SELECT u.id, CONCAT(u.first_name, ' ', u.last_name) as fullname, u.title
FROM users u
WHERE u.first_name is not null and u.last_name is not null
www.robertomarchetto.com
Testare la procedura
www.robertomarchetto.com
Caricamento
accounts_dimension
Query accounts:
select a.id, a.name, a.industry, a.billing_address_postalcode,
a.billing_address_city, a.billing_address_country
from accounts a
www.robertomarchetto.com
Caricamento opportunities_fact
Query opportunities:
SELECT o.id, o.date_entered, o.date_closed, o.assigned_user_id,
o.sales_stage, o.name, o.amount
FROM opportunities o
WHERE o.sales_stage in ('Closed Won', 'Closed Lost') ORDER BY o.id
www.robertomarchetto.com
Caricamento dates_dimension
www.robertomarchetto.com
Raggruppare il tutto in un Job
www.robertomarchetto.com
Utilizzare connessioni JNDI
●
Registrare JNDI /simple-jndi/jdbc.properties oppure
C:/Documents and Settings/<user>/.pentaho/simplejndi/default.properties
www.robertomarchetto.com
Opzioni di esecuzione
●
Direttamente dall'ambiente Spoon
●
Nel portale Pentaho
●
Da command line (Kitchen, Pan)
kitchen.bat /file:D:\Jobs\jobname.kjb /level:Basic
●
In un ambiente cluster
●
Su un web service (Carte)
www.robertomarchetto.com
Pubblicazione su Pentaho
www.robertomarchetto.com
Esecuzione da Pentaho
www.robertomarchetto.com
Schedulazione
●
Utilizzando lo schedulatore di Pentaho
●
Utilizzando uno scheduler come cron
www.robertomarchetto.com