O PDI (Pentaho Data Integration) é composto de 3 ferramentas básicas:
1 – Spoon => Ferramenta visual para construção de Transformations e Jobs. Pode ser utilizado para rodar as mesmas.
2 – Kitchen => Ferramenta para rodar Jobs via linha de comando.
3 – Pan => Ferramenta para rodar Transformations via linha de comando.
Como Kitchen e Pan são apenas para executar artefatos, vamos manter os estudos voltados para o Spoon.
Para instalar o PDI, basta fazer o download da ferramenta no site da Pentaho. Tendo o JDK instalado, basta descompactar o conteúdo do arquivo na pasta “Pentaho” de sua unidade de disco. No meu caso está em “/opt/pentaho/”, pois uso o Linux, mas pode ser em “C:\Pentaho” no Windows ou em qualquer outra de sua preferência. Note que dentro da pasta “pentaho” existirá uma pasta “data-integration”.
Para executar o programa basta chamar o arquivo “pentaho/data-integration/spoon.sh” no Linux ou “pentaho/data-integration/spoon.bat” no Windows.
Aparecerá uma tela splash e logo depois a tela de conexão em algum repositório.
ENTENDENDO OS REPOSITÓRIOS DO PDI
Os respositórios do PDI são “lugares” lógicos onde serão salvas transformações e Jobs. Podems ser de dois tipos:
1 – Repositório em banco de dados – Neste caso tudo que for criado será gravado no banco na forma de registros em tabelas específicas e assim pode ser backupeado na rotina de backup do banco.
2 – Repositório em Arquivos – Esta opção salva os artefatos como arquivos xml, porém com extensões próprias (.ktr para transformações e .kjb para jobs) em uma pasta pré-definida do seu file server ou na máquina local. Aqui a rotina de backup de arquivos deve ser utilizada para fazer o backup de seu repositório do PDI.
Vejamos agora como configurar cada um deles:
Na tela que surge pedindo login para um repositó clique no sinal de mais (+) que aparece no canto superior direito.
Na próxima tela selecione o tipo de repositório:
1 – Repositório em banco de dados
Para configurar o Kettle database repository, clique em cima da opção e posteriormente clique em ok. Surgirá a tela de configuração do mesmo.
Nesta tela devem ser passadas as seguintes informações
- Conexão com banco de dados
- Nome do repositório
- Descrição do repositório
Para criar uma conexão, clique no botão “Novo” ao lado do campo “Select Database Connection”. A tela abaixo será apresentada:
- Em “Connection Name” dê um nome para sua conexão. No meu caso escolho “repositorio_pdi”.
- Em “Connection Type” selecione o banco que deseja conectar. No meu caso foi o PostgreSQL.
- Em “Access” Selecione o tipo de conexão. No meu caso eu escolho Natvie (JDBC) que para funcionar basta ter um driver JDBC na pasta “/pentaho/data-integration/libext/JDBC”.
No canto direito preencha os dados pertinentes à sua conexão:
- Hostname – IP do servidor de banco de dados. No meu caso “localhost”
- Databasename – Nome do banco propriamente dito. No meu caso “repositorio_pdi”
- Port Number – Porta habilitada para conexões do seu banco de dados. No meu caso uso a padrão 5432
- Username – Nome do usuário do banco. Neste caso tem que ter permissão de escrita, pois irá criar tabelas e inserir e apagar dados do banco “respositorio_pdi” que estamos criando nos passos anteriores.
- Password – Senha para este usuário
Após criar a conexão, clique em ok e será direcionado para a tela anterior novamente.
Selecione a conexão que acabou de criar e clique em “Create or Upgrade” e assim o próprio PDI irá criar o banco chamado “repositorio_pdi”, com as tabelas e os registros iniciais carregados. Quando este processo terminar basta clicar em ok e pronto…seu repositório foi criado e configurado. Basta agora selecioná-lo na tela de login e efetuar login.
2 – Repositório em banco de arquivos
Para configurar o Kettle file repository, clique em cima da opção e posteriormente clique em ok. Surgirá a tela de configuração do mesmo.
Essa tela é muito simples. Clique em “Navega…” para selecionar a pasta na qual deseja salvar os arquivos criados no PDI, nomeie o repositório e descreva algo sobre o mesmo. No final deve ficar com algo parecido com isso:
Para este tipo de repositório não é preciso passar usuário e senha.
Espero que tenham gostado. Até a próxima 🙂