Entendendo o PDI – Repositório e Ferramentas

O PDI (Pentaho Data Integration) é composto de 3 ferramentas básicas:
1 – Spoon => Ferramenta visual para construção de Transformations e Jobs. Pode ser utilizado para rodar as mesmas.
2 – Kitchen => Ferramenta para rodar Jobs via linha de comando.
3 – Pan => Ferramenta para rodar Transformations via linha de comando.

Como Kitchen e Pan são apenas para executar artefatos, vamos manter os estudos voltados para o Spoon.

Para instalar o PDI, basta fazer o download da ferramenta no site da Pentaho. Tendo o JDK instalado, basta descompactar o conteúdo do arquivo na pasta “Pentaho” de sua unidade de disco. No meu caso está em “/opt/pentaho/”, pois uso o Linux, mas pode ser em “C:\Pentaho” no Windows ou em qualquer outra de sua preferência. Note que dentro da pasta “pentaho” existirá uma pasta “data-integration”.

Para executar o programa basta chamar o arquivo “pentaho/data-integration/spoon.sh” no Linux ou “pentaho/data-integration/spoon.bat” no Windows.

pdi_chamada

Aparecerá uma tela splash e logo depois a tela de conexão em algum repositório.

pdi_splash

pdi_repositorios

ENTENDENDO OS REPOSITÓRIOS DO PDI

Os respositórios do PDI são “lugares” lógicos onde serão salvas transformações e Jobs. Podems ser de dois tipos:

1 – Repositório em banco de dados – Neste caso tudo que for criado será gravado no banco na forma de registros em tabelas específicas e assim pode ser backupeado na rotina de backup do banco.
2 – Repositório em Arquivos – Esta opção salva os artefatos como arquivos xml, porém com extensões próprias (.ktr para transformações e .kjb para jobs) em uma pasta pré-definida do seu file server ou na máquina local. Aqui a rotina de backup de arquivos deve ser utilizada para fazer o backup de seu repositório do PDI.

Vejamos agora como configurar cada um deles:

Na tela que surge pedindo login para um repositó clique no sinal de mais (+) que aparece no canto superior direito.
Na próxima tela selecione o tipo de repositório:

pdi_repositorios

pdi_tipos_repositorio

1 – Repositório em banco de dados

Para configurar o Kettle database repository, clique em cima da opção e posteriormente clique em ok. Surgirá a tela de configuração do mesmo.

pdi_cria_repositorio

Nesta tela devem ser passadas as seguintes informações

  • Conexão com banco de dados
  • Nome do repositório
  • Descrição do repositório

Para criar uma conexão, clique no botão “Novo” ao lado do campo “Select Database Connection”. A tela abaixo será apresentada:

pdi_conexao

  • Em “Connection Name” dê um nome para sua conexão. No meu caso escolho “repositorio_pdi”.
  • Em “Connection Type” selecione o banco que deseja conectar. No meu caso foi o PostgreSQL.
  • Em “Access” Selecione o tipo de conexão. No meu caso eu escolho Natvie (JDBC) que para funcionar basta ter um driver JDBC na pasta “/pentaho/data-integration/libext/JDBC”.

No canto direito preencha os dados pertinentes à sua conexão:

  • Hostname – IP do servidor de banco de dados. No meu caso “localhost”
  • Databasename – Nome do banco propriamente dito. No meu caso “repositorio_pdi”
  • Port Number – Porta habilitada para conexões do seu banco de dados. No meu caso uso a padrão 5432
  • Username – Nome do usuário do banco. Neste caso tem que ter permissão de escrita, pois irá criar tabelas e inserir e apagar dados do banco “respositorio_pdi” que estamos criando nos passos anteriores.
  • Password – Senha para este usuário

Após criar a conexão, clique em ok e será direcionado para a tela anterior novamente.

pdi_cria_repositorio

Selecione a conexão que acabou de criar e clique em “Create or Upgrade” e assim o próprio PDI irá criar o banco chamado “repositorio_pdi”, com as tabelas e os registros iniciais carregados. Quando este processo terminar basta clicar em ok e pronto…seu repositório foi criado e configurado. Basta agora selecioná-lo na tela de login e efetuar login.

2 – Repositório em banco de arquivos

Para configurar o Kettle file repository, clique em cima da opção e posteriormente clique em ok. Surgirá a tela de configuração do mesmo.

pdi_rep_arquivos

Essa tela é muito simples. Clique em “Navega…” para selecionar a pasta na qual deseja salvar os arquivos criados no PDI, nomeie o repositório e descreva algo sobre o mesmo. No final deve ficar com algo parecido com isso:

pdi_rep_files2

 

Para este tipo de repositório não é preciso passar usuário e senha.

 

Espero que tenham gostado. Até a próxima 🙂

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *