O que é ETL?

ETL, do inglês Extract, Transformation and Load (Extração, Transformação e Carga) é o processo extração de dados de fontes externas, transformação para atender às necessidades de negócios e carga dos dados dentro do Data Warehouse (Para entender o conceito de Data Warehouse, leia o post sobre “O que é o Data Warehouse?”). O foco deste artigo é a utilização do ETL voltado para Data Warehouse, mas você pode utilizar as ferramentas de ETL para fazer todo tipo de trabalho de importação, exportação, transformação de dados para outros ambientes de banco de dados ou para outras necessidades como integrações de sistemas.

Os projetos de data warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou flat files, mas podem existir outros tipos de fontes também. Um sistema ETL precisa ser capaz de se comunicar com bases de dados e ler diversos formatos de arquivos utilizados por toda a organização.

Os Principais Componentes do ETL

1) Extração: É a coleta de dados dos sistemas de origem (também chamados Data Sources, sistemas legados ou sistemas operacionais), extraindo-os e transferindo-os para o ambiente de DW (Staging Área), onde o sistema de ETL pode operar independente dos sistemas operacionais.

2) Limpeza, Ajustes e Consolidação (ou também chamada transformação): É nesta etapa que realizamos os devidos ajustes, podendo assim melhorar a qualidade dos dados e consolidar dados de duas ou mais fontes.

O estágio de transformação aplica um série de regras ou funções aos dados extraídos para ajustar os dados a serem carregados. Algumas fontes de dados necessitarão de muito pouca manipulação de dados. Em outros casos, podem ser necessários trabalhar algumas transformações, como por exemplo, Junção de dados provenientes de diversas fontes, seleção de apenas determinadas colunas e Tradução de valores codificados (se o sistema de origem armazena 1 para sexo masculino e 2 para feminino, mas o data warehouse armazena M para masculino e F para feminino, por exemplo).

3) Entrega ou Carga dos dados: Consiste em fisicamente estruturar e carregar os dados para dentro da camada de apresentação seguindo o modelo dimensional. Dependendo das necessidades da organização, este processo varia amplamente. Alguns data warehouses podem substituir as informações existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW (ou até mesmo outras partes do mesmo DW) podem adicionar dados a cada hora. A frequência e o alcance de reposição ou acréscimo (carga incremental) constituem opções de projeto, estratégias que dependem do tempo disponível e das necessidades de negócios.

Requisitos para o ETL

Antes de iniciar um Projeto de ETL é necessário que os seguinte itens estejam bem alinhados:

Você tem bem claro e documentado quais são os requisitos de negócio?
Foi realizado uma análise de viabilidade dos dados?
Qual é a periodicidade necessária e possível para disponibilização dos dados através do sistema de BI?
Quais são as políticas de segurança adotadas pela empresa?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *