Mais Sobre DW – Data Marts e Staging Área

IMPORTANTE SABER SOBRE DATA WAREHOUSE

Agora que você já sabe o que é um Data Warehouse, vamos mostrar um pouco mais a fundo  sua importância e estrutura.

Um dos maiores problemas no desenvolvimento do DW é a compreensão dos dados, onde as dimensões devem ser definidas conforme a necessidade de visualização do usuário, ou seja, é tentador pensar que a criação do DW consiste em apenas extrair dados operacionais e inseri-los no Data Warehouse.

O valor de DW não está em colecionar dados e sim saber gerenciar aqueles dados transformando-os em informações úteis, conhecimento.

Considerando complexa a construção de um DW, faz-se necessário um amplo estudo para geração de uma metodologia a fim de se obter sucesso no empreendimento.

Além disso, é necessário saber a respeito de algumas questões que representam verdadeiro desafio na implementação de um Data Warehouse:
* Integração de dados e metadados de várias fontes.
* Qualidade dos dados: limpeza e refinamentos.
* Sumarização e agregação de dados.
* Sincronização das fontes com o Datawarehouse para assegurar a atualização.
* Problemas de desempenho relacionados ao compartilhamento do mesmo ambiente computacional para abrigar as bases de dados corporativas operacionais e o Data Warehouse.

ARMAZENAMENTO

Um Data Warehouse pode armazenar grandes quantidades de informação, às vezes divididas em unidades lógicas menores que são chamadas de Data Marts. O esquema de dados mais utilizado é o ‘’Star Schema’’ (Esquema Estrela), também conhecido como Modelagem Multidimensional. Apesar de bastante utilizado, não existe um padrão na indústria de software para o armazenamento de dados. Existem, na verdade, algumas  controvérsias sobre qual a melhor maneira para estruturar os dados em um Data Warehouse. Geralmente, o Data Warehouse não armazena informações sobre os processos correntes de uma única atividade de negócio, mas sim cruzamentos e consolidações de várias unidades de  negócios de uma empresa.

MODELAGEM

Os sistemas de base de dados tradicionais utilizam a normalização, no formato de dados para garantir consistência dos dados e uma minimização do espaço de armazenamento necessário. Entretanto, frequentemente as transações e consultas em bases de dados normalizadas são lentas. Um Data Warehouse utiliza dados em formato mais de-normalizados. Isto aumenta a performance das consultas e, como benefício adicional, o processo torna-se mais intuitivo para os utilizadores comuns.

METADADO

O conceito Metadado é considerado como sendo os “dados sobre dados”, isto é, os dados sobre os sistemas que operam com estes dados. Um repositório de metadados é uma ferramenta essencial para o gerenciamento de um Data Warehouse no momento de converter dados em informações para o negócio. Entre outras coisas, um repositório de metadados bem construído deve conter informações sobre a origem dos dados, regras de transformação, nomes e alias, formatos de dados, etc. Ou seja, esse “dicionário” deve conter muito mais do que as descrições de colunas e tabelas: deve conter informações que adicionem valor aos dados.

DATA MARTS

O Data Warehouse é normalmente acedido através de Data Marts, que são pontos específicos de acesso à subconjuntos do Data Warehouse. Os Data Marts são construídos para responder prováveis perguntas de um tipo específico de usuário.

Por exemplo: um Data Mart financeiro poderia armazenar informações consolidadas dia-a-dia para um usuário gerencial e em periodicidades maiores (semana, mês, ano) para um usuário no nível da diretoria. Um Data Mart pode ser composto por um ou mais cubos de dados. Hoje em dia, os conceitos de Data warehouse e Data Mart fazem parte de um conceito muito maior chamado de Corporate Performance Management.

STAGING

Representa um armazenamento intermediário dos dados, facilitando a integração dos dados antes de sua atualização DW.

A Staging área não tem como função sumarizar dados, mas agilizar o processo de consolidação, proporcionado um melhor desempenho na fase da atualização dos dados. A Staging Área é o único lugar para determinar os valores que vêm efetivamente dos sistemas legados. A Staging Área dever ser usada para limpeza dos dados que entram no processo de extração e transformação.

A Staging Área ou área de retenção é a parte mais importante na construção de um DW. Muitos profissionais desconsideram a sua existência. Mas vamos explicar mais afundo sua funcionalidade. São varias as utilidades e funcionalidades da Staging Área.
Primeiro é a Extração. A extração basicamente seria buscar as informações dos sistemas legados e fontes externas da empresa e coloca-las na Staging Área para validação, transformação e carga. Existem varias técnicas para fazer isso. O importante é termos as informações novas ou atualizadas, tendo assim um retrato dia a dia do que foi incluído, excluído e alterado. A partir dai não precisamos mais do banco de dados de produção, ou seja, não corremos o risco de concorrer consumindo assim recursos dos sistemas legados.
Segundo é a Transformação. Com os dados na Staging Área podemos fazer as transformações necessárias. Essas transformações vão variar dependendo da modelagem e das fontes de dados.

Terceiro é a Carga. O processo de carga é realizado após todos os tratamentos feitos nos dados nos processos de extração e transformação. Essa etapa consiste em carregar os dados tratados, limpos e armazenados na Staging Área e carrega-los para o modelo estrela.

1 comentário em “Mais Sobre DW – Data Marts e Staging Área”

  1. Pingback: O que é ETL? | Consultor em TI

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *