Um Data Warehouse (ou armazém de dados, ou depósito de dados) é um
sistema de computação utilizado para armazenar informações relativas às atividades
de uma organização em bancos de dados, de forma consolidada.
O Data Warehouse é:
Orientado a Assunto: A primeira característica de um Data Warehouse é que ele está orientado ao redor do principal assunto da organização. O percurso do dado orientado ao assunto está em contraste com a mais clássica das aplicações orientadas por processos/funções ao redor dos quais os sistemas operacionais mais antigos estão organizados.
Integrado: O mais importante aspecto do ambiente de Data Warehouse é que dados criados dentro de um ambiente de Data Warehouse são integrados. SEMPRE. COM NENHUMA EXCEÇÃO. A integração mostra-se em muitas diferentes maneiras: na convenção consistente de nomes, na forma consistente das variáveis, na estrutura consistente de códigos, nos atributos físicos consistente dos dados, e assim por diante.
Não Volátil: sempre inserido, nunca excluído.
Variante no Tempo: posições históricas das atividades no tempo. O data warehouse possibilita a análise de grandes volumes de dados coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados.
A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas.
Os data warehouse surgiram como conceito acadêmico na década de 80. Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto, a implementação do data warehouse passou a se tornar realidade nas grandes corporações. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.
Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados, o data warehouse é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado. Segundo Inmon, Data Warehouse é uma coleção de dados orientados por assuntos, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão. Kimball define assim: é um conjunto de ferramentas e técnicas de projeto, que quando aplicadas às necessidades específicas dos usuários e aos bancos de dados específicos permitirá que planejem e construam um data warehouse.
O QUE DATA WAREHOUSE NÃO É
Produto: O Data Warehouse não é um produto e não pode ser comprado como um software de banco de dados. O sistema de Data Warehouse é similar ao desenvolvimento de um ERP, ou seja, ele exige análise do negócio, exige o entendimento do que se quer retirar das informações. Apesar de existirem produtos que fornecem uma gama de ferramentas para efetuar o Cleansing dos dados, a modelagem do banco e da apresentação dos dados, nada disso pode ser feito sem um elevado grau de análise e desenvolvimento.
A linguagem: O sistema de Data Warehouse não pode ser aprendido ou codificado como uma linguagem. Devido ao grande número de componentes e de etapas, um sistema de Data Warehouse suporta diversas linguagens e programações desde a extração dos dados até a presentação dos mesmos.
Projeto: O sistema de Data Warehouse pode ser pensado mais como um processo. Ele também pode ser pensado como uma série de projetos menores que convergem para a criação de um único sistema de corporativo de Data Warehouse. Devido a natureza evolutiva do DW, é mais fácil aceitá-lo como um processo que está sempre em crescimento do que em um projeto com início-meio-fim, o que definitivamente ele parece mas não é.
Modelagem: O sistema de Data Warehouse não é somente um modelo de banco de dados e não é constituído por mais de um modelo. Existe o processo todo do sistema de BI/DW que compreende todos os procedimentos de ETL, Cleansing e apresentação das informações ao usuário final.
Cópia do sistema OLTP: Alguns acreditam que o sistema de Data Warehouse é somente uma cópia do sistema transacional existente na empresa. Assim como somente um modelo de dados não faz um sistema de BI/DW, uma cópia de um sistema transacional o faz menos ainda. Existem ferramentas que conseguem extrair dados dos sistemas transacionais existentes e criar relatórios a partir das informações coletadas, mas mesmo eles estão montando um pequeno conjunto de metadados e armazenando a informação em algum local.
Pingback: Mais Sobre DW – Data Marts e Staging Área | Consultor em TI
Pingback: O que é ETL? | Consultor em TI