DevSecOps

5 fev, 2009

Arquitetura de Data Warehouse – Parte 01

Publicidade

Como vimos no artigo anterior, sobre a construção de DW e DM em uma esfera organizacional, é fato que em um Projeto de BI há diversos fatores com os quais devemos nos preocupar na hora de implementar. Um deles é detalhar, especificar e entender a Arquitetura.

A escolha da arquitetura é uma decisão gerencial do projeto e está baseada (normalmente) nos fatores relativos à infra-estrutura atualmente disponível (que se for o caso de aquisição do mesmo), ao ambiente de negócios, escopo desejado, além de capacitação dos recursos disponibilizados no projeto e funcionários da empresa projetos para tal investimento.

O DW é projetado e construído com base nas necessidades da empresa como um todo e considerado um repositório comum de dados de suporte à decisão, disponível em toda a empresa.

A arquitetura global pode ser fisicamente centralizada ou fisicamente distribuída nas instalações de uma empresa.

A centralização física é utilizada quando a empresa existe em um único local e o DW é administrado por alguma pessoa ou recurso de TI.

A distribuição física de um DW é utilizada quando a empresa possui diversos locais físicos (instalações) e os dados em múltiplas instalações físicas. Também é administrado por alguém do departamento de TI.

Obs.: Quando o departamento de TI adminstra o DW, isso não quer dizer que o departamento de TI controla o DW. Isso pode ser feito por outro departamento ou até mesmo por uma empresa especializada em controle e administração de DW, pois é ele quem decide quais e que dados irão entrar no DW e quando devem ter a carga incremental (atualização), além de como outros departamentos irão acessar, que pessoas podem acessar os dados, etc.

Dentro desse contexto, resume-se que a implementação e a administração devem ser realizadas por um departamento e profissionais específicos da área de TI, até porque o departamento de TI é o que administra a rede interna de comunicação de dados da empresa.

A figura a seguir mostra a arquitetura de um Data Warehouse, considerando que a implementação é top-down (relembrando o artigo anterior: Top-Down é quando a empresa cria um DW e depois parte para a segmentação, ou seja, divide o DW em áreas menores gerando assim pequenos bancos orientados por assuntos aos departamentos.), ou seja, segundo Inmon, direto ao DW.

Arquitetura de Data WarehouseArquitetura de Data Warehouse

Os dados são extraídos de sistemas transacionais (OLTP) e/ou de fontes de dados externas, seja via arquivo local (TXT, XML por exemplo) ou ainda por um ERP.

Os dados são filtrados, sendo eliminados os dados não necessários e realiza-se o processo de ETL, que é a extração, transformação e carga desses dados e metadados, que, então, posteriormente e logicamente, são carregados no DW.

A partir do DW, os dados e metadados são extraídos para os Data Marts (DM), que, por sua vez, as informações estão em maior nível de sumarização e, normalmente, não apresentam o nível histórico encontrado no DW.

Essa implementação tem como lado positivo o fato de “forçar” a empresa a definir regras de negócio de forma corporativa antes de iniciar-se projeto de DW em si.

Vantagens e devantagens dessa arquitetura:

Vantagens:

  • Herança de arquitetura: todos os DM originados de um DW utilizam a arquitetura e os dados desse DW, permitindo uma fácil implementação.
  • Visão de empreendimento: o DW concentra todos os negócios da empresa, sendo possível extrair dele níveis menores de informações.
  • Repositório de metadados centralizado e simples: o DW provê de um repositório de metadados central para o sistema. Essa centralização permite manutenções mais simples do que aquelas realizadas em múltiplos repositórios.
  • Controle e centralização de regras: a arquitetura top down garante a existência de um único conjunto de aplicações para extração, limpeza e integração dos dados, além de processos centralizados de manutenção e monitoração.

Desvantagens:

  • Implementação muito longa: os DW são, normalmente, desenvolvidos de modo iterativo, por áreas de assuntos, como por exemplo, vendas, finanças e recursos humanos. Mesmo assim, são necessários, em média 15 ou mais meses para que área de assunto entre em produção, dificultando a garantia de apoio político e orçamentário.
  • Alta taxa de risco: não existem garantias para o investimento nesse tipo de ambiente.
  • Heranças de cruzamentos funcionais: é necessária uma equipe de desenvolvedores e usuários finais altamente capacitados para avaliar as informações e consultas que garantam à empresa habilidade para sobreviver e prosperar na arena de mudanças de competições políticas, geográficas e organizacionais.
  • Expectativas relacionadas ao ambiente: a demora do projeto e a falta de retorno podem induzir expectativas nos usuários.

No próximo artigo, continuarei abordando a arquitetura de DW, mais precisamente sobre a implementação Botton Up e de Implementação Combinada.

Referências Bibliográficas:

Tecnologia e Projeto de Data Warehouse, Felipe Nery Rodrigues Machado, 2007.