Banco de Dados

30 mar, 2018

Governança de dados e bancos de dados NoSQL

Publicidade

O jargão diz: dados são o novo petróleo. A realidade, por sua vez, afirma: “dados podem ser a perdição da sua empresa”. Catastrófico? Pessimista? Eu diria realista, se a sua empresa não possuir governança de dados.

De acordo com John Ladley, em seu livro “Data Governance: How to Design, Deploy and Sustain an Effective Data Governance Program”, a governança de dados é a organização e implementação de políticas, procedimentos, comitês, papéis e responsabilidades que delineiam e reforçam regras de comprometimento, direitos decisórios e prestação de contas para garantir o gerenciamento apropriado dos ativos de dados.

Sendo assim, não entenda a governança de dados como o aumento da burocracia quando as empresas precisam ser ágeis. É um conceito que envolve diversas disciplinas, com foco em qualidade de dados, passando por avaliação, gerência, melhoria, monitoração, além de aspectos de segurança e privacidade (DMBoK).

Leis, segurança, ética e a governança de dados

Quando falamos de segurança, não estamos nos referindo apenas a controlar o acesso aos dados. É preciso garantir a proteção deles perante ameaças (acidentais ou intencionais), modificação não autorizada, roubo ou destruição. Dentro ainda do assunto segurança, temos mais um aspecto de extrema importância, que é a ética no uso dos dados.

Com o aumento do volume, com a variedade de formatos e usos dos dados, é preciso ter a preocupação com a possibilidade de análises causarem embaraços, desconfortos ou prejuízos para pessoas. Empresas éticas fazem o mundo ser melhor! E alguns países já têm leis que visam garantir essa segurança e uma atuação ética por parte das empresas.

Nos Estados Unidos, existe uma lei chamada Sarbanes Oxley, conhecida como SOX, criada em 2002 e que teve um grande impacto nos sistemas de informação. Isso porque os relatórios financeiros devem estar corretos, e em caso de erros nesses relatórios, os executivos da empresa podem ser punidos criminalmente.

Agora, se a sua empresa atua na Europa, deve estar preparada para a General Data Protection Regulation – GDPR, que foi lançada em abril de 2016 e entrará em vigor no dia 25 de maio de 2018. É uma lei severa, cujo foco é a proteção dos dados dos residentes na Europa.

A ideia central é dar aos cidadãos sob sua proteção o direito absoluto sobre os seus próprios dados. Mas de acordo com um estudo da SAS, 55% das empresas não estão aptas para a GPDR porque não possuem governança de dados.

NoSQL

De acordo com uma pesquisa feita pelo Gartner, 90% dos dados das empresas não são estruturados. Ou seja, não estão no formato tabular. É um grande desafio fazer com que as empresas aproveitem as mais recentes tecnologias de banco de dados NoSQL, ao mesmo tempo em que tentam manter a integridade, qualidade e governança dos dados.

Primeiro, precisamos esclarecer que ter um schema flexível não significa que os dados não precisem de governança. Os dados são usados em análises? Trazem alguma forma de lucro? São passíveis de auditoria? São usados em processos internos? Se divulgados, podem trazer problemas? Precisam ser compreendidos?

Se você respondeu sim para qualquer uma dessas perguntas, seus dados precisam de governança, independentemente do seu modelo (relacional, chave-valor, documento, família de colunas ou grafos).

Governança x Burocracia

A complexidade em volta dos dados usados nas análises aumentou muito! Além dos bancos de dados relacionais com o seu schema, temos diversos bancos de dados NoSQL com schemas flexíveis e características bem diferentes.

Como atender a toda essa complexidade? O segredo é elaborar um processo real (nada de copiar o processo de outras empresas ou implementar à risca o que está escrito no DMBok, por exemplo) e automatizar tudo o que é possível.

Checklist da governança de dados

Este checklist não tem a pretensão de ser um framework completo para a implementação da governança de dados. Se você precisa desse tipo de material, recomendo fortemente que você conheça o DMBok versão 2, que é a nova versão do corpo de conhecimento da gestão de dados.

Este checklist contém quatro pilares:

Organização

  • Governança de dados precisa de um patrocinador. É indispensável que as iniciativas de governança de dados sejam apoiadas e patrocinadas pelo alto escalão da organização; do contrário, vai falhar.
  • Conselho de dados. Esse conselho tem como objetivo reunir diversos papéis para que todos garantam que a GD exista e seja viável.

Gerenciamento de metadados

Modele seus dados. Quando a maioria dos dados era estruturada, muitas empresas utilizavam ferramentas CASE para criar modelos entidade-racionamento, e neles incluíam alguma definição. E com os bancos de dados NoSQL, como podemos proceder? Ainda não encontrei um diagrama que seja padrão para modelagem de cada tipo de banco de dados NoSQL, por isso eu utilizo a notação UML, e ela tem me ajudado a entender melhor os dados que serão armazenados. Não veja esta etapa como sua inimiga! Entender os dados pode simplificar muito o trabalho de desenvolvimento!

Crie e mantenha um dicionário de dados. Documente e disponibilize para as equipes o nome lógico dos seus atributos, a sua origem (fluxo de negócio e sistema), e o seu data type lógico. Lembrando que o seu dicionário pode ter muitas outras informações – eu recomendo no mínimo essas.

Documente seus metadados: não chorem, amigos, esta etapa é importante e inclusive recomendo que sirva de insumo para a criação do seu dicionário.

Eu gosto de manter a documentação e a modelagem na ferramenta CASE, mas nada impede de você usar um arquivo texto para documentar seus metadados. A informação e o acesso a ela são mais importantes que a ferramenta.

  • Modelos de dados
    • Documente o nome do responsável pelos dados modelados;
    • Sistema consumidor e fornecedor dos dados;
    • Nome do banco de dados onde o modelo foi implementado.
  • No caso das da tabelas, coleções, arestas, nós, famílias de colunas:
    • Nome lógico e físico;
    • Definição, que não é cópia do nome lógico (pedido de AD!);
    • Período para expurgo;
    • Tipo de carga (arquivo, script, tela…).
  • No caso dos atributos, chaves e valores, documente:
    • Nome lógico e físico;
    • Definição;
    • Tipo lógico e físico;
    • Regras de qualidade e restrições;
    • Origem;
    • Criticidade para o processo de negócio (alta, média, baixa);
    • Transformações realizadas;
    • Nível de segurança requerido;
    • Classificação (dado sem manipulação, transformado, validado, refinado).

Segurança

  • Tenha políticas e ferramentas para controlar a autenticação e a autorização;
  • Monitore o acesso aos dados no ambiente produtivo;
  • Tenha vários ambientes. Amigos, não devemos fazer testes em produção! Por isso a empresa deve ter a capacidade de fornecer aos times ambientes que possibilitem a execução dos testes. Isso é extremamente crítico quando o assunto é inteligência artificial, por exemplo, uma vez que é preciso ter uma quantidade grande de dados para avaliar e treinar um algoritmo;
  • Para cada ambiente, um nível de proteção. Ambientes não produtivos não precisam do mesmo nível de proteção do ambiente de produção, e não entenda isso como “liberar geral”;
  • Mascare dados sensíveis. Para fazer testes com dados semelhantes aos dados produtivos, mascare os dados sensíveis. E eu espero que você veja o quanto é importante saber e ter documentado que os dados são sensíveis.

Qualidade de dados

  • Avalie a qualidade dos dados

Uma das informações necessárias na documentação dos metadados é a definição das regras de qualidade. Elas são insumo para automatizações que validam se os valores dos dados estão corretos. A execução das validações deve gerar um relatório apresentado ao comitê de gestão dos dados, para que sejam definidas as estratégias de melhoria da qualidade.

Governança de dados não é uma ferramenta ou um único processo que tem o poder de mudar a sua empresa e fazer dela uma empresa que fatura muito dinheiro porque possui dados. Me arrisco a definir a GD como uma mudança de cultura, na qual todos se responsabilizam pelos dados e usam a tecnologia, processos e pessoas para garantir a segurança, ética e qualidade dos dados.

Quando o assunto é bancos de dados NoSQL, é comum, e extremamente perigoso, confundir esquema flexível com falta de governança. Ressalto que GD é indispensável, independentemente do modelo de dados!

Com a governança, os dados podem realmente ser o petróleo da sua organização, mas tenha consciência de que sem ela os dados serão “a última pá de cal”.

***

Artigo publicado na revista iMasters, edição #25: https://issuu.com/imasters/docs/25