Data

8 mar, 2019

Você conhece o DataOps? – Parte 02

Publicidade

Introdução

Muito mais que um sonho, o DataOps precisa ser uma realidade nas organizações. Em tempos de Lei Geral de Proteção de Dados, se as equipes não trabalharem como times, podemos ter problemas com a segurança dos dados pessoais.

Além disso, devemos lembrar que o objetivo é ajudar a empresa a ter lucro usando os dados e, para isso, todos os times devem se ajudar.

Apenas para relembrar: “o DataOps promete um novo meio para conectar as pessoas aos dados. Ele é o alinhamento de pessoas, processos e tecnologia para permitir o gerenciamento rápido, automatizado e seguro de dados.

Seu objetivo é melhorar os resultados, reunindo aqueles que precisam de dados com aqueles que o fornecem, eliminando o atrito ao longo do ciclo de vida dos dados.

  • O DataOps é uma metodologia automatizada, orientada a processos, para melhorar a qualidade e reduzir o tempo do ciclo da análise de dados.”

Em meu último artigo conversamos sobre o que é DataOps, e agora falaremos sobre como aproximaremos os operadores dos consumidores de dados e sobre o manifesto DataOps.

Aproximar os opostos: difícil, mas não impossível!

DataOps exige uma mudança de cultura e, na minha opinião, essa etapa é a mais complicada. Infelizmente não existe uma fórmula mágica, mas se os passos abaixo forem seguidos, a missão será mais simples:

1. Identifique os operadores e os consumidores de dados.

  • Parece óbvio, mas garanto que não é! Conheça seus times e entenda-os antes de começar a jornada!

2. Mapeie o processo atual de solicitação de dados, incluindo todas as etapas manuais (executadas pelas equipes de operações), bem como restrições internas e externas no processo.

  • Uma das maiores reclamações dos times que consomem os dados é a demora para disponibilizá-los. Por isso, tudo que puder ser automatizado, é ideal que seja.

3. As restrições mais críticas devem ser priorizadas para serem eliminadas.

  • Verifique se há etapas do seu processo que podem ser eliminadas ou reformuladas. 20% das mudanças nos processos tendem a trazer 80% das melhorias e isso é excelente!

4. Estabeleça medidas de progresso e desempenho em todas as etapas do fluxo de dados.

  • Com métricas será mais fácil justificar os investimentos da organização no DataOps e identificar pontos de melhoria nos novos processos.

5. Disponibilize o significado dos dados. É preciso que os metadados estejam documentados e que essa documentação seja acessível.

  • Certifique-se de que todos “falam o mesmo idioma” e concordam sobre o que os dados (e metadados) são.

6. Valide os dados e o processo com foco na melhoria contínua.

  • Os consumidores devem confiar nos dados, e isso só vai acontecer com validação e melhoria incremental.

7. Automatize as etapas do fluxo de dados (que forem possíveis de serem automatizadas), incluindo BI, ciência dos dados e análises.

  • Tenho visto alguns times resistentes às automatizações com medo de perder o emprego. Não tema o inevitável! Processos repetitivos serão automatizados o time estando a favor ou não.

8. Tenha vários ambientes com a quantidade de dados adequada, testando não só as análises, mas todo o fluxo.

  • Não tenha a ilusão de ter boas análises de dados sem dados e testes realistas. Sendo assim, cada solicitação é uma oportunidade excelente de avaliar se o seu fluxo todo é eficaz e eficiente.

9. Parametrize o processamento, documentando-o, divulgue e explique os parâmetros usados.

  • Assim como a disponibilização dos dados deve ser rápida, as análises também devem ser. E se todos compartilham as informações importantes para as análises, o fluxo pode ser repetido e melhorado. Assim, a organização não fica dependente de algumas pessoas/equipes. Conhecimento compartilhado é conhecimento aumentado.

10. Versione dados, parâmetros e configurações utilizados nas análises

Se tudo for versionado, é muito mais fácil entender as análises que já foram feitas, repeti-las e comparar com as atuais. Dessa forma temos insumos para melhorar cada vez mais as análises.

Outros aspectos importantes

Me perdoem se eu estiver sendo repetitiva, mas, para ter sucesso com a estratégia de DataOps é preciso estar atento aos seguintes aspectos:

  • Governança: como eu já disse, DataOps não mata a governança de dados! Segurança, qualidade e integridade dos dados, incluindo auditoria e controles de acesso são indispensáveis! Os operadores de dados devem garantir que as pessoas tenham acesso apenas aos dados certos, que os dados estão protegidos de acordo com a política e com as leis vigentes, e que podem rastrear as atividades com dados através de uma trilha de auditoria verificável.
  • Operação: precisamos de escalabilidade, disponibilidade, monitoramento, recuperação e confiabilidade dos sistemas de dados.
  • Entrega: distribuição e provisionamento de ambientes de dados. Os ambientes devem ser totalmente funcionais e prontos para uso pelos consumidores de dados e a velocidade de provisionamento é fundamental. Inclui capacidade para fornecer novos ambientes em locais radicalmente diferentes da fonte, como o provisionamento de um novo ambiente na nuvem pública, por exemplo.
  • Transformação: modificação de dados, incluindo o mascaramento e migração de plataforma. Por exemplo, os dados de um banco de dados relacional podem ser migrados para um banco de dados NoSQL, ou para um arquivo. Os consumidores de dados precisam de dados em uma determinada forma para torná-lo utilizável, e isso pode incluir mudança de plataformas de dados ou versões ou, por exemplo, criação de APIs para disponibilização de dados.

Manifesto DataOps

Eu adoro o Manifesto DataOps, e por isso segue uma tradução (by Dani) deste documento tão legal! Vale a pena ler para entender.

Os 18 princípios

Indivíduos e organizações que utilizam e suportam o DataOps produziram um manifesto que possui 18 princípios e que resume a missão, os valores, as filosofias, os objetivos e as melhores práticas.

Os valores que norteiam os 18 principios do DataOps são:

  • Indivíduos, interações sobre processos e ferramentas.
  • Trabalho de análise sobre uma documentação abrangente.
  • Colaboração do cliente sobre negociação de contratos.
  • Experimentação, iteração, e resposta sobre um projeto detalhado e extenso.
  • Propriedade de todas as equipes nas operações sobre silos de responsabilidades.

A seguir, em tradução livre, estão listados os 18 princípios:

1. Satisfaça continuamente o seu cliente

  • Nossa maior prioridade é satisfazer o cliente através da entrega antecipada e contínua de informações analíticas valiosas que podem ser de dois minutos até duas semanas.

2. Valor do trabalho analítico

  • Acreditamos que a principal medida do desempenho da análise de dados é o grau em que as análises são entregues, incorporando dados precisos a bases de dados e sistemas robustos.

3. Abrace a mudança

  • Acolhemos as crescentes necessidades do cliente. De fato, nós abraçamos essas necessidades a fim de gerar vantagem competitiva. Acreditamos que o método de comunicação mais eficiente, eficaz e ágil com os clientes é uma conversa cara a cara.

4. É um esporte em equipe

  • As equipes sempre terão uma variedade de papéis, habilidades, ferramentas favoritas e títulos.

5. Interações diárias

  • Clientes, equipes de análise de dados e operações devem trabalhar juntas durante todo o projeto.

6. Auto-organização

  • Acreditamos que a melhor visão analítica, algoritmos, arquiteturas, requisitos e projetos emergem de equipes auto-organizadas.

7. Reduza o heroísmo

  • À medida em que o ritmo e a amplitude da necessidade de insights analíticos aumentam, acreditamos que as equipes devem se esforçar para reduzir o heroísmo e criar equipes e processos sustentáveis ​​e escaláveis.

8. Reflita

  • Equipes de análise de dados devem aperfeiçoar seu desempenho nas operações através de uma auto-reflexão, em intervalos regulares, sobre os feedbacks fornecidos por seus clientes, por eles próprios e pelas estatísticas operacionais.

9. Os códigos

  • As equipes usam uma variedade de ferramentas para acessar, integrar, modelar e visualizar dados. Fundamentalmente, cada uma dessas ferramentas gera códigos e configurações que descrevem as ações tomadas sobre dados para fornecer informações.

10. Orquestração

  • Orquestração de dados, ferramentas, códigos, ambientes e equipes de trabalho são fatores-chave para o sucesso dos projetos de análise de dados.

11. Faça tudo ser reproduzível

  • São necessários resultados reproduzíveis e, portanto, nós versionamos tudo: dados, configurações de hardware e software, código e configurações específicas de cada ferramenta utilizada.

12. Ambientes descartáveis

  • Acreditamos que é importante minimizar o custo para os membros das equipes de análise de dados fazerem experimentações, proporcionando-lhes facilidade de criar ambientes técnicos descartáveis, isolados e seguros, que reflitam o ambiente de produção.

13. Simplicidade

  • Acreditamos que a atenção contínua à excelência técnica e ao bom design aumenta a agilidade, assim como a simplicidade – arte de maximizar a quantidade de trabalho não feito – é essencial.

14. Análise de dados é manufatura

  • Os pipelines de análise de dados são análogos às linhas de fabricação enxuta. Acredito que um conceito fundamental de DataOps é o foco no pensamento processual destinado a alcançar eficiência contínua na construção de insights analíticos.

15. A qualidade é primordial

  • Os pipelines de análise de dados devem ser construídos com uma fundação capaz de detectar automaticamente erros no código, configuração e dados, e devem fornecer feedback contínuo aos operadores para evitar erros.

16. Monitorar a qualidade e o desempenho

  • Nosso objetivo é ter medidas de desempenho e qualidade que sejam monitorados continuamente para detectar variações inesperadas e gerar estatísticas operacionais.

17. Reutilizar

  • Acreditamos que um aspecto fundamental da eficiência na fabricação de insights analíticos é evitar a repetição do trabalho anterior pelo indivíduo ou pelo time.

18. Melhorar os tempos dos ciclos

  • Devemos nos esforçar para minimizar o tempo e o esforço para transformar a necessidade de um cliente em uma ideia analítica. Criá-la em desenvolvimento, liberá-la como um processo de produção repetível e, finalmente, refatorar e reutilizar esse produto.

Conclusão

É preciso mudar e investir!

As empresas possuem grandes volumes de dados e sabem que os dados são importantes.

Podemos dividir a organização em dois grandes grupos: um que consome os dados e outro que opera os dados.

Os consumidores utilizam os dados para trazer vantagem competitiva, inovado e fazendo novas análises. Neste grupo estão os desenvolvedores, os analistas de negócios, os cientistas de dados, auditores, entre outros.

Os operadores garantem que os dados estão seguros, são conhecidos, mapeados e governados. De um lado é preciso liberdade e de outro é preciso controle.

O desafio do DataOps é fazer com que consumidores e operadores consigam trabalhar juntos, fornecendo dados de forma rápida, mas sem abrir mão da governança, segurança e qualidade dos dados.

DataOps é o alinhamento de pessoas, processos e tecnologia para permitir o gerenciamento rápido, automatizado e seguro de dados.

Seu objetivo é melhorar os resultados, reunindo aqueles que precisam de dados com aqueles que o fornecem, eliminando o atrito ao longo do ciclo de vida dos dados.

É uma metodologia automatizada, orientada a processos, para melhorar a qualidade e reduzir o tempo do ciclo das análises.

Para adotar o DataOps é preciso mudar a cultura das organizações e isso fica muito explícito no manifesto DataOps que é composto por 18 princípios que resumem a missão, os valores, as filosofias, os objetivos e as melhores práticas do DataOps.

A realidade das empresas mudou, e o desafio é ter todos os times com o mesmo objetivo. Você não precisa escolher um time, porque só existe um que batalha pelo sucesso da empresa!

Referências