Data

24 mai, 2019

Uber submete Hudi, biblioteca open source de Big Data, à Apache Software Foundation

Publicidade

A capacidade de gerenciar e acessar petabytes de dados rapidamente é crucial para o crescimento escalável de todo um ecossistema de dados.

Ainda assim, essa necessidade combinada de escala e velocidade nem sempre se encaixa naturalmente nas arquiteturas de sistema em lote e de streaming existentes.

Desenvolvida em 2016 sob o codinome “Hoodie”, a Hudi foi criada para lidar com ineficiências nos pipelines de ingest e ETL que exigiam primitivas de upsert e consumo incremental no ecossistema de Big Data da Uber. Para compartilhar esses benefícios com a comunidade Big Data mais ampla, a Uber abriu o código da Hudi em 2017.

Em janeiro de 2019, submetemos a Hudi à Apache Incubator, aumentando assim nosso compromisso open source e garantindo a sustentabilidade e o crescimento de longo prazo do Apache Hudi sob a governança aberta e a orientação da The Apache Software Foundation.

“Dada a utilização da Uber de tantos grandes projetos Apache, acreditamos que o desenvolvimento open source do The Apache Way orientado para comunidade nos permitirá desenvolver o Apache Hudi em colaboração com um conjunto diversificado de colaboradores”, disse Vinoth Chandar, cocriador do Hudi. “Estamos ansiosos para trabalhar com a Apache Software Foundation para implementar as melhores práticas e trazer novas ideias para o projeto”.

Com o tempo e com a ajuda da comunidade open source de Big Data, a Hudi evoluiu para um sistema de armazenamento de big data de propósito geral que permite:

  • Isolamento de snapshot entre os mecanismos de ingestão e consulta, incluindo o Apache Hive, o Presto e o Apache Spark.
  • Suporte para rollbacks e savepoints para recuperar conjuntos de dados.
  • Autogerenciamento do tamanho e do layout dos arquivos para otimizar o desempenho das consultas e as listagens de diretórios.
  • Ingestão quase em tempo real para alimentar consultas com dados novos.
  • Compactação assíncrona de dados colunares e em tempo real.

Como prova de sua escalabilidade, a Hudi atualmente gerencia mais de quatro mil tabelas armazenando vários petabytes de dados na Uber, enquanto reduz as latências de acesso ao armazém do Apache Hadoop de várias horas para menos de 30 minutos.

A Hudi também alimenta centenas de pipelines de dados incrementais a custos mais baixos e com maior eficiência do que as soluções anteriores usadas pela empresa.

No futuro, o projeto viverá com a Apache Software Foundation. Por favor, confira a página do projeto Apache Hudi para documentação técnica e diretrizes de envolvimento da comunidade.

***

Este artigo é do Uber Engineering. Ele foi escrito por Brian Hsieh. A tradução foi feita pela Redação iMasters com autorização. Você pode conferir o original em: https://eng.uber.com/apache-hudi/