Banco de Dados

1 abr, 2025

Documentando automaticamente suas tabelas e colunas do Unity Catalog com AI – DBRX – Databricks

Publicidade

Fala galera de Data, espero que todos estejam bem e acompanhando essa nova era da tecnologia que estamos vivenciando e, desta forma, nada melhor do que surfar nesse tsunami do que deixar ele te atingir, não é mesmo? Hoje vou explicar ensinar uma das formas de você documentar automaticamente todas as suas tabelas e colunas que estiverem no Unity Catalog utilizando uma AI de precificação baixa que é a DBRX-Instruct da Databricks, sim isso mesmo automaticamente contudo por que isso é importante?

A utilização de AI com dados corporativos precisam estar o mais “gritante” possível do que se trata, em outras palavras seu datalake precisa estar bem organizado desde definição da arquitetura de dados até nome de colunas, tabela, schema etc.. além é claro de documentar sobre do que se trata aquele banco de dados, schema, tabela e coluna e o que for mais possível documentar. Isso é muito importante por que quando você precisar e você VAI PRECISAR criar uma solução de AI, muito provavelmente você vai utilizar a técnica de RAG e passar para um Banco de dados Vetorial os seus dados e é aqui que entra a relevância da documentação. Para quem não sabe quando mais contexto o LLM receber melhor e mais rápido é a resposta, isso é devido entre outras variáveis ao contexto que você forneceu, aumentando a precisão de similaridade entre o que você quer saber.

Requisitos para auto documentar minhas tabelas e colunas:

  1. Obviamente as tabelas devem estar no Unity catalog.
  2. Ter habilitado a nível de workspace o uso da API DBRX.
  3. Criação de um Token de usuário ou de service principal.

Vamos documentar automaticamente uma tabela:

Vamos importar o pacote de request para chamar a API DBRX com o prompt e o SparkSession para montagem da Sessão referente a aplicação em execução no cluster Spark:

Posteriormente, vamos montar uma função que vai retornar a descrição efetuada pela chamada da API, mas já com alguns atributos importantes como max_tokens que é a quantidade máxima de palavras que você deseja considerar no retorno da API e o parâmetro de temperature que é o nível de criatividade do modelo, existem outros parâmetros mas estes são essenciais.

Agora vamos de fato fazer a chamada e a montagem dos prompts. Este código Python utiliza o Apache Spark para gerar automaticamente descrições de uma tabela e suas colunas, empregando o serviço DBRX Instruct da Databricks.

Detalhamento das etapas:

  1. Importação de bibliotecas:
  2. Inicialização da SparkSession:
  3. Obtenção do esquema da tabela:
  4. Configuração da chamada ao DBRX via Model Serving:
  5. Geração da descrição para a tabela:
  6. Geração de descrições para as colunas:

Durante a execução você terá um output semelhante a este:

Agora com as descrições das colunas e da tabela hora de aplicar de fato na tabela alterando as propriedades:

Por fim você pode da um comando de DESCRIBE TABLE EXTENDEDpara visualizar a documentação na tabela e nas colunas.

Aqui foi apenas um exemplo simples em uma única tabela, você pode utilizar outros LLM além do DBRX bem como ir ajustando os parâmetros e o prompt para melhorar de acordo com seu cenário.

Fontes: https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm