O problema oculto dos projetos de RAG

No dia a dia de implementações de projetos de RAG, vejo que um dos problemas mais subestimados não é a qualidade do modelo, nem a estratégia de chunking ou mesmo a escolha do banco vetorial.

É o controle e a governança dos documentos.

Na fase inicial dos projetos, normalmente carregamos PDFs, políticas internas, procedimentos, contratos, manuais e apresentações para criar uma base de conhecimento corporativa. Tudo funciona bem até que alguém faz uma pergunta e recebe uma resposta baseada em um documento que deveria ter sido aposentado meses atrás.

Nesse momento, descobrimos que o problema não é o LLM. É governança da informação.

O mundo dos documentos corporativos foi construído durante décadas para consumo humano. Quando uma nova versão de uma política é publicada, as pessoas aprendem a ignorar a anterior. Quando um procedimento é atualizado, espera-se que os colaboradores consultem a versão mais recente.

Mas um sistema RAG não possui esse contexto. Se versões antigas e novas estiverem indexadas simultaneamente, ambas podem aparecer na recuperação. E, dependendo da similaridade semântica, a versão errada pode até ser considerada mais relevante.

Pior ainda, o problema nem sempre é apenas versionamento. Em muitas organizações existem documentos diferentes afirmando coisas diferentes sobre o mesmo tema: políticas corporativas, procedimentos locais, FAQs, apresentações de treinamento e comunicados internos. Todos podem estar tecnicamente vigentes, mas qual deles possui maior autoridade?

Interessante notar que a IA não está alucinando. Ela está respondendo exatamente com base no conhecimento que recebeu. O problema é que o conhecimento armazenado está inconsistente.

Muitas empresas tratam documentos como arquivos. Talvez precisem começar a tratá-los como código.

Isso significa introduzir práticas já comuns no desenvolvimento de software: versionamento formal, identificadores únicos por versão, datas de vigência, status de publicação, fluxos de aprovação, controle de obsolescência, hierarquia de autoridade e trilhas de auditoria.

Além disso, não basta controlar os documentos. É preciso governar o pipeline de ingestão. Alterações precisam ser detectadas automaticamente, documentos reindexados, versões obsoletas removidas e chunks antigos eliminados. Caso contrário, o sistema continuará recuperando conhecimento que teoricamente já não deveria existir.

Na prática, cada chunk indexado deveria carregar metadados capazes de responder perguntas como: de qual documento veio esta informação? Qual a versão? Ela ainda está vigente? Existe uma versão mais recente? Qual a fonte oficial prevalece em caso de conflito?

Também existe a questão regulatória. Em muitos setores, documentos antigos não podem simplesmente ser apagados. Eles precisam permanecer disponíveis para auditoria, compliance e rastreabilidade. O desafio passa a ser distinguir claramente entre conteúdo vigente, histórico, arquivado ou revogado.

Vejo muitas discussões sobre qual modelo usar, qual embedding gera melhor recuperação ou qual framework de agentes é mais sofisticado. Tudo isso é importante. Mas, em ambientes corporativos, uma resposta baseada na versão errada de uma política pode causar mais danos do que uma resposta incompleta.

Talvez a principal lição seja que o RAG não cria problemas de gestão do conhecimento. Ele apenas torna visíveis problemas que já existiam há anos. O que antes era compensado pela capacidade humana de interpretar contexto passa a ser exposto de forma explícita.

No fim, a qualidade de um sistema de IA depende menos da inteligência do modelo e mais da confiabilidade do conhecimento que ele recebe.

Categorias

Colunistas

Explorar

Newsletter

Ecossistema

O problema oculto dos projetos de RAG

Mais de Cezar Taurion

Fios

Mais de Cezar Taurion

Fios

O melhor do dev brasileiro, no seu e-mail