No dia a dia de implementações de projetos de RAG, vejo que um dos problemas mais subestimados não é a qualidade do modelo, nem a estratégia de chunking ou mesmo a escolha do banco vetorial.
É o controle e a governança dos documentos.
Na fase inicial dos projetos, normalmente carregamos PDFs, políticas internas, procedimentos, contratos, manuais e apresentações para criar uma base de conhecimento corporativa. Tudo funciona bem até que alguém faz uma pergunta e recebe uma resposta baseada em um documento que deveria ter sido aposentado meses atrás.
Nesse momento, descobrimos que o problema não é o LLM. É governança da informação.
O mundo dos documentos corporativos foi construído durante décadas para consumo humano. Quando uma nova versão de uma política é publicada, as pessoas aprendem a ignorar a anterior. Quando um procedimento é atualizado, espera-se que os colaboradores consultem a versão mais recente.
Mas um sistema RAG não possui esse contexto. Se versões antigas e novas estiverem indexadas simultaneamente, ambas podem aparecer na recuperação. E, dependendo da similaridade semântica, a versão errada pode até ser considerada mais relevante.
Pior ainda, o problema nem sempre é apenas versionamento. Em muitas organizações existem documentos diferentes afirmando coisas diferentes sobre o mesmo tema: políticas corporativas, procedimentos locais, FAQs, apresentações de treinamento e comunicados internos. Todos podem estar tecnicamente vigentes, mas qual deles possui maior autoridade?
Interessante notar que a IA não está alucinando. Ela está respondendo exatamente com base no conhecimento que recebeu. O problema é que o conhecimento armazenado está inconsistente.
Muitas empresas tratam documentos como arquivos. Talvez precisem começar a tratá-los como código.
Isso significa introduzir práticas já comuns no desenvolvimento de software: versionamento formal, identificadores únicos por versão, datas de vigência, status de publicação, fluxos de aprovação, controle de obsolescência, hierarquia de autoridade e trilhas de auditoria.
Além disso, não basta controlar os documentos. É preciso governar o pipeline de ingestão. Alterações precisam ser detectadas automaticamente, documentos reindexados, versões obsoletas removidas e chunks antigos eliminados. Caso contrário, o sistema continuará recuperando conhecimento que teoricamente já não deveria existir.
Na prática, cada chunk indexado deveria carregar metadados capazes de responder perguntas como: de qual documento veio esta informação? Qual a versão? Ela ainda está vigente? Existe uma versão mais recente? Qual a fonte oficial prevalece em caso de conflito?
Também existe a questão regulatória. Em muitos setores, documentos antigos não podem simplesmente ser apagados. Eles precisam permanecer disponíveis para auditoria, compliance e rastreabilidade. O desafio passa a ser distinguir claramente entre conteúdo vigente, histórico, arquivado ou revogado.
Vejo muitas discussões sobre qual modelo usar, qual embedding gera melhor recuperação ou qual framework de agentes é mais sofisticado. Tudo isso é importante. Mas, em ambientes corporativos, uma resposta baseada na versão errada de uma política pode causar mais danos do que uma resposta incompleta.
Talvez a principal lição seja que o RAG não cria problemas de gestão do conhecimento. Ele apenas torna visíveis problemas que já existiam há anos. O que antes era compensado pela capacidade humana de interpretar contexto passa a ser exposto de forma explícita.
No fim, a qualidade de um sistema de IA depende menos da inteligência do modelo e mais da confiabilidade do conhecimento que ele recebe.



