O hype do RAG e a promessa dos “agentes inteligentes”
Durante algum tempo, criou-se a ideia de que bastava conectar um LLM a um banco vetorial e pronto: surgia um “agente inteligente”. O discurso virou quase uma receita de bolo. Pegue documentos, gere embeddings, faça busca semântica e entregue tudo ao modelo. Chamaram isso de RAG.
E, de fato, para muitos casos simples de perguntas e respostas, ele funciona muito bem. Porém, quando entramos no território de agentes autônomos e sistemas multiagentes, as limitações começam a aparecer de forma muito mais séria.
O que o RAG realmente resolve
O problema é que o RAG foi concebido como mecanismo de recuperação de contexto, e não como mecanismo de raciocínio, planejamento ou memória operacional contínua.
Um agente precisa manter objetivos persistentes, decompor tarefas, revisar decisões anteriores, lidar com ambiguidades, monitorar estados intermediários, corrigir erros e adaptar comportamento ao longo do tempo. Já o RAG clássico faz algo muito mais simples: busca conteúdos semanticamente parecidos com a consulta atual.
Além disso, a busca vetorial opera por proximidade estatística entre embeddings. Ou seja, ela encontra conteúdo semanticamente relacionado. Entretanto, agentes frequentemente precisam de conteúdo causalmente relevante, proceduralmente relevante ou temporalmente relevante — e isso nem sempre aparece como similaridade semântica.
O problema da coerência em execuções longas
Imagine um agente corporativo executando uma sequência longa de tarefas. Em muitos casos, a informação realmente importante surgiu dezenas de etapas antes, descrita de forma completamente diferente da pergunta atual.
Nesse cenário, o sistema de retrieval não “entende” que aquilo é essencial para o plano em andamento. Ele apenas mede similaridade matemática.
Como consequência, surge um fenômeno cada vez mais comum: agentes que parecem ter memória ampla, mas não conseguem manter coerência operacional por muito tempo.
Além disso, existe outro problema importante. O chunking ajuda na recuperação, mas também destrói parte da estrutura lógica dos documentos. Relatórios, contratos, políticas e processos empresariais possuem relações hierárquicas e dependências internas. Contudo, quando tudo vira fragmento vetorial, o agente perde visão estrutural do conhecimento.
O resultado são respostas localmente plausíveis, porém globalmente inconsistentes.
O custo invisível dos sistemas multiagentes
Outro ponto pouco discutido envolve as limitações práticas. Sistemas multiagentes ampliam drasticamente custo, latência e complexidade de retrieval e gerenciamento de contexto.
Em execuções mais longas, o agente pode acabar gastando mais tempo recuperando contexto do que realmente raciocinando sobre ele.
Além disso, quanto mais agentes compartilham contexto, maior se torna o problema de sincronização, consistência e atualização de memória entre etapas da execução.
Memória dinâmica é diferente de memória documental
Existe ainda uma limitação mais profunda: agentes precisam de memória dinâmica, não apenas memória documental.
Eles precisam lembrar decisões tomadas anteriormente, hipóteses descartadas, erros passados, prioridades mutáveis e dependências entre tarefas. No entanto, nada disso se encaixa naturalmente em um pipeline clássico de RAG.
Por isso, muitos sistemas conseguem responder perguntas sobre documentos, mas falham quando precisam sustentar comportamento coerente ao longo do tempo.
O verdadeiro desafio dos agentes de IA
Talvez seja exatamente por isso que tantos “agentes inteligentes” impressionam em demos curtas, mas desmoronam em execuções longas.
O RAG ajuda — e muito — na recuperação de conhecimento. Porém, ele está longe de resolver o problema central dos agentes: memória operacional contínua, raciocínio persistente e adaptação contextual ao longo do tempo.



