Agentes de codificação ficaram mais baratos: mudanças em 72 horas

Chegaram os túneis MCP, ainda em pré-visualização. Eles permitem que os agentes se conectem a bancos internos sem um ponto de acesso público. O tráfego é criptografado de ponta a ponta.

Em apenas três dias, o custo de rodar inteligência de ponta despencou. Três lançamentos quase simultâneos reorganizaram o mercado. Para quem decide ferramentas, a conta agora é outra.

Vamos ao que aconteceu. Depois, ao que isso significa na prática.

Três lançamentos de Agentes, uma semana, e o preço que nunca mais foi o mesmo

Primeiro, a Cursor lançou o Composer 2.5 em 18 de maio. Em seguida, no dia 19, a Anthropic abriu seu primeiro evento europeu para desenvolvedores, o Code with Claude London. No mesmo dia, a Alibaba colocou a API Qwen 3.7 Max em operação.

Portanto, cada evento já valeria uma análise sozinho. Juntos, porém, eles atingiram um mercado onde os preços já caíam há meses. E os derrubaram ainda mais.

O que a Cursor entregou com o Composer 2.5

O Composer 2.5 é o modelo proprietário de terceira geração da Cursor. Além disso, ele foi construído sobre a base aberta Kimi K2.5, a mesma do antecessor de março. Desta vez, contudo, foi treinado em 25 vezes mais tarefas sintéticas de codificação.

A empresa também revelou o nome do modelo base de forma antecipada. Em março, aliás, a falta dessa clareza gerou críticas da comunidade.

Agora vamos aos números, que é onde a coisa fica interessante. O plano padrão custa US$ 0,50 por milhão de tokens de entrada e US$ 2,50 por milhão de saída. No CursorBench v3.1, o Composer 2.5 atinge cerca de 63% de precisão a aproximadamente US$ 0,50 por tarefa. Enquanto isso, o Claude Opus 4.7 obtém pontuação parecida a cerca de US$ 7 por tarefa.

Ou seja, mesma capacidade por uma fração do custo, segundo a própria medição da Cursor. Vale o ceticismo de sempre com benchmark de fornecedor. Ainda assim, a diferença de preço é real.

O que a Anthropic levou para Londres

A Anthropic não cortou preço. Em vez disso, ela atacou outro gargalo: o que impedia equipes corporativas de rodar agentes em escala. Em resumo, o problema era a saída de dados do perímetro da empresa.

Por isso, surgiram os ambientes de teste auto-hospedados, agora em beta público. Com eles, as equipes executam os Agentes Gerenciados do Claude na própria infraestrutura. O loop de orquestração continua do lado da Anthropic. Contudo, o código roda, os arquivos são gravados e as chamadas de rede acontecem dentro do ambiente do cliente.

No entanto, há ressalvas importantes. Os ambientes seguem em beta, não em disponibilidade geral. Os túneis MCP, por sua vez, trazem linguagem explícita de “como estão” na documentação. Portanto, quem precisa de garantia de estabilidade hoje ainda não é o público-alvo.

O que a Alibaba colocou em jogo os Agentes

A API Qwen 3.7 Max estreou no Alibaba Cloud Model Studio em 19 de maio. Curiosamente, o modelo é fechado. Isso marca uma mudança: a Alibaba costumava liberar pesos abertos junto com APIs hospedadas. Até agora, nenhum peso apareceu no Hugging Face.

O preço é de US$ 2,50 por milhão de tokens de entrada e US$ 7,50 por milhão de saída. Há ainda um desconto de 90% em tokens de entrada em cache, o que reduz o valor para US$ 0,25 por milhão. No Índice de Inteligência da Artificial Analysis, a plataforma marcou 56,6 pontos. No SWE-Bench verificado, a pontuação é de 72,5.

Contudo, existe uma pegadinha prática. O “pensamento estendido” vem habilitado por padrão. Por consequência, o modelo fica verboso em sessões longas. Desenvolvedores relatam custos efetivos de três a quatro vezes a taxa anunciada, a menos que o max_tokens seja limitado manualmente.

Por fim, um detalhe interessa a quem usa o Claude Code. O Qwen 3.7 Max suporta o protocolo Anthropic Messages de forma nativa. Logo, ele encaixa numa estrutura Claude Code existente sem reescrever a lógica de integração.

Então, qual agente escolher agora?

O efeito conjunto é simples de resumir. A capacidade de ponta agora tem vários preços competitivos, não apenas um. Seis meses atrás, rodar um agente competente significava pagar tarifas tipo Opus ou aceitar uma queda grande de qualidade. Hoje, essa escolha ficou mais difícil. E isso é bom.

Porém, token barato não significa resultado melhor. O custo real soma três coisas. Primeiro, o preço do token. Segundo, o trabalho de revisar a saída do agente. Terceiro, a sobrecarga de gerenciá-lo dentro da segurança e da conformidade.

Em outras palavras, um modelo barato só compensa se o diff for pequeno e fácil de inspecionar. A própria documentação da Cursor deixa isso explícito. Aliás, a ressalva vale para os três lançamentos.

Por último, a aposta da Alibaba merece atenção como sinal estratégico. Entrar com um modelo fechado, voltado ao desenvolvedor corporativo, em vez de apostar no código aberto, indica uma mudança de intenção. Se o Qwen 3.7 Max vai segurar a posição depois de testes independentes, isso é outra história. Mas a intenção, de fato, mudou.

Conclusão

Em síntese, a semana não trouxe apenas modelos novos. Ela trouxe opções de preço onde antes havia praticamente uma. Para o desenvolvedor, portanto, o momento pede teste prático, não fidelidade a uma marca. Avalie o custo total, não só o número do token. Depois, decida com os seus próprios benchmarks.

Acompanhe nosso perfil no Instagram!

Powered by: