Anthropic admite: Claude já escreve mais código do que os humanos

A Anthropic acaba de publicar um relatório que coloca em perspectiva o quanto a automação de código avançou dentro de seus próprios muros. Em maio de 2026, mais de 80% do código integrado à base de produção da empresa foi escrito pelo Claude. O número subiu de dígitos simples desde o lançamento do Claude Code, em fevereiro de 2025. Ou seja, em pouco mais de um ano, o modelo passou de ferramenta de apoio a principal autor do software da empresa.

Mas o ponto mais revelador do documento não é o número em si. É o tom com que a Anthropic o descreve.

Anthropic: De assistente a arquiteto: o que os dados mostram

No segundo trimestre de 2026, engenheiros da Anthropic entregaram oito vezes mais código por trimestre do que entregavam entre 2021 e 2025. Portanto, o salto de produtividade não é marginal, é estrutural.

Em uma pesquisa interna com 130 pesquisadores, a mediana apontou produção quatro vezes maior ao usar o Mythos Preview (o modelo mais avançado da empresa) em comparação ao trabalho sem IA. Além disso, nas tarefas de engenharia mais complexas e menos especificadas, o Claude alcançou uma taxa de sucesso de 76% em maio de 2026, um aumento de 50 pontos percentuais em apenas seis meses.

Um exemplo concreto do relatório ilustra bem esse salto: quando uma atualização comum travou milhares de tarefas em execução, um engenheiro pediu ajuda ao Claude. Em duas horas, o modelo encontrou uma configuração oculta que causava o erro, testou a falha e resolveu o problema. Um trabalho que normalmente exigiria dois a três dias de um profissional humano.

Quando o modelo começa a fazer pesquisa, não só código

O relatório descreve um experimento de abril de 2026 que vai além da engenharia de software. Nove agentes paralelos trabalharam em um projeto de segurança de IA de ponta a ponta, sem supervisão contínua. Ao longo de cerca de 800 horas acumuladas e aproximadamente US$ 18 mil em computação, os agentes recuperaram 97% da lacuna de desempenho na tarefa. Dois pesquisadores humanos, trabalhando por uma semana, recuperaram 23%.

Portanto, o deslocamento não é só na linha de código. É também na linha de raciocínio científico.

Outro teste mediu a capacidade do Claude de escolher o “próximo passo” mais adequado em sessões reais de pesquisa. Em novembro de 2025, o modelo acertou o julgamento do pesquisador humano em 51% das situações. Em abril de 2026, esse número chegou a 64%. Ainda assim, o progresso nessa direção é o que mais preocupa os autores do documento.

Os três cenários que a Anthropic não quer ignorar

O relatório, produzido por Marina Favaro e Jack Clark do Anthropic Institute, descreve três futuros possíveis para essa trajetória.

No primeiro, a tendência desacelera, mas as capacidades atuais já reformulam a economia global de desenvolvimento de software. No segundo, o desenvolvimento de IA se torna substancialmente automatizado enquanto humanos ainda definem a direção de pesquisa. O que permitiria que empresas de 100 pessoas façam o trabalho de organizações com 100 mil. No terceiro cenário, os modelos atingem o chamado autoaperfeiçoamento recursivo pleno e passam a projetar seus próprios sucessores.

Sobre esse terceiro ponto, a Anthropic admite, textualmente, não ter “boas intuições”. E isso, vindo da empresa que constrói os modelos, não é uma fala pequena.

Autoaperfeiçoamento recursivo: por que o termo importa para devs

Para quem trabalha com engenharia de software, o conceito de autoaperfeiçoamento recursivo tem implicações práticas. Basicamente, significa que um modelo treinado com código gerado por versões anteriores de si mesmo pode amplificar tanto capacidades quanto erros de alinhamento de geração em geração.

Assim, falhas raras e controláveis hoje podem se acumular até que o controle se torne inviável. O relatório alerta que esse desalinhamento pode ficar “cada vez mais frequente. Mas cada vez menos compreendido” ao longo do tempo.

É exatamente o tipo de problema que nenhum lint ou suite de testes resolve sozinho.

A proposta de pausa, e por que ela é difícil de implementar

Para lidar com esse risco, o documento propõe um mecanismo de pausa verificável e coordenado entre laboratórios de fronteira em diferentes países. A analogia usada é explicitamente com o controle de armas nucleares.

A Anthropic reconhece os limites da ideia. Uma pausa unilateral apenas mudaria quem lidera a corrida. O que se propõe é um acordo no qual múltiplos laboratórios concordariam em parar sob as mesmas condições e verificariam o cumprimento uns dos outros.

O problema técnico é sério: o treinamento de um modelo de IA é muito mais difícil de detectar do que o teste de um míssil. Além disso, o incentivo econômico para descumprir um acordo desse tipo é considerável, especialmente em um mercado de IA para código que já movimenta dezenas de bilhões de dólares.

O que fica para quem desenvolve software hoje

Vale notar que os dados apresentados são auto-reportados pela Anthropic e não foram auditados de forma independente. O relatório foi publicado dias depois de a empresa protocolar pedido de abertura de capital. Contexto relevante para qualquer leitura crítica dos números.

Dito isso, mesmo com esse filtro, a trajetória descrita é coerente com o que grande parte da comunidade de desenvolvimento já observa na prática. Ferramentas como o Claude Code mudaram fluxos de trabalho de forma concreta. Consequentemente, a questão que o relatório levanta não é se a IA vai escrever mais código. É se o ritmo de mudança permite que as instituições, as práticas de segurança e os próprios desenvolvedores acompanhem o que está sendo construído.

E essa pergunta, por enquanto, segue sem resposta clara.

Acompanhe nosso perfil no Instagram!

Powered by: