A Anthropic testou seu modelo Claude Mythos Preview contra vulnerabilidades reais do Windows e do Firefox, e os resultados mudam o que sabemos sobre segurança pós-patch.
Anthropic: Quando o remédio vira veneno o patch que ensina o ataque
Por muito tempo, a lógica da segurança foi simples: publicou o patch, o problema foi resolvido. Portanto, a Anthropic decidiu testar essa premissa de forma sistemática, e os resultados são perturbadores o suficiente para mudar práticas de equipes inteiras.
A empresa usou seu modelo Claude Mythos Preview para automatizar um processo que pesquisadores humanos levam dias ou semanas para concluir. Em testes controlados, o modelo transformou correções públicas em exploits funcionais em questão de horas. Em alguns casos, em menos de uma hora.
O que são N-days, e por que eles importam mais do que zero-days
Antes de entrar nos números, vale entender o conceito central do estudo. Ao contrário dos zero-days (falhas desconhecidas e sem patch), os chamados N-days são vulnerabilidades já corrigidas pelo fornecedor, mas que continuam exploráveis em sistemas onde a atualização ainda não foi aplicada.
A janela entre a publicação do patch e a aplicação nos sistemas é chamada de lacuna de atualização. Consequentemente, é exatamente nesse intervalo que ataques acontecem. A Anthropic argumenta que os N-days respondem por grande parte dos danos cibernéticos reais, precisamente porque muitos sistemas continuam desatualizados por dias, semanas ou meses.
Kernel do Windows: 18 provas de conceito em menos de 6 horas
Os testes com o kernel do Windows cobriram 21 vulnerabilidades. O Mythos Preview gerou provas de conceito de exploração para 18 delas, todas dentro de seis horas. O mais rápido levou 31 minutos.
Além disso, o modelo construiu oito cadeias de exploração completas, elevando privilégios de um usuário comum ao nível SYSTEM. O custo total das oito cadeias foi de aproximadamente US$ 15.700 em créditos de API, uma média de cerca de US$ 2.000 por exploração.
Um detalhe relevante: o modelo trabalhou sem código-fonte. Utilizou binários compilados, símbolos de depuração públicos, output do Ghidra e o aviso oficial da Microsoft. Basicamente, o mesmo material disponível para qualquer atacante após a publicação de um CVE.
A Microsoft havia classificado 14 das 21 vulnerabilidades como “Exploitation Less Likely” ou “Exploitation Unlikely”. O Mythos Preview gerou crashes de prova de conceito para 13 dessas 14.
Firefox: o primeiro exploit antes do patch chegar ao usuário
O teste com Firefox analisou 18 patches no motor JavaScript SpiderMonkey. O modelo recebeu o diff público do código, o nome do componente e a classificação de severidade da Mozilla, nada além do que um atacante com acesso à internet teria.
O resultado: 14 provas de conceito de crashes geradas, com oito delas evoluindo para exploits de execução arbitrária de código.
O primeiro exploit do Firefox ficou pronto em menos de uma hora. Naquele momento, a versão estável do navegador com a correção ainda estava a 18 dias de ser lançada. Ou seja, o exploit existia antes que a maioria dos usuários pudesse se proteger.
Anthropic : Por que isso muda o conceito de “janela segura”
Historicamente, pesquisas indicavam que exploits de N-days levavam semanas para aparecer. O WannaCry, por exemplo, surgiu 59 dias depois da Microsoft publicar o patch MS17-010 em 2017. Uma análise da Mandiant de 2020 mostrou que 16 das 25 vulnerabilidades estudadas levaram um mês ou mais para serem exploradas.
Portanto, ciclos de patch gerenciados, como o Windows Autopatch, que distribui atualizações para 90% dos dispositivos em sete dias — pareciam tempo suficiente.
O problema é que o Mythos Preview concluiu todas as oito cadeias de exploit antes desse prazo de sete dias.
O modelo público também consegue, 6 com taxa menor
Um ponto que a Anthropic faz questão de destacar: os modelos Claude públicos, com salvaguardas desativadas, também foram capazes de gerar exploits. As taxas de sucesso foram menores do que as do Mythos Preview, mas o resultado confirma que o problema não é exclusivo de um modelo experimental restrito.
Isso muda a natureza da ameaça. Anteriormente, a preocupação era com atacantes altamente especializados. Agora, parte da barreira técnica pode ser automatizada por modelos disponíveis comercialmente.
O que equipes de desenvolvimento e segurança podem fazer agora – Anthropic
A Anthropic não publicou a pesquisa apenas para gerar alarme. Junto com os resultados, a empresa aponta caminhos concretos:
Implantação mais rápida de patches continua sendo a resposta mais direta. Quanto menor a lacuna de atualização, menor a superfície de ataque.
Linguagens memory-safe, como Rust, eliminam classes inteiras de vulnerabilidades antes que elas existam. A empresa cita isso como solução estrutural de longo prazo.
Mitigações como Control Flow Guard e hardware shadow stacks removem categorias de exploits mesmo quando bugs existem. Reduzindo o impacto de vulnerabilidades não corrigidas.
A lição central, portanto, é esta: a segurança pós-patch não pode mais ser tratada como um estado estável. O tempo que antes existia para testes, aprovações e rollout gerenciado está sendo comprimido, não por atacantes humanos mais rápidos, mas por automação.
Contexto e limitações do estudo
Os testes foram conduzidos em ambientes controlados, com vulnerabilidades já corrigidas. Não houve ataques a sistemas de produção. A Anthropic também reconhece que gerar um exploit é apenas uma etapa: descoberta de alvo, entrega, persistência e evasão ainda exigem trabalho adicional.
Ainda assim, a pesquisa estabelece um novo ponto de referência. O desenvolvimento de exploits, que era uma barreira significativa para atacantes com menos recursos, está se tornando cada vez mais acessível por automação.
Acompanhe nosso perfil no Instagram!



