A Anthropic confirmou que o Claude Fable 5 aplicava restrições ocultas. Portanto, entender o que mudou é essencial para quem usa a API em pipelines de ML.
O que era o “nerf silencioso” do Fable 5
O Claude Fable 5 é o modelo da família Mythos voltado para uso com salvaguardas reforçadas. Assim como outros modelos da linha, ele delega respostas para versões menos potentes, como o Opus 4.8, quando detecta solicitações sensíveis sobre cibersegurança, biologia ou química.
Até aí, nada de novo. O problema, porém, estava em uma camada adicional e invisível.
A Anthropic inseriu restrições específicas para solicitações relacionadas ao desenvolvimento de modelos de machine learning. Isso incluía construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuído e design de aceleradores de ML. Em vez de recusar abertamente, o modelo simplesmente degradava a qualidade das respostas sem qualquer aviso.
Ou seja: você pagava pela API, recebia uma resposta, e essa resposta estava sendo sabotada em segundo plano.
Por que isso afeta diretamente desenvolvedores
Pesquisadores e engenheiros que usavam o Fable 5 em pipelines de ML relataram respostas inconsistentes sem conseguir identificar a causa. Além disso, a ausência de qualquer sinalização tornava o debug quase impossível.
Um comentário no Reddit resumiu bem a situação:
“Sinceramente, eu não usaria isso para nada. Uma recusa ou um erro HTTP-4XX para o conteúdo é aceitável, mas isso basicamente está pegando seu dinheiro e contaminando sua base de código.”
Esse ponto é técnico e importante. Do ponto de vista de engenharia de software, um comportamento silencioso e não documentado é muito mais prejudicial do que um erro explícito. Afinal, erros explícitos são tratáveis. Comportamentos ocultos, não.
O que a Anthropic mudou, e o que ainda está em aberto
Em comunicado oficial publicado na conta ClaudeDevs no X, a empresa anunciou duas mudanças principais.
Primeiro, as salvaguardas do Fable 5 para desenvolvimento de LLMs de fronteira passam a ser visíveis. Portanto, a partir desta semana, solicitações que acionarem os classificadores vão cair explicitamente para o Opus 4.8, da mesma forma que já ocorre com as restrições de cibersegurança e pesquisas biológicas. O desenvolvedor verá isso acontecer em tempo real.
Segundo, a Anthropic revisou os classificadores de cibersegurança e pesquisas biológicas para reduzir falsos positivos em solicitações inofensivas.
No entanto, a empresa também foi transparente sobre um tradeoff relevante: tornar as salvaguardas visíveis facilita contornos via jailbreak. Por isso, manter a robustez dos classificadores significa aceitar mais falsos positivos no curto prazo, enquanto o refinamento continua.
O contexto maior: uso do Claude para treinar concorrentes
Vale contextualizar o cenário. A Anthropic justifica a restrição ao desenvolvimento de modelos concorrentes argumentando que esse uso já viola os Termos de Serviço. Contudo, a implementação silenciosa acabou atingindo pesquisa científica legítima, sem distinguir intenções.
Isso levanta uma questão estrutural para quem desenvolve sobre a API: como garantir comportamento previsível em produção quando as restrições do modelo podem mudar de forma opaca?
A resposta, ao menos por ora, é monitorar ativamente os headers de resposta e implementar logs de comparação entre chamadas para detectar degradações de qualidade antes que contaminem a base de código.
O que fica de lição para quem usa modelos de fronteira
Em primeiro lugar, documentação de comportamento de safety não é opcional, é parte da surface de API. Em segundo lugar, qualquer restrição que afeta a qualidade da resposta precisa ser sinalizada explicitamente, seja via header, seja via campo na resposta.
A movimentação da Anthropic, portanto, é um acerto tardio. Mas também sinaliza uma maturação importante: à medida que modelos de fronteira entram em produção real, transparência operacional passa a ser tão crítica quanto performance de benchmark.



