IA chinesa GLM 5.2 encara o Opus 4.8 e roda em infraestrutura própria

A IA chinesa GLM 5.2 chegou para movimentar o mercado de grandes modelos de linguagem. A startup Z.ai desenvolveu o modelo e mira direto no trabalho de quem programa. Além disso, o desempenho aparece próximo do Claude Opus 4.8 e do GPT 5.5. Portanto, vale conhecer os detalhes técnicos por trás dessa novidade.

IA chinesa que nasceu para tarefas longas de código

A Z.ai apresentou o GLM 5.2 em 16 de junho. Assim, o modelo assumiu o topo do portfólio da empresa. Ele traz janela de contexto de 1 milhão de tokens. Ademais, sustenta essa janela durante trajetórias longas de agentes de código. Dessa forma, a proposta atende cenários reais de engenharia. Meses de treinamento específico moldaram esse comportamento. Por isso, o modelo mantém qualidade mesmo em contextos extensos.

Arquitetura enxuta e o truque do IndexShare

O GLM 5.2 usa uma arquitetura Mixture of Experts. Portanto, ele soma cerca de 744 bilhões de parâmetros totais. Contudo, apenas 40 bilhões ficam ativos por token. Assim, o custo de inferência cai de forma expressiva. Além disso, a Z.ai criou o IndexShare. Esse recurso reaproveita o mesmo indexador a cada quatro camadas de atenção esparsa. Como resultado, o custo por token despenca 2,9 vezes em contexto de 1 milhão. Dessa maneira, a promessa de contexto longo vira algo viável na prática.

Benchmarks: a IA chinesa chega perto do topo fechado

Os números contam uma história interessante. No Terminal Bench 2.1, o GLM 5.2 marcou 81,0 pontos. Enquanto isso, o Opus 4.8 ficou em 85,0. Ainda assim, o modelo aberto passou o Gemini 3.1 Pro com folga. No SWE bench Pro, a pontuação chegou a 62,1. Portanto, ele superou o GPT 5.5, que ficou em 58,6. Além disso, o resultado ultrapassou o antecessor GLM 5.1, que marcou 58,4.

Agora, olhe para as tarefas de longo prazo. No FrontierSWE, o GLM 5.2 fica apenas 1% atrás do Opus 4.8. Contudo, no SWE Marathon a diferença cresce para 13%. Ainda assim, o modelo permanece como o melhor open source dos três testes. Ou seja, a liderança entre modelos abertos aparece de forma consistente.

Effort control: você decide quanto o modelo pensa

O GLM 5.2 traz níveis de esforço de raciocínio. Assim, você escolhe entre os modos High e Max. O modo Max prioriza problemas complexos e de vários passos. Já o modo High equilibra desempenho e latência. Dessa forma, você controla o consumo de tokens conforme a tarefa. Na API, o parâmetro reasoning_effort define esse comportamento. Além disso, o parâmetro enable_thinking desliga o raciocínio quando você prefere velocidade.

Quanto custa colocar essa IA chinesa para rodar

O preço aparece como o grande argumento comercial. Direto pela Z.ai, o input custa US$ 1,40 por milhão de tokens. Enquanto isso, o output sai por US$ 4,40 por milhão. Além disso, provedores como o OpenRouter cobram ainda menos, cerca de US$ 0,95 e US$ 3,00. Portanto, o GLM 5.2 fica aproximadamente 6 vezes mais barato que o GPT 5.5. Da mesma forma, ele sai 5 vezes abaixo do Opus 4.8 em cargas equivalentes. O GLM Coding Plan começa em US$ 12,60 por mês para uso individual. Contudo, durante horários de pico o consumo de cota sobe até 3 vezes.

Rodar localmente: o que sua máquina precisa

A licença MIT abre caminho para hospedagem própria. Assim, você usa, modifica e comercializa o modelo sem royalties. Além disso, a quantização Dynamic 2.0 GGUF da Unsloth ajuda bastante. A versão de 2 bits ocupa 239 GB. Portanto, ela cabe em um Mac com 256 GB de memória unificada. Da mesma forma, um sistema com uma GPU de 24 GB e 256 GB de RAM roda o modelo via offloading de MoE. Já a versão de 1 bit cabe em 223 GB de RAM. Dessa forma, o frontier level sai do datacenter e chega ao seu setup.

IA chinesa dentro do seu fluxo de trabalho

A integração aconteceu rápido no ecossistema. Assim, o GLM 5.2 roda no ZCode, no Claude Code, no OpenCode e no Kilo Code. Além disso, o modelo aparece no HuggingFace e no ModelScope. No Claude Code, você ativa o contexto de 1 milhão com o nome GLM 5.2[1m]. Portanto, a adoção exige pouco esforço de configuração. Dessa forma, você testa a novidade ainda hoje.

O ponto sensível: dados e geopolítica

Aqui entra a parte que pede atenção. O uso via API passa por servidores sujeitos à legislação chinesa. Portanto, times com dados sensíveis avaliam esse risco com cuidado. Contudo, os pesos sob licença MIT mudam esse cenário. Uma vez baixado, o modelo funciona em infraestrutura própria, longe de qualquer diretriz externa. Dessa forma, a hospedagem local vira a resposta para quem prioriza soberania de dados.

O recado para quem programa

O GLM 5.2 marca um momento importante para o código aberto. Assim, o modelo entrega desempenho de fronteira a um custo baixo. Além disso, ele coloca 1 milhão de tokens de contexto na mão de qualquer equipe. Portanto, a IA chinesa amplia as opções para desenvolvedores no mundo todo. Enfim, vale acompanhar de perto os próximos passos da Z.ai.

Acompanhe nosso perfil no Instagram!

Powered by: