NVIDIA acelera LLMs autorregressivos em até 15 vezes

Modelos de linguagem autorregressivos geram tokens um a um. Esse processo sequencial limita a GPU e reduz a taxa de transferência. Por isso, ambientes sensíveis à latência sofrem gargalos constantes. Agora, a NVIDIA apresenta um caminho diferente. Com o DFlash, a difusão de blocos substitui o drafter autorregressivo. Dessa forma, o ganho de velocidade chega a 15 vezes na arquitetura Blackwell.

Por que a decodificação sequencial trava a inferência

Cada token depende do anterior nesse modelo. Portanto, a GPU espera o resultado antes de seguir. Esse comportamento gera ociosidade no hardware. Além disso, fluxos multiagentes ampliam o problema. Quando a IA passa de turno único para tarefas coordenadas, a demanda cresce. Assim, a latência por usuário vira um obstáculo direto.

Decodificação especulativa abriu o caminho, mas esbarrou no limite

A decodificação especulativa surgiu como primeira resposta. Nela, um modelo leve gera tokens futuros. Em seguida, o modelo maior verifica tudo em paralelo. Contudo, o drafter tradicional ainda trabalha de forma sequencial. Por isso, os custos crescem rápido conforme o volume aumenta. Esse limite trava a capacidade total do sistema.

Como o DFlash troca o drafter por difusão de blocos

O DFlash é um modelo de difusão de blocos leve e aberto. Ele substitui por completo o drafter autorregressivo. Em vez de gerar tokens individuais, ele prevê um bloco inteiro. Assim, o rascunho sequencial vira computação paralela na GPU. Enquanto isso, o modelo alvo verifica a saída. Dessa forma, a qualidade permanece intacta.

NVIDIA Blackwell: os números que comprovam o ganho

Os testes rodaram em um sistema com oito placas NVIDIA DGX B300. O modelo gpt oss 120b operou com TensorRT LLM. Para medir o desempenho, a equipe usou o conjunto SPEED Bench. Como resultado, o DFlash entregou maior taxa de transferência. Em níveis de alta interatividade, o ganho impressiona. Nesse cenário, ele aumenta a taxa em mais de 15 vezes na Blackwell. Além disso, o resultado supera em 1,5 vez o EAGLE 3. No menor ponto de concorrência, o modelo mais que dobra a interatividade.

Por que a Blackwell Ultra da NVIDIA combina com o draft paralelo

A arquitetura Blackwell Ultra conversa direto com esse modelo paralelo. Primeiramente, cada GPU traz dois dies do tamanho de um reticle. Em seguida, eles se conectam por um interconnect de 10 tbps. Dessa forma, o conjunto forma um domínio de computação unificado. No total, ele reúne 160 streaming multiprocessors. Além disso, traz 640 Tensor Cores de quinta geração. Com isso, o DFlash expõe mais operações paralelas ao NVFP4. Logo, o sistema atende até 15 vezes mais usuários ao mesmo tempo.

Desempenho do DFlash em datasets especializados

Os ganhos aparecem em diferentes cargas de trabalho. No gpt oss 120b, o DFlash atinge 2,6 vezes em código. Enquanto isso, o EAGLE 3 fica em 1,8 vez. Já em geração aumentada por recuperação, o DFlash chega a 2,3 vezes. Em processamento multilíngue, o ganho sobe para 2,6 vezes. Na média, o modelo de 120 bilhões alcança 2,3 vezes. O Llama 3.1 8B segue o mesmo padrão. Em código, ele entrega 3,0 vezes contra 2,3 do EAGLE 3. Além disso, a recuperação chega a 3,1 vezes. Na média geral, o modelo de 8 bilhões atinge 2,8 vezes.

Como integrar o DFlash no vLLM e no SGLang

A equipe liberou 20 checkpoints do DFlash no Hugging Face. Eles cobrem famílias como Qwen, Kimi K2.6, Llama, Gemma e gpt oss. Para quem usa vLLM, a troca é simples. Na prática, você substitui o EAGLE 3 por um checkpoint DFlash. A integração roda pela biblioteca aberta Speculators. Nos testes com Gemma 4 31B, o vLLM mostra ganhos claros. A taxa sobe até 5,8 vezes ante a decodificação padrão. No dataset Math500, o aumento alcança 5,8 vezes. Já o HumanEval registra 5,6 vezes. Por fim, o GSM8K marca 5,3 vezes.

No SGLang, o processo é parecido. Primeiro, você atualiza o algoritmo para DFlash. Depois, basta fornecer o checkpoint correspondente. No Qwen3 8B com uma GPU B200, o ganho chega a 5,1 vezes. Nas tarefas Math500, o avanço marca 5,1 vezes. Já no HumanEval, ele fica em 4,2 vezes.

Os três mecanismos por trás do DFlash

A arquitetura interna se apoia em três mecanismos. Primeiro, o draft por difusão prevê vários tokens em paralelo. Segundo, o condicionamento extrai características do modelo alvo. Terceiro, a injeção de chave valor insere esses recursos no modelo preliminar. Esse mecanismo mantém altas taxas de aceitação. Assim, o modelo alvo cuida apenas da validação final. Dessa forma, o sistema preserva a distribuição original. Ao mesmo tempo, acelera toda a sequência.

DFlash roda em todo o hardware da NVIDIA

O DFlash mostra um caminho prático para escalar inferência. Em vez de aceitar o gargalo, você ganha paralelismo real. Além disso, os checkpoints abertos rodam em todo o hardware da NVIDIA. Eles têm suporte nativo em SGLang, vLLM e TensorRT LLM. Portanto, a barreira de entrada cai bastante. Para times que servem código e fluxos agênticos, o ganho é direto. Agora, vale testar o DFlash no seu ambiente.

Acompanhe nosso perfil no Instagram!

Powered by: