Generative AI

19 jun, 2026

A IA Minúscula Que Humilhou um Supercomputador

Publicidade

Imagina a cena: o Google joga 250 GPU-anos de computação num problema. Isso é tipo rodar um PC gamer sem parar por dois séculos e meio. O resultado? O “Evolved Transformer” – uma arquitetura de IA descoberta por pura força bruta.

Agora imagina uma equipe pequena no MIT com um quadro branco, café e uma ideia esperta. O resultado deles? Um modelo que vence o Evolved Transformer enquanto emite mais ou menos a mesma quantidade de CO2 que… ir de carro até o mercado.

Essa é a história do Lite Transformer, e honestamente, é uma das minhas histórias favoritas de azarão em IA.

O Vilão: Um Monstro Quadrático

Primeiro, vamos conhecer o vilão.

Toda vez que um Transformer lê uma frase, ele joga um jogo de “quem se relaciona com quem” entre cada palavra. Palavra 1 olha pras palavras 2, 3, 4… Palavra 2 olha pras palavras 1, 3, 4… Sacou a ideia.

Dobra o tamanho da frase? O trabalho não dobra. Ele quadruplica. Isso é complexidade O(n²), e é o motivo de rodar GPT no celular parecer pedir pra um hamster puxar um caminhão.

A Reviravolta: E Se Estivermos Fazendo Errado?

Aqui fica interessante.

O time do MIT ficou encarando aqueles padrões de atenção e notou algo estranho. Quando o modelo olha pra palavras próximas, os padrões são organizados e previsíveis – linhas diagonais bonitinhas. Mas pra palavras distantes? Caos. Pontos esparsos por todo lado.

Eles perguntaram: “Por que estamos usando a mesma ferramenta pra dois trabalhos completamente diferentes?”

É tipo usar um canivete suíço tanto pra passar manteiga no pão QUANTO pra derrubar uma árvore. Claro, tecnicamente tem uma lâmina, mas qual é.

O Herói: Dividir pra Conquistar

A solução deles é lindamente simples: dividir o trabalho.

Um ramo usa convolução – basicamente uma janela deslizante que é incrível em padrões locais. Ela passa pelos relacionamentos próximos como faca quente na manteiga.

O outro ramo mantém o mecanismo de atenção, mas agora só cuida das coisas de longa distância. Sem mais desperdício de capacidade com “sim, a palavra ‘o’ está do lado de ‘gato’.”

Pensa nisso como uma cozinha de restaurante. Em vez de um chef fazendo tudo (preparo, grelha, montagem), você tem um cozinheiro de preparo e um mestre da grelha. Cada um faz sua parte mais rápido e melhor.

A Reviravolta Que Ninguém Esperava

Agora fica picante.

Por anos, engenheiros adicionaram “bottlenecks” (gargalos) nos Transformers – apertar os dados antes da camada de atenção porque “atenção é cara.” Parece lógico, né?

Errado.

O time do MIT realmente mediu pra onde vai a computação. Acontece que, pra tamanhos normais de frase, a camada de atenção nem é o custo principal. É a grande rede feed-forward que vem depois.

Então o bottleneck tava:

  1. Economizando um pouco em algo barato
  2. Enquanto prejudicava ativamente algo importante

É tipo pular o café da manhã pra economizar R$10 e depois ficar tão cansado que bate o carro. Conta que não fecha.

O Placar

Beleza, chega de storytelling. Vamos ver os números:

O Que Aconteceu Quanto
Venceu o Evolved Transformer por 0.5 BLEU
CO2 pra projetar Evolved Transformer 284.000 kg (5 carros durante toda vida útil)
CO2 pra projetar Lite Transformer 14,5 kg (um churrasco de fim de semana)
Melhoria de velocidade em 100M MACs +1.7 BLEU sobre Transformer padrão
Redução do tamanho do modelo 18.2x menor

Quanto mais apertada a restrição de recursos, maior a vantagem do Lite Transformer. É tipo um carro compacto que fica mais rápido quanto menos gasolina você dá pra ele.

E Daí?

Aqui está porque isso importa além da história legal:

A indústria de IA tem um vício. Quando algo não funciona, jogamos mais dados e mais computação nele. É o equivalente tech do “já tentou desligar e ligar de novo?”

O Lite Transformer é um lembrete de que entendimento vence força bruta. Alguns pesquisadores com insight superaram um exército de GPUs buscando às cegas.

E conforme IA se torna algo que carregamos no bolso em vez de acessar por data centers, esse tipo de pensamento não é só legal de ter – é essencial.

A próxima descoberta pode não vir de quem tem mais GPUs. Pode vir de quem faz as melhores perguntas.