Nas aulas, faço questão de mostrar a evolução da IA generativa, porque quase todo mundo pensa que ela surgiu com os Transformers e o ChatGPT. Mas não foi assim. A história começou bem antes dos LLMs.
Na verdade, modelos generativos existem há décadas. O que mudou na década de 2010 foi o avanço do deep learning, que permitiu às redes neurais não apenas classificar ou reconhecer padrões, mas também aprender a gerar novos dados: imagens, textos, sons e vídeos que nunca existiram, mas que preservam as características estatísticas dos dados usados no treinamento.
Foi desse movimento que surgiram diferentes famílias de modelos generativos baseados em deep learning: as GANs (Generative Adversarial Networks), os Variational Autoencoders (VAEs), os modelos autoregressivos, os modelos de difusão e, mais recentemente, os modelos generativos baseados na arquitetura Transformer.
As GANs ocupam um lugar especial nessa trajetória. Propostas em 2014 por Ian Goodfellow e sua equipe, elas foram a primeira arquitetura de deep learning capaz de gerar imagens fotorrealistas com qualidade suficiente para impressionar a comunidade científica e acelerar enormemente as pesquisas em IA generativa.
Até então, redes neurais eram usadas principalmente para reconhecer padrões ou fazer previsões. As GANs mostraram que elas também podiam criar conteúdo novo.
Uma GAN é formada por duas redes neurais profundas treinadas simultaneamente. A primeira é o gerador, que cria dados sintéticos. A segunda é o discriminador, que tenta distinguir exemplos reais dos artificiais. É como colocar um falsificador e um perito para competir. À medida que um melhora, o outro também evolui. Após milhares ou milhões de interações, o gerador aprende a produzir conteúdos extremamente convincentes.
Essa abordagem é bastante diferente das demais arquiteturas generativas. Os VAEs aprendem uma representação comprimida dos dados para reconstruí-los ou gerar novas amostras. Os modelos autoregressivos, cuja ideia antecede os Transformers, geram o conteúdo elemento por elemento, prevendo a próxima palavra, pixel ou token. Já os modelos de difusão aprendem a remover gradualmente ruído de uma imagem até reconstruir um resultado coerente. Eles produzem imagens extremamente realistas, são mais estáveis para treinar e, por isso, se tornaram a tecnologia dominante em sistemas como Stable Diffusion e influenciaram ferramentas como DALL·E.
Foi graças às GANs que vimos alguns dos primeiros grandes avanços em geração de rostos sintéticos, super-resolução, restauração de fotografias antigas, colorização automática, transferência de estilo e geração de dados sintéticos.
Um dos exemplos mais conhecidos foi o StyleGAN, da NVIDIA, que revolucionou a geração de rostos humanos sintéticos. Lembram do siteThisPersonDoesNotExist.com? A cada atualização da página, ele gerava o retrato de uma pessoa que nunca existiu, mas que parecia uma fotografia real. Outro exemplo foi o CycleGAN, capaz de transformar fotografias em pinturas ou converter paisagens de verão em inverno sem precisar de imagens pareadas. Já o SRGAN tornou-se referência em super-resolução, reconstruindo imagens de baixa qualidade com grande fidelidade.
As GANs continuam sendo amplamente utilizadas. Estão presentes em aplicações como restauração facial (GFPGAN), aumento de resolução (Real-ESRGAN), geração de imagens médicas sintéticas, criação de dados para treinamento, inspeção visual na indústria, imagens de satélite, veículos autônomos, cinema e jogos digitais.
Em 2017 surgiu outro marco: o artigo Attention Is All You Need, que apresentou a arquitetura Transformer. Inicialmente voltada para linguagem natural, ela introduziu o mecanismo de attention, permitindo aprender relações complexas entre diferentes partes dos dados.
Os Transformers escalaram muito melhor com grandes volumes de dados e deram origem aos LLMs e aos modelos multimodais atuais. Além disso, tornaram natural controlar a geração de conteúdo por meio de linguagem natural: basta escrever um prompt para orientar texto, imagens, áudio, vídeo ou código.
Isso significa que as GANs ficaram obsoletas? Não. Elas continuam extremamente competitivas em aplicações que exigem baixa latência, geração em tempo real, super-resolução, restauração de imagens, transferência de estilo e geração de dados sintéticos.
A história da IA generativa mostra que novas arquiteturas raramente eliminam completamente as anteriores. Cada uma resolve melhor determinados problemas.
As GANs provaram que máquinas podiam criar conteúdo visual altamente realista. Os modelos de difusão elevaram ainda mais a qualidade da geração de imagens. E os Transformers ampliaram esse paradigma para texto, código, áudio, vídeo e sistemas multimodais.
Entender essa evolução ajuda a perceber que o ChatGPT não marcou o nascimento da IA generativa. Ele representa apenas o capítulo mais recente de uma trajetória construída ao longo de muitos anos de pesquisa em deep learning.



