◆ Revisitando: blocos residuais em uma GAN ◆

2026-05-27 · 2 min de leitura

#ml · #deep-learning · #retrospectiva

Em setembro de 2021 publiquei Aplicação de redes residuais em GAN - um trabalho de faculdade onde parafusei blocos residuais estilo ResNet em uma GAN pequena treinada no dataset Stanford Dogs. O resultado não foi bom. Eu tinha um modelo que produzia, na maior parte do tempo, formas que pareciam vagamente um cachorro se você apertasse os olhos, e um parágrafo final reconhecendo honestamente que o treino não tinha convergido.

Relendo hoje, o que importa de verdade é qual metade do experimento envelheceu bem e qual envelheceu mal.

O que envelheceu mal: a GAN

GANs perderam. O cenário generativo depois de 2022 foi dominado por modelos de difusão - DDPM, Stable Diffusion, Imagen, SDXL - e até 2024 essencialmente ninguém estava treinando uma GAN nova pra geração de imagem como escolha default. O setup adversarial discriminador-vs-gerador era elegante; também era notoriamente instável, propenso a mode collapse, e implacável com hiperparâmetros. Difusão contornou tudo isso reformulando geração como denoising iterativo.

Então um estudante em 2021 fazendo o que eu fiz não escolheria uma GAN hoje. Escolheria um modelo de difusão pequeno e aprenderia uma arquitetura sobre a qual o campo ainda está construindo ativamente.

O que envelheceu bem: os residuais

O bloco residual venceu completamente. Está invisível hoje porque está em todo lugar:

A U-Net no coração de todo modelo de difusão é residual de ponta a ponta.
Todo Transformer moderno (ou seja, todo LLM) é construído ao redor de conexões residuais - o padrão x + Attention(x) e x + MLP(x) é o esqueleto inteiro.
ConvNeXt, EfficientNetV2, backbones de segmentação - todos residuais.

A tese do paper de ResNet de 2015 - que skip connections deixam você treinar redes muito mais profundas sem vanishing gradient - acabou sendo uma verdade estrutural sobre redes profundas, não só um truque pra CNN. O experimento pequeno do post de 2021 tropeçou numa peça de encanação que virou universal.

A lição

A conclusão do post de 2021 dizia "os residuais ajudaram, mesmo o modelo não tendo convergido". Aquele instinto estava correto, só que por motivos completamente diferentes do que eu imaginava na época. A arquitetura que eu estava testando ao redor perdeu o campo; a técnica que eu estava parafusando virou o campo, silenciosamente. Vale guardar como padrão geral - o truque que você pega fazendo algo que não funciona às vezes é mais durável do que aquilo que você estava de fato tentando construir.