A IA de conversão de texto em imagem explodiu este ano, pois os avanços técnicos aumentaram muito a fidelidade da arte que os sistemas de IA poderiam criar. Por mais controversos que sejam os sistemas como Stable Diffusion e OpenAI’s DALL-E 2, plataformas como DeviantArt e Canva os adotaram para potencializar ferramentas criativas, personalizar marcas e até criar novos produtos.
Mas a tecnologia no centro desses sistemas é capaz de muito mais do que gerar arte. Chamado de difusão, está sendo usado por alguns intrépidos grupos de pesquisa para produzir música, sintetizar sequências de DNA e até descobrir novas drogas.
Então, o que é difusão, exatamente, e por que é um salto tão grande em relação ao estado anterior da arte? Com o passar do ano, vale a pena dar uma olhada nas origens da difusão e como ela avançou ao longo do tempo para se tornar a força influente que é hoje. A história do Diffusion ainda não acabou – os refinamentos nas técnicas chegam a cada mês que passa – mas os últimos dois anos trouxeram progressos notáveis.
O nascimento da difusão
Você deve se lembrar da tendência de aplicativos de deepfaking há vários anos – aplicativos que inseriam retratos de pessoas em imagens e vídeos existentes para criar substituições de aparência realista dos assuntos originais naquele conteúdo de destino. Usando IA, os aplicativos “inseriam” o rosto de uma pessoa – ou, em alguns casos, todo o seu corpo – em uma cena, muitas vezes de forma convincente o suficiente para enganar alguém à primeira vista.
A maioria desses aplicativos dependia de uma tecnologia de IA chamada redes adversárias generativas, ou GANs, para abreviar. As GANs consistem em duas partes: um gerador que produz exemplos sintéticos (por exemplo, imagens) a partir de dados aleatórios e um discriminador que tenta distinguir entre os exemplos sintéticos e os exemplos reais de um conjunto de dados de treinamento. (Conjuntos de dados típicos de treinamento GAN consistem em centenas a milhões de exemplos de coisas que se espera que o GAN eventualmente capture). a precisão de 50% esperada do acaso.
GANs de alto desempenho podem criar, por exemplo, instantâneos de prédios de apartamentos fictícios. O StyleGAN, um sistema desenvolvido pela Nvidia há alguns anos, pode gerar fotos de cabeça de pessoas fictícias em alta resolução, aprendendo atributos como pose facial, sardas e cabelo. Além da geração de imagens, os GANs foram aplicados ao espaço de modelagem 3D e esboços vetoriais, mostrando uma aptidão para a saída de videoclipes, bem como fala e até amostras de instrumentos em loop em músicas.
Na prática, porém, as GANs sofriam de várias deficiências devido à sua arquitetura. O treinamento simultâneo dos modelos gerador e discriminador era inerentemente instável; às vezes, o gerador “colapsava” e produzia muitos samples de aparência semelhante. As GANs também precisavam de muitos dados e capacidade de computação para executar e treinar, o que as tornava difíceis de escalar.
Entre na difusão.
Como funciona a difusão
A difusão foi inspirada pela física – sendo o processo na física em que algo se move de uma região de maior concentração para outra de menor concentração, como um cubo de açúcar se dissolvendo no café. Os grânulos de açúcar no café são inicialmente concentrados no topo do líquido, mas gradualmente se distribuem.
Os sistemas de difusão emprestam especificamente da difusão na termodinâmica de não-equilíbrio, onde o processo aumenta a entropia – ou aleatoriedade – do sistema ao longo do tempo. Considere um gás – ele eventualmente se espalhará para preencher um espaço inteiro uniformemente por meio de movimento aleatório. Da mesma forma, dados como imagens podem ser transformados em uma distribuição uniforme adicionando ruído aleatoriamente.
Os sistemas de difusão destroem lentamente a estrutura dos dados adicionando ruído até que não reste nada além de ruído.
Na física, a difusão é espontânea e irreversível – o açúcar difundido no café não pode ser restaurado à forma de cubo. Mas os sistemas de difusão no aprendizado de máquina visam aprender uma espécie de processo de “difusão reversa” para restaurar os dados destruídos, ganhando a capacidade de recuperar os dados do ruído.
Os sistemas de difusão existem há quase uma década. Mas uma inovação relativamente recente da OpenAI chamada CLIP (abreviação de “Contrastive Language-Image Pre-Training”) os tornou muito mais práticos em aplicações cotidianas. O CLIP classifica os dados — por exemplo, imagens — para “pontuar” cada etapa do processo de difusão com base na probabilidade de classificação em um determinado prompt de texto (por exemplo, “o esboço de um cachorro em um gramado florido”).
No início, os dados têm uma pontuação dada pelo CLIP muito baixa, porque são principalmente ruído. Mas à medida que o sistema de difusão reconstrói os dados do ruído, ele lentamente se aproxima de corresponder ao prompt. Uma analogia útil é o mármore não esculpido – como um mestre escultor dizendo a um novato onde esculpir, o CLIP orienta o sistema de difusão em direção a uma imagem que dá uma pontuação mais alta.
A OpenAI introduziu o CLIP juntamente com o sistema de geração de imagens DALL-E. Desde então, ele entrou no sucessor do DALL-E, DALL-E 2, bem como em alternativas de código aberto como Stable Diffusion.
O que a difusão pode fazer?
Então, o que os modelos de difusão guiados por CLIP podem fazer? Bem, como mencionado anteriormente, eles são muito bons em gerar arte – de arte fotorrealista a esboços, desenhos e pinturas no estilo de praticamente qualquer artista. Na verdade, há evidências sugerindo que eles regurgitam de forma problemática alguns de seus dados de treinamento.
Mas o talento das modelos – por mais controverso que seja – não para por aí.
Os pesquisadores também experimentaram o uso de modelos de difusão guiada para compor novas músicas. A Harmonai, uma organização com apoio financeiro da Stability AI, a startup londrina por trás do Stable Diffusion, lançou um modelo baseado em difusão que pode produzir clipes de música treinando em centenas de horas de músicas existentes. Mais recentemente, os desenvolvedores Seth Forsgren e Hayk Martiros criaram um projeto de hobby chamado Riffusion, que usa um modelo de difusão habilmente treinado em espectrogramas – representações visuais – de áudio para gerar cantigas.
Além do reino da música, vários laboratórios estão tentando aplicar a tecnologia de difusão à biomedicina na esperança de descobrir novos tratamentos para doenças. A Startup Generate Biomedicines e uma equipe da Universidade de Washington treinaram modelos baseados em difusão para produzir designs de proteínas com propriedades e funções específicas, como o MIT Tech Review relatou no início deste mês.
Os modelos funcionam de maneiras diferentes. Gerar Biomedicamentos’ adiciona ruído desvendando as cadeias de aminoácidos que compõem uma proteína e, em seguida, juntando cadeias aleatórias para formar uma nova proteína, guiada por restrições especificadas pelos pesquisadores. O modelo da Universidade de Washington, por outro lado, começa com uma estrutura embaralhada e usa informações sobre como as peças de uma proteína devem se encaixar fornecidas por um sistema de IA separado treinado para prever a estrutura da proteína.
Eles já alcançaram algum sucesso. O modelo desenhado pelo grupo da Universidade de Washington foi capaz de encontrar uma proteína que pode se ligar ao hormônio da paratireóide – o hormônio que controla os níveis de cálcio no sangue – melhor do que os medicamentos existentes.
Enquanto isso, no OpenBioML, um esforço apoiado pela Stability AI para trazer abordagens baseadas em aprendizado de máquina para a bioquímica, os pesquisadores desenvolveram um sistema chamado DNA-Diffusion para gerar sequências de DNA reguladoras específicas do tipo de célula – segmentos de moléculas de ácido nucleico que influenciam o expressão de genes específicos dentro de um organismo. A difusão de DNA irá – se tudo correr conforme o planejado – gerar sequências regulatórias de DNA a partir de instruções de texto como “Uma sequência que ativará um gene até seu nível máximo de expressão na célula tipo X” e “Uma sequência que ativa um gene no fígado e no coração , mas não no cérebro.”
O que o futuro reserva para os modelos de difusão? O céu pode muito bem ser o limite. Os pesquisadores já o aplicaram para gerar vídeos, comprimir imagens e sintetizar a fala. Isso não quer dizer que a difusão não será eventualmente substituída por uma técnica de aprendizado de máquina mais eficiente e com melhor desempenho, como os GANs foram com a difusão. Mas é a arquitetura do momento por um motivo; difusão não é nada senão versátil.
source – techcrunch.com