Notícias de criptomoeda Tecnologia Últimas notícias

GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora

January 24, 2023

64

Os modelos de difusão de texto para imagem em larga escala percorreram um longo caminho. No entanto, a prática atual é confiar apenas na entrada de texto, o que pode limitar a capacidade de controle. GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e amplia a capacidade dos atuais modelos de difusão de texto para imagem pré-treinados, permitindo que eles sejam condicionados em entradas de aterramento.

Para manter o amplo conhecimento de conceito do modelo pré-treinado, os desenvolvedores congelam todos os seus pesos e bombeiam as informações de aterramento em novas camadas treináveis por meio de um processo controlado. Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera conversão de texto em imagem de mundo aberto, e a capacidade de aterramento generaliza efetivamente para novas configurações e conceitos espaciais.

Confira a demonstração aqui.

O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.

O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.
Em cada bloco de transformador, uma nova camada de auto-atendimento de portão treinável é criada para absorver entrada de aterramento adicional.
Cada token de aterramento tem dois tipos de informações: informações semânticas sobre a coisa aterrada (texto ou imagem codificada) e informações de posição espacial (caixa delimitadora codificada ou pontos-chave).