Os modelos de difusão de texto para imagem em larga escala percorreram um longo caminho. No entanto, a prática atual é confiar apenas na entrada de texto, o que pode limitar a capacidade de controle. GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e amplia a capacidade dos atuais modelos de difusão de texto para imagem pré-treinados, permitindo que eles sejam condicionados em entradas de aterramento.
Para manter o amplo conhecimento de conceito do modelo pré-treinado, os desenvolvedores congelam todos os seus pesos e bombeiam as informações de aterramento em novas camadas treináveis por meio de um processo controlado. Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera conversão de texto em imagem de mundo aberto, e a capacidade de aterramento generaliza efetivamente para novas configurações e conceitos espaciais.
Confira a demonstração aqui.
- O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.
- Em cada bloco de transformador, uma nova camada de auto-atendimento de portão treinável é criada para absorver entrada de aterramento adicional.
- Cada token de aterramento tem dois tipos de informações: informações semânticas sobre a coisa aterrada (texto ou imagem codificada) e informações de posição espacial (caixa delimitadora codificada ou pontos-chave).
Leia mais sobre IA:
source – mpost.io