Friday, November 15, 2024
HomeNotícias de criptomoedaGLIGEN: novo modelo de geração de texto para imagem congelado com caixa...

GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora

Os modelos de difusão de texto para imagem em larga escala percorreram um longo caminho. No entanto, a prática atual é confiar apenas na entrada de texto, o que pode limitar a capacidade de controle. GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e amplia a capacidade dos atuais modelos de difusão de texto para imagem pré-treinados, permitindo que eles sejam condicionados em entradas de aterramento.

Para manter o amplo conhecimento de conceito do modelo pré-treinado, os desenvolvedores congelam todos os seus pesos e bombeiam as informações de aterramento em novas camadas treináveis ​​por meio de um processo controlado. Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera conversão de texto em imagem de mundo aberto, e a capacidade de aterramento generaliza efetivamente para novas configurações e conceitos espaciais.

Confira a demonstração aqui.

O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.
  • O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.
  • Em cada bloco de transformador, uma nova camada de auto-atendimento de portão treinável é criada para absorver entrada de aterramento adicional.
  • Cada token de aterramento tem dois tipos de informações: informações semânticas sobre a coisa aterrada (texto ou imagem codificada) e informações de posição espacial (caixa delimitadora codificada ou pontos-chave).
Camadas moduladas recém-adicionadas são continuamente pré-treinadas em dados massivos de aterramento (caixa de texto de imagem), o que é mais econômico do que métodos alternativos de usar um modelo de difusão pré-treinado, como ajuste fino de modelo completo.  Semelhante ao Lego, diferentes camadas treinadas podem ser conectadas e removidas para permitir vários novos recursos.
O GLIGEN suporta amostragem programada no processo de difusão para inferência, onde o modelo pode selecionar dinamicamente para usar tokens de aterramento (adicionando a nova camada) ou o modelo de difusão original com bom anterior (expulsando a nova camada) e, assim, equilibrar a qualidade da geração e capacidade de aterramento.
O GLIGEN pode gerar uma variedade de objetos em locais e estilos específicos, aproveitando o conhecimento de um modelo text2img pré-treinado.
GLIGEN também pode ser treinado usando fotos de referência.
O GLIGEN, como outros modelos de difusão, pode executar pintura de imagem aterrada, que pode gerar objetos que correspondem de perto às caixas delimitadoras fornecidas.
GLIGEN também pode aterrar pontos-chave humanos ao gerar texto para imagens.

Leia mais sobre IA:



source – mpost.io

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular