Notícias de criptomoeda Tecnologia Últimas notícias

GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora

January 24, 2023

63

Os modelos de difusão de texto para imagem em larga escala percorreram um longo caminho. No entanto, a prática atual é confiar apenas na entrada de texto, o que pode limitar a capacidade de controle. GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e amplia a capacidade dos atuais modelos de difusão de texto para imagem pré-treinados, permitindo que eles sejam condicionados em entradas de aterramento.

Para manter o amplo conhecimento de conceito do modelo pré-treinado, os desenvolvedores congelam todos os seus pesos e bombeiam as informações de aterramento em novas camadas treináveis por meio de um processo controlado. Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera conversão de texto em imagem de mundo aberto, e a capacidade de aterramento generaliza efetivamente para novas configurações e conceitos espaciais.

Confira a demonstração aqui.

O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.

O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.
Em cada bloco de transformador, uma nova camada de auto-atendimento de portão treinável é criada para absorver entrada de aterramento adicional.
Cada token de aterramento tem dois tipos de informações: informações semânticas sobre a coisa aterrada (texto ou imagem codificada) e informações de posição espacial (caixa delimitadora codificada ou pontos-chave).

Camadas moduladas recém-adicionadas são continuamente pré-treinadas em dados massivos de aterramento (caixa de texto de imagem), o que é mais econômico do que métodos alternativos de usar um modelo de difusão pré-treinado, como ajuste fino de modelo completo. Semelhante ao Lego, diferentes camadas treinadas podem ser conectadas e removidas para permitir vários novos recursos.

O GLIGEN suporta amostragem programada no processo de difusão para inferência, onde o modelo pode selecionar dinamicamente para usar tokens de aterramento (adicionando a nova camada) ou o modelo de difusão original com bom anterior (expulsando a nova camada) e, assim, equilibrar a qualidade da geração e capacidade de aterramento.

O GLIGEN pode gerar uma variedade de objetos em locais e estilos específicos, aproveitando o conhecimento de um modelo text2img pré-treinado.

GLIGEN também pode ser treinado usando fotos de referência.

O GLIGEN, como outros modelos de difusão, pode executar pintura de imagem aterrada, que pode gerar objetos que correspondem de perto às caixas delimitadoras fornecidas.

GLIGEN também pode aterrar pontos-chave humanos ao gerar texto para imagens.

Leia mais sobre IA:

source – mpost.io

GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora

Melhores ofertas de câmera de segurança durante a Amazon Great Republic Day Sale 2025

Netflix revela notícias devastadoras para os fãs de ‘Sandman’ com a nova temporada da 2ª temporada

Apple perto de finalizar o fornecedor -chave para displays dobráveis: Relatório

Mais memoráveis estágios especiais em 2024 MBC Gayo Daejejeon: ‘Power’ de Soyeon ‘Riize’ Rrowl ‘, mais

Os criadores de efeitos colaterais comuns veem o sistema de saúde dos EUA como o vilão do programa

Entrevista com o autor de New Book

GrayScale lança confiança para o acesso institucional ao Dogecoin

Previsão de preços do Dogecoin – avaliando se uma violação de US $ 0,36 é a próxima

Mais popular

Melhores ofertas de câmera de segurança durante a Amazon Great Republic Day Sale 2025

Netflix revela notícias devastadoras para os fãs de ‘Sandman’ com a nova temporada da 2ª temporada

Apple perto de finalizar o fornecedor -chave para displays dobráveis: Relatório

Mais memoráveis estágios especiais em 2024 MBC Gayo Daejejeon: ‘Power’ de Soyeon ‘Riize’ Rrowl ‘, mais

Categorias populares