Publicado: 06 de dezembro de 2023 às 11h13 Atualizado: 06 de dezembro de 2023 às 11h14
Editado e verificado: 06 de dezembro de 2023 às 11h13
em resumo
O Google Research e a Universidade de Tel Aviv desenvolveram IA que combina difusão de texto para imagem com geometria de lente para renderização de imagem.
O Google Research, em colaboração com a Universidade de Tel Aviv, introduziu uma nova estrutura de inteligência artificial (IA) que combina um modelo de difusão de texto para imagem com geometria de lente especializada para renderização de imagens.
Essa integração permite um controle preciso sobre a geometria de renderização, facilitando a geração de diversos efeitos visuais, como olho de peixe, vistas panorâmicas e texturização esférica usando um único modelo de difusão.
Em um artigo de pesquisa mais recente, os cientistas abordaram a tarefa de incorporar diversos controles ópticos em modelos de difusão de texto para imagem. Essa abordagem envolveu fazer com que o modelo considerasse a geometria local da lente, aprimorando sua capacidade de replicar efeitos ópticos intrincados e criar imagens de aparência realista.
Em vez de apenas alterar a forma padrão das imagens, este método permite praticamente qualquer distorção da grade por meio do condicionamento de coordenadas por pixel. Esta abordagem inovadora suporta diversas aplicações, como a geração de cenas panorâmicas que transmitem uma sensação de presença e texturização de esferas.
Além disso, a estrutura introduz uma estrutura de geração de imagens com reconhecimento de geometria múltipla com condicionamento de tensor métrico. Isto proporciona possibilidades adicionais para controlar e modificar a forma como as imagens são geradas, revelando inúmeras possibilidades para criar e refinar imagens.
Geração precisa de imagens por meio da integração de difusão de texto para imagem
A estrutura integra modelos de difusão de texto para imagem com geometria de lente específica por meio de condicionamento de coordenadas por pixel. O método envolve o refinamento de um modelo de difusão latente pré-treinado, utilizando dados gerados através da distorção de imagens com campos de distorção aleatórios.
A reponderação de tokens foi implementada em camadas de autoatenção, permitindo a manipulação das propriedades da curvatura e produzindo diversos efeitos, como olho de peixe e vistas panorâmicas. Esta abordagem vai além da resolução fixa na geração de imagens e inclui condicionamento de tensores métricos para melhor controle.
Revolucionando a manipulação de imagens
A estrutura expande as capacidades de manipulação de imagens, abordando desafios como geração de imagens grandes e ajuste de escalas de autoatenção em modelos de difusão.
Efetivamente, a estrutura integra um modelo de difusão de texto para imagem com geometria de lente específica, permitindo uma variedade de efeitos visuais como olho de peixe, vistas panorâmicas e texturização esférica usando um único modelo. Ele fornece controle meticuloso sobre as propriedades de curvatura e geometria de renderização, levando à criação de imagens realistas e diferenciadas.
Treinado em um conjunto de dados substancial anotado textualmente e campos de distorção por pixel, o método produz imagens distorcidas arbitrárias com resultados finamente não distorcidos e estreitamente alinhados com a geometria alvo. Além disso, facilita o desenvolvimento de panoramas esféricos caracterizados por proporções realistas e artefatos mínimos.
A estrutura recentemente introduzida, que integra diversas geometrias de lentes na renderização de imagens, oferece controle aprimorado sobre propriedades de curvatura e efeitos visuais.
Os pesquisadores sugerem estender esta abordagem para obter resultados comparáveis aos de lentes especializadas que capturam cenas distintas. Ao considerar a utilização potencial de técnicas de condicionamento mais avançadas, a estrutura prevê geração aprimorada de imagens e capacidades expandidas.
Isenção de responsabilidade
De acordo com as diretrizes do Trust Project, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometido com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Alisa é repórter do Metaverse Post. Ela se concentra em investimentos, IA, metaverso e tudo relacionado à Web3. Alisa é formada em Negócios de Arte e tem especialização em Arte e Tecnologia. Ela desenvolveu sua paixão pelo jornalismo escrevendo para VCs, projetos criptográficos notáveis e envolvimento com redação científica.
Mais artigos
Alice Davidson
Alisa é repórter do Metaverse Post. Ela se concentra em investimentos, IA, metaverso e tudo relacionado à Web3. Alisa é formada em Negócios de Arte e tem especialização em Arte e Tecnologia. Ela desenvolveu sua paixão pelo jornalismo escrevendo para VCs, projetos criptográficos notáveis e envolvimento com redação científica.
source – mpost.io