Durante uma transmissão ao vivo na terça-feira, o CEO da Openai, Sam Altman, anunciou a primeira grande atualização para os recursos de geração de imagem da ChatGPT em mais de um ano.
O ChatGPT agora pode aproveitar o modelo GPT-4O da empresa para criar e modificar imagens e fotos nativamente. O GPT-4O há muito sustentou a plataforma ChatBot de IA, mas até agora o modelo conseguiu gerar e editar apenas texto-não imagens.
Altman disse que a geração de imagens nativas do GPT-4O está ao vivo hoje em ChatGPT e Sora, o produto de geração de vídeo da AI da OpenAI, para assinantes do plano Pro de US $ 200 por mês da empresa. O Openai diz que o recurso está lançado em breve para usuários mais e gratuitos do ChatGPT, bem como desenvolvedores usando o serviço API da empresa.
GPT-4O com saída de imagem “pensa” um pouco mais do que o modelo de geração de imagem que ele substitui efetivamente, Dall-E 3, para tornar o que o OpenAI descreve como imagens mais precisas e detalhadas. O GPT-4O pode editar imagens existentes, incluindo imagens com pessoas nelas-transformando-as ou “pintar detalhes”, como primeiro plano e objetos de fundo.
Para alimentar o novo recurso de imagem, o Openai disse ao Wall Street Journal que treinou o GPT-4O em “dados publicamente disponíveis”, bem como dados proprietários de suas parcerias com empresas como a Shutterstock.
Muitos fornecedores de IA generativos veem os dados de treinamento como uma vantagem competitiva, para que eles o mantenham e qualquer informação relacionada a eles perto do baú. Mas os detalhes dos dados de treinamento também são uma fonte potencial de ações relacionadas a IP, outro desincentivo para as empresas revelarem muito.
“Estamos respeitando os direitos dos artistas em termos de como realizamos a produção, e temos políticas que nos impedem de gerar imagens que imitam diretamente o trabalho de qualquer artista vivo”, disse Brad Lightcap, diretor de operações da OpenAI, em comunicado à revista.
O OpenAI oferece um formulário de exclusão que permite aos criadores solicitar que seus trabalhos sejam removidos de seus conjuntos de dados de treinamento. A empresa também diz que respeita os pedidos para proibir seus bots de arranhar na Web de coletar dados de treinamento, incluindo imagens, de sites.
O recurso de geração de imagem atualizado do ChatGPT segue os calcanhares da saída de imagem nativa experimental do Google para o Gemini 2.0 Flash, um dos principais modelos da empresa. A característica poderosa se tornou viral nas mídias sociais – mas não necessariamente pelas melhores razões. O componente de imagem do Gemini 2.0 Flash acabou tendo poucos corrimãos, permitindo que as pessoas removam marcas d’água e criem imagens que representam caracteres protegidos por direitos autorais.
Este artigo foi atualizado às 12h do PT para incluir a declaração do Openai ao Wall Street Journal, nos dados de treinamento do GPT-4O.
source – techcrunch.com