Principais conclusões
O ChatGPT pode cuspir texto e, com a integração do DALL-E, produzir imagens, mas peça à plataforma de inteligência artificial para combinar os dois e o resultado normalmente é uma bagunça confusa e ilegível. Isso está mudando, entretanto, com a mudança para GPT-4o ou Omni do ChatGPT. Embora a demonstração da OpenAI em 13 de maio tenha se concentrado no uso de recursos completos de texto, visão e áudio para uma conversa em tempo real, a atualização pode trazer recursos importantes de design gráfico para o ChatGPT. As primeiras demonstrações mostram que a IA não apenas gera imagens com texto legível e escrito corretamente, mas também usa uma imagem existente de uma pessoa para replicar esse rosto na nova imagem.
Relacionado8 maneiras pelas quais o ChatGPT Plus é melhor que o Gemini Advanced e o Copilot Pro
ChatGPT Plus enfrenta forte concorrência do Gemini Advanced e do Copilot Pro. Mas tentei todos os três serviços de assinatura de IA. Veja como é melhor.
Abordagem do GPT-4o para texto, recursos visuais e áudio
Tudo está integrado em um único modelo
A principal mudança que vem com o lançamento do GPT-4o é a capacidade de inserir e gerar qualquer combinação de texto, áudio e imagens. Isso ocorre porque a OpenAI treinou um novo modelo de ponta a ponta que funciona com texto, visão e áudio. Anteriormente, o GPT-4 usava modelos separados para áudio, texto e imagens. Com tudo integrado em um único modelo, OpenAI explica que o ChatGPT não perde informações entre modelos, o que abre uma série de novas possibilidades.
Eu tentei o ChatGPT Plus. Aqui está tudo o que ele pode fazer
ChatGPT Plus é para quem deseja uma experiência ChatGPT confiável e eficiente. Mas, por US$ 20 mensais, o que mais inclui?
Embora a demonstração ao vivo de 13 de maio tenha se concentrado em como esse modelo único de ponta a ponta permite usar vídeo para resolver problemas de lição de casa ou ter uma conversa de áudio em tempo real, ela também ajuda a corrigir algo em que o modelo de IA é notoriamente ruim: colocar texto em uma imagem. O GPT-4 pode tentar inserir texto, mas normalmente resulta em erros ortográficos, mesmo quando você diz ao chatbot exatamente como digitá-lo.
O ChatGPT foi capaz de gerar imagens com texto legível e escrito corretamente, retirado do prompt.
Em vários exemplos das capacidades do próximo GPT-4o, a IA foi capaz de colocar escrita na imagem de uma máquina de escrever, criar um gráfico com um poema e criar um pôster de filme. Nas demonstrações, a redação foi entregue à IA, com erros ortográficos no texto gerado não explicitados. Mas o ChatGPT foi capaz de gerar imagens com texto legível e escrito corretamente, retirado do prompt.
OpenAIVocê pode usar rostos reais em imagens geradas
Imagine fazer um pôster de filme com rostos de atores
Em uma demonstração, o ChatGPT criou um pôster do filme com os rostos dos atores junto com o texto escrito corretamente. Isso foi possível através do upload das fotos dos atores e da escrita do texto a ser incluído. Embora algumas plataformas de IA possam criar uma nova foto com o rosto de uma pessoa real, o ChatGPT não era capaz de criar uma foto que tivesse muita semelhança com a original.
ChatGPT criou um pôster do filme com os rostos dos atores junto com o texto escrito corretamente.
Em outra demonstração, o chatbot foi capaz de colocar o logotipo da OpenAI em uma imagem. Outro encarregou o bot de criar um poema concreto onde a palavra Omni aparecesse no formato do logotipo da OpenAI.
As imagens geradas nas demonstrações do OpenAI não são perfeitas – quando solicitado a colocar uma imagem de poema escrita corretamente no modo escuro, o software gera alguns erros ortográficos. Mas a demonstração mostra um resultado muito mais legível e sensato do que a maneira absurda como o GPT-4 gera texto em imagens.
RelacionadoO que você deve saber sobre ChatGPT Voice: como funciona, o que pode fazer e muito mais
Fazer uma conversão de voz com ChatGPT é uma experiência completamente diferente – e que você realmente precisa experimentar.
Os novos recursos do software para lidar com uma mistura de texto, fotos e fala também permitem responder perguntas sobre uma foto e extrair texto de imagens.
As demonstrações sugerem que o ChatGPT poderá ter mais capacidades em design gráfico com o lançamento do GPT-4o nas próximas semanas. No entanto, essas capacidades podem ter algumas consequências. Uma das maneiras mais fáceis de saber se uma imagem foi gerada pela IA é observar coisas como placas de rua ou telas de laptop onde o texto parece confuso. Se a IA aprender a soletrar imagens, será um recurso a menos para sinalizar a autenticidade de uma imagem flutuando na web.
O modelo de integração de visão de texto e áudio ponta a ponta também vem com velocidade mais rápida, mais recursos sem uma assinatura paga e um aplicativo de desktop para Mac. OpenAI diz que o GPT-4o será lançado nas próximas semanas.
Perguntas frequentes
P: Quando o GPT-4o estará disponível e quanto custa?
O GPT-4o da OpenAI começará a lançar seus recursos de texto e imagem em 13 de maio. É gratuito para todos os usuários, com usuários pagantes se beneficiando de até cinco vezes os limites de capacidade.
source – www.pocket-lint.com