O OpenIAI apresenta novos modelos de áudio na API, pode ser usado para fluxos de trabalho agênticos

O OpenAI, na quinta -feira, introduziu novos modelos de áudio na interface de programação de aplicativos (API) que oferecem melhor desempenho em precisão e confiabilidade. A empresa de IA com sede em São Francisco lançou três novos modelos de inteligência artificial (AI) para funções de transcrição de fala para texto e text-to-fala (TTS). A Companhia alegou que esses modelos permitirão que os desenvolvedores criem aplicativos com fluxos de trabalho Agentic. Ele também afirmou que a API pode permitir que as empresas automatizem operações semelhantes ao suporte ao cliente. Notavelmente, os novos modelos são baseados nos modelos GPT-4O e GPT-4O da empresa.

OpenAI traz novos modelos de áudio na API

Em um Postagem do bloga empresa de IA detalhou os novos modelos de IA específicos da API. A empresa destacou que, ao longo dos anos, divulgou vários agentes de IA, como operador, pesquisa profunda, agentes que usam computador e a API de respostas com ferramentas embutidas. No entanto, acrescentou que o verdadeiro potencial dos agentes só pode ser desbloqueado quando eles podem executar intuitivamente e interagir em meios além do texto.

Existem três novos modelos de áudio. GPT-4O-Transcribe e GPT-4O-Mini-Transcribe são os modelos de fala para texto e o GPT-4O-Mini-TTS é, como o nome sugere, um modelo TTS. O OpenAI afirma que esses modelos superam seus modelos de sussurros existentes que foram lançados em 2022. No entanto, diferentemente dos modelos mais antigos, os novos não são de código aberto.

Chegando ao GPT-4O-Transcribil, a empresa de IA afirmou que mostra o desempenho aprimorado da “taxa de erro de palavras” (WER) na avaliação de aprendizado de poucas fotos de representações universais da referência de fala (Fleurs), que testa modelos de IA em discursos multilíngues em 100 idiomas. O OpenAI disse que as melhorias foram resultado de técnicas de treinamento direcionadas, como aprendizado de reforço (RL) e extenso treinamento intermediário com conjuntos de dados de áudio de alta qualidade.

Esses modelos de fala para texto podem capturar áudio, mesmo em cenários desafiadores, como detalhes pesados, ambientes barulhentos e velocidades de fala variadas.

O modelo GPT-4O-Mini-TTS também vem com melhorias significativas. A empresa de IA afirma que os modelos podem falar com inflexões, entonações e expressividade emocional personalizáveis. Isso permitirá que os desenvolvedores criem aplicativos que possam ser usados ​​para uma ampla gama de tarefas, incluindo atendimento ao cliente e narrativa criativa. Notavelmente, o modelo oferece apenas vozes artificiais e predefinidas.

Preços da API da OpenAI página destaca que o modelo de áudio baseado em GPT-4o custará US $ 40 (aproximadamente Rs. 3.440) por milhão de tokens de entrada e US $ 80 (aproximadamente Rs. 6.880) por milhão de tokens de produção. Por outro lado, os modelos de áudio baseados no Mini GPT-4o serão cobrados à taxa de US $ 10 (aproximadamente Rs. 860) por milhão de tokens de entrada e US $ 20 (aproximadamente Rs. 1.720) por milhão de tokens de produção.

Todos os modelos de áudio estão agora disponíveis para desenvolvedores via API. O OpenAI também está lançando uma integração com seu Kit de Desenvolvimento de Software de Agentes (SDK) para ajudar os usuários a criar agentes de voz.

source – www.gadgets360.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here