A plataforma de IA de voz, ElevenLabs, lançou hoje um novo modelo fundamental de fala de IA à medida que a empresa sai da versão beta. A empresa disse que o novo modelo de IA, denominado Eleven Multilingual v2, tem a capacidade de produzir com precisão áudio de IA “emocionalmente rico” em 28 idiomas.
Construído por meio de pesquisas internas, a ElevenLabs disse que seu mais recente modelo de fala de IA passou por uma fase de desenvolvimento de 18 meses. Durante esse período, a empresa estudou as complexidades da fala humana, construiu novos mecanismos para que o modelo compreendesse o contexto e expressasse emoções na geração da fala, bem como sintetizasse vozes novas e únicas.
Anteriormente disponível apenas em inglês, polonês, alemão, espanhol, francês, italiano, hindi e português, o modelo agora oferece suporte a chinês, coreano, holandês, turco, sueco, indonésio, filipino, japonês, ucraniano, grego, tcheco, finlandês, romeno, Dinamarquês, búlgaro, malaio, eslovaco, croata, árabe clássico e tâmil.
A ElevenLabs destacou que o suporte expandido ao idioma permitirá que os criadores de conteúdo criem material de áudio localizado destinado a mercados globais que abrangem a Europa, a Ásia e o Oriente Médio.
Para gerar fala com o Eleven Multilingual v2, os usuários podem inserir texto em qualquer um dos idiomas suportados na plataforma de conversão de texto em fala.
Simultaneamente, seja empregando uma voz sintética ou clonada, a empresa explicou que os atributos vocais distintos do locutor permanecerão consistentes em todos os idiomas, incluindo o sotaque original. Além disso, uma única voz pode ser usada para gerar fala nos 28 idiomas suportados.
“Nossas ferramentas de geração de texto para fala ajudam a nivelar o campo de atuação e trazer recursos de áudio falado de alta qualidade para todos os criadores”, disse Mati Staniszewski, CEO e cofundador da ElevenLabs, em um comunicado. “Esses benefícios agora se estendem a aplicações multilíngues em quase 30 idiomas. Eventualmente, esperamos cobrir ainda mais idiomas e vozes com a ajuda da IA e eliminar as barreiras linguísticas ao conteúdo.”
O lançamento do Eleven Multilingual v2 segue o lançamento público do Professional Voice Cloning no início deste mês. A oferta permite que os usuários gerem uma réplica digital precisa de suas vozes. Com a atualização mais recente, a ferramenta agora permitirá que os usuários traduzam diretamente o áudio de sua voz para qualquer um dos idiomas recém-adicionados.
Desde o lançamento da versão beta em janeiro, a ElevenLabs afirma ter acumulado mais de 1 milhão de usuários registrados em espaços criativos, de entretenimento e de publicação. A empresa anunciou um aumento bem-sucedido de US$ 19 milhões na Série A em junho, liderado pelo ex-CEO do GitHub, Nat Friedman, pelo ex-parceiro do Y Combinator, Daniel Gross, e Andreessen Horowitz.
A ElevenLabs também fez parceria recentemente com a D-ID, a plataforma generativa de conteúdo de vídeo de IA, para combinar suas ferramentas generativas de IA.
source – mpost.io