A nova ferramenta de IA da Microsoft é capaz de replicar a voz de uma pessoa a partir de apenas três segundos de amostra de áudio.
A Microsoft anunciou uma nova ferramenta que diz ser capaz de replicar a voz de uma pessoa depois de analisar apenas três segundos de amostra de áudio.
A ferramenta, que a Microsoft está chamando de VALL-E, é algo que está chamando de “modelo de linguagem de codec neural”, algo que a Meta anunciou pela primeira vez em outubro de 2022. Mas o que a torna tão interessante é a crença da Microsoft de que VALL-E é capaz de preservar tom emocional, imitando o que ouve naquele clipe de amostra de três segundos.
VÍDEO DO DIA POCKET-LINT
Quanto à forma como a Microsoft faz tudo isso, a empresa diz que “VALL-E gera os tokens acústicos correspondentes condicionados aos tokens acústicos da gravação registrada de 3 segundos e ao prompt do fonema, que restringem as informações do alto-falante e do conteúdo, respectivamente”. Depois disso, “os tokens acústicos gerados são usados para sintetizar a forma de onda final com o decodificador de codec neural correspondente”.
A Microsoft diz que a ferramenta AI foi treinada em uma biblioteca de áudio montada em meta que contém 60.000 horas de fala em inglês. Mais de 7.000 alto-falantes individuais foram usados para tentar garantir que a IA fosse treinada em uma ampla gama de vozes.
Você pode ter uma ideia de como o VALL-E funciona bem no site de amostra da Microsoft, com muitos clipes de áudio oferecidos para seu deleite.
A Ars Technica relata que “além de preservar o timbre vocal e o tom emocional do alto-falante, o VALL-E também pode imitar o ‘ambiente acústico’ do áudio de amostra”. Isso significa que, se uma amostra vier de um ambiente específico, como no final de uma ligação telefônica particularmente ruim, é exatamente assim que soará sempre que o VALL-E iniciar o áudio replicado.
Notavelmente, a Microsoft optou por não permitir que as pessoas realmente testem a ferramenta VALL-E AI por si mesmas. Foi sugerido que a empresa teme que as pessoas não façam nada de bom com ela – uma preocupação que pode muito bem ter mérito.
“Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode apresentar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico”, alerta a Microsoft. E sim, teoricamente, você poderia alimentar VALL-E com um clipe de uma pessoa falecida e fazer com que ele responda a você.
source – www.pocket-lint.com