A IA da Microsoft precisa de apenas 3 segundos de fala para trazer as pessoas de volta dos mortos

January 17, 2023

57

A nova ferramenta de IA da Microsoft é capaz de replicar a voz de uma pessoa a partir de apenas três segundos de amostra de áudio.

A Microsoft anunciou uma nova ferramenta que diz ser capaz de replicar a voz de uma pessoa depois de analisar apenas três segundos de amostra de áudio.

A ferramenta, que a Microsoft está chamando de VALL-E, é algo que está chamando de “modelo de linguagem de codec neural”, algo que a Meta anunciou pela primeira vez em outubro de 2022. Mas o que a torna tão interessante é a crença da Microsoft de que VALL-E é capaz de preservar tom emocional, imitando o que ouve naquele clipe de amostra de três segundos.

VÍDEO DO DIA POCKET-LINT

Quanto à forma como a Microsoft faz tudo isso, a empresa diz que “VALL-E gera os tokens acústicos correspondentes condicionados aos tokens acústicos da gravação registrada de 3 segundos e ao prompt do fonema, que restringem as informações do alto-falante e do conteúdo, respectivamente”. Depois disso, “os tokens acústicos gerados são usados para sintetizar a forma de onda final com o decodificador de codec neural correspondente”.

A Microsoft diz que a ferramenta AI foi treinada em uma biblioteca de áudio montada em meta que contém 60.000 horas de fala em inglês. Mais de 7.000 alto-falantes individuais foram usados para tentar garantir que a IA fosse treinada em uma ampla gama de vozes.

Você pode ter uma ideia de como o VALL-E funciona bem no site de amostra da Microsoft, com muitos clipes de áudio oferecidos para seu deleite.

A Ars Technica relata que “além de preservar o timbre vocal e o tom emocional do alto-falante, o VALL-E também pode imitar o ‘ambiente acústico’ do áudio de amostra”. Isso significa que, se uma amostra vier de um ambiente específico, como no final de uma ligação telefônica particularmente ruim, é exatamente assim que soará sempre que o VALL-E iniciar o áudio replicado.

Notavelmente, a Microsoft optou por não permitir que as pessoas realmente testem a ferramenta VALL-E AI por si mesmas. Foi sugerido que a empresa teme que as pessoas não façam nada de bom com ela – uma preocupação que pode muito bem ter mérito.

“Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode apresentar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico”, alerta a Microsoft. E sim, teoricamente, você poderia alimentar VALL-E com um clipe de uma pessoa falecida e fazer com que ele responda a você.

source – www.pocket-lint.com

A IA da Microsoft precisa de apenas 3 segundos de fala para trazer as pessoas de volta dos mortos

Ariana Grande, Ethan Slater posam juntos no Critics Choice Awards

Nicholas Hoult compartilha a pré -visualização do Vilão do Super -Homem “Fun e Smart”

Elon Musk disse que não está interessado em adquirir Tiktok | TechCrunch

Samsung Galaxy Watch 5 Série Vazamentos em renderizações oficiais de 360 graus | Digit

Por que um chefs de três turfas seria ruim para a NFL

Os golpistas de criptografia têm como alvo a carteira fantasma com alertas de segurança enganosos

Apple trabalhando no aplicativo de saúde do iPad, rastreamento de humor baseado em IA e muito mais: relatório

A lendária música da lenda do Trot Dae Kwan morre aos 78: causa da morte e problemas anteriores de saúde revelados

Mais popular

Ariana Grande, Ethan Slater posam juntos no Critics Choice Awards

Nicholas Hoult compartilha a pré -visualização do Vilão do Super -Homem “Fun e Smart”

Elon Musk disse que não está interessado em adquirir Tiktok | TechCrunch

Samsung Galaxy Watch 5 Série Vazamentos em renderizações oficiais de 360 graus | Digit

Categorias populares