Notícias de criptomoeda Tecnologia Últimas notícias

O Whisper da OpenAI pode alcançar robustez em nível humano em ASR

September 30, 2022

152

O Whisper da OpenAI permitirá que os aplicativos de reconhecimento de fala alcancem novos níveis de eficiência

Reconhecimento de voz ou tecnologia de reconhecimento de voz já faz muito tempo desde que o conceito surgiu pela primeira vez. Mas os usuários continuam tendo apenas um problema persistente com o reconhecimento de voz, que é a precisão. Nos últimos dois anos, os pesquisadores trabalharam na construção de algoritmos de IA que podem processar com precisão a entrada de voz e se concentrar consistentemente na pesquisa e no desenvolvimento do desenvolvimento da fala. Recentemente, o Whisper da OpenAI está ganhando as manchetes por ser um modelo de ML de código aberto de vanguarda que pode realizar reconhecimento automático de fala em uma ampla seleção de idiomas globais. Com a ajuda de um único transformado treinado em 680.000 horas de dados de áudio multilíngues supervisionados semanalmente, o Whisper da OpenAI pode conduzir robustez e precisão em nível humano em ASR, sem a necessidade de ajustes ou intermediários. O modelo é basicamente de código aberto e tem vários tamanhos de peso disponíveis ao público.

Ao longo dos anos, inúmeras grandes empresas de tecnologia têm tentado alcançar um nível eficiente de precisão nos sistemas ASR, que estão no centro desses aplicativos de software de reconhecimento, além disso, os serviços de gigantes da tecnologia como Google, Amazon e Meta ajudaram bastante o crescimento e desenvolvimento do domínio de reconhecimento de fala. A OpenAI mencionou no repositório do GitHub para Whisper que o ASR mostrou resultados bem-sucedidos em mais de 10 idiomas e demonstra recursos adicionais em tarefas como detecção de atividade de voz, classificação de locutor ou diarização de locutor, que não foram ativamente abordadas anteriormente.

O Whisper realmente não é ilimitado?

Não, o Whisper tem suas limitações, principalmente na área de previsão de texto. O sistema é basicamente treinado em uma grande quantidade de dados ruidosos, que em sua maioria contém palavras em suas transcrições que não foram realmente faladas, principalmente porque tenta prever a próxima palavra por meio de áudio e tentar transcrever o próprio áudio. Além disso, esse modelo de ML de código aberto realmente não funciona bem em todos os idiomas, que sofrem com uma taxa de erro mais alta quando se trata de falantes de idiomas que não estão bem representados nos dados de treinamento.

O viés tem sido um dos principais motivos que dificultam a racionalização dos modelos de aprendizado de máquina. Estudos conduzidos por algumas das melhores empresas de tecnologia do mundo, como Google, IBM e Amazon, reduziram a proximidade dos erros. Apesar disso, o Whisper da OpenAI possui recursos de transcrição sendo usados para melhorar as ferramentas de acessibilidade existentes.

Resultado final

O Whisper realmente não reflete todo o potencial do OpenAI, nem seus planos. Os esforços para ajudar a crescente popularidade de Dall-E 2 e GPT-3, mas a empresa está definitivamente buscando vários projetos de pesquisa em pesquisa de IA.

O post Whisper da OpenAI pode alcançar robustez de nível humano em ASR apareceu primeiro no Analytics Insight.

source – www.analyticsinsight.net

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.

O Whisper da OpenAI pode alcançar robustez em nível humano em ASR

O Whisper da OpenAI permitirá que os aplicativos de reconhecimento de fala alcancem novos níveis de eficiência

O Whisper realmente não é ilimitado?

Resultado final

ML KOL Club e CGV Host Web3 e cerimônia de premiação, comemorando o crescimento da indústria

Antes do jogo-Clash de animais de estimação é um sim de slash-slash-slash, onde você coleciona criaturas peculiares da floresta para se tornar o tipo...

Ranking de libré da F1 2025 da Motorsport Week

Bitcoin mergulha para três meses, pois a volatilidade do mercado aciona US $ 1,3 bilhão em liquidações

Grimes pede às pessoas que ‘parem de postar imagens do meu filho em todos os lugares’

Usuários da Airtel para obter a Apple TV+ e Apple Music com planos pós-pagos, Wi-Fi

A Sony lança 2 novas câmeras APS-C Mirrorless, chegando no quarto trimestre de 2019

O trabalho de Mun Ka Young e Choi Hyun desfrute de um doce encontro em um fliperama em “My Caro Mestrenyseis” | Soompi

Mais popular

ML KOL Club e CGV Host Web3 e cerimônia de premiação, comemorando o crescimento da indústria

Antes do jogo-Clash de animais de estimação é um sim de slash-slash-slash, onde você coleciona criaturas peculiares da floresta para se tornar o tipo...

Ranking de libré da F1 2025 da Motorsport Week

Bitcoin mergulha para três meses, pois a volatilidade do mercado aciona US $ 1,3 bilhão em liquidações

Categorias populares