Sunday, November 17, 2024
HomeNotícias de criptomoedaO Whisper da OpenAI pode alcançar robustez em nível humano em ASR

O Whisper da OpenAI pode alcançar robustez em nível humano em ASR

Sussurro do OpenAI

O Whisper da OpenAI permitirá que os aplicativos de reconhecimento de fala alcancem novos níveis de eficiência

Reconhecimento de voz ou tecnologia de reconhecimento de voz já faz muito tempo desde que o conceito surgiu pela primeira vez. Mas os usuários continuam tendo apenas um problema persistente com o reconhecimento de voz, que é a precisão. Nos últimos dois anos, os pesquisadores trabalharam na construção de algoritmos de IA que podem processar com precisão a entrada de voz e se concentrar consistentemente na pesquisa e no desenvolvimento do desenvolvimento da fala. Recentemente, o Whisper da OpenAI está ganhando as manchetes por ser um modelo de ML de código aberto de vanguarda que pode realizar reconhecimento automático de fala em uma ampla seleção de idiomas globais. Com a ajuda de um único transformado treinado em 680.000 horas de dados de áudio multilíngues supervisionados semanalmente, o Whisper da OpenAI pode conduzir robustez e precisão em nível humano em ASR, sem a necessidade de ajustes ou intermediários. O modelo é basicamente de código aberto e tem vários tamanhos de peso disponíveis ao público.

Ao longo dos anos, inúmeras grandes empresas de tecnologia têm tentado alcançar um nível eficiente de precisão nos sistemas ASR, que estão no centro desses aplicativos de software de reconhecimento, além disso, os serviços de gigantes da tecnologia como Google, Amazon e Meta ajudaram bastante o crescimento e desenvolvimento do domínio de reconhecimento de fala. A OpenAI mencionou no repositório do GitHub para Whisper que o ASR mostrou resultados bem-sucedidos em mais de 10 idiomas e demonstra recursos adicionais em tarefas como detecção de atividade de voz, classificação de locutor ou diarização de locutor, que não foram ativamente abordadas anteriormente.

O Whisper realmente não é ilimitado?

Não, o Whisper tem suas limitações, principalmente na área de previsão de texto. O sistema é basicamente treinado em uma grande quantidade de dados ruidosos, que em sua maioria contém palavras em suas transcrições que não foram realmente faladas, principalmente porque tenta prever a próxima palavra por meio de áudio e tentar transcrever o próprio áudio. Além disso, esse modelo de ML de código aberto realmente não funciona bem em todos os idiomas, que sofrem com uma taxa de erro mais alta quando se trata de falantes de idiomas que não estão bem representados nos dados de treinamento.

O viés tem sido um dos principais motivos que dificultam a racionalização dos modelos de aprendizado de máquina. Estudos conduzidos por algumas das melhores empresas de tecnologia do mundo, como Google, IBM e Amazon, reduziram a proximidade dos erros. Apesar disso, o Whisper da OpenAI possui recursos de transcrição sendo usados ​​para melhorar as ferramentas de acessibilidade existentes.

Resultado final

O Whisper realmente não reflete todo o potencial do OpenAI, nem seus planos. Os esforços para ajudar a crescente popularidade de Dall-E 2 e GPT-3, mas a empresa está definitivamente buscando vários projetos de pesquisa em pesquisa de IA.

O post Whisper da OpenAI pode alcançar robustez de nível humano em ASR apareceu primeiro no Analytics Insight.

source – www.analyticsinsight.net

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular