Sunday, January 12, 2025
HomeNotícias de criptomoedaO reconhecimento automático de fala é facilitado com o Whisper da OpenAI

O reconhecimento automático de fala é facilitado com o Whisper da OpenAI

OpenAI Whisper

O Whisper da OpenAI é um novo modelo de ML de código aberto projetado para reconhecimento automático de fala multilíngue

O Whisper da OpenAI pode alcançar robustez e precisão de nível humano em ASR com apenas um transformador pronto para uso treinado em 680.000 horas de dados de áudio multilíngues com supervisão fraca. Tudo sem a necessidade de ajuste fino. O modelo é de código aberto e vários tamanhos de peso são disponibilizados ao público. O transformador é um modelo típico de codificador-decodificador. Primeiramente, as gravações de áudio de diferentes tarefas de reconhecimento de fala são transformadas em espectrogramas log-Mel, que são representações de áudio no domínio tempo-frequência-amplitude, com frequências registradas em Mels, uma escala logarítmica destinada a replicar a percepção de pitch humana. Depois disso, a convolução unidimensional usando GELU é usada para obter a redução de dimensionalidade nos espectrogramas.

Para garantir que os diferentes recursos sejam dimensionados igualmente e para melhorar a uniformidade do cenário de perda, as entradas são sempre padronizadas para média 0 e variância unitária. Enquanto o GELU faz o dropout estocasticamente, aumentando a possibilidade de a entrada ser deletada à medida que x dropa, o ReLU executa o dropout x0. A entrada é codificada posicionalmente e transmitida através da pilha do codificador do transformador, e a representação criada é então usada para condicionar o decodificador autorregressivo. O início e o fim de uma tarefa, o tipo de tarefa, se a fala está incluída na entrada ou não, as informações de carimbo de data/hora e outros detalhes são indicados por tokens exclusivos no início do processo de decodificação.

Os autores empregam muitas estratégias para evitar o loop de repetição enquanto a decodificação gulosa é usada para amostrar as saídas, como começar da temperatura 0 e aumentá-la progressivamente se a entropia dos tokens gerados for muito baixa (alguém deve informá-los sobre a amostragem típica).

Os autores decidiram procurar quaisquer dados de ASR que pudessem encontrar, concentrando-se nos métodos de pré-processamento de dados, porque os dados de reconhecimento de fala e tradução supervisionados e validados por humanos são difíceis de encontrar. Isso incluiu heurísticas para identificar e excluir traduções produzidas por máquinas, como a ausência de pontuação ou o uso de letras maiúsculas. Para garantir uma correspondência entre a transcrição e o idioma do áudio, os pesquisadores também implantaram um detector de idioma. Para identificar e revisar manualmente os pontos de dados com uma alta taxa de erro e omitir possíveis discrepâncias, eles primeiro treinaram um modelo nos dados. O conjunto de dados era duas ordens maior do que os conjuntos de dados ASR supervisionados anteriormente, com um total de 680.000 horas. Os pesos do modelo e o código foram publicados, no entanto, este conjunto de dados não foi.

A métrica de taxa de erro de palavra (WER), que penaliza qualquer discrepância entre a saída do modelo e a verdade do terreno, é criticada pelos autores. Estamos interessados ​​em falhas semânticas, não em todas essas diferenças estilísticas. Para padronizar o uso de palavras e assim reduzir o WER, os escritores criaram vários dicionários. A robustez efetiva é outro parâmetro usado para medir o desempenho do modelo. A robustez efetiva é a robustez em comparação com outro modelo, e a robustez avalia quão bem o modelo se generaliza para conjuntos de dados fora de distribuição. Quando Whisper e wav2vec são colocados lado a lado, descobrimos que Whisper tem maior robustez efetiva e, em média, comete 55% menos erros.

De acordo com os princípios de dimensionamento dos autores, o WER diminui pela metade para cada aumento de 16 vezes nos dados de treinamento. Devemos antecipar o desempenho sobre-humano para ASR na próxima geração de modelos, se for o caso. As línguas não indo-europeias normalmente têm um desempenho pior, com o galês (CY) também sendo uma exceção, apesar de supostamente ter sido treinado em 9.000 horas de dados de tradução. No entanto, esta tendência não se aplica a todas as línguas. À medida que o WER se aproxima dos níveis de SR humanos, o dimensionamento dos parâmetros do modelo resulta em retornos decrescentes.

O tradutor de fala Whisper da OpenAI usa uma tonelada de dados e técnicas de decodificação para obter tradução e reconhecimento de fala em nível humano. A questão de saber se os futuros algoritmos de ASR superarão os humanos nos próximos anos ainda precisa ser respondida.

O post Automatic Speech Recognition is Made Easy with OpenAI’s Whisper apareceu primeiro no Analytics Insight.

source – www.analyticsinsight.net

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular