O reconhecimento automático de fala é facilitado com o Whisper da OpenAI

September 29, 2022

O Whisper da OpenAI é um novo modelo de ML de código aberto projetado para reconhecimento automático de fala multilíngue

O Whisper da OpenAI pode alcançar robustez e precisão de nível humano em ASR com apenas um transformador pronto para uso treinado em 680.000 horas de dados de áudio multilíngues com supervisão fraca. Tudo sem a necessidade de ajuste fino. O modelo é de código aberto e vários tamanhos de peso são disponibilizados ao público. O transformador é um modelo típico de codificador-decodificador. Primeiramente, as gravações de áudio de diferentes tarefas de reconhecimento de fala são transformadas em espectrogramas log-Mel, que são representações de áudio no domínio tempo-frequência-amplitude, com frequências registradas em Mels, uma escala logarítmica destinada a replicar a percepção de pitch humana. Depois disso, a convolução unidimensional usando GELU é usada para obter a redução de dimensionalidade nos espectrogramas.

Para garantir que os diferentes recursos sejam dimensionados igualmente e para melhorar a uniformidade do cenário de perda, as entradas são sempre padronizadas para média 0 e variância unitária. Enquanto o GELU faz o dropout estocasticamente, aumentando a possibilidade de a entrada ser deletada à medida que x dropa, o ReLU executa o dropout x0. A entrada é codificada posicionalmente e transmitida através da pilha do codificador do transformador, e a representação criada é então usada para condicionar o decodificador autorregressivo. O início e o fim de uma tarefa, o tipo de tarefa, se a fala está incluída na entrada ou não, as informações de carimbo de data/hora e outros detalhes são indicados por tokens exclusivos no início do processo de decodificação.

Os autores empregam muitas estratégias para evitar o loop de repetição enquanto a decodificação gulosa é usada para amostrar as saídas, como começar da temperatura 0 e aumentá-la progressivamente se a entropia dos tokens gerados for muito baixa (alguém deve informá-los sobre a amostragem típica).

Os autores decidiram procurar quaisquer dados de ASR que pudessem encontrar, concentrando-se nos métodos de pré-processamento de dados, porque os dados de reconhecimento de fala e tradução supervisionados e validados por humanos são difíceis de encontrar. Isso incluiu heurísticas para identificar e excluir traduções produzidas por máquinas, como a ausência de pontuação ou o uso de letras maiúsculas. Para garantir uma correspondência entre a transcrição e o idioma do áudio, os pesquisadores também implantaram um detector de idioma. Para identificar e revisar manualmente os pontos de dados com uma alta taxa de erro e omitir possíveis discrepâncias, eles primeiro treinaram um modelo nos dados. O conjunto de dados era duas ordens maior do que os conjuntos de dados ASR supervisionados anteriormente, com um total de 680.000 horas. Os pesos do modelo e o código foram publicados, no entanto, este conjunto de dados não foi.

A métrica de taxa de erro de palavra (WER), que penaliza qualquer discrepância entre a saída do modelo e a verdade do terreno, é criticada pelos autores. Estamos interessados em falhas semânticas, não em todas essas diferenças estilísticas. Para padronizar o uso de palavras e assim reduzir o WER, os escritores criaram vários dicionários. A robustez efetiva é outro parâmetro usado para medir o desempenho do modelo. A robustez efetiva é a robustez em comparação com outro modelo, e a robustez avalia quão bem o modelo se generaliza para conjuntos de dados fora de distribuição. Quando Whisper e wav2vec são colocados lado a lado, descobrimos que Whisper tem maior robustez efetiva e, em média, comete 55% menos erros.

De acordo com os princípios de dimensionamento dos autores, o WER diminui pela metade para cada aumento de 16 vezes nos dados de treinamento. Devemos antecipar o desempenho sobre-humano para ASR na próxima geração de modelos, se for o caso. As línguas não indo-europeias normalmente têm um desempenho pior, com o galês (CY) também sendo uma exceção, apesar de supostamente ter sido treinado em 9.000 horas de dados de tradução. No entanto, esta tendência não se aplica a todas as línguas. À medida que o WER se aproxima dos níveis de SR humanos, o dimensionamento dos parâmetros do modelo resulta em retornos decrescentes.

O tradutor de fala Whisper da OpenAI usa uma tonelada de dados e técnicas de decodificação para obter tradução e reconhecimento de fala em nível humano. A questão de saber se os futuros algoritmos de ASR superarão os humanos nos próximos anos ainda precisa ser respondida.

O post Automatic Speech Recognition is Made Easy with OpenAI’s Whisper apareceu primeiro no Analytics Insight.

source – www.analyticsinsight.net

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.

O Whisper da OpenAI é um novo modelo de ML de código aberto projetado para reconhecimento automático de fala multilíngue

RELATED ARTICLESMORE FROM AUTHOR

Bitcoiner Jack Malllers garante aos investidores de greve, vinte e um não distraem

Ídolo que se tornou atriz em vestido completamente transparente mostra sua figura de modelo

Black Flag Anuncia uma nova formação e provocam a primeira nova música em 12 anos

RELATED ARTICLES MORE FROM AUTHOR