O Whisper da OpenAI é um novo modelo de ML de código aberto projetado para reconhecimento automático de fala multilíngue
O Whisper da OpenAI pode alcançar robustez e precisão de nível humano em ASR com apenas um transformador pronto para uso treinado em 680.000 horas de dados de áudio multilíngues com supervisão fraca. Tudo sem a necessidade de ajuste fino. O modelo é de código aberto e vários tamanhos de peso são disponibilizados ao público. O transformador é um modelo típico de codificador-decodificador. Primeiramente, as gravações de áudio de diferentes tarefas de reconhecimento de fala são transformadas em espectrogramas log-Mel, que são representações de áudio no domínio tempo-frequência-amplitude, com frequências registradas em Mels, uma escala logarítmica destinada a replicar a percepção de pitch humana. Depois disso, a convolução unidimensional usando GELU é usada para obter a redução de dimensionalidade nos espectrogramas.
Para garantir que os diferentes recursos sejam dimensionados igualmente e para melhorar a uniformidade do cenário de perda, as entradas são sempre padronizadas para média 0 e variância unitária. Enquanto o GELU faz o dropout estocasticamente, aumentando a possibilidade de a entrada ser deletada à medida que x dropa, o ReLU executa o dropout x0. A entrada é codificada posicionalmente e transmitida através da pilha do codificador do transformador, e a representação criada é então usada para condicionar o decodificador autorregressivo. O início e o fim de uma tarefa, o tipo de tarefa, se a fala está incluída na entrada ou não, as informações de carimbo de data/hora e outros detalhes são indicados por tokens exclusivos no início do processo de decodificação.
Os autores empregam muitas estratégias para evitar o loop de repetição enquanto a decodificação gulosa é usada para amostrar as saídas, como começar da temperatura 0 e aumentá-la progressivamente se a entropia dos tokens gerados for muito baixa (alguém deve informá-los sobre a amostragem típica).
Os autores decidiram procurar quaisquer dados de ASR que pudessem encontrar, concentrando-se nos métodos de pré-processamento de dados, porque os dados de reconhecimento de fala e tradução supervisionados e validados por humanos são difíceis de encontrar. Isso incluiu heurísticas para identificar e excluir traduções produzidas por máquinas, como a ausência de pontuação ou o uso de letras maiúsculas. Para garantir uma correspondência entre a transcrição e o idioma do áudio, os pesquisadores também implantaram um detector de idioma. Para identificar e revisar manualmente os pontos de dados com uma alta taxa de erro e omitir possíveis discrepâncias, eles primeiro treinaram um modelo nos dados. O conjunto de dados era duas ordens maior do que os conjuntos de dados ASR supervisionados anteriormente, com um total de 680.000 horas. Os pesos do modelo e o código foram publicados, no entanto, este conjunto de dados não foi.
A métrica de taxa de erro de palavra (WER), que penaliza qualquer discrepância entre a saída do modelo e a verdade do terreno, é criticada pelos autores. Estamos interessados em falhas semânticas, não em todas essas diferenças estilísticas. Para padronizar o uso de palavras e assim reduzir o WER, os escritores criaram vários dicionários. A robustez efetiva é outro parâmetro usado para medir o desempenho do modelo. A robustez efetiva é a robustez em comparação com outro modelo, e a robustez avalia quão bem o modelo se generaliza para conjuntos de dados fora de distribuição. Quando Whisper e wav2vec são colocados lado a lado, descobrimos que Whisper tem maior robustez efetiva e, em média, comete 55% menos erros.
De acordo com os princípios de dimensionamento dos autores, o WER diminui pela metade para cada aumento de 16 vezes nos dados de treinamento. Devemos antecipar o desempenho sobre-humano para ASR na próxima geração de modelos, se for o caso. As línguas não indo-europeias normalmente têm um desempenho pior, com o galês (CY) também sendo uma exceção, apesar de supostamente ter sido treinado em 9.000 horas de dados de tradução. No entanto, esta tendência não se aplica a todas as línguas. À medida que o WER se aproxima dos níveis de SR humanos, o dimensionamento dos parâmetros do modelo resulta em retornos decrescentes.
O tradutor de fala Whisper da OpenAI usa uma tonelada de dados e técnicas de decodificação para obter tradução e reconhecimento de fala em nível humano. A questão de saber se os futuros algoritmos de ASR superarão os humanos nos próximos anos ainda precisa ser respondida.
O post Automatic Speech Recognition is Made Easy with OpenAI’s Whisper apareceu primeiro no Analytics Insight.
source – www.analyticsinsight.net
Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.