Friday, November 15, 2024
HomeNotícias de criptomoedaXLM-V: um novo método de modelos de linguagem mascarada multilíngüe que tenta...

XLM-V: um novo método de modelos de linguagem mascarada multilíngüe que tenta resolver o problema do gargalo do vocabulário

A questão levantada pelo artigo intitulado “XLM-V: superando o gargalo do vocabulário em modelos de linguagem mascarada multilíngue” é que quando os parâmetros e a profundidade dos modelos de linguagem aumentam, seus tamanhos de vocabulário permanecem inalterados. Por exemplo, o modelo mT5 tem parâmetros 13B, mas um vocabulário de 250 mil palavras que suporta mais de 100 idiomas. Assim, cada idioma possui aproximadamente 2.500 tokens únicos, o que obviamente é um número muito pequeno.

XLM-V: Um novo método de Multilingual Masked Language Models que tenta resolver o problema do gargalo do vocabulário

Que ação os autores tomam? Eles começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada. XLM-R existia anteriormente, porém, com esta atualização, ele se tornará XLM-V. Os escritores estavam determinados a ver que tipo de melhoria poderiam fazer com um aumento tão significativo nos tokens.

O que há de novo no XLM-V que o XLM-R não tinha?

O que há de novo no XLM-V que o XLM-R não tinha?

O método Improving Multilingual Models with Language-Clustered Vocabularies é utilizado para construir vetores de representação lexical para cada língua da seguinte forma: para cada língua do conjunto de línguas, elas formam um vetor binário, sendo cada elemento uma palavra específica da língua . Uma indica que a palavra está incluída no dicionário do idioma (você pode ver uma imagem com uma descrição gráfica nos anexos). No entanto, ao criar um vetor utilizando a probabilidade logarítmica negativa de ocorrência de cada lexema, os autores aprimoram a forma como as referências são feitas .

  1. Os vetores são agrupados depois disso. Além disso, um modelo de frase é treinado em cada cluster específico para interromper a transferência de vocabulário entre idiomas lexicamente não relacionados.
  2. O ALP avalia a capacidade de um dicionário representar uma língua específica.
  3. Utilizar o algoritmo para criar dicionários ULM é o próximo passo. que começa com um grande dicionário inicial e o reduz gradualmente até que o número de tokens esteja abaixo de um certo limite para o tamanho do dicionário.

Leia mais sobre IA:



source – mpost.io

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular