A questão levantada pelo artigo intitulado “XLM-V: superando o gargalo do vocabulário em modelos de linguagem mascarada multilíngue” é que quando os parâmetros e a profundidade dos modelos de linguagem aumentam, seus tamanhos de vocabulário permanecem inalterados. Por exemplo, o modelo mT5 tem parâmetros 13B, mas um vocabulário de 250 mil palavras que suporta mais de 100 idiomas. Assim, cada idioma possui aproximadamente 2.500 tokens únicos, o que obviamente é um número muito pequeno.
Que ação os autores tomam? Eles começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada. XLM-R existia anteriormente, porém, com esta atualização, ele se tornará XLM-V. Os escritores estavam determinados a ver que tipo de melhoria poderiam fazer com um aumento tão significativo nos tokens.
O que há de novo no XLM-V que o XLM-R não tinha?
O método Improving Multilingual Models with Language-Clustered Vocabularies é utilizado para construir vetores de representação lexical para cada língua da seguinte forma: para cada língua do conjunto de línguas, elas formam um vetor binário, sendo cada elemento uma palavra específica da língua . Uma indica que a palavra está incluída no dicionário do idioma (você pode ver uma imagem com uma descrição gráfica nos anexos). No entanto, ao criar um vetor utilizando a probabilidade logarítmica negativa de ocorrência de cada lexema, os autores aprimoram a forma como as referências são feitas .
- Os vetores são agrupados depois disso. Além disso, um modelo de frase é treinado em cada cluster específico para interromper a transferência de vocabulário entre idiomas lexicamente não relacionados.
- O ALP avalia a capacidade de um dicionário representar uma língua específica.
- Utilizar o algoritmo para criar dicionários ULM é o próximo passo. que começa com um grande dicionário inicial e o reduz gradualmente até que o número de tokens esteja abaixo de um certo limite para o tamanho do dicionário.
Leia mais sobre IA:
source – mpost.io