A corrida modelo de IA chegou muito mais perto, diz Stanford Scholars

Stanford-Hai-AI-Index-2025-FIG-2-1-39

Universidade de Stanford

A competição para criar os principais modelos de inteligência artificial do mundo tornou -se uma espécie de luta, uma pilha de candidatos dignos, tudo um no outro, com cada vez menos uma vitória clara de qualquer pessoa.

De acordo com estudiosos do Instituto de Inteligência Artificial Centrada na Universidade de Stanford, o número de candidatos nos modelos “Frontier” ou “Foundation” se expandiu substancialmente nos últimos anos, mas a diferença entre os melhores e os mais fracos também se reduziu substancialmente.

Em 2024, “A diferença de pontuação Elo entre o modelo superior e o 10º classificado na tabela de líderes do Chatbot Arena era de 11,9%. No início de 2025, essa lacuna havia reduzido para apenas 5,4%:” Escreva Rishi Bommasani e equipe em “O relatório anual do índice da IA ​​2025

Também: Openai está condenado? Modelos de código aberto podem esmagá-lo, alerta o especialista

No capítulo sobre desempenho técnico, Bommasani e colegas relatam isso em 2022, quando o ChatGPT surgiu pela primeira vez, os principais modelos de idiomas grandes foram dominados pelo Openai e Google. Esse campo agora inclui a AI Deepseek da China, a XAI de Elon Musk, a meta -AI de Meta plataformas e a IA de Metra Platforms e a IA Mistral.

“O cenário da IA ​​está se tornando cada vez mais competitivo, com modelos de alta qualidade agora disponíveis em um número crescente de desenvolvedores”, eles escrevem.

A diferença entre o OpenAI e o Google reduziu ainda mais, com a família GPT e Gemini tendo uma diferença de desempenho de apenas 0,7%, abaixo de 4,9% em 2023.

Uma tendência simultânea, de acordo com Bommasani, é a ascensão dos modelos de IA de “peso aberto”, como a llama da Meta Plataformas, que pode, em alguns casos, igualar os modelos “fechados”, como o GPT.

Stanford-Hai-AI-Index-2025-FIG-2-1-34

Universidade de Stanford

Os modelos de peso aberto são aqueles em que os pesos treinados das redes neurais, o coração de sua capacidade de transformar a entrada em saída, são disponibilizadas para download. Eles podem ser usados ​​para inspecionar e replicar o modelo de IA sem ter acesso às instruções reais do código -fonte do modelo. Os modelos fechados não fornecem acesso público a pesos e, portanto, os modelos continuam sendo uma espécie de caixa preta, como é o caso do GPT e Gêmeos.

“No início de janeiro de 2024, o principal modelo de peso fechado superou o modelo de peso aberto superior em 8,0%. Até fevereiro de 2025, essa lacuna havia reduzido para 1,7%”, escreva Bommasani e Team.

Também: Gemini Pro 2.5 é um assistente de codificação incrivelmente capaz – e uma grande ameaça para o Chatgpt

Desde 2023, quando “modelos de peso fechado superaram consistentemente as contrapartes de peso aberto em quase todos os principais benchmarks”, eles se relacionam, a diferença entre fechada e aberta diminuiu de 15,9 pontos para “apenas 0,1 ponto percentual” no final de 2024, em grande parte resultado da versão 3.1 da Meta de Meta.

Outro tópico que ocorre ao lado de modelos de peso aberto são as surpreendentes realizações de modelos de idiomas menores. Os modelos de IA são normalmente classificados com base no número de pesos que eles usam, com o maior no momento divulgado publicamente, a Llama 4 da Meta, usando dois trilhões de pesos.

Stanford-Hai-AI-Index-2025-FIG-2-1-38

Universidade de Stanford

“2024 foi um ano avançado para modelos de IA menores”, escrevem Bommasani e Team. “Quase todos os principais desenvolvedores de IA lançaram modelos compactos e de alto desempenho, incluindo GPT-4O Mini, O1-Mini, Gemini 2.0 Flash, Llama 3.1 8b e Mistral Small 3.5”.

Bommasani e equipe não fazem previsões sobre o que acontece a seguir no campo lotado, mas vêem uma preocupação muito premente com os testes de referência usados ​​para avaliar grandes modelos de idiomas.

Esses testes estão ficando saturados – mesmo alguns dos mais exigentes, como a referência da Humaneval criada em 2021 pelo Openai para testar as habilidades de codificação dos modelos. Isso afirma um sentimento visto em toda a indústria hoje em dia: está se tornando mais difícil de comparar com precisão e rigor novos modelos de IA.

Também: Com os modelos de IA batendo cada referência, é hora da avaliação humana

Em resposta, observe os autores, o campo desenvolveu novas maneiras de construir testes de referência, como o último exame da humanidade, que tem questões curadas pelo homem formuladas por especialistas no assunto; e Arena-Hard-Auto, um teste criado pela Large Model Systems Corp., sem fins lucrativos, usando instruções de origem da multidão que são automaticamente com curadoria de dificuldade.

Os autores observam que um dos testes mais desafiadores é o teste ARC-AGI para encontrar padrões visuais. Ainda é um teste difícil, embora o O3 O3 Mini tenha se saído bem em dezembro.

A dureza da referência está afetando os modelos de IA para melhor, eles escrevem. “Melhorias deste ano [by o3 mini] Sugira uma mudança de foco para avanços mais significativos nos recursos de generalização e pesquisa “entre os modelos de IA, eles escrevem.

Os autores observam que a criação de benchmarks não é simples. Por um lado, existe o modelo de “contaminação”, onde as redes neurais são treinadas em dados que acabam sendo usados ​​como perguntas de teste, como um aluno que tem acesso às respostas antes de um exame.

Também: A referência do último exame da ‘Humanity’ está tocando os melhores modelos de IA – você pode fazer melhor?

E muitos benchmarks são apenas mal construídos, eles escrevem. “Apesar do uso generalizado, benchmarks como a MMLU demonstraram baixa adesão aos padrões de qualidade, enquanto outros, como o GPQA, tiveram um desempenho significativamente melhor”, de acordo com um amplo estudo em Stanford Chamado Betterbench.

Bommasani e equipe concluem que a padronização nos benchmarks é essencial daqui para frente. “Essas descobertas enfatizam a necessidade de benchmarking padronizado para garantir uma avaliação confiável da IA ​​e impedir conclusões enganosas sobre o desempenho do modelo”, eles escrevem. “Os benchmarks têm o potencial de moldar as decisões políticas e influenciar as decisões de compras nas organizações, destacando a importância da consistência e do rigor na avaliação”.

Quer mais histórias sobre a IA? Inscreva -se para a inovaçãonossa newsletter semanal.



source – www.zdnet.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here