O novo modelo de idioma “O3” da OpenAI alcançou uma pontuação de 136 de QI em um teste público de inteligência da Mensa Norway, excedendo o limite para a entrada no capítulo Mensa do país pela primeira vez.
A pontuação, calculada a partir de uma média de sete corridas, coloca o modelo acima de aproximadamente 98 % da população humana, de acordo com uma distribuição de QI de curva de sino padronizada usada no benchmarking.
A descoberta, divulgada através de dados do Independent Platform rackingai.org, reforça o padrão de modelos proprietários de código fechado, superando as contrapartes de código aberto em avaliações cognitivas controladas.
Metodologia de Dominância e Benchmarking da Série O
O modelo “O3” foi lançado nesta semana e faz parte da “série O” de grandes modelos de idiomas, representando a maioria das classificações de nível superior nos dois tipos de teste avaliados pelo rastreamento.
Os dois formatos de benchmark incluíram um “teste offline” proprietário com curadoria de rastreari.org e um teste de Mensa Norway disponível ao público, ambos marcaram contra uma média humana de 100.
Enquanto o “O3” publicou um 116 na avaliação offline, ele viu um aumento de 20 pontos no teste MENSA, sugerindo compatibilidade aprimorada com a estrutura deste último ou confusão relacionada a dados, como familiaridade imediata.
O teste offline incluiu 100 perguntas de reconhecimento de padrões projetadas para evitar qualquer coisa que possa ter aparecido nos dados usados para treinar modelos de IA.
Ambas as avaliações relatam o resultado de cada modelo como uma média nas sete conclusões mais recentes, mas nenhum intervalos de desvio padrão ou confiança foram divulgados juntamente com as pontuações finais.
A ausência de transparência metodológica, particularmente em relação a estratégias de promoção e conversão de escala de pontuação, limita a reprodutibilidade e a interpretabilidade.
Metodologia do teste
Rastreari.org afirma que compila seus dados administrando um formato prompt padronizado projetado para garantir amplo conformidade de IA, minimizando a ambiguidade interpretativa.
Cada modelo de idioma é apresentado com uma declaração seguida por quatro opções de resposta ao estilo Likert, discorda fortemente, discorda, concordo, concorda fortemente e é instruído a selecionar um enquanto justifica sua escolha em duas a cinco frases.
As respostas devem ser claramente formatadas, normalmente fechadas em negrito ou asteriscos. Se um modelo se recusar a responder, o prompt será repetido até dez vezes.
A resposta bem -sucedida mais recente é registrada para fins de pontuação, com eventos de recusa observados separadamente.
Essa metodologia, refinada por meio de calibração repetida entre os modelos, visa fornecer consistência em avaliações comparativas e documentar a não responsividade como um ponto de dados em si.
Desempenho espalhado pelos tipos de modelos
O teste da Mensa Noruega aguçou o delineamento entre os modelos verdadeiramente frontier, com os 136 QI do O3 marcando uma liderança clara sobre a próxima entrada mais alta.
Por outro lado, outros modelos populares como o GPT-4O marcaram consideravelmente mais baixos, aterrissando em 95 no MESA e 64 em offline, enfatizando a diferença de desempenho entre o lançamento “O3” desta semana e outros modelos principais.
Entre as submissões de código aberto, o META’s Llama 4 Maverick foi o mais bem classificado, registrando um QI de 106 no MENSA e 97 no benchmark offline.
A maioria das entradas licenciadas pela Apache caiu dentro da faixa de 60 a 90, reforçando as limitações atuais das arquiteturas construídas na comunidade em relação aos oleodutos de pesquisa apoiados por empresas.
Modelos multimodais veem pontuações reduzidas e limitações de teste
Notavelmente, os modelos projetados especificamente para incorporar recursos de entrada de imagem de forma consistente de forma consistentemente apresentada suas versões somente de texto. Por exemplo, o “O1 Pro” do OpenAI marcou 107 no teste offline em sua configuração de texto, mas caiu para 97 em sua versão habilitada para a visão.
A discrepância foi mais pronunciada no teste Mensa, onde a variante somente de texto alcançou 122 em comparação com 86 para a versão visual. Isso sugere que alguns métodos de pré -treinamento multimodal podem introduzir ineficiências de raciocínio que permanecem não resolvidas no momento.
No entanto, “O3” também pode analisar e interpretar imagens com um padrão muito alto, muito melhor que seus antecessores, quebrando essa tendência.
Por fim, os benchmarks de QI fornecem uma janela estreita para a capacidade de raciocínio de um modelo, com o padrão de contexto de curto prazo, oferecendo apenas informações limitadas sobre comportamentos cognitivos mais amplos, como raciocínio, planejamento ou precisão factual.
Além disso, as condições de teste de máquina, como acesso instantâneo a instruções completas e velocidade de processamento ilimitada, comparações adicionais com a cognição humana.
O grau em que as altas pontuações de QI em testes estruturados se traduzem no desempenho do modelo de idioma do mundo real permanece incerto.
Como os pesquisadores do rastreio.org reconhecem, mesmo suas tentativas de evitar vazamentos no conjunto de treinamento não impedem completamente a possibilidade de exposição indireta ou generalização de formato, principalmente devido à falta de transparência em torno de conjuntos de dados de treinamento e procedimentos de ajuste fino para modelos proprietários.
Avaliadores independentes preenchem lacuna de transparência
Organizações como LM-EVAL, GPTZERO e MLCommons são cada vez mais confiadas para fornecer avaliações de terceiros, à medida que os desenvolvedores de modelos continuam a limitar as divulgações sobre arquiteturas internas e métodos de treinamento.
Essas “avaliações de sombra” estão moldando as normas emergentes de grandes testes de modelo de linguagem, especialmente à luz das divulgações opacas e frequentemente fragmentadas das principais empresas de IA.
A Série O da OpenAI ocupa uma posição de comando nesse fluxo de trabalho de teste, embora as implicações a longo prazo para inteligência geral, comportamento agêntico ou implantação ética ainda não sejam abordadas em ensaios mais relevantes para o domínio. As pontuações de QI, embora provocativas, servem mais como sinais de proficiência em curto prazo do que um indicador definitivo de recursos mais amplos.
Por rastreio.org, serão necessárias análises adicionais sobre spreads de desempenho baseadas em formato e confiabilidade de avaliação para esclarecer a validade dos benchmarks atuais.
Com as liberações de modelo acelerando e independentes testando em sofisticação, as métricas comparativas podem continuar evoluindo em formato e interpretação.
Mencionado neste artigo
source – cryptoslate.com