A OpenAI revelou a série o3 de modelos de inteligência artificial (IA) com foco no raciocínio no mês passado. Durante uma transmissão ao vivo, a empresa compartilhou as pontuações de benchmark do modelo com base em testes internos. Embora todas as pontuações compartilhadas tenham sido impressionantes e destacassem as capacidades aprimoradas do sucessor do o1, uma pontuação de benchmark se destacou. No benchmark ARC-AGI, o modelo de linguagem grande (LLM) obteve 85%, superando a melhor pontuação anterior por uma margem de 30%. Curiosamente, essa pontuação também está no mesmo nível da pontuação de um ser humano médio no teste.
OpenAI pontua 85 por cento no benchmark ARC-AGI
No entanto, só porque o3 obteve uma pontuação tão alta no teste, isso significa que a sua inteligência é igual à de um ser humano médio? Seria mais fácil responder se o modelo de IA fosse lançado em domínio público e pudéssemos testá-lo. Como a OpenAI não divulgou nada sobre a arquitetura do modelo, técnicas de treinamento ou conjuntos de dados, é difícil afirmar algo de forma conclusiva.
Há certas coisas que sabemos sobre os modelos focados no raciocínio da empresa de IA que podem nos ajudar a entender exatamente o que esperar do próximo LLM da OpenAI. Em primeiro lugar, até agora, os modelos da série O não passaram por uma grande revisão na sua arquitetura ou estrutura, mas foram ajustados para apresentar capacidades melhoradas.
Por exemplo, os desenvolvedores usaram uma técnica com a série o1 de modelos de IA chamada computação em tempo de teste. Com isso, os modelos de IA receberam tempo de processamento adicional para responder a uma pergunta e um espaço de trabalho para testar as teorias e corrigir quaisquer erros. Da mesma forma, o modelo GPT-4o era apenas uma versão aprimorada do GPT-4.
É improvável que a empresa tenha feito grandes mudanças na arquitetura com o modelo o3, visto que também há rumores de que ela esteja trabalhando no modelo GPT-5 AI, que poderá ser lançado ainda este ano.
Chegando ao benchmark ARC-AGI (Abstract Reasoning Corpus – Artificial General Intelligence), ele apresenta uma série de questões de reconhecimento de padrões baseadas em grade que requerem capacidades de raciocínio e compreensão espacial para serem resolvidas. Isso poderia ser feito com um grande conjunto de dados de alta qualidade com foco no raciocínio e na lógica baseada em aptidão.
No entanto, se isso fosse tão simples, os modelos de IA mais antigos também teriam obtido notas altas no teste. Notavelmente, a pontuação mais alta anterior foi de 55 por cento, em oposição à pontuação de 85 por cento do o3. Isso destaca que os desenvolvedores adicionaram novas técnicas e algoritmos de refinamento para aprimorar as capacidades de raciocínio do modelo. A extensão total disso não pode ser afirmada a menos que a OpenAI revele oficialmente os detalhes técnicos.
Dito isto, é improvável que o modelo o3 AI tivesse alcançado AGI ou inteligência de nível humano. Em primeiro lugar, se fosse esse o caso, marcaria o fim da parceria da empresa com a Microsoft, que deverá terminar assim que os modelos OpenAI atingirem o estatuto de AGI. Em segundo lugar, muitos especialistas em IA, incluindo Geoffrey Hinton, o padrinho da IA, destacaram repetidamente que estamos a vários anos de alcançar a AGI.
Finalmente, a AGI é uma conquista tão grande que, se a OpenAI atingisse esse marco, deixaria explicitamente as pessoas saberem, em vez de compartilhar dicas sutis sobre isso. O que é muito mais provável aqui é que o modelo o3 AI tenha encontrado uma maneira de melhorar as capacidades de raciocínio baseado em padrões do modelo (seja adicionando dados de amostragem suficientes ou ajustando os métodos de treinamento), conforme também destacado em um PTI relatório.
No entanto, esta melhoria é provavelmente muito isolada e não significa um aumento no nível geral de inteligência do modelo.
source – www.gadgets360.com