No último dia dos 12 dias de ‘Shipmas’ da Openai, a empresa revelou seus mais recentes modelos, O3 e O3-Mini, que se destacam no raciocínio e até superaram a O1 em uma série de benchmarks, incluindo matemática e ciências. No lançamento, o CEO da Openai, Sam Altman, disse que a O3 estava programada para cair no final de janeiro e hoje a empresa fez boa promessa.
O3-mini
Na sexta -feira, Openai lançado Seu modelo O3-Mini, o modelo mais econômico da série de raciocínio da Openai, para o público. Até agora, essa série era composta de O1 e O1-mini. Como seu antecessor, o modelo é particularmente forte em ciências, matemática e codificação, de acordo com a empresa.
Quando o O3-mini for selecionado, ele usará o esforço de raciocínio médio, que equilibra velocidade e precisão. Embora o modelo O1 original ainda tenha conhecimento geral mais amplo que o O3-mini, a maior vantagem do novo modelo é sua velocidade mais rápida e maior desempenho em comparação com O1-mini.
Desempenho de referência
Ao comparar o desempenho de O3-mini com O1-mini, os testadores especializados descobriram que o O3-mini entregava respostas mais precisas, fundamentadas e mais claras que o O1-mini. De acordo com o post, eles preferiram respostas de O3-mini 56% das vezes e observaram uma redução de 39% nos principais erros.
Além das avaliações de preferência humana, em vários parâmetros de referência do STEM, incluindo a concorrência matemática (Aime 2024), questões científicas no nível de doutorado (Diamante GPQA) e Código de Competição (Código), O3-mini com raciocínio médio-que é o que os usuários do ChatGPT irão Obtenha por padrão-superou o O1-mini.
Também é notável que o O3-mini, com alto esforço de raciocínio nos benchmarks, chegou perto do desempenho do O1, às vezes até superando-o, como visto nos benchmarks Aime 2024 acima e engenharia de software (verificados por bancada SWE). O modelo O3-Mini com esforço de raciocínio médio correspondeu ao desempenho da O1 no benchmark da Codeforces.
Segurança
O OpenAI avaliou a segurança da O3-Mini por meio da liberação pública por meio de jailbreak e não permitiu avaliações de conteúdo. A empresa descobriu que o modelo supera significativamente o GPT-4O nas avaliações. OpenAI postou os resultados da avaliação abaixo e também lançou uma placa de sistema O3-mini, um PDF de 37 páginas Isso inclui os resultados detalhados das avaliações.
Como acessar
Todos os assinantes das camadas pagas do OpenAI, incluindo ChatGPT Plus, Team e Pro, podem acessar o OpenAI O3-Mini a partir de hoje. Mais e os usuários da equipe agora têm três vezes o limite de taxa, passando de 50 mensagens por dia com O1-mini a 150 mensagens por dia. O ChatGpt Enterprise Access está chegando em uma semana.
Além disso: o novo recurso ‘pense mais’ da Copilot é gratuito para todos os usuários – como funciona
O modelo O3-Mini substituirá O1-mini no seletor de modelos, pois seria útil para as mesmas tarefas, exceto que essa experiência agora será aprimorada com menor latência e limites de taxa mais altos. Como usuário pago, no momento da redação deste artigo, ainda não tinha acesso ao O3-mini e ainda estou vendo a opção O1-mini.
Se você não tem uma assinatura, não se preocupe: você pode ver se o O3-mini vale o hype da sua conta gratuita. Todos os usuários gratuitos do ChatGPT precisam fazer é clicar em “Razão” na caixa de texto da mensagem ou regenerar uma resposta. O CEO da Openai, Sam Altman, confirmou o acesso gratuito em um Postagem em x. Até agora, todos os modelos de raciocínio foram mantidos atrás de um paywall; O OpenAI não especificou limitações em torno do novo modelo para usuários gratuitos.
source – www.zdnet.com