Eu testei o novo modelo o1 do ChatGPT para ver se ele realmente consegue raciocinar como um humano

By Sandy J

September 17, 2024

0

35

Principais conclusões

Os novos modelos o1 da OpenAI se concentram no raciocínio em vez da previsão.

Os modelos o1 escolhem estratégias, consideram opções e refinam métodos antes de responder.

Os modelos o1 podem resolver problemas complexos de raciocínio, matemática e codificação.

A OpenAI lançou dois novos modelos de IA, e eles são algo muito diferente do que veio antes. O que torna esses modelos diferentes é que, diferentemente dos modelos atuais, esses novos modelos o1 foram treinados para raciocinar. Em vez de gerar instantaneamente uma resposta que é preenchida conforme avança, como os atuais Modelos ChatGPT faça, esses novos modelos pensam primeiro, consideram maneiras de abordar o problema e podem refinar seus métodos, tudo antes de produzir qualquer coisa. O resultado é que os modelos o1 são capazes de resolver problemas de raciocínio, matemática e codificação muito mais complexos do que outros modelos atuais.

Se você for assinante do ChatGPT Plus ou Team, poderá experimentar os novos modelos, chamados o1-preview e o1-mini, agora mesmo no Aplicativo ChatGPT. Decidi levá-los para correr para ver como eles se saem.

Qual é o novo modelo o1 da OpenAI?

Um novo tipo de modelo que se concentra no raciocínio em vez da previsão

Selecionando o1-preview no aplicativo ChatGPT no iPhone

A razão pela qual os chatbots de IA atuais não são muito bons em resolver problemas simples é por causa da maneira como eles funcionam. Essencialmente, modelos como GPT-4o gerar uma resposta uma palavra por vez, usando seu treinamento e algoritmos para prever a coisa mais provável de colocar em seguida para satisfazer o prompt. É por isso que você pode ver suas respostas sendo geradas uma palavra por vez.

Isso funciona brilhantemente para alguns usos, como escrever uma história ou reformular um e-mail para torná-lo mais profissional. No entanto, não é de muita ajuda para resolver problemas, a menos que esses problemas exatos tenham aparecido em seu treinamento. Essencialmente, o GPT-4o diz a você o que ele acha que você provavelmente quer ouvir, mesmo que isso não seja realmente de muita ajuda.

De acordo com a OpenAI, o o1 foi treinado para pensar em como resolver um problema antes de começar a responder.

De acordo com a OpenAI, os modelos o1 foram treinados para pensar sobre como resolver um problema antes de começarem a responder. Os modelos foram treinados para tentar várias estratégias diferentes, detectar erros e refinar sua abordagem. Tudo isso leva tempo, então, em vez da resposta quase instantânea que você obtém do GPT-4o, os novos modelos o1 podem levar um tempo significativo antes de começarem a responder. Você pode ver um resumo do que o modelo está fazendo enquanto espera, como ‘testando parâmetros’ e ‘avaliando a reivindicação’.

Os novos modelos o1 da OpenAI estão disponíveis agora para usuários do ChatGPT Plus e Team. Há dois modelos disponíveis: o1-preview e o1-mini, com o o1-mini sendo um modelo menor e menos capaz. Há limites de mensagens de 30 mensagens semanais para o o1-preview e 50 mensagens semanais para o o1-mini. O “preview” no título indica que este não é o produto finalizado; a Open AI diz que a próxima atualização dos modelos o1 será muito superior.

Contando as letras em morango com o modelo o1

Um teste simples em que a maioria dos chatbots de IA falha

o1-preview obtendo o número de rs em strawberry correto

Decidi experimentar os novos modelos o1 para ver o quão bons eles são em seu estado atual. A primeira coisa que tive que tentar foi ver se esses novos modelos poderiam me dizer quantas vezes a letra R aparece na palavra strawberry.

Pode parecer uma coisa idiota de se perguntar, mas é um exemplo perfeito de onde os modelos atuais falham. Se você fizer essa pergunta para a maioria Chatbots de IAeles erram, com a maioria deles dizendo duas. Isso ocorre porque o chatbot não está realmente contando as letras, ele está apenas prevendo qual será a resposta com a maior probabilidade de ser útil.

Perguntei ao o1-preview quantas vezes a letra R aparece na palavra strawberry, e ele pensou por sete segundos, antes de responder com a resposta correta (que é três, obviamente). Agora, você ou eu podemos fazer isso em menos de sete segundos, mas a maioria dos outros chatbots de IA não consegue acertar de jeito nenhum.

Continuei perguntando sobre seu raciocínio, e ele explicou que examinava cada letra e então contava cada vez que a letra era um R, exatamente como um humano faria. Isso é encorajador.

o1 mini obtendo o número de rs em morango errado

Então tentei o o1-mini, que pensou por dois segundos e então me deu uma resposta de dois. Depois de dizer para ele tentar novamente, ele conseguiu chegar à resposta correta, mas está claro que o o1-preview é muito mais eficaz no raciocínio do que a versão mini.

Resolvendo problemas de raciocínio mais complexos

O modelo o1-preview foi mais rápido na resposta do que eu

o1-preview resolvendo problemas complexos de palavras

Uma vez ouvi uma música no rádio sobre um homem que era seu próprio avô. Eu só tinha ouvido as palavras do refrão, e levei muito tempo para descobrir como isso poderia ser verdade.

Fiz a mesma pergunta ao o1-preview. Para garantir que não estava apenas puxando dados de treinamento sobre aquela música, mudei para como eu poderia ser minha própria avó. O modelo o1-preview pensou por 13 segundos e então me deu dois cenários possíveis; o da música (você se casa com um viúvo com um filho adulto, que então se casa com sua própria mãe) e uma solução alternativa envolvendo viagem no tempo.

Resolver o problema levou o1-preview muito menos tempo do que eu levei, e seu raciocínio foi sólido. Bem impressionante.

Resolvendo problemas matemáticos desafiadores

É bom, mas ainda não tão bom quanto o OpenAI promete

o1-preview resolvendo problema de matemática

A OpenAI afirma que a próxima versão do o1, que ainda não foi lançada, obteve 83% em um exame de qualificação para a Olimpíada Internacional de Matemática (IMO). Esses exames envolvem questões matemáticas que exigem raciocínio complexo para serem completamente resolvidas. Decidi experimentar o o1-preview em algumas questões semelhantes.

Usei a versão mais recente do artigo da Olimpíada Britânica de Matemática, que é um dos exames que podem qualificá-lo para o IMO se você for bem o suficiente. Ele compreende seis questões, e os candidatos têm três horas para concluí-lo.

O modelo o1-preview começou bem. Ele conseguiu responder à primeira pergunta (a mais fácil) corretamente e forneceu um raciocínio claro que lhe renderia nota máxima. No entanto, as coisas pioraram a partir daí.

Das seis questões, o1-preview respondeu duas a um padrão que lhe daria uma boa pontuação, e em duas outras questões ele chegou à solução correta, mas não foi capaz de fornecer prova adequada de que essa era a única solução, algo que é essencial para uma boa pontuação no exame. Em duas questões, ele não conseguiu chegar perto de uma solução correta.

No geral, o o1-preview provavelmente pontuou em torno de 25 de 60, o que está longe dos 83% prometidos pela próxima atualização do o1. Não seria o suficiente para se qualificar para a Olimpíada Internacional, mas o modelo o1-preview teria recebido uma medalha de Mérito, da qual tenho certeza de que ficaria orgulhoso.

Aqui está o ponto crucial, no entanto. Eu dei as mesmas perguntas ao GPT-4o, e ele não chegou nem perto de acertar nenhuma delas completamente. O avanço no raciocínio do GPT-4o para o1-preview é significativo e genuinamente impressionante, mesmo que o modelo ainda não atinja as alturas que a OpenAI diz que será capaz de atingir eventualmente.

Resolvendo problemas de codificação usando o1-preview

Uma melhoria significativa, mas ainda há um longo caminho a percorrer

Os chatbots de IA são muito bons em escrever códigos simples. Você pode pedir ao GPT-4o para criar um Python simples, e ele fará isso muito mais rápido do que você conseguiria digitar. Na maioria das vezes, para problemas relativamente simples, os resultados são bons. No entanto, conforme as coisas ficam mais complexas, os resultados pioram.

O modelo o1 supostamente melhorou significativamente codificação habilidades, então eu tentei isso também, e fiquei devidamente impressionado. Eu escolhi um problema de codificação de nível médio do site de prática de codificação leetcode.com e dei para GPT-4o e o1-preview. O problema envolvia encontrar a soma de dois números onde os dígitos são fornecidos em ordem reversa.

O código que foi gerado pelo GPT-4o funcionou bem, exceto por um problema importante; ele gerou a resposta errada. O método usado foi somar os dois números conforme fornecidos e, em seguida, reverter a resposta, o que não funciona. O modelo o1-preview pensou por mais tempo, mas então gerou um código que produziria a resposta correta todas as vezes. Mais uma vez, é uma melhoria impressionante nos modelos atuais.

O próximo modelo do o1 promete levar as coisas a um novo patamar

OpenAI divulgou algumas estatísticas sobre a próxima atualização

Aplicativo de desktop Chatgpt no macbook air

O novo modelo o1-preview não é perfeito. Ele não acerta tudo e certamente não está operando no nível de um aluno de doutorado. No entanto, é uma melhoria significativa nos modelos atuais, sendo capaz de resolver problemas que outros modelos não conseguem. No entanto, ele tem limitações como um chatbot em sua forma atual. Ele não pode aceitar entradas de imagem ou pesquisar na internet como os modelos padrão podem.

No entanto, é a próxima atualização do o1 que é mais empolgante. A OpenAI afirma que o modelo em que estão trabalhando atualmente é capaz de ter um desempenho semelhante ao de alunos de doutorado em testes em disciplinas como Biologia, Química e Física, e pode atingir uma pontuação muito mais impressionante de 83% nos exames de qualificação da IMO, algo que apenas um pequeno punhado de participantes conseguiu fazer no exame BMO com o qual testei.

O novo modelo o1-preview não é perfeito. Ele não acerta tudo e certamente não está operando no nível de um aluno de doutorado. No entanto, é uma melhoria significativa nos modelos atuais, sendo capaz de resolver problemas que outros modelos não conseguem.

Ainda não se sabe o quão bem esse modelo se sai no mundo real, mas parece que o o1 representa um grande passo à frente em como os modelos de IA abordam problemas que exigem raciocínio. Ainda estamos muito longe do sonho da AGI (inteligência artificial geral), que pode raciocinar e aplicar conhecimento em uma ampla gama de tarefas em um nível semelhante ao de um humano, mas este é um pequeno passo na direção certa.

source – www.pocket-lint.com

Eu testei o novo modelo o1 do ChatGPT para ver se ele realmente consegue raciocinar como um humano

Principais conclusões

Qual é o novo modelo o1 da OpenAI?

Um novo tipo de modelo que se concentra no raciocínio em vez da previsão

Contando as letras em morango com o modelo o1

Um teste simples em que a maioria dos chatbots de IA falha

Resolvendo problemas de raciocínio mais complexos

O modelo o1-preview foi mais rápido na resposta do que eu

Resolvendo problemas matemáticos desafiadores

É bom, mas ainda não tão bom quanto o OpenAI promete

Resolvendo problemas de codificação usando o1-preview

Uma melhoria significativa, mas ainda há um longo caminho a percorrer

O próximo modelo do o1 promete levar as coisas a um novo patamar

OpenAI divulgou algumas estatísticas sobre a próxima atualização

Veja como a intensa pressão de venda pode levar o ai16z para US$ 0,98

Oh arrecada US$ 4,5 milhões para capacitar criadores por meio da fusão de IA e Web3

Download mais recente do PUBG MOBILE .APK e .OBB

Lewis Hamilton descarta permanecer na base da Enzo Ferrari F1

‘The Rookie’ começa sua sétima temporada com uma grande conquista

Jordan Adetunji anuncia nova mixtape ‘A Jaguar’s Dream’ com o single ‘Too Many Women’ com Kwn

Jokic e Westbrook do Nuggets registram triplos duplos no mesmo jogo pela segunda vez nesta temporada

Vazamento de renderizações do design do Nintendo Switch 2: é assim que pode ser

Mais popular

Veja como a intensa pressão de venda pode levar o ai16z para US$ 0,98

Oh arrecada US$ 4,5 milhões para capacitar criadores por meio da fusão de IA e Web3

Download mais recente do PUBG MOBILE .APK e .OBB

Lewis Hamilton descarta permanecer na base da Enzo Ferrari F1

Categorias populares