Saturday, November 30, 2024
HomeNotícias de criptomoedaComparando os recursos do ChatGPT com alternativas, incluindo Claude 2 da Anthropic,...

Comparando os recursos do ChatGPT com alternativas, incluindo Claude 2 da Anthropic, Bard do Google e Llama2 da Meta

Conforme relatado anteriormente, uma nova pesquisa revela inconsistências nos modelos ChatGPT ao longo do tempo. Um estudo de Stanford e UC Berkeley analisou as versões de março e junho do GPT-3.5 e GPT-4 em diversas tarefas. Os resultados mostram desvios significativos no desempenho, mesmo em apenas alguns meses.

desempenho gpt4 x gpt3
Fonte: Universidade de Stanford e UC Berkeley

Por exemplo, a precisão dos números primos do GPT-4 caiu de 97,6% para 2,4% entre março e junho devido a problemas após o raciocínio passo a passo. O GPT-4 também ficou mais relutante em responder perguntas delicadas diretamente, com taxas de resposta caindo de 21% para 5%. No entanto, forneceu menos justificativa para recusas.

Tanto o GPT-3.5 quanto o GPT-4 geraram códigos com mais bugs em junho em comparação com março. A porcentagem de snippets diretamente executáveis ​​do Python caiu substancialmente devido ao texto extra não relacionado ao código.

Embora o raciocínio visual tenha melhorado um pouco no geral, as gerações para os mesmos quebra-cabeças mudaram de forma imprevisível entre as datas. As inconsistências consideráveis ​​em períodos curtos levantam preocupações sobre a confiança nesses modelos para usos sensíveis ou de missão crítica sem testes contínuos.

Os pesquisadores concluíram que as descobertas destacam a necessidade de monitoramento contínuo dos modelos ChatGPT à medida que seu comportamento evolui em métricas como precisão, segurança e robustez.

O processo de atualização opaco torna os testes rigorosos importantes para entender as mudanças no desempenho ao longo do tempo.

O ChatGPT é pior do que os concorrentes agora?

CryptoSlate realizou um pequeno experimento interno usando ChatGPT Plus (GPT-4), OpenAI API (GPT-4), Anthropic (Claude 2) e Google (Bard) usando o prompt básico usado em parte da pesquisa,

‘17077 é um número primo?’

O prompt foi usado em cada modelo com prompts de reflexão adicionais, conforme descrito abaixo.

API ChatGPT e OpenAI

Quando solicitado, o ChatGPT e a OpenAI API responderam ‘não’ e alucinaram com a matemática. A imagem abaixo detalha a conversa, com o modelo incapaz de identificar 17077 como um número primo, mesmo após várias reflexões.

desempenho gpt4
API OpenAI

Para ser claro, 13 x 1313 é 17.069.

A API OpenAI GPT4 não conseguiu chegar a essa conclusão até que especificamente solicitado a calcular 13 x 1313 para descobrir que a resposta não é 17077, conforme declarado.

Cláudio 2 do Antrópico

No entanto, o Claude 2 da Anthropic demonstrou seu processo de resolução de problemas realizando cálculos antes de fornecer a resposta correta.

Antrópico 17077
Claude Antrópico 2

CryptoSlate então pediu a Claude 2 para executar a mesma tarefa sem mostrar o funcionamento em uma nova janela de bate-papo. Claude 2 deu uma resposta sólida, recusando-se a comprometer enquanto oferecia informações adicionais sobre a solução.

“Infelizmente, não posso determinar se 17077 é primo sem mostrar algum trabalho. No entanto, posso confirmar que 17077 não é divisível por nenhum número primo menor que 121, o que sugere fortemente que pode ser primo.”

Google Bardo

O Google Bard abordou a questão com uma estratégia semelhante ao Claude 2. No entanto, em vez de examinar o problema com texto, ele executou algum código Python básico. Além disso, parece que Bard usou informações de um site de números primos e da Wikipedia em sua solução. Curiosamente, a página citada do site de números primos, primenumbers.info, incluía apenas informações sobre outros números primos, não 17077.

Google Bardo
Google Bardo

Lhama de Meta 2

Curiosamente, o Llama2, modelo de código aberto de 70 bilhões de parâmetros lançado recentemente pela Meta, teve um desempenho semelhante ao GPT4 em CryptoSlate’s testes limitados.

meta lhama2
Meta Llama2

No entanto, quando solicitado a refletir e mostrar seu funcionamento, o Llama2 conseguiu decifrar que 17077 é um número primo, ao contrário das versões GPT4 atualmente disponíveis.

No entanto, a ressalva é que o Llama usou um método incompleto para verificar os números primos. Não conseguiu explicar outros números primos até a raiz quadrada de 17077.

Portanto, tecnicamente o Llama falhou com sucesso.

GPT4-0613 versão 13 de junho de 2023

CryptoSlate também testou o quebra-cabeça matemático contra o modelo GPT4-0613 (versão de junho) e obteve o mesmo resultado. O modelo sugeriu que 17077 não é um número primo em sua primeira resposta. Além disso, quando solicitado a mostrar seu funcionamento, acabou desistindo. Concluiu que o seguinte número razoável deve ser divisível por 17077 e afirmou que não era, portanto, um número primo.

Portanto, parece que a tarefa não estava dentro dos recursos do GPT4 desde 13 de junho. Versões mais antigas do GPT4 estão atualmente indisponíveis ao público, mas foram incluídas no trabalho de pesquisa.

Intérprete de código

Curiosamente, o ChatGPT, com o recurso ‘Code Interpreter’, respondeu corretamente em sua primeira tentativa no teste do CryptoSlate.

interpretador de código gpt4
Intérprete de Código OpenAI GPT4

Resposta OpenAI e impacto do modelo

Em resposta às alegações de que os modelos da OpenAI são degradantes, informou o The Economic Times, o vice-presidente de produtos da OpenAI, Peter Welinder, negou essas alegações, afirmando que cada nova versão é mais inteligente que a anterior. Ele propôs que o uso mais pesado pode levar à percepção de diminuição da eficácia à medida que mais problemas são percebidos ao longo do tempo.

Curiosamente, outro estudo de pesquisadores de Stanford publicado no JAMA Internal Medicine descobriu que a versão mais recente do ChatGPT superou significativamente os estudantes de medicina em questões desafiadoras do exame de raciocínio clínico.

O chatbot de IA obteve, em média, 4 pontos a mais do que os alunos do primeiro e segundo anos em perguntas abertas baseadas em casos que exigem análise de detalhes e composição de respostas completas.

Assim, o aparente declínio no desempenho do ChatGPT em tarefas específicas destaca os desafios de depender apenas de grandes modelos de linguagem sem testes rigorosos contínuos. Embora as causas exatas permaneçam incertas, isso ressalta a necessidade de monitoramento e benchmarking contínuos à medida que esses sistemas de IA evoluem rapidamente.

À medida que os avanços continuam a melhorar a estabilidade e a consistência desses modelos de IA, os usuários devem manter uma perspectiva equilibrada no ChatGPT, reconhecendo seus pontos fortes e mantendo-se cientes de suas limitações.

source – cryptoslate.com

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular