Conforme relatado anteriormente, uma nova pesquisa revela inconsistências nos modelos ChatGPT ao longo do tempo. Um estudo de Stanford e UC Berkeley analisou as versões de março e junho do GPT-3.5 e GPT-4 em diversas tarefas. Os resultados mostram desvios significativos no desempenho, mesmo em apenas alguns meses.
Por exemplo, a precisão dos números primos do GPT-4 caiu de 97,6% para 2,4% entre março e junho devido a problemas após o raciocínio passo a passo. O GPT-4 também ficou mais relutante em responder perguntas delicadas diretamente, com taxas de resposta caindo de 21% para 5%. No entanto, forneceu menos justificativa para recusas.
Tanto o GPT-3.5 quanto o GPT-4 geraram códigos com mais bugs em junho em comparação com março. A porcentagem de snippets diretamente executáveis do Python caiu substancialmente devido ao texto extra não relacionado ao código.
Embora o raciocínio visual tenha melhorado um pouco no geral, as gerações para os mesmos quebra-cabeças mudaram de forma imprevisível entre as datas. As inconsistências consideráveis em períodos curtos levantam preocupações sobre a confiança nesses modelos para usos sensíveis ou de missão crítica sem testes contínuos.
Os pesquisadores concluíram que as descobertas destacam a necessidade de monitoramento contínuo dos modelos ChatGPT à medida que seu comportamento evolui em métricas como precisão, segurança e robustez.
O processo de atualização opaco torna os testes rigorosos importantes para entender as mudanças no desempenho ao longo do tempo.
O ChatGPT é pior do que os concorrentes agora?
CryptoSlate realizou um pequeno experimento interno usando ChatGPT Plus (GPT-4), OpenAI API (GPT-4), Anthropic (Claude 2) e Google (Bard) usando o prompt básico usado em parte da pesquisa,
‘17077 é um número primo?’
O prompt foi usado em cada modelo com prompts de reflexão adicionais, conforme descrito abaixo.
API ChatGPT e OpenAI
Quando solicitado, o ChatGPT e a OpenAI API responderam ‘não’ e alucinaram com a matemática. A imagem abaixo detalha a conversa, com o modelo incapaz de identificar 17077 como um número primo, mesmo após várias reflexões.
Para ser claro, 13 x 1313 é 17.069.
A API OpenAI GPT4 não conseguiu chegar a essa conclusão até que especificamente solicitado a calcular 13 x 1313 para descobrir que a resposta não é 17077, conforme declarado.
Cláudio 2 do Antrópico
No entanto, o Claude 2 da Anthropic demonstrou seu processo de resolução de problemas realizando cálculos antes de fornecer a resposta correta.
CryptoSlate então pediu a Claude 2 para executar a mesma tarefa sem mostrar o funcionamento em uma nova janela de bate-papo. Claude 2 deu uma resposta sólida, recusando-se a comprometer enquanto oferecia informações adicionais sobre a solução.
“Infelizmente, não posso determinar se 17077 é primo sem mostrar algum trabalho. No entanto, posso confirmar que 17077 não é divisível por nenhum número primo menor que 121, o que sugere fortemente que pode ser primo.”
Google Bardo
O Google Bard abordou a questão com uma estratégia semelhante ao Claude 2. No entanto, em vez de examinar o problema com texto, ele executou algum código Python básico. Além disso, parece que Bard usou informações de um site de números primos e da Wikipedia em sua solução. Curiosamente, a página citada do site de números primos, primenumbers.info, incluía apenas informações sobre outros números primos, não 17077.
Lhama de Meta 2
Curiosamente, o Llama2, modelo de código aberto de 70 bilhões de parâmetros lançado recentemente pela Meta, teve um desempenho semelhante ao GPT4 em CryptoSlate’s testes limitados.
No entanto, quando solicitado a refletir e mostrar seu funcionamento, o Llama2 conseguiu decifrar que 17077 é um número primo, ao contrário das versões GPT4 atualmente disponíveis.
No entanto, a ressalva é que o Llama usou um método incompleto para verificar os números primos. Não conseguiu explicar outros números primos até a raiz quadrada de 17077.
Portanto, tecnicamente o Llama falhou com sucesso.
GPT4-0613 versão 13 de junho de 2023
CryptoSlate também testou o quebra-cabeça matemático contra o modelo GPT4-0613 (versão de junho) e obteve o mesmo resultado. O modelo sugeriu que 17077 não é um número primo em sua primeira resposta. Além disso, quando solicitado a mostrar seu funcionamento, acabou desistindo. Concluiu que o seguinte número razoável deve ser divisível por 17077 e afirmou que não era, portanto, um número primo.
Portanto, parece que a tarefa não estava dentro dos recursos do GPT4 desde 13 de junho. Versões mais antigas do GPT4 estão atualmente indisponíveis ao público, mas foram incluídas no trabalho de pesquisa.
Intérprete de código
Curiosamente, o ChatGPT, com o recurso ‘Code Interpreter’, respondeu corretamente em sua primeira tentativa no teste do CryptoSlate.
Resposta OpenAI e impacto do modelo
Em resposta às alegações de que os modelos da OpenAI são degradantes, informou o The Economic Times, o vice-presidente de produtos da OpenAI, Peter Welinder, negou essas alegações, afirmando que cada nova versão é mais inteligente que a anterior. Ele propôs que o uso mais pesado pode levar à percepção de diminuição da eficácia à medida que mais problemas são percebidos ao longo do tempo.
Curiosamente, outro estudo de pesquisadores de Stanford publicado no JAMA Internal Medicine descobriu que a versão mais recente do ChatGPT superou significativamente os estudantes de medicina em questões desafiadoras do exame de raciocínio clínico.
O chatbot de IA obteve, em média, 4 pontos a mais do que os alunos do primeiro e segundo anos em perguntas abertas baseadas em casos que exigem análise de detalhes e composição de respostas completas.
Assim, o aparente declínio no desempenho do ChatGPT em tarefas específicas destaca os desafios de depender apenas de grandes modelos de linguagem sem testes rigorosos contínuos. Embora as causas exatas permaneçam incertas, isso ressalta a necessidade de monitoramento e benchmarking contínuos à medida que esses sistemas de IA evoluem rapidamente.
À medida que os avanços continuam a melhorar a estabilidade e a consistência desses modelos de IA, os usuários devem manter uma perspectiva equilibrada no ChatGPT, reconhecendo seus pontos fortes e mantendo-se cientes de suas limitações.
source – cryptoslate.com