Principais conclusões
Supere o GPT-4o e o Gemini 1.5, há um novo jogador na cidade. A Anthropic lançou seu modelo mais recente, pretensiosamente chamado de Claude 3.5 Sonnet, e a empresa afirma que pode superar os modelos mais recentes ChatGPT, Gemini e Llama em vários benchmarks.
Claude 3.5 Sonnet agora está disponível para todos os usuários online e no aplicativo Claude, e você não precisa de assinatura para usá-lo. No entanto, há um limite para o número de mensagens que você pode enviar como usuário gratuito, que varia de acordo com a demanda e é atualizado novamente a cada dia. Você pode assinar uma assinatura paga por cinco vezes o uso permitido na versão gratuita.
RelacionadoComo atualizei o Siri com ChatGPT para obter respostas de IA mais inteligentes no meu iPhone
Ainda consigo falar com a Siri, mas agora obtenho respostas melhores geradas pelo ChatGPT. É o melhor dos dois mundos.
Como o Claude 3.5 Sonnet se compara aos seus rivais?
O novo modelo sai na frente em muitos benchmarks
Antrópico
Os benchmarks de IA devem sempre ser considerados com cautela, pois comparar chatbots de IA é uma coisa notoriamente difícil de fazer, até porque seu chatbot pode dar uma resposta diferente à mesma pergunta na próxima vez que você fizer isso. Esses benchmarks geralmente também se concentram em tipos específicos de tarefas, o que nem sempre dá uma boa ideia do desempenho de um chatbot na vida real. Independentemente disso, os benchmarks publicados pela Anthropic proporcionam uma leitura interessante.
A Anthropic testou o Claude 3.5 Sonnet em oito benchmarks diferentes e o comparou ao seu próprio modelo Claude 3 Opus, bem como ao modelo mais recente da OpenAI, GPT-4o, ao Gemini 1.5 Pro do Google e ao Llama-400b da Meta. Claude 3.5 Sonnet ficou em primeiro lugar em sete das oito categorias, com ChatGPT 4-o triunfando na outra.
A nova versão de Claude venceu a concorrência em raciocínio de pós-graduação, código, matemática multilíngue, raciocínio sobre texto, avaliações mistas e matemática do ensino fundamental. Ficou em segundo lugar, atrás do GPT-4o, na resolução de problemas matemáticos. Quando testado para conhecimento de nível de graduação, Claude 3.5 Sonnet foi o vencedor ao usar um método de 5 tentativas, em que cinco exemplos são dados antes da solicitação ser solicitada. No entanto, em testes de tiro 0, onde não há exemplos anteriores, Claude 3.5 Sonnet foi derrotado por pouco pelo GPT-4o.
Antrópico
O Claude 3.5 Sonnet também melhorou as capacidades de visão, o que o torna melhor na interpretação de dados visuais, como gráficos. Ele foi testado contra outros modelos para tarefas de raciocínio visual e saiu vencedor em todos os casos, exceto um, onde foi novamente derrotado pelo ChatGPT 4-o.
Claude 3.5 Sonnet é agora a melhor IA?
É difícil dizer com algum grau de precisão
Fiapos de bolso
Isso significa que Claude 3.5 Sonnet é agora a melhor IA que existe? Como já mencionado, os benchmarks devem ser considerados com cautela, e habilidades em áreas restritas não significam que o chatbot de IA terá melhor desempenho para uso geral.
Embora o Claude 3.5 Sonnet certamente apresente um desempenho impressionante em testes de benchmark, ele ainda apresenta muitas das mesmas fraquezas de seus rivais.
Por exemplo, tentei a pergunta que tem confundido muitos chatbots de IA e perguntei a Claude 3.5 Sonnet quantas vezes a letra R aparece na palavra morango, algo com que os modelos atuais ainda lutam. A resposta de Claude 3.5 Sonnet foi que há dois (há três se você não se incomodar em contar) e quando questionado em que posição eles vieram, Claude 3.5 Sonnet respondeu que essas eram a terceira e a oitava letras. É verdade que existem Rs nessas posições, mas também existe um na nona posição.
Embora o Claude 3.5 Sonnet certamente apresente um desempenho impressionante em testes de benchmark, ele ainda apresenta muitas das mesmas fraquezas de seus rivais.
Anthropic também apresenta artefatos
Uma janela separada torna seu fluxo de trabalho menos confuso
Antrópico
A Anthropic também introduziu um novo recurso chamado Artefatos que está chegando aos seus modelos. Esta é essencialmente apenas uma janela separada onde a saída mais complexa de seus prompts fica visível para que seu chat principal não fique confuso. As imagens ou códigos gerados aparecem nesta janela em vez de na janela principal do chat, e é até possível executar o código nesta janela para vê-lo em ação. É um recurso útil, mas não parece digno de exigir seu próprio nome.
RelacionadoO que é IA generativa e o que ela pode fazer?
O mundo está alvoroçado com a tecnologia de IA, mas o que exatamente é IA generativa? E como você pode usá-lo? Nós explicamos.
source – www.pocket-lint.com