Anthropic lança modelo Claude 3.5 Sonnet que supera GPT-4o e Gemini 1.5

June 21, 2024

137

Principais conclusões

Claude 3.5 Sonnet supera os modelos ChatGPT, Gemini e Llama em alguns benchmarks.

Disponível para todos os usuários online e como aplicativo, Claude oferece uso gratuito com limites maiores para assinaturas pagas.

Claude vence em vários benchmarks, mas ainda apresenta pontos fracos comuns a outros modelos de IA.

Supere o GPT-4o e o Gemini 1.5, há um novo jogador na cidade. A Anthropic lançou seu modelo mais recente, pretensiosamente chamado de Claude 3.5 Sonnet, e a empresa afirma que pode superar os modelos mais recentes ChatGPT, Gemini e Llama em vários benchmarks.

Claude 3.5 Sonnet agora está disponível para todos os usuários online e no aplicativo Claude, e você não precisa de assinatura para usá-lo. No entanto, há um limite para o número de mensagens que você pode enviar como usuário gratuito, que varia de acordo com a demanda e é atualizado novamente a cada dia. Você pode assinar uma assinatura paga por cinco vezes o uso permitido na versão gratuita.

Relacionado

Como atualizei o Siri com ChatGPT para obter respostas de IA mais inteligentes no meu iPhone

Ainda consigo falar com a Siri, mas agora obtenho respostas melhores geradas pelo ChatGPT. É o melhor dos dois mundos.

Como o Claude 3.5 Sonnet se compara aos seus rivais?

O novo modelo sai na frente em muitos benchmarks

resultados do teste de referência da cláusula 3-5

Antrópico

Os benchmarks de IA devem sempre ser considerados com cautela, pois comparar chatbots de IA é uma coisa notoriamente difícil de fazer, até porque seu chatbot pode dar uma resposta diferente à mesma pergunta na próxima vez que você fizer isso. Esses benchmarks geralmente também se concentram em tipos específicos de tarefas, o que nem sempre dá uma boa ideia do desempenho de um chatbot na vida real. Independentemente disso, os benchmarks publicados pela Anthropic proporcionam uma leitura interessante.

A Anthropic testou o Claude 3.5 Sonnet em oito benchmarks diferentes e o comparou ao seu próprio modelo Claude 3 Opus, bem como ao modelo mais recente da OpenAI, GPT-4o, ao Gemini 1.5 Pro do Google e ao Llama-400b da Meta. Claude 3.5 Sonnet ficou em primeiro lugar em sete das oito categorias, com ChatGPT 4-o triunfando na outra.

A nova versão de Claude venceu a concorrência em raciocínio de pós-graduação, código, matemática multilíngue, raciocínio sobre texto, avaliações mistas e matemática do ensino fundamental. Ficou em segundo lugar, atrás do GPT-4o, na resolução de problemas matemáticos. Quando testado para conhecimento de nível de graduação, Claude 3.5 Sonnet foi o vencedor ao usar um método de 5 tentativas, em que cinco exemplos são dados antes da solicitação ser solicitada. No entanto, em testes de tiro 0, onde não há exemplos anteriores, Claude 3.5 Sonnet foi derrotado por pouco pelo GPT-4o.

cláusula 3-5 resultados do teste de benchmark de raciocínio visual

Antrópico

O Claude 3.5 Sonnet também melhorou as capacidades de visão, o que o torna melhor na interpretação de dados visuais, como gráficos. Ele foi testado contra outros modelos para tarefas de raciocínio visual e saiu vencedor em todos os casos, exceto um, onde foi novamente derrotado pelo ChatGPT 4-o.

Claude 3.5 Sonnet é agora a melhor IA?

É difícil dizer com algum grau de precisão

ChatGPT Plus x Gemini Advanced x Microsoft Copilot Pro

Fiapos de bolso

Isso significa que Claude 3.5 Sonnet é agora a melhor IA que existe? Como já mencionado, os benchmarks devem ser considerados com cautela, e habilidades em áreas restritas não significam que o chatbot de IA terá melhor desempenho para uso geral.

Embora o Claude 3.5 Sonnet certamente apresente um desempenho impressionante em testes de benchmark, ele ainda apresenta muitas das mesmas fraquezas de seus rivais.

Por exemplo, tentei a pergunta que tem confundido muitos chatbots de IA e perguntei a Claude 3.5 Sonnet quantas vezes a letra R aparece na palavra morango, algo com que os modelos atuais ainda lutam. A resposta de Claude 3.5 Sonnet foi que há dois (há três se você não se incomodar em contar) e quando questionado em que posição eles vieram, Claude 3.5 Sonnet respondeu que essas eram a terceira e a oitava letras. É verdade que existem Rs nessas posições, mas também existe um na nona posição.

claude 3-5 não conseguindo responder quantos rs tem morango

Embora o Claude 3.5 Sonnet certamente apresente um desempenho impressionante em testes de benchmark, ele ainda apresenta muitas das mesmas fraquezas de seus rivais.

Anthropic também apresenta artefatos

Uma janela separada torna seu fluxo de trabalho menos confuso

cláusula 3-5 visualização de artefatos mostrando o jogo em execução próximo à janela de bate-papo

Antrópico

A Anthropic também introduziu um novo recurso chamado Artefatos que está chegando aos seus modelos. Esta é essencialmente apenas uma janela separada onde a saída mais complexa de seus prompts fica visível para que seu chat principal não fique confuso. As imagens ou códigos gerados aparecem nesta janela em vez de na janela principal do chat, e é até possível executar o código nesta janela para vê-lo em ação. É um recurso útil, mas não parece digno de exigir seu próprio nome.

Relacionado

O que é IA generativa e o que ela pode fazer?

O mundo está alvoroçado com a tecnologia de IA, mas o que exatamente é IA generativa? E como você pode usá-lo? Nós explicamos.

source – www.pocket-lint.com

Anthropic lança modelo Claude 3.5 Sonnet que supera GPT-4o e Gemini 1.5

Principais conclusões

Como atualizei o Siri com ChatGPT para obter respostas de IA mais inteligentes no meu iPhone

Como o Claude 3.5 Sonnet se compara aos seus rivais?

O novo modelo sai na frente em muitos benchmarks

Claude 3.5 Sonnet é agora a melhor IA?

É difícil dizer com algum grau de precisão

Anthropic também apresenta artefatos

Uma janela separada torna seu fluxo de trabalho menos confuso

O que é IA generativa e o que ela pode fazer?

Cookie Run Kingdom: Toppings de biscoito de baunilha puro Guia

Ton a US $ 3,80 – oportunidade subvalorizada ou uma armadilha de touro?

A Microsoft disse estar ajustando o preço das equipes de escritório para evitar a Fine Antitruste da UE

A Dell Technologies anuncia seus novos laptops de latitude e precisão | Digit

Ariana Grande diz que aconselhou os rivais ‘perversos’ que fazem o mesmo papel

Assista: Lee Sun Bin e Kang Tae Oh são opostos polares atraídos um pelo outro no próximo drama “The Potato Lab” teaser | Soompi

Arm para começar a fabricar seu próprio semicondutor: detalhes

Ive envia grinalda para a esteira da vítima esfaqueada de 8 anos, que era um enorme fã de Wonyoung

Mais popular

Cookie Run Kingdom: Toppings de biscoito de baunilha puro Guia

Ton a US $ 3,80 – oportunidade subvalorizada ou uma armadilha de touro?

A Microsoft disse estar ajustando o preço das equipes de escritório para evitar a Fine Antitruste da UE

A Dell Technologies anuncia seus novos laptops de latitude e precisão | Digit

Categorias populares