Sunday, September 29, 2024
HomeAppsAnthropic lança modelo Claude 3.5 Sonnet que supera GPT-4o e Gemini 1.5

Anthropic lança modelo Claude 3.5 Sonnet que supera GPT-4o e Gemini 1.5

Principais conclusões

  • Claude 3.5 Sonnet supera os modelos ChatGPT, Gemini e Llama em alguns benchmarks.
  • Disponível para todos os usuários online e como aplicativo, Claude oferece uso gratuito com limites maiores para assinaturas pagas.
  • Claude vence em vários benchmarks, mas ainda apresenta pontos fracos comuns a outros modelos de IA.
  • Supere o GPT-4o e o Gemini 1.5, há um novo jogador na cidade. A Anthropic lançou seu modelo mais recente, pretensiosamente chamado de Claude 3.5 Sonnet, e a empresa afirma que pode superar os modelos mais recentes ChatGPT, Gemini e Llama em vários benchmarks.

    Claude 3.5 Sonnet agora está disponível para todos os usuários online e no aplicativo Claude, e você não precisa de assinatura para usá-lo. No entanto, há um limite para o número de mensagens que você pode enviar como usuário gratuito, que varia de acordo com a demanda e é atualizado novamente a cada dia. Você pode assinar uma assinatura paga por cinco vezes o uso permitido na versão gratuita.

    Como atualizei o Siri com ChatGPT para obter respostas de IA mais inteligentes no meu iPhone Relacionado

    Como atualizei o Siri com ChatGPT para obter respostas de IA mais inteligentes no meu iPhone

    Ainda consigo falar com a Siri, mas agora obtenho respostas melhores geradas pelo ChatGPT. É o melhor dos dois mundos.

    Como o Claude 3.5 Sonnet se compara aos seus rivais?

    O novo modelo sai na frente em muitos benchmarks

    resultados do teste de referência da cláusula 3-5

    Antrópico

    Os benchmarks de IA devem sempre ser considerados com cautela, pois comparar chatbots de IA é uma coisa notoriamente difícil de fazer, até porque seu chatbot pode dar uma resposta diferente à mesma pergunta na próxima vez que você fizer isso. Esses benchmarks geralmente também se concentram em tipos específicos de tarefas, o que nem sempre dá uma boa ideia do desempenho de um chatbot na vida real. Independentemente disso, os benchmarks publicados pela Anthropic proporcionam uma leitura interessante.

    A Anthropic testou o Claude 3.5 Sonnet em oito benchmarks diferentes e o comparou ao seu próprio modelo Claude 3 Opus, bem como ao modelo mais recente da OpenAI, GPT-4o, ao Gemini 1.5 Pro do Google e ao Llama-400b da Meta. Claude 3.5 Sonnet ficou em primeiro lugar em sete das oito categorias, com ChatGPT 4-o triunfando na outra.

    A nova versão de Claude venceu a concorrência em raciocínio de pós-graduação, código, matemática multilíngue, raciocínio sobre texto, avaliações mistas e matemática do ensino fundamental. Ficou em segundo lugar, atrás do GPT-4o, na resolução de problemas matemáticos. Quando testado para conhecimento de nível de graduação, Claude 3.5 Sonnet foi o vencedor ao usar um método de 5 tentativas, em que cinco exemplos são dados antes da solicitação ser solicitada. No entanto, em testes de tiro 0, onde não há exemplos anteriores, Claude 3.5 Sonnet foi derrotado por pouco pelo GPT-4o.

    cláusula 3-5 resultados do teste de benchmark de raciocínio visual

    Antrópico

    O Claude 3.5 Sonnet também melhorou as capacidades de visão, o que o torna melhor na interpretação de dados visuais, como gráficos. Ele foi testado contra outros modelos para tarefas de raciocínio visual e saiu vencedor em todos os casos, exceto um, onde foi novamente derrotado pelo ChatGPT 4-o.

    Claude 3.5 Sonnet é agora a melhor IA?

    É difícil dizer com algum grau de precisão

    ChatGPT Plus x Gemini Advanced x Microsoft Copilot Pro

    Fiapos de bolso

    Isso significa que Claude 3.5 Sonnet é agora a melhor IA que existe? Como já mencionado, os benchmarks devem ser considerados com cautela, e habilidades em áreas restritas não significam que o chatbot de IA terá melhor desempenho para uso geral.

    Embora o Claude 3.5 Sonnet certamente apresente um desempenho impressionante em testes de benchmark, ele ainda apresenta muitas das mesmas fraquezas de seus rivais.

    Por exemplo, tentei a pergunta que tem confundido muitos chatbots de IA e perguntei a Claude 3.5 Sonnet quantas vezes a letra R aparece na palavra morango, algo com que os modelos atuais ainda lutam. A resposta de Claude 3.5 Sonnet foi que há dois (há três se você não se incomodar em contar) e quando questionado em que posição eles vieram, Claude 3.5 Sonnet respondeu que essas eram a terceira e a oitava letras. É verdade que existem Rs nessas posições, mas também existe um na nona posição.

    claude 3-5 não conseguindo responder quantos rs tem morango

    Embora o Claude 3.5 Sonnet certamente apresente um desempenho impressionante em testes de benchmark, ele ainda apresenta muitas das mesmas fraquezas de seus rivais.

    Anthropic também apresenta artefatos

    Uma janela separada torna seu fluxo de trabalho menos confuso

    cláusula 3-5 visualização de artefatos mostrando o jogo em execução próximo à janela de bate-papo

    Antrópico

    A Anthropic também introduziu um novo recurso chamado Artefatos que está chegando aos seus modelos. Esta é essencialmente apenas uma janela separada onde a saída mais complexa de seus prompts fica visível para que seu chat principal não fique confuso. As imagens ou códigos gerados aparecem nesta janela em vez de na janela principal do chat, e é até possível executar o código nesta janela para vê-lo em ação. É um recurso útil, mas não parece digno de exigir seu próprio nome.

    IA do Google no I/O 2023 Relacionado

    O que é IA generativa e o que ela pode fazer?

    O mundo está alvoroçado com a tecnologia de IA, mas o que exatamente é IA generativa? E como você pode usá-lo? Nós explicamos.

    source – www.pocket-lint.com

    Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
    Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

    Sandy J
    Sandy J
    Hi thanks for visiting Asia First News, I am Sandy I will update the daily World and Music News Here, for any queries related to the articles please use the contact page to reach us. :-
    ARTIGOS RELACIONADOS

    Mais popular