Pesquisadores antropia fazem grande avanço para entender como um modelo de IA pensa

Pesquisadores antrópicos compartilharam dois novos artigos na quinta -feira, compartilhando a metodologia e as descobertas sobre como pensa um modelo de inteligência artificial (IA). A empresa de IA baseada em São Francisco desenvolveu técnicas para monitorar o processo de tomada de decisão de um grande modelo de linguagem (LLM) para entender o que motiva uma resposta e estrutura específicas sobre outra. A empresa destacou que essa área específica dos modelos de IA continua sendo uma caixa preta, pois até os cientistas que desenvolvem os modelos não entendem completamente como uma IA faz conexões conceituais e lógicas para gerar saídas.

A pesquisa antrópica esclarece como uma IA pensa

Em uma redação publicara empresa publicou detalhes de um estudo recentemente conduzido sobre “rastrear os pensamentos de um grande modelo de idioma”. Apesar de construir modelos de chatbots e IA, cientistas e desenvolvedores não controlam o circuito elétrico que um sistema cria para produzir uma saída.

Para resolver essa “caixa preta”, pesquisadores antropia publicaram dois artigos. O primeiro investiga os mecanismos internos usados ​​por Claude 3.5 haiku usando uma metodologia de rastreamento de circuito e o segundo papel é sobre as técnicas usadas para revelar gráficos computacionais em modelos de idiomas.

Algumas das perguntas que os pesquisadores pretendiam encontrar respostas incluíam a linguagem “pensando” de Claude, o método de geração de texto e seu padrão de raciocínio. Anthrópica disse: “Saber como modelos como Claude pensam que nos permitiriam entender melhor suas habilidades, além de nos ajudar a garantir que eles estão fazendo o que pretendemos”.

Com base nas idéias compartilhadas no artigo, as respostas para as perguntas a acima mencionadas foram surpreendentes. Os pesquisadores acreditavam que Claude teria uma preferência por um idioma específico em que pensa antes de responder. No entanto, eles descobriram que o chatbot da AI pensa em um “espaço conceitual compartilhado entre idiomas”. Isso significa que seu pensamento não é influenciado por um idioma específico e pode entender e processar conceitos em uma espécie de linguagem universal de pensamento.

Enquanto Claude é treinado para escrever uma palavra de cada vez, os pesquisadores descobriram que o modelo de IA planeja sua resposta muitas palavras à frente e pode ajustar sua saída para chegar a esse destino. Os pesquisadores encontraram evidências desse padrão, levando a IA a escrever um poema e perceber que Claude decidiu primeiro as palavras rimadas e depois formou o restante das linhas para entender essas palavras.

A pesquisa também afirmou que, ocasionalmente, Claude também pode reverter argumentos que soam lógicos para concordar com o usuário, em vez de seguir as etapas lógicas. Essa “alucinação” intencional ocorre quando uma pergunta incrivelmente difícil é feita. A Anthropic disse que suas ferramentas podem ser úteis para sinalizar mecanismos nos modelos de IA, pois podem identificar quando um chatbot fornece raciocínio falso em suas respostas.

Antrópico destacou que existem limitações nessa metodologia. Neste estudo, apenas as instruções de dezenas de palavras foram dadas e, ainda assim, foram necessárias algumas horas de esforço humano para identificar e entender os circuitos. Comparado às capacidades do LLMS, o empreendimento da pesquisa capturou apenas uma fração do cálculo total realizado por Claude. No futuro, a empresa de IA planeja usar os modelos de IA para entender os dados.

source – www.gadgets360.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here