O mundo da inteligência artificial (IA) tem sido recentemente preocupado com o avanço da IA generativa além dos testes simples que os modelos de IA passam facilmente. O famoso teste de Turing foi “espancado” em certo sentido, e controvérsias se destacam sobre se os modelos mais recentes estão sendo construídos para jogar os testes de referência que medem o desempenho.
O problema, diz que os estudiosos da unidade de DeepMind do Google não são os próprios testes, mas a maneira como os modelos de IA são desenvolvidos. Os dados usados para treinar IA são muito restritos e estáticos, e nunca impulsionarão a IA a habilidades novas e melhores.
Em um papel Postado por DeepMindparte de um livro próximo da MIT Press, os pesquisadores propõem que a IA deve ter “experiências” de um tipo, interagindo com o mundo para formular objetivos com base em sinais do meio ambiente.
Também: Com os modelos de IA batendo cada referência, é hora da avaliação humana
“Novos recursos incríveis surgirão assim que todo o potencial do aprendizado experimental for aproveitado”, escreva os estudiosos de DeepMind David Silver e Richard Sutton no jornal, Bem -vindo à era da experiência.
Os dois estudiosos são lendas no campo. Silver liderou mais a pesquisa que resultou em Alphazero, o modelo de AI de Deepmind que venceu os seres humanos nos jogos de xadrez e Go. Sutton é um dos dois desenvolvedores premiados de Turing de uma abordagem de IA chamada Aprendizagem de Reforço que Silver e sua equipe costumavam criar Alphazero.
A abordagem que os dois estudiosos advogados se baseiam na aprendizagem de reforço e nas lições de Alphazero. É chamado de “fluxos” e deve remediar as deficiências dos grandes modelos de idiomas de hoje (LLMS), que são desenvolvidos apenas para responder a perguntas humanas individuais.
Silver e Sutton sugerem que logo após o Alphazero e seu antecessor, AlphaGo, estouraram em cena, as ferramentas generativas da IA, como o ChatGPT, subiram ao palco e “descartaram” o aprendizado de reforço. Esse movimento teve benefícios e desvantagens.
Também: A pesquisa profunda do OpenAi tem mais resistência de fatos do que você, mas ainda está errado na metade do tempo
A Gen AI foi um avanço importante porque o uso do aprendizado de reforço de Alphazero foi restrito a aplicações limitadas. A tecnologia não poderia ir além dos jogos de “informação completa”, como xadrez, onde todas as regras são conhecidas.
Os modelos da Gen AI, por outro lado, podem lidar com a entrada espontânea de humanos nunca antes encontrados, sem regras explícitas sobre como as coisas devem acontecer.
No entanto, descartar a aprendizagem de reforço significava: “Algo foi perdido nessa transição: a capacidade de um agente de descobrir seu próprio conhecimento”, eles escrevem.
Em vez disso, eles observam que os LLMs “[rely] no preconceito humano “, ou o que o humano deseja no estágio imediato. Essa abordagem é muito limitada. Eles sugerem que o julgamento humano” impõe “um teto impenetrável ao desempenho do agente: o agente não pode descobrir melhores estratégias subestimadas pelo avaliador humano.
O julgamento humano não apenas é um impedimento, mas a natureza curta e cortada das interações imediatas nunca permite que o modelo de IA avançando além da pergunta e da resposta.
“Na era dos dados humanos, a IA baseada em linguagem se concentrou amplamente em episódios de interação curtos: por exemplo, um usuário faz uma pergunta e (talvez após algumas etapas de pensamento ou ações de uso de ferramentas) o agente responde”, escrevem os pesquisadores.
“O agente visa exclusivamente para resultados no episódio atual, como responder diretamente à pergunta de um usuário”.
Não há memória, não há continuidade entre trechos de interação na solicitação. “Normalmente, pouca ou nenhuma informação é transferida de um episódio para o outro, impedindo qualquer adaptação ao longo do tempo”, escreva Silver e Sutton.
Também: A corrida modelo de IA chegou muito mais perto, diz Stanford Scholars
No entanto, em sua proposta de idade de experiência, “os agentes habitarão fluxos de experiência, em vez de trechos de interação”.
Silver e Sutton desenham uma analogia entre fluxos e humanos aprendendo ao longo de uma vida de experiência acumulada e como eles agem com base em objetivos de longo alcance, não apenas na tarefa imediata.
“Os agentes poderosos devem ter seu próprio fluxo de experiência que progride, como seres humanos, em uma longa escala de tempo”, escrevem eles.
Silver e Sutton argumentam que “a tecnologia de hoje” é suficiente para começar a criar riachos. De fato, as etapas iniciais ao longo do caminho podem ser vistas em desenvolvimentos, como agentes de IA que navegam na Web, incluindo a pesquisa profunda do Openai.
“Recentemente, uma nova onda de agentes de protótipo começou a interagir com os computadores de maneira ainda mais geral, usando a mesma interface que os humanos usam para operar um computador”, eles escrevem.
O agente do navegador marca “uma transição da comunicação exclusivamente privilegiada pelo ser humano, para interações muito mais autônomas, onde o agente é capaz de agir de forma independente no mundo”.
Também: O teste de Turing tem um problema – e o GPT -4.5 do OpenAI acabou de expulsá -lo
À medida que os agentes da IA vão além de apenas navegação na web, eles precisam de uma maneira de interagir e aprender com o mundo, sugerem Silver e Sutton.
Eles propõem que os agentes de IA em fluxos aprendam através do mesmo princípio de aprendizado de reforço que Alphazero. A máquina recebe um modelo do mundo em que interage, semelhante a um quadro de xadrez e um conjunto de regras.
À medida que o agente da IA explora e toma ações, recebe feedback como “recompensas”. Essas recompensas treinam o modelo de IA sobre o que é mais ou menos valioso entre possíveis ações em uma determinada circunstância.
O mundo está cheio de vários “sinais”, fornecendo essas recompensas, se o agente puder procurá -las, sugerem prata e Sutton.
“Where do rewards come from, if not from human data? Once agents become connected to the world through rich action and observation spaces, there will be no shortage of grounded signals to provide a basis for reward. In fact, the world abounds with quantities such as cost, error rates, hunger, productivity, health metrics, climate metrics, profit, sales, exam results, success, visits, yields, stocks, likes, income, pleasure/pain, economic indicators, Precisão, poder, distância, velocidade, eficiência ou consumo de energia.
Para iniciar o agente da IA de uma fundação, os desenvolvedores de IA podem usar uma simulação de “modelo mundial”. O modelo mundial permite que um modelo de IA faça previsões, teste essas previsões no mundo real e depois use os sinais de recompensa para tornar o modelo mais realista.
“À medida que o agente continua interagindo com o mundo durante todo o seu fluxo de experiência, seu modelo de dinâmica é atualizado continuamente para corrigir quaisquer erros em suas previsões”, eles escrevem.
Também: Ai não está atingindo uma parede, está ficando muito inteligente para benchmarks, diz antropia
Silver e Sutton ainda esperam que os humanos tenham um papel na definição de objetivos, para os quais os sinais e recompensas servem para dirigir o agente. Por exemplo, um usuário pode especificar uma meta ampla, como ‘melhorar minha aptidão’, e a função de recompensa pode retornar uma função da freqüência cardíaca do usuário, duração do sono e etapas tomadas. Ou o usuário pode especificar uma meta de ‘Ajudar -me a aprender espanhol’, e a função de recompensa pode retornar os resultados do exame espanhol do usuário.
O feedback humano se torna “o objetivo de nível superior” que todo o resto serve.
Os pesquisadores escrevem que os agentes da IA com esses recursos de longo alcance seriam melhores como assistentes de IA. Eles poderiam rastrear o sono e a dieta de uma pessoa ao longo de meses ou anos, fornecendo conselhos de saúde não limitados a tendências recentes. Esses agentes também podem ser assistentes educacionais que rastreiam os alunos por um longo prazo.
“Um agente científico pode buscar objetivos ambiciosos, como descobrir um novo material ou reduzir o dióxido de carbono”, eles oferecem. “Esse agente pode analisar observações do mundo real por um período prolongado, desenvolvendo e executando simulações e sugerindo experimentos ou intervenções no mundo real”.
Também: A referência do último exame da ‘Humanity’ está tocando os melhores modelos de IA – você pode fazer melhor?
Os pesquisadores sugerem que a chegada de modelos de IA de “pensamento” ou “raciocínio”, como Gêmeos, R1 de Deepseek e Openai’s O1, podem ser superados por agentes de experiência. O problema com os agentes de raciocínio é que eles “imitam” a linguagem humana quando produzem saída detalhada sobre as etapas para uma resposta, e o pensamento humano pode ser limitado por suas suposições incorporadas.
“Por exemplo, se um agente tivesse sido treinado para raciocinar usando pensamentos humanos e respostas especializadas de 5.000 anos atrás, pode ter argumentado sobre um problema físico em termos de animismo”, eles oferecem. “Há 1.000 anos, pode ter argumentado em termos teísta; 300 anos atrás, pode ter raciocinado em termos de mecânica newtoniana; e 50 anos atrás, em termos de mecânica quântica”.
Os pesquisadores escrevem que esses agentes “desbloquearão recursos sem precedentes”, levando a “um futuro profundamente diferente de qualquer coisa que vimos antes”.
No entanto, eles sugerem que também existem muitos riscos. Esses riscos não estão apenas focados em agentes de IA, tornando obsoletos trabalhistas humanos, embora notem que a perda de empregos é um risco. Os agentes que “podem interagir autonomamente com o mundo inteiro durante longos períodos de tempo para alcançar objetivos de longo prazo”, eles escrevem, aumentam a perspectiva de os seres humanos terem menos oportunidades de “intervir e mediar as ações do agente”.
Do lado positivo, eles sugerem, um agente que pode se adaptar, em oposição aos modelos fixos de IA de hoje, “poderia reconhecer quando seu comportamento está desencadeando preocupação humana, insatisfação ou angústia e modificar seu comportamento de forma adaptativa para evitar essas consequências negativas”.
Também: O Google afirma que Gemma 3 atinge 98% da precisão de Deepseek – usando apenas uma GPU
Deixando de lado os detalhes, Silver e Sutton estão confiantes de que a experiência dos fluxos gerará muito mais informações sobre o mundo que diminuirá todos os dados da Wikipedia e Reddit usados para treinar a IA de hoje. Os agentes baseados em riachos podem até superar a inteligência humana, aludindo à chegada da inteligência geral artificial, ou super inteligência.
“Os dados experimentais eclipsarão a escala e a qualidade dos dados gerados pelo ser humano”, escrevem os pesquisadores. “Esta mudança de paradigma, acompanhada por avanços algorítmicos no RL [reinforcement learning]desbloqueará em muitos domínios novos recursos que superam os possuídos por qualquer humano “.
Silver também explorou o assunto em um DeepMind Podcast este mês.
source – www.zdnet.com