Friday, February 21, 2025
HomeNotícias de criptomoedaPesquisadores replicaram o trabalho da OpenAI com base na otimização de políticas...

Pesquisadores replicaram o trabalho da OpenAI com base na otimização de políticas proximais (PPO) em RLHF

O Aprendizado por Reforço com Feedback Humano (RLHF) é parte integrante de sistemas de treinamento como o ChatGPT e depende de métodos especializados para alcançar o sucesso. Um desses métodos, Proximal Policy Optimization (PPO), foi inicialmente concebido dentro dos muros da OpenAI em 2017. À primeira vista, o PPO destacou-se pela promessa de simplicidade na implementação e por um número relativamente baixo de hiperparâmetros necessários para ajustar o modelo. Porém, como dizem, o diabo está nos detalhes.

Recentemente, uma postagem no blog intitulada “Os 37 detalhes de implementação da otimização de políticas proximais” lançou luz sobre os meandros do PPO (preparado para a conferência ICLR). O nome por si só sugere os desafios enfrentados na implementação deste método supostamente simples. Surpreendentemente, os autores levaram três anos para reunir todas as informações necessárias e reproduzir os resultados.

O código do repositório OpenAI sofreu alterações significativas entre as versões, alguns aspectos ficaram sem explicação e peculiaridades que apareceram como bugs de alguma forma produziram resultados. A complexidade do PPO torna-se evidente quando você se aprofunda nos detalhes e, para aqueles interessados ​​em uma compreensão profunda ou em autoaperfeiçoamento, há um resumo em vídeo altamente recomendado disponível.

https://www.youtube.com/watch?v=videoseries

Mas a história não termina aí. Os mesmos autores decidiram revisitar o repositório openai/lm-human-preferences de 2019, que desempenhou um papel crucial no ajuste fino de modelos de linguagem baseados nas preferências humanas, usando PPO. Este repositório marcou os primeiros desenvolvimentos no ChatGPT. A postagem recente do blog, “Os N detalhes de implementação de RLHF com PPO”, replica de perto o trabalho da OpenAI, mas usa PyTorch e bibliotecas modernas em vez do TensorFlow desatualizado. Essa transição trouxe consigo seu próprio conjunto de desafios, como diferenças na implementação do otimizador Adam entre frameworks, impossibilitando a replicação do treinamento sem ajustes.

Talvez o aspecto mais intrigante dessa jornada seja a busca por realizar experimentos em configurações específicas de GPU para obter métricas e curvas de aprendizado originais. É uma jornada repleta de desafios, desde restrições de memória em vários tipos de GPU até a migração de conjuntos de dados OpenAI entre instalações de armazenamento.

Concluindo, a exploração da Otimização de Política Proximal (PPO) na Aprendizagem por Reforço a partir de Feedback Humano (RLHF) revela um mundo fascinante de complexidades.

Isenção de responsabilidade

Quaisquer dados, textos ou outros conteúdos desta página são fornecidos como informações gerais de mercado e não como conselhos de investimento. O desempenho passado não é necessariamente um indicador de resultados futuros.


O Trust Project é um grupo mundial de organizações de notícias que trabalha para estabelecer padrões de transparência.

Damir é líder de equipe, gerente de produto e editor do Metaverse Post, cobrindo tópicos como AI/ML, AGI, LLMs, Metaverse e campos relacionados à Web3. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado no Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como nômade digital. Damir formou-se em física, o que ele acredita ter lhe proporcionado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da Internet.

Mais artigos

cropped Damir asiafirstnews

Damir é líder de equipe, gerente de produto e editor do Metaverse Post, cobrindo tópicos como AI/ML, AGI, LLMs, Metaverse e campos relacionados à Web3. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado no Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como nômade digital. Damir formou-se em física, o que ele acredita ter lhe proporcionado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da Internet.

Mais artigos



source – mpost.io

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular