Notícias de criptomoeda Tecnologia Últimas notícias

Pesquisadores replicaram o trabalho da OpenAI com base na otimização de políticas proximais (PPO) em RLHF

By bogashyam

October 28, 2023

0

95

por Damir Yalalov

Publicado: 27 de outubro de 2023 às 8h56 Atualizado: 27 de outubro de 2023 às 8h56

por Victor Dey

Editado e verificado: 27 de outubro de 2023, 12h

O Aprendizado por Reforço com Feedback Humano (RLHF) é parte integrante de sistemas de treinamento como o ChatGPT e depende de métodos especializados para alcançar o sucesso. Um desses métodos, Proximal Policy Optimization (PPO), foi inicialmente concebido dentro dos muros da OpenAI em 2017. À primeira vista, o PPO destacou-se pela promessa de simplicidade na implementação e por um número relativamente baixo de hiperparâmetros necessários para ajustar o modelo. Porém, como dizem, o diabo está nos detalhes.

Recentemente, uma postagem no blog intitulada “Os 37 detalhes de implementação da otimização de políticas proximais” lançou luz sobre os meandros do PPO (preparado para a conferência ICLR). O nome por si só sugere os desafios enfrentados na implementação deste método supostamente simples. Surpreendentemente, os autores levaram três anos para reunir todas as informações necessárias e reproduzir os resultados.

Você teve dificuldade para ler o código do tensorflow 1.x no PPO do openai/baselines?

Nossa postagem no blog ajuda você a entender *tudo* nele com

1) 🎥 tutoriais em vídeo
2) 📜 referências e explicações detalhadas
3) ⌨️ código realmente simples

Este trabalho levou 3 anos. 32/02 pic.twitter.com/w5jpQZkD6L

-Costa Huang (@vwxyzjn) 25 de abril de 2022

O código do repositório OpenAI sofreu alterações significativas entre as versões, alguns aspectos ficaram sem explicação e peculiaridades que apareceram como bugs de alguma forma produziram resultados. A complexidade do PPO torna-se evidente quando você se aprofunda nos detalhes e, para aqueles interessados em uma compreensão profunda ou em autoaperfeiçoamento, há um resumo em vídeo altamente recomendado disponível.

https://www.youtube.com/watch?v=videoseries

Mas a história não termina aí. Os mesmos autores decidiram revisitar o repositório openai/lm-human-preferences de 2019, que desempenhou um papel crucial no ajuste fino de modelos de linguagem baseados nas preferências humanas, usando PPO. Este repositório marcou os primeiros desenvolvimentos no ChatGPT. A postagem recente do blog, “Os N detalhes de implementação de RLHF com PPO”, replica de perto o trabalho da OpenAI, mas usa PyTorch e bibliotecas modernas em vez do TensorFlow desatualizado. Essa transição trouxe consigo seu próprio conjunto de desafios, como diferenças na implementação do otimizador Adam entre frameworks, impossibilitando a replicação do treinamento sem ajustes.

1. (o mais interessante) TF e PT têm diferentes implementações de otimizador Adam e impactam o desempenho. Em particular, o adam do PT produz atualizações mais agressivas no início do treinamento. pic.twitter.com/lJ99KTmD8M

-Costa Huang (@vwxyzjn) 24 de outubro de 2023

Talvez o aspecto mais intrigante dessa jornada seja a busca por realizar experimentos em configurações específicas de GPU para obter métricas e curvas de aprendizado originais. É uma jornada repleta de desafios, desde restrições de memória em vários tipos de GPU até a migração de conjuntos de dados OpenAI entre instalações de armazenamento.

Concluindo, a exploração da Otimização de Política Proximal (PPO) na Aprendizagem por Reforço a partir de Feedback Humano (RLHF) revela um mundo fascinante de complexidades.

Isenção de responsabilidade

Quaisquer dados, textos ou outros conteúdos desta página são fornecidos como informações gerais de mercado e não como conselhos de investimento. O desempenho passado não é necessariamente um indicador de resultados futuros.

O Trust Project é um grupo mundial de organizações de notícias que trabalha para estabelecer padrões de transparência.

Damir é líder de equipe, gerente de produto e editor do Metaverse Post, cobrindo tópicos como AI/ML, AGI, LLMs, Metaverse e campos relacionados à Web3. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado no Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como nômade digital. Damir formou-se em física, o que ele acredita ter lhe proporcionado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da Internet.

Mais artigos

Damir é líder de equipe, gerente de produto e editor do Metaverse Post, cobrindo tópicos como AI/ML, AGI, LLMs, Metaverse e campos relacionados à Web3. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado no Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como nômade digital. Damir formou-se em física, o que ele acredita ter lhe proporcionado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da Internet.

source – mpost.io

Pesquisadores replicaram o trabalho da OpenAI com base na otimização de políticas proximais (PPO) em RLHF

À medida que o Ripple (XRP) e Cardano (ADA) se preparam para seus próximos movimentos, o novo Altcoin de US $ 0,20 salta para...

GTA 5 no PC está finalmente recebendo aprimoramentos de console e recursos online do GTA

A receita de mineração de Bitcoin é constante em US $ 1,4 bilhão, pois os mineiros públicos enfrentam em declínio de participação de mercado

Bitcoin: Quais taxas de financiamento dizem sobre um possível preço do BTC Preço

O Meta começa a aceitar inscrições para notas da comunidade no Facebook, Instagram e tópicos | TechCrunch

Amazon agora tem controle criativo sobre a franquia James Bond

O Instagram lança depoimentos que permitem que os criadores sejam pagos escrevendo endossos

A GoPro atualiza a câmera de ação Max 360, adiciona novos recursos ao aplicativo Quik

Mais popular

À medida que o Ripple (XRP) e Cardano (ADA) se preparam para seus próximos movimentos, o novo Altcoin de US $ 0,20 salta para...

GTA 5 no PC está finalmente recebendo aprimoramentos de console e recursos online do GTA

A receita de mineração de Bitcoin é constante em US $ 1,4 bilhão, pois os mineiros públicos enfrentam em declínio de participação de mercado

Bitcoin: Quais taxas de financiamento dizem sobre um possível preço do BTC Preço

Categorias populares