Publicado: 27 de outubro de 2023 às 8h56 Atualizado: 27 de outubro de 2023 às 8h56
Editado e verificado: 27 de outubro de 2023, 12h
O Aprendizado por Reforço com Feedback Humano (RLHF) é parte integrante de sistemas de treinamento como o ChatGPT e depende de métodos especializados para alcançar o sucesso. Um desses métodos, Proximal Policy Optimization (PPO), foi inicialmente concebido dentro dos muros da OpenAI em 2017. À primeira vista, o PPO destacou-se pela promessa de simplicidade na implementação e por um número relativamente baixo de hiperparâmetros necessários para ajustar o modelo. Porém, como dizem, o diabo está nos detalhes.
Recentemente, uma postagem no blog intitulada “Os 37 detalhes de implementação da otimização de políticas proximais” lançou luz sobre os meandros do PPO (preparado para a conferência ICLR). O nome por si só sugere os desafios enfrentados na implementação deste método supostamente simples. Surpreendentemente, os autores levaram três anos para reunir todas as informações necessárias e reproduzir os resultados.
O código do repositório OpenAI sofreu alterações significativas entre as versões, alguns aspectos ficaram sem explicação e peculiaridades que apareceram como bugs de alguma forma produziram resultados. A complexidade do PPO torna-se evidente quando você se aprofunda nos detalhes e, para aqueles interessados em uma compreensão profunda ou em autoaperfeiçoamento, há um resumo em vídeo altamente recomendado disponível.
Mas a história não termina aí. Os mesmos autores decidiram revisitar o repositório openai/lm-human-preferences de 2019, que desempenhou um papel crucial no ajuste fino de modelos de linguagem baseados nas preferências humanas, usando PPO. Este repositório marcou os primeiros desenvolvimentos no ChatGPT. A postagem recente do blog, “Os N detalhes de implementação de RLHF com PPO”, replica de perto o trabalho da OpenAI, mas usa PyTorch e bibliotecas modernas em vez do TensorFlow desatualizado. Essa transição trouxe consigo seu próprio conjunto de desafios, como diferenças na implementação do otimizador Adam entre frameworks, impossibilitando a replicação do treinamento sem ajustes.
Talvez o aspecto mais intrigante dessa jornada seja a busca por realizar experimentos em configurações específicas de GPU para obter métricas e curvas de aprendizado originais. É uma jornada repleta de desafios, desde restrições de memória em vários tipos de GPU até a migração de conjuntos de dados OpenAI entre instalações de armazenamento.
Concluindo, a exploração da Otimização de Política Proximal (PPO) na Aprendizagem por Reforço a partir de Feedback Humano (RLHF) revela um mundo fascinante de complexidades.
Isenção de responsabilidade
Quaisquer dados, textos ou outros conteúdos desta página são fornecidos como informações gerais de mercado e não como conselhos de investimento. O desempenho passado não é necessariamente um indicador de resultados futuros.
O Trust Project é um grupo mundial de organizações de notícias que trabalha para estabelecer padrões de transparência.
Damir é líder de equipe, gerente de produto e editor do Metaverse Post, cobrindo tópicos como AI/ML, AGI, LLMs, Metaverse e campos relacionados à Web3. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado no Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como nômade digital. Damir formou-se em física, o que ele acredita ter lhe proporcionado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da Internet.
Mais artigos
Damir é líder de equipe, gerente de produto e editor do Metaverse Post, cobrindo tópicos como AI/ML, AGI, LLMs, Metaverse e campos relacionados à Web3. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado no Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como nômade digital. Damir formou-se em física, o que ele acredita ter lhe proporcionado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da Internet.
source – mpost.io