O primeiro equivalente de código aberto do ChatGPT da OpenAI chegou, mas boa sorte em executá-lo em seu laptop – ou em tudo.
Esta semana, Philip Wang, o desenvolvedor responsável pela engenharia reversa de sistemas AI de código fechado, incluindo o Make-A-Video da Meta, lançou o PaLM + RLHF, um modelo de geração de texto que se comporta de maneira semelhante ao ChatGPT. O sistema combina PaLM, um grande modelo de linguagem do Google, e uma técnica chamada Reinforcement Learning with Human Feedback – RLHF, para abreviar – para criar um sistema que pode realizar praticamente qualquer tarefa que o ChatGPT pode, incluindo rascunho de e-mails e sugestão de código de computador.
Mas PaLM + RLHF não é pré-treinado. Ou seja, o sistema não foi treinado nos dados de exemplo da web necessários para que ele realmente funcione. O download do PaLM + RLHF não instalará magicamente uma experiência semelhante ao ChatGPT – isso exigiria a compilação de gigabytes de texto a partir do qual o modelo pode aprender e encontrar um hardware robusto o suficiente para lidar com a carga de trabalho de treinamento.
Como o ChatGPT, o PaLM + RLHF é essencialmente uma ferramenta estatística para prever palavras. Quando alimentado com um grande número de exemplos de dados de treinamento – por exemplo, postagens do Reddit, artigos de notícias e e-books – PaLM + RLHF aprende a probabilidade de ocorrência de palavras com base em padrões como o contexto semântico do texto ao redor.
ChatGPT e PaLM + RLHF compartilham um molho especial no Reinforcement Learning with Human Feedback, uma técnica que visa alinhar melhor os modelos de linguagem com o que os usuários desejam que eles realizem. O RLHF envolve treinar um modelo de linguagem — no caso de PaLM + RLHF, PaLM — e ajustá-lo em um conjunto de dados que inclua prompts (por exemplo, “Explique o aprendizado de máquina para uma criança de seis anos”) emparelhado com o que os voluntários humanos esperam do modelo dizer (por exemplo, “O aprendizado de máquina é uma forma de IA…”). Os prompts mencionados são então alimentados com o modelo ajustado, que gera várias respostas, e os voluntários classificam todas as respostas da melhor para a pior. Por fim, as classificações são usadas para treinar um “modelo de recompensa” que pega as respostas do modelo original e as classifica em ordem de preferência, filtrando as principais respostas para um determinado prompt.
É um processo caro coletar os dados de treinamento. E o treinamento em si não é barato. PaLM tem 540 bilhões de parâmetros de tamanho, “parâmetros” referindo-se às partes do modelo de linguagem aprendidas com os dados de treinamento. Um estudo de 2020 calculou as despesas para desenvolver um modelo de geração de texto com apenas 1,5 bilhão de parâmetros em até US$ 1,6 milhão. E para treinar o modelo de código aberto Bloom, que possui 176 bilhões de parâmetros, foram necessários três meses usando 384 GPUs Nvidia A100; um único A100 custa milhares de dólares.
A execução de um modelo treinado do tamanho de PaLM + RLHF também não é trivial. O Bloom requer um PC dedicado com cerca de oito GPUs A100. As alternativas de nuvem são caras, com matemática de fundo que descobre que o custo de execução do GPT-3 de geração de texto do OpenAI – que tem cerca de 175 bilhões de parâmetros – em uma única instância do Amazon Web Services é de cerca de US $ 87.000 por ano.
Sebastian Raschka, um pesquisador de IA, aponta em um post no LinkedIn sobre PaLM + RLHF que escalar os fluxos de trabalho de desenvolvimento necessários também pode ser um desafio. “Mesmo que alguém forneça 500 GPUs para treinar esse modelo, você ainda precisa lidar com a infraestrutura e ter uma estrutura de software que possa lidar com isso”, disse ele. “É obviamente possível, mas é um grande esforço no momento (claro, estamos desenvolvendo frameworks para tornar isso mais simples, mas ainda não é trivial).”
Isso é tudo para dizer que o PaLM + RLHF não substituirá o ChatGPT hoje – a menos que um empreendimento (ou pessoa) bem financiado se dê ao trabalho de treiná-lo e disponibilizá-lo publicamente.
Em boas notícias, vários outros esforços para replicar o ChatGPT estão progredindo rapidamente, incluindo um liderado por um grupo de pesquisa chamado CarperAI. Em parceria com a organização aberta de pesquisa de IA EleutherAI e as startups Scale AI e Hugging Face, a CarperAI planeja lançar o primeiro modelo de IA do tipo ChatGPT, pronto para ser executado, treinado com feedback humano.
A LAION, organização sem fins lucrativos que forneceu o conjunto de dados inicial usado para treinar o Stable Diffusion, também está liderando um projeto para replicar o ChatGPT usando as mais novas técnicas de aprendizado de máquina. Ambiciosamente, a LAION pretende construir um “assistente do futuro” – um que não apenas escreva e-mails e cartas de apresentação, mas “faça um trabalho significativo, use APIs, pesquise informações dinamicamente e muito mais”. Está nos estágios iniciais. Mas uma página do GitHub com recursos para o projeto foi lançada há algumas semanas.
source – techcrunch.com