Os detalhes vazados do GPT-4 lançam luz sobre sua escala massiva e arquitetura impressionante

July 11, 2023

O recente vazamento de detalhes em torno do GPT-4 enviou ondas de choque pela comunidade de IA. As informações vazadas, obtidas de uma fonte não revelada, fornecem um vislumbre das capacidades inspiradoras e da escala sem precedentes deste modelo inovador. Vamos detalhar os fatos e revelar os principais aspectos que fazem do GPT-4 uma verdadeira maravilha tecnológica.

Os detalhes vazados do GPT-4 lançam luz sobre sua escala massiva e arquitetura impressionante

Contagem maciça de parâmetros do GPT-4

Uma das revelações mais impressionantes do vazamento é a magnitude do GPT-4. Possui um tamanho surpreendente, com mais de 10 vezes os parâmetros de seu antecessor, GPT-3. Estima-se que tenha um total impressionante de aproximadamente 1,8 trilhão de parâmetros distribuídos em impressionantes 120 camadas. Este aumento substancial em escala, sem dúvida, contribui para os recursos aprimorados do GPT-4 e potencial para avanços inovadores.

Modelo de Mistura de Especialistas (MoE)

Para garantir custos razoáveis e manter um desempenho excepcional, a OpenAI implementou um modelo misto de especialistas (MoE) no GPT-4. Ao utilizar 16 especialistas no modelo, cada um composto por cerca de 111 bilhões de parâmetros para perceptrons multicamadas (MLP), o OpenAI otimizou efetivamente a alocação de recursos. Notavelmente, durante cada passagem direta, apenas dois especialistas são encaminhados, minimizando os requisitos computacionais sem comprometer os resultados. Essa abordagem inovadora demonstra o compromisso da OpenAI em maximizar a eficiência e a economia em seus modelos.

Vazamento muito interessante e detalhado da arquitetura GPT-4, com excelente análise do raciocínio por trás dela e suas implicações – por @dylan522p : https://t.co/eHE7VlGY5V

Um resumo sem paywall pode ser encontrado aqui: https://t.co/rLxw5s9ZDt

— Jan P. Harries (@jphme) 11 de julho de 2023

Algoritmo de Roteamento MoE Simplificado

Embora o modelo geralmente explore algoritmos de roteamento avançados para selecionar especialistas para lidar com cada token, a abordagem da OpenAI no atual modelo GPT-4 é declaradamente mais direta. O algoritmo de roteamento empregado pela IA é considerado relativamente simples, mas eficaz. Aproximadamente 55 bilhões de parâmetros compartilhados para atenção facilitam a distribuição eficiente de tokens para os especialistas apropriados dentro do modelo.

Inferência eficiente

O processo de inferência do GPT-4 mostra sua eficiência e proeza computacional. Cada passagem de encaminhamento, dedicada à geração de um único token, utiliza aproximadamente 280 bilhões de parâmetros e 560 TFLOPs (tera operações de ponto flutuante por segundo). Isso contrasta fortemente com a imensa escala do GPT-4, com seus 1,8 trilhão de parâmetros e 3.700 TFLOPs por passagem direta em um modelo puramente denso. O uso eficiente de recursos destaca a dedicação da OpenAI em alcançar o desempenho ideal sem requisitos computacionais excessivos.

Extenso conjunto de dados de treinamento

O GPT-4 foi treinado em um conjunto de dados colossal composto por aproximadamente 13 trilhões de tokens. É importante observar que esses tokens incluem tokens exclusivos e tokens que representam números de época. O processo de treinamento inclui duas épocas para dados baseados em texto e quatro épocas para dados baseados em código. A OpenAI aproveitou milhões de linhas de dados de ajuste fino de instruções provenientes da ScaleAI e internamente para refinar o desempenho do modelo.

A fase de pré-treinamento do GPT-4 empregou um comprimento de contexto de 8k. Posteriormente, o modelo passou por ajustes finos, resultando na versão 32k. Essa progressão se baseia na fase de pré-treinamento, aprimorando as capacidades do modelo e adaptando-o a tarefas específicas.

Dimensionamento com GPUs via paralelismo

A OpenAI aproveitou o poder do paralelismo no GPT-4 para aproveitar todo o potencial de suas GPUs A100. Eles empregaram paralelismo tensor de 8 vias, o que maximiza o processamento paralelo, pois é o limite para NVLink. Além disso, o paralelismo de pipeline de 15 vias foi utilizado para melhorar ainda mais o desempenho. Embora técnicas específicas, como ZeRo Stage 1, provavelmente tenham sido empregadas, a metodologia exata permanece desconhecida.

Custo de Treinamento e Desafios de Utilização

O treinamento do GPT-4 foi um esforço extenso e com uso intensivo de recursos. A OpenAI alocou aproximadamente 25.000 GPUs A100 em um período de 90 a 100 dias, operando a uma taxa de utilização de aproximadamente 32% a 36% MFU (usado com mais frequência). O processo de treinamento incorreu em inúmeras falhas, exigindo reinícios frequentes dos pontos de verificação. Se estimados em US$ 1 por hora A100, os custos de treinamento apenas para esta execução totalizariam aproximadamente US$ 63 milhões.

Trocas na mistura de especialistas

A implementação de um modelo de mistura de especialistas apresenta várias compensações. No caso do GPT-4, a OpenAI optou por 16 especialistas em vez de um número maior. Essa decisão reflete um equilíbrio entre alcançar resultados de perda superiores e garantir a generalização em várias tarefas. Mais especialistas podem apresentar desafios em termos de generalização e convergência de tarefas. A escolha da OpenAI de ter cautela na seleção de especialistas está alinhada com seu compromisso com um desempenho confiável e robusto.

Custo de inferência

Comparado ao seu antecessor, o modelo Davinci de 175 bilhões de parâmetros, o custo de inferência do GPT-4 é aproximadamente três vezes maior. Essa discrepância pode ser atribuída a vários fatores, incluindo os clusters maiores necessários para suportar o GPT-4 e a menor utilização alcançada durante a inferência. As estimativas indicam um custo aproximado de US$ 0,0049 centavos por 1.000 tokens para 128 GPUs A100 e US$ 0,0021 centavos por 1.000 tokens para 128 GPUs H100 ao inferir GPT-4 com 8k. Esses números pressupõem uma utilização decente e grandes tamanhos de lote, considerações cruciais para a otimização de custos.

Atenção Multiconsulta

O OpenAI aproveita a atenção multiconsulta (MQA), uma técnica amplamente empregada no campo, também no GPT-4. Ao implementar o MQA, o modelo requer apenas um cabeçote, reduzindo significativamente a capacidade de memória necessária para o cache de valor-chave (cache KV). Apesar dessa otimização, deve-se observar que o lote de 32k GPT-4 não pode ser acomodado em GPUs A100 de 40 GB e o de 8k é limitado pelo tamanho máximo do lote.

Lotes Contínuos

Para encontrar um equilíbrio entre os custos de latência e inferência, o OpenAI incorpora tamanhos de lote variáveis e lotes contínuos no GPT-4. Essa abordagem adaptativa permite um processamento flexível e eficiente, otimizando a utilização de recursos e reduzindo a sobrecarga computacional.

O GPT-4 apresenta um codificador de visão separado ao lado do codificador de texto, apresentando atenção cruzada entre os dois. Essa arquitetura, que lembra o Flamingo, adiciona parâmetros adicionais à já impressionante contagem de parâmetros de 1,8 trilhão do GPT-4. O modelo de visão passa por um ajuste fino separado usando aproximadamente 2 trilhões de tokens após a fase de pré-treinamento somente de texto. Esse recurso de visão capacita agentes autônomos a ler páginas da Web, transcrever imagens e interpretar conteúdo de vídeo – um recurso inestimável na era dos dados multimídia.

Decodificação especulativa

Um aspecto interessante da estratégia de inferência do GPT-4 é o possível uso de decodificação especulativa. Essa abordagem envolve o emprego de um modelo menor e mais rápido para gerar previsões para vários tokens com antecedência. Esses tokens previstos são então alimentados em um modelo de “oráculo” maior como um único lote. Se as previsões do modelo menor se alinharem com a concordância do modelo maior, vários tokens poderão ser decodificados juntos. No entanto, se o modelo maior rejeitar os tokens previstos pelo modelo de rascunho, o restante do lote é descartado e a inferência continua apenas com o modelo maior. Essa abordagem permite uma decodificação eficiente enquanto potencialmente aceita sequências de probabilidade mais baixa. Vale a pena notar que esta especulação permanece não verificada neste momento.

Arquitetura de inferência

O processo de inferência do GPT-4 opera em um cluster de 128 GPUs, distribuídos em vários data centers em diferentes locais. Essa infraestrutura emprega paralelismo de tensor de 8 vias e paralelismo de pipeline de 16 vias para maximizar a eficiência computacional. Cada nó, compreendendo 8 GPUs, acomoda aproximadamente 130 bilhões de parâmetros. Com um tamanho de modelo de 120 camadas, o GPT-4 pode caber em 15 nós diferentes, possivelmente com menos camadas no primeiro nó devido à necessidade de computar embeddings. Essas escolhas arquitetônicas facilitam a inferência de alto desempenho, demonstrando o compromisso da OpenAI em ultrapassar os limites da eficiência computacional.

Tamanho e composição do conjunto de dados

O GPT-4 foi treinado em impressionantes 13 trilhões de tokens, fornecendo um extenso corpus de texto para aprender. No entanto, nem todos os tokens podem ser contabilizados pelos conjuntos de dados conhecidos usados durante o treinamento. Embora conjuntos de dados como CommonCrawl e RefinedWeb contribuam com uma parte significativa dos dados de treinamento, resta uma parte dos tokens que não são contabilizados, geralmente chamados de dados “secretos”.

Rumores e especulações

Surgiram especulações sobre a origem desses dados não divulgados. Um boato sugere que inclui conteúdo de plataformas populares como Twitter, Reddit e YouTube, destacando a influência potencial do conteúdo gerado pelo usuário na formação da base de conhecimento do GPT-4. Além disso, existem conjecturas em torno da inclusão de coleções expansivas como LibGen, um repositório de milhões de livros, e Sci-Hub, uma plataforma que fornece acesso a vários artigos científicos. A noção de que o GPT-4 foi treinado em todo o GitHub também circulou entre os entusiastas da IA.

A opinião do repórter

Embora existam muitos rumores, é importante abordá-los com cautela. O treinamento do GPT-4 pode ter se beneficiado muito de um conjunto de dados especial composto de livros didáticos universitários. Este conjunto de dados, que abrange uma ampla gama de cursos e assuntos, poderia ter sido meticulosamente montado à mão. Os livros didáticos da faculdade fornecem uma base de conhecimento estruturada e abrangente que pode ser usada com sucesso para treinar um modelo de linguagem e são facilmente conversíveis em arquivos de texto. A inclusão de tal conjunto de dados pode dar a impressão de que o GPT-4 possui conhecimento em vários campos.

O fascínio pelo conhecimento do GPT-4

Um aspecto intrigante do treinamento do GPT-4 é sua capacidade de exibir familiaridade com livros específicos e até mesmo recuperar identificadores exclusivos de plataformas como o Projeto Euler. Os pesquisadores tentaram extrair seções memorizadas de livros do GPT-4 para obter informações sobre seu treinamento, alimentando ainda mais a curiosidade sobre o funcionamento interno do modelo. Essas descobertas destacam a capacidade surpreendente do GPT-4 de reter informações e enfatizam os recursos impressionantes dos modelos de linguagem em larga escala.

A versatilidade do GPT-4

O amplo espectro de tópicos e campos com os quais o GPT-4 pode aparentemente se envolver mostra sua versatilidade. Seja respondendo a perguntas complexas em ciência da computação ou mergulhando em debates filosóficos, o treinamento do GPT-4 em um conjunto de dados diversificado o equipa para interagir com usuários de vários domínios. Essa versatilidade decorre de sua exposição a uma vasta gama de recursos textuais, tornando-se uma ferramenta valiosa para uma ampla gama de usuários.

Leia mais sobre IA:

source – mpost.io