Friday, December 3, 2021
HomeSocial Media & InternetO design da IA ​​pode mudar com o Apache TVM de código...

O design da IA ​​pode mudar com o Apache TVM de código aberto e uma pequena ajuda da inicialização OctoML

Nos últimos anos, programas de inteligência artificial têm estimulado mudanças no design de chips de computador, e novos computadores também tornaram possíveis novos tipos de redes neurais em IA. Existe um ciclo de feedback poderoso em andamento.

No centro disso está a tecnologia de software que converte programas de rede neural para rodar em um novo hardware. E no centro disso está um recente projeto de código aberto que está ganhando impulso.

Apache TVM é um compilador que opera de maneira diferente de outros compiladores. Em vez de transformar um programa em instruções de chip típicas para uma CPU ou GPU, ele estuda o “gráfico” das operações de computação em uma rede neural, na forma de TensorFlow ou Pytorch, como convoluções e outras transformações, e descobre a melhor forma de mapeá-las operações para hardware com base nas dependências entre as operações.

No centro dessa operação está uma startup de dois anos, OctoML, que oferece o ApacheTVM como serviço. Como explorado em março por ZDNetGeorge Anadiotis, da OctoML, está na área de MLOps, ajudando a operacionalizar a IA. A empresa usa TVM para ajudar as empresas a otimizar suas redes neurais para uma ampla variedade de hardware.

Também: OctoML ganha US $ 28 milhões para entrar no mercado com o Apache TVM de código aberto, um padrão de fato para MLOps

No desenvolvimento mais recente do loop de feedback de hardware e pesquisa, o processo de otimização da TVM já pode estar moldando aspectos de como a IA é desenvolvida.

“Já na pesquisa, as pessoas estão executando candidatos a modelo por meio de nossa plataforma, olhando para o desempenho”, disse o cofundador da OctoML, Luis Ceze, que atua como CEO, em entrevista à ZDNet via Zoom. As métricas de desempenho detalhadas significam que os desenvolvedores de ML podem “realmente avaliar os modelos e escolher aquele que tem as propriedades desejadas”.

Hoje, TVM é usado exclusivamente para inferência, a parte da IA ​​em que uma rede neural totalmente desenvolvida é usada para fazer previsões com base em novos dados. Porém, no futuro, a TVM se expandirá para o treinamento, o processo de primeiro desenvolvimento da rede neural.

luis-ceze-octoml-sept-2021.png

“Já na pesquisa, as pessoas estão executando candidatos a modelo por meio de nossa plataforma, olhando para o desempenho”, diz Luis Ceze, cofundador e CEO da startup OctoML, que está comercializando o compilador Apache TVM de código aberto para aprendizado de máquina, transformando-o em um serviço em nuvem. As métricas de desempenho detalhadas significam que os desenvolvedores de ML podem “realmente avaliar os modelos e escolher aquele que tem as propriedades desejadas”.

“A pesquisa de treinamento e arquitetura está em nosso roteiro”, disse Ceze, referindo-se ao processo de projetar arquiteturas de rede neural automaticamente, permitindo que as redes neurais busquem o projeto de rede ideal. “Essa é uma extensão natural de nossa abordagem de aterrar e expandir” para vender o serviço comercial da TVM, disse ele.

Os desenvolvedores de redes neurais usarão o TVM para influenciar como eles treinam?

“Se ainda não o fizeram, suspeito que começarão”, disse Ceze. “Alguém que nos procura com um trabalho de treinamento, podemos treinar o modelo para você”, levando em consideração como o modelo treinado se comportaria no hardware.

Essa expansão do papel do TVM e do serviço OctoML é consequência do fato de que a tecnologia é uma plataforma mais ampla do que o que um compilador normalmente representa.

“Você pode pensar em TVM e OctoML por extensão como uma camada de automação flexível baseada em ML para aceleração que é executada em todos os tipos de hardware diferente onde os modelos de aprendizado de máquina são executados – GPUs, CPUs, TPUs, aceleradores na nuvem”, Ceze contado ZDNet.

“Cada uma dessas peças de hardware, não importa qual, tem sua própria maneira de escrever e executar código”, disse ele. “Escrever esse código e descobrir como utilizar melhor este hardware hoje é feito à mão pelos desenvolvedores de ML e fornecedores de hardware.”

O compilador e o serviço substituem esse ajuste manual – hoje no nível de inferência, com o modelo pronto para implantação, amanhã, talvez, no próprio desenvolvimento / treinamento.

Também: AI está mudando toda a natureza da computação

O ponto crucial do apelo do TVM é maior desempenho em termos de taxa de transferência e latência e eficiência em termos de consumo de energia do computador. Isso está se tornando cada vez mais importante para as redes neurais que ficam cada vez maiores e mais difíceis de operar.

“Alguns desses modelos usam uma quantidade absurda de computação”, observou Ceze, especialmente os modelos de processamento de linguagem natural, como o GPT-3 da OpenAI, que são dimensionados para um trilhão de pesos neurais, ou parâmetros, e muito mais.

À medida que esses modelos aumentam, eles vêm com “custo extremo”, disse ele, “não apenas no tempo de treinamento, mas também no tempo de serviço” para inferência. “Esse é o caso de todos os modelos modernos de aprendizado de máquina.”

Como consequência, sem otimizar os modelos “em uma ordem de magnitude”, disse Ceze, os modelos mais complicados não são realmente viáveis ​​na produção, eles permanecem apenas curiosidades de pesquisa.

Mas realizar a otimização com TVM envolve sua própria complexidade. “É muito trabalho obter os resultados da maneira que eles precisam”, observou Ceze.

OctoML simplifica as coisas tornando o TVM mais parecido com um botão de ação.

“É uma plataforma de otimização”, é como Ceze caracteriza o serviço em nuvem.

“Do ponto de vista do usuário final, eles carregam o modelo, comparam os modelos e otimizam os valores em um grande conjunto de destinos de hardware”, é como Ceze descreveu o serviço.

“A chave é que isso é automático – sem suor e lágrimas de engenheiros de baixo nível que escrevem código”, disse Ceze.

OctoML faz o trabalho de desenvolvimento para garantir que os modelos possam ser otimizados para uma constelação crescente de hardware.

“A chave aqui é obter o melhor de cada peça de hardware.” Isso significa “especializar o código de máquina para os parâmetros específicos daquele modelo específico de aprendizado de máquina em um destino de hardware específico.” Algo como uma convolução individual em uma rede neural convolucional típica pode ser otimizada para se adequar a um bloco de hardware específico de um acelerador de hardware específico.

Os resultados são demonstráveis. Em testes de benchmark publicados em setembro para o conjunto de testes MLPerf para inferência de rede neural, OctoML teve uma pontuação máxima em desempenho de inferência para o venerável algoritmo de reconhecimento de imagem ResNet em termos de imagens processadas por segundo.

O serviço OctoML está em um estado de pré-lançamento e acesso antecipado desde dezembro do ano passado.

Para avançar sua estratégia de plataforma, OctoML no início deste mês anunciado ela havia recebido US $ 85 milhões em uma rodada de financiamento da Série C do fundo de hedge Tiger Global Management, junto com os investidores existentes Addition, Madrona Venture Group e Amplify Partners. A rodada de financiamento traz o financiamento total da OctoML para US $ 132 milhões.

O financiamento é parte do esforço da OctoML para espalhar a influência do Apache TVM para cada vez mais hardware de IA. Também neste mês, a OctoML anunciou uma parceria com a ARM Ltd., a empresa do Reino Unido que está em processo de compra pela potência do chip AI Nvidia. Isso segue as parcerias anunciadas anteriormente com Advanced Micro Devices e Qualcomm. A Nvidia também está trabalhando com OctoML.

Espera-se que a parceria ARM espalhe o uso do serviço OctoML para os licenciados do núcleo da CPU ARM, que domina os telefones celulares, redes e a Internet das Coisas.

O ciclo de feedback provavelmente levará a outras mudanças além do projeto de redes neurais. Isso pode afetar mais amplamente como o ML é implantado comercialmente, o que é, afinal, o ponto principal dos MLOps.

Conforme a otimização via TVM se espalha, a tecnologia pode aumentar drasticamente a portabilidade no serviço de ML, prevê Ceze.

Como a nuvem oferece todos os tipos de vantagens e desvantagens com todos os tipos de ofertas de hardware, ser capaz de otimizar em tempo real para diferentes destinos de hardware significa, em última análise, ser capaz de mover-se com mais agilidade de um destino para outro.

“Essencialmente, ser capaz de extrair mais desempenho de qualquer destino de hardware na nuvem é útil porque dá mais flexibilidade de destino”, é como Ceze descreveu. “Ser capaz de otimizar automaticamente dá portabilidade, e a portabilidade dá escolha.”

Isso inclui executar em qualquer hardware disponível em uma configuração de nuvem, mas também escolher o hardware que por acaso seja mais barato para os mesmos SLAs, como latência, taxa de transferência e custo em dólares.

Com duas máquinas com latência igual no ResNet, por exemplo, “você sempre terá a maior taxa de transferência por dólar”, a máquina que é mais econômica. “Contanto que eu cumpra os SLAs, quero executá-lo da forma mais barata possível.”

source – www.zdnet.com

Sandy J
Hi thanks for visiting Asia First News, I am Sandy I will update the daily World and Music News Here, for any queries related to the articles please use the contact page to reach us. :-
ARTIGOS RELACIONADOS

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Mais popular

x