O Google DeepMind investigou aplicativos de modelo de linguagem de visão, concentrando-se em seu potencial para controle robótico de ponta a ponta. Esta investigação procurou determinar se esses modelos eram capazes de ampla generalização. Além disso, investigou se certas funções cognitivas, como raciocínio e planejamento, frequentemente associadas a modelos expansivos de linguagem, poderiam emergir nesse contexto.
A premissa fundamental por trás dessa exploração está intrinsecamente ligada às características dos modelos de linguagem grandes (LLMs). Tais modelos são projetados para gerar qualquer sequência capaz de codificar uma vasta gama de informações. Isso inclui não apenas linguagem comum ou código de programação como Python, mas também comandos específicos que podem orientar ações robóticas.
Para colocar isso em perspectiva, considere a capacidade do modelo de entender e traduzir sequências de strings específicas em comandos robóticos acionáveis. Como ilustração, uma string gerada como “1 128 91 241 5 101 127 217” pode ser decodificada da seguinte maneira:
- O dígito inicial, um, significa que a tarefa ainda está em andamento e não foi concluída.
- A tríade de números subsequente, 128-91-241, designa uma mudança relativa e normalizada nas três dimensões do espaço.
- O conjunto final, 101-127-217, aponta o grau de rotação do segmento funcional do braço do robô.
Essa configuração permite que o robô modifique seu estado em seis graus de liberdade. Traçando um paralelo, assim como os modelos de linguagem assimilam ideias e conceitos gerais de vastos dados textuais na internet, o modelo RT-2 extrai conhecimento de informações baseadas na web para guiar ações robóticas.
As possíveis implicações disso são significativas. Se um modelo é exposto a um conjunto curado de trajetórias que indicam essencialmente, “para alcançar um determinado resultado, o mecanismo de preensão do robô precisa se mover de uma maneira específica”, então é lógico que o transformador pode gerar ações coerentes de acordo com esta entrada.
Um aspecto crucial em avaliação foi a capacidade de executar novas tarefas não abordadas durante o treinamento. Isso pode ser testado de algumas maneiras distintas:
1) Objetos desconhecidos: o modelo pode replicar uma tarefa quando apresentado a objetos nos quais não foi treinado? O sucesso neste aspecto depende da conversão do feed visual da câmera em um vetor, que o modelo de linguagem pode interpretar. O modelo deve então ser capaz de discernir seu significado, vincular um termo com sua contraparte do mundo real e, posteriormente, guiar o braço robótico para agir de acordo.
2) Fundos diferentes: Como o modelo responde quando a maior parte do feed visual consiste em novos elementos porque o pano de fundo do local da tarefa foi totalmente alterado? Por exemplo, uma mudança nas mesas ou mesmo uma mudança nas condições de iluminação.
3) Ambientes Variados: Estendendo o ponto anterior, e se todo o local for diferente?
Para os humanos, esses cenários parecem simples – naturalmente, se alguém pode descartar uma lata em seu quarto, também deve poder fazê-lo ao ar livre, certo? (Em uma nota lateral, observei algumas pessoas em parques lutando com essa tarefa aparentemente simples). No entanto, para máquinas, esses são desafios que ainda precisam ser enfrentados.
Os dados gráficos revelam que o modelo RT-2 supera alguns de seus antecessores quando se trata de se adaptar a essas novas condições. Essa superioridade decorre, em grande parte, da alavancagem de um modelo de linguagem expansivo, enriquecido pela multiplicidade de textos que processou durante sua fase de treinamento.
Uma restrição destacada pelos pesquisadores é a incapacidade do modelo de se adaptar a habilidades totalmente novas. Por exemplo, não compreenderia levantar um objeto do lado esquerdo ou direito se isso não fizesse parte de seu treinamento. Em contraste, modelos de linguagem como o ChatGPT navegaram por esse obstáculo sem esforço. Ao processar grandes quantidades de dados em uma miríade de tarefas, esses modelos podem decifrar rapidamente e agir de acordo com novas solicitações, mesmo que nunca as tenham encontrado antes.
Tradicionalmente, os robôs operam usando combinações de sistemas intrincados. Nessas configurações, os sistemas de raciocínio de nível superior e os sistemas de manipulação fundamentais geralmente interagem sem comunicação eficiente, semelhante a um jogo de “telefone quebrado”. Imagine conceituar uma ação mentalmente e, em seguida, precisar retransmitir isso ao seu corpo para execução. O recém-introduzido modelo RT-2 agiliza esse processo. Ele capacita um modelo de linguagem única para realizar um raciocínio sofisticado, ao mesmo tempo em que despacha comandos diretos para o robô. Isso demonstra que, com dados mínimos de treinamento, o robô pode realizar atividades que não aprendeu explicitamente.
Por exemplo, para permitir que sistemas mais antigos descartassem resíduos, eles exigiam treinamento específico para identificar, coletar e descartar lixo. Em contraste, o RT-2 já possui uma compreensão fundamental dos resíduos, pode reconhecê-los sem treinamento direcionado e pode descartá-los mesmo sem instrução prévia sobre a ação. Considere a questão matizada, “o que constitui desperdício?” Este é um conceito difícil de formalizar. Um saco de salgadinhos ou casca de banana passa de item a resíduo pós-consumo. Essas complexidades não precisam de explicação explícita ou treinamento separado; RT-2 os decifra usando seu entendimento inerente e age de acordo.
Veja por que esse avanço é fundamental e suas implicações futuras:
- Os modelos de linguagem, como o RT-2, funcionam como mecanismos cognitivos abrangentes. Sua capacidade de generalizar e transferir conhecimento entre domínios significa que eles são adaptáveis a vários aplicativos.
- Os pesquisadores intencionalmente não empregaram os modelos mais avançados para seu estudo, com o objetivo de garantir que cada modelo respondesse em um segundo (o que significa uma frequência de ação robótica de pelo menos 1 Hertz). Hipoteticamente, a integração de um modelo como o GPT-4 e um modelo visual superior poderia produzir resultados ainda mais atraentes.
- Dados abrangentes ainda são escassos. No entanto, a transição do estado atual para um conjunto de dados holístico, variando de linhas de produção de fábrica a tarefas domésticas, deve levar cerca de um a dois anos. Esta é uma estimativa provisória, portanto, especialistas na área podem oferecer mais precisão. Esse influxo de dados inevitavelmente levará a avanços significativos.
- Embora o RT-2 tenha sido desenvolvido usando uma técnica específica, existem vários outros métodos. O futuro provavelmente contém uma fusão dessas metodologias, aprimorando ainda mais as capacidades robóticas. Uma abordagem prospectiva poderia envolver o treinamento de robôs usando vídeos de atividades humanas. Não há necessidade de gravações exclusivas – plataformas como TikTok e YouTube oferecem um vasto repositório desse tipo de conteúdo.
Leia mais sobre IA:
source – mpost.io