O que aconteceu

  • Em 7 de março, o cofundador da Zhiyuan Robotics, Peng Zhihui, provocou: “Algo grande está chegando na próxima semana”.
  • A internet foi à loucura. Mais de 100.000 pessoas sintonizaram para ver do que se tratava o burburinho.
  • Em 10 de março, a AGIbot revelou Operador Genie-1 (GO-1) — seu primeiro modelo básico universal e incorporado em larga escala.

Como resultado, na manhã de 10 de março, a AGIbot Robotics revelou a resposta – Genie Operator-1 (GO-1), o primeiro modelo de base universal incorporado em larga escala da AGIbot. No vídeo, o robô pode torrar, fazer café e entregar o café da manhã em suas mãos sem nenhum problema.

As autoridades afirmam que O GO-1 não só tem fortes capacidades de generalização, mas também pode adaptar-se rapidamente a novos cenários e novas tarefas com muito poucos dados ou mesmo zero amostras .Já no final de 2024, a AGIbot lançou o AgiBot World, um conjunto de dados de alta qualidade em larga escala contendo mais de 1 milhão de trajetórias, cobrindo 217 tarefas e envolvendo cinco cenários principais. É com base nessa enorme “mina de ouro de dados” que o GO-1 pode atingir treinamento eficiente e generalização extensiva em um curto período de tempo. Pode-se dizer que o AgiBot World é o “herói invisível” por trás do GO-1. Então, como o modelo base do robô GO-1 realmente funciona e o que isso significa para a indústria de robótica?

De acordo com declarações oficiais, além de expandir as capacidades atléticas do robô, o GO-1 fortalece ainda mais suas capacidades de IA, aumentando assim significativamente o valor prático do robô .

No vídeo de demonstração lançado pela AGIbot, o GO-1 demonstrou forte capacidade de aprendizado: ao assistir a vídeos de operação humana, ele pode dominar rapidamente novas habilidades e aplicá-las com eficiência a tarefas reais. Por exemplo, o vídeo mostra a poderosa capacidade de rastreamento de objetos do GO-1: mesmo que o copo seja movido aleatoriamente, ele ainda pode completar com precisão a ação de despejar. Em segundo lugar, o GO-1 demonstrou capacidades de generalização muito fortes.

Ao contrário dos modelos tradicionais que exigem grandes quantidades de dados para treinamento, GO-1 pode atingir uma generalização rápida com apenas centenas de dados . Por exemplo, na demonstração, após completar a tarefa de despejar água, o GO-1 pode alternar perfeitamente para uma nova tarefa de torrar pão e espalhar geleia sem treinamento adicional. Essa habilidade não apenas demonstra a adaptabilidade do GO-1 a diversas tarefas, mas também reflete sua principal vantagem de aprendizado minimalista.

Ao mesmo tempo, a capacidade cross-body do GO-1 fornece forte suporte técnico para colaboração multi-robô. No vídeo lançado pela AGIbot, ele mostra uma cena em que dois robôs trabalham juntos para concluir uma tarefa complexa: um robô recebe os hóspedes na recepção, e o outro robô se concentra em fazer café. Essa colaboração reflete a eficiência e a adaptabilidade do GO-1.

Os modelos incorporados tradicionais são geralmente projetados para um único corpo de robô (Incorporação de Hardware), o que leva a dois grandes problemas: baixa utilização de dados e implantação limitada. No entanto, O GO-1 pode habilitar vários corpos e migrar rapidamente entre diferentes formas de robôs, melhorando significativamente a eficiência da utilização de dados e reduzindo os custos de implantação .

Vale mencionar que o modelo grande GO-1 também pode ser usado com um conjunto completo de sistemas de refluxo de dados AGIbot, que podem evoluir continuamente e aprender com os dados problemáticos encontrados na execução real. Este sistema pode capturar dados problemáticos do processo de execução real, especialmente erros de execução ou situações anormais, e melhorar continuamente o desempenho do GO-1 por meio de revisão manual e otimização do modelo.

Por exemplo, no cenário de demonstração, o robô cometeu um erro ao colocar uma xícara de café. O sistema imediatamente refluirá os dados relevantes e otimizará o modelo de forma direcionada para garantir que a próxima operação seja mais precisa.

Ao mesmo tempo, o modelo grande GO-1 também adiciona um novo método de interação por voz para o robô, o que facilita muito os usuários a expressarem livremente suas necessidades em cenários reais.

O motivo por trás do desempenho incrível do GO-1 é sua arquitetura de modelo diferente.

O GO-1 usa a arquitetura Visão-Linguagem-Latência-Ação (ViLLA), que combina um modelo multimodal grande (VLM) e um sistema especialista híbrido (MoE) e é dividido em três módulos que trabalham juntos:

VLM (Very Large Multimodal Model): Baseado no InternVL-2B, ele processa sinais visuais multivisualização, sinais de força e entrada de linguagem para alcançar percepção de cena e compreensão de comando.

Latent Planner: Ao prever tokens de ação latentes, ele transfere conhecimento de ação de dados heterogêneos da Internet para tarefas de robôs, resolvendo o problema de dados de máquina reais de alta qualidade insuficientes.

Especialista em ação: gera sequências de ação flexíveis e de alta frequência com base no Modelo de Difusão para garantir uma execução precisa.

Os especialistas da indústria acreditam thatGO-1A arquitetura do modelo é muito simples, sem muita inovação. 

Integra principalmente métodos de trabalho, dados e treinamento existentes .Comparado com o modelo anterior, a única novidade é uma camada do Latent Planner, mas são apenas algumas camadas do Transformer e não são complicadas.

Sui Wei, vice-presidente da Digua Robotics, disse que o trabalho da AGIbot aborda diretamente o ponto problemático da indústria – problemas de dados, e tem um efeito de promoção muito bom na indústria de inteligência incorporada. No entanto, comparado ao grande modelo, a coisa mais valiosa aqui é o conjunto de dados.


De acordo com relatos, o suporte subjacente do GO-1 é um conjunto de dados de robôs de supergrande escala chamado AgiBot World. Entende-se que o conjunto de dados AgiBot World contém mais de 1 milhão de trajetórias, coletadas por 100 robôs reais, cobrindo mais de 100 cenários do mundo real e 217 tarefas específicas.


O conjunto de dados é construído na plataforma de hardware AgiBot G1 e é coletado por mais de 100 robôs homogêneos. Ele fornece dados de operação de robôs de código aberto de alta qualidade e oferece suporte à resolução de tarefas desafiadoras em uma variedade de cenários da vida real. A versão mais recente do conjunto de dados AgiBot World contém 1 milhão de trajetórias com uma duração total de 2976,4 horas, cobrindo 87 habilidades e 106 cenários.


Enquanto isso, o AgiBot World vai além das tarefas básicas de mesa em ambientes de laboratório, como agarrar e posicionar, para se concentrar em cenários do mundo real envolvendo manipulação com dois braços, mãos hábeis e tarefas colaborativas.


Comparado com o conjunto de dados existente na indústria (Open X-Embodiment), os dados do AGIbot são maiores em quantidade e têm melhor qualidade de dados, padronização e consistência. O conjunto de dados Open X-Embodiment contém muitas formas diferentes de ontologias, e as formas de dados variam muito, o que interferirá muito no treinamento do modelo.

No entanto, embora o conjunto de dados do AGIbot tenha atingido uma certa escala, ele ainda é apenas um pequeno ponto de partida e não levou a uma melhoria significativa nas capacidades do robô.
Os resultados dos testes mostram que o desempenho do GO-1 foi bastante melhorado em comparação aos modelos anteriores, mas a taxa de sucesso em servir água, limpar mesas e reabastecer bebidas ainda é menor que a do 80%.


Sui Wei disse que, neste estágio, o modelo não é o gargalo central da indústria de robótica. Os verdadeiros desafios estão em dois aspectos: primeiro, a convergência de hardware, por exemplo, designs biônicos como pinças, mãos hábeis e sensores táteis ainda não foram padronizados; segundo, porque o corpo principal não pode ser promovido em larga escala, a quantidade de dados é sempre insuficiente.


Atualmente, em termos de coleta de dados, a indústria de robótica depende principalmente da tecnologia de teleoperação, incluindo equipamentos de realidade virtual (VR), equipamentos do tipo cinta isomórfica e equipamentos de captura de movimento. No entanto, o custo de coleta de dados da indústria de robótica é alto e carece de suporte de valor comercial claro, o que dificulta que o volante do loop fechado de dados funcione rapidamente.


Em comparação, o custo de coleta de dados na indústria de direção autônoma é quase insignificante. O sistema de percepção de bordo pode transmitir dados continuamente de volta, formando um loop fechado de dados eficiente.


No final do vídeo de lançamento do GO-1, todos encontraram um Easter egg – a AGIbot Robotics fez uma prévia do próximo produto de robô inteligente incorporado, embora o horário específico ainda não tenha sido anunciado. No entanto, a AGIbot postou imediatamente no Weibo que “haverá uma surpresa amanhã”, e essa notícia instantaneamente encheu a indústria de expectativas novamente.


A ascensão de grandes modelos levou a uma evolução explosiva na indústria de IA. As pessoas estão particularmente curiosas sobre como os grandes modelos podem promover as indústrias de robótica e inteligência incorporada. O GO-1 do fundador da Zhiyuanhe, Zhihuijun, parece ser um bom ponto de partida. Obviamente, a IA incorporada é difícil de ser concluída por uma empresa de forma independente. Somente a cooperação de código aberto pode realmente alcançar a rápida evolução da indústria de robótica.

Postado por Leão Jiang
POSTAGEM ANTERIOR
Você também pode gostar

Deixe seu comentário:

O seu endereço de email não será publicado. Campos obrigatórios marcados com *