Ce qui s'est passé

  • Le 7 mars, Peng Zhihui, cofondateur de Zhiyuan Robotics, a déclaré : « Quelque chose de grand arrive la semaine prochaine. »
  • Internet s'est déchaîné. Plus de 100 000 personnes se sont connectées pour découvrir ce qui se passait.
  • Le 10 mars, AGIbot a révélé Opérateur Genie-1 (GO-1) — leur premier modèle de base incarné universel à grande échelle.

Ainsi, le matin du 10 mars, AGIbot Robotics a révélé la solution : Genie Operator-1 (GO-1), le premier modèle de base universel à grande échelle d'AGIbot. Dans la vidéo, le robot peut griller du pain, préparer du café et vous servir le petit-déjeuner sans problème.

Les autorités affirment que GO-1 possède non seulement de fortes capacités de généralisation, mais peut également s'adapter rapidement à de nouveaux scénarios et à de nouvelles tâches avec très peu de données, voire aucun échantillon. Dès fin 2024, AGIbot a lancé AgiBot World, un vaste ensemble de données de haute qualité contenant plus d'un million de trajectoires, couvrant 217 tâches et cinq scénarios majeurs. C'est grâce à cette immense « mine d'or » de données que GO-1 peut réaliser un entraînement efficace et une généralisation poussée en un temps record. On peut dire qu'AgiBot World est le « héros invisible » de GO-1. Quelles sont les performances réelles du modèle de base du robot GO-1 et quelles sont ses implications pour l'industrie robotique ?

Selon les déclarations officielles, en plus d'étendre les capacités athlétiques du robot, GO-1 renforce surtout ses capacités d'IA, augmentant ainsi considérablement la valeur pratique du robot .

Dans la vidéo de démonstration publiée par AGIbot, GO-1 a démontré une forte capacité d'apprentissage : en visionnant des vidéos d'opérations manuelles, il peut rapidement maîtriser de nouvelles compétences et les appliquer efficacement à des tâches réelles. Par exemple, la vidéo illustre la puissante capacité de suivi d'objets de GO-1 : même si la tasse est déplacée de manière aléatoire, elle peut verser le contenu avec précision. Ensuite, GO-1 a démontré de très fortes capacités de généralisation.

Contrairement aux modèles traditionnels qui nécessitent d’énormes quantités de données pour la formation, GO-1 peut réaliser une généralisation rapide avec seulement des centaines de données Par exemple, lors de la démonstration, après avoir terminé la tâche consistant à verser de l'eau, GO-1 peut passer sans difficulté à une nouvelle tâche, consistant à griller du pain et à tartiner de la confiture, sans formation supplémentaire. Cette capacité démontre non seulement la capacité d'adaptation de GO-1 à diverses tâches, mais reflète également son principal atout : l'apprentissage minimaliste.

Parallèlement, la capacité de transport transversal du GO-1 offre un support technique performant pour la collaboration multi-robots. La vidéo publiée par AGIbot montre une scène où deux robots collaborent pour accomplir une tâche complexe : l'un accueille les clients à la réception, tandis que l'autre se concentre sur la préparation du café. Cette collaboration témoigne de l'efficacité et de l'adaptabilité du GO-1.

Les modèles intégrés traditionnels sont généralement conçus pour un seul corps de robot (incarnation matérielle), ce qui entraîne deux problèmes majeurs : une faible utilisation des données et un déploiement limité. Cependant, GO-1 peut activer plusieurs corps et migrer rapidement entre différentes formes de robot, améliorant considérablement l'efficacité de l'utilisation des données et réduisant les coûts de déploiement .

Il est important de noter que le grand modèle GO-1 peut également être utilisé avec un ensemble complet de systèmes de redistribution de données AGIbot, capables d'évoluer en permanence et d'apprendre des données problématiques rencontrées lors de l'exécution réelle. Ce système peut capturer les données problématiques du processus d'exécution réel, notamment les erreurs d'exécution ou les situations anormales, et améliorer continuellement les performances de GO-1 grâce à une révision manuelle et à l'optimisation du modèle.

Par exemple, dans le scénario de démonstration, le robot a commis une erreur en plaçant une tasse à café. Le système redistribue immédiatement les données pertinentes et optimise le modèle de manière ciblée afin de garantir une meilleure précision lors de l'opération suivante.

Dans le même temps, le grand modèle GO-1 ajoute également une nouvelle méthode d'interaction vocale pour le robot, ce qui permet grandement aux utilisateurs d'exprimer librement leurs besoins dans des scénarios réels.

La raison derrière les performances étonnantes du GO-1 est son architecture de modèle différente.

GO-1 utilise l'architecture Vision-Language-Latent-Action (ViLLA), qui combine un grand modèle multimodal (VLM) et un système expert hybride (MoE) et est divisée en trois modules qui fonctionnent ensemble :

VLM (Very Large Multimodal Model) : Basé sur InternVL-2B, il traite les signaux visuels multi-vues, les signaux de force et les entrées linguistiques pour obtenir une perception de la scène et une compréhension des commandes.

Planificateur latent : en prédisant les jetons d'action latents, il transfère les connaissances d'action des données Internet hétérogènes aux tâches du robot, résolvant ainsi le problème de l'insuffisance de données de machine réelles de haute qualité.

Action Expert : génère des séquences d'actions flexibles et à haute fréquence basées sur le modèle de diffusion pour garantir une exécution précise.

Les initiés de l'industrie croient thatGO-1L'architecture du modèle est très simple, avec peu d'innovation. 

Il intègre principalement les méthodes de travail, de données et de formation existantes .Par rapport au modèle précédent, le seul nouvel ajout est une couche de Latent Planner, mais il ne s'agit que de quelques couches de Transformer et ce n'est pas compliqué.

Sui Wei, vice-président de Digua Robotics, a déclaré que le travail d'AGIbot répond directement au problème crucial du secteur : les données, et a un effet de promotion très positif sur le secteur de l'intelligence incarnée. Cependant, comparé au modèle à grande échelle, l'élément le plus précieux ici est l'ensemble de données.


Selon certaines informations, GO-1 s'appuie sur un ensemble de données robotiques à très grande échelle appelé AgiBot World. Cet ensemble de données contiendrait plus d'un million de trajectoires, collectées par 100 robots réels, couvrant plus de 100 scénarios réels et 217 tâches spécifiques.


L'ensemble de données est construit sur la plateforme matérielle AgiBot G1 et est collecté par plus de 100 robots homogènes. Il fournit des données de fonctionnement robotiques open source de haute qualité et permet de résoudre des tâches complexes dans divers scénarios réels. La dernière version de l'ensemble de données AgiBot World contient 1 million de trajectoires d'une durée totale de 2976,4 heures, couvrant 87 compétences et 106 scénarios.


Parallèlement, AgiBot World va au-delà des tâches de base sur table dans les environnements de laboratoire, telles que la saisie et le placement, pour se concentrer sur des scénarios du monde réel impliquant la manipulation à deux bras, des mains adroites et des tâches collaboratives.


Comparé au jeu de données existant dans le secteur (Open X-Embodiment), les données d'AGIbot sont plus volumineuses et offrent une meilleure qualité, standardisation et cohérence. Le jeu de données Open X-Embodiment contient de nombreuses formes d'ontologies, et ces formes de données varient considérablement, ce qui perturbe considérablement l'apprentissage du modèle.

Cependant, bien que l’ensemble de données d’AGIbot ait atteint une certaine échelle, il ne s’agit encore que d’un petit point de départ et n’a pas conduit à une amélioration significative des capacités du robot.
Les résultats des tests montrent que les performances du GO-1 ont été grandement améliorées par rapport aux modèles précédents, mais le taux de réussite dans le versement de l'eau, le débarrassage de la table et le réapprovisionnement des boissons est toujours inférieur à celui du 80%.


Sui Wei a déclaré qu'à ce stade, le modèle ne constitue pas le principal obstacle à l'industrie robotique. Les véritables défis résident dans deux aspects : premièrement, la convergence du matériel, par exemple les conceptions bioniques telles que les pinces, les mains agiles et les capteurs tactiles, n'est pas encore standardisée ; deuxièmement, le corps principal ne pouvant être commercialisé à grande échelle, la quantité de données est toujours insuffisante.


Actuellement, pour la collecte de données, l'industrie robotique s'appuie principalement sur les technologies de téléopération, notamment les équipements de réalité virtuelle (RV), les équipements à sangle isomorphe et les équipements de capture de mouvement. Cependant, le coût élevé de la collecte de données et l'absence de valeur commerciale claire compliquent le fonctionnement rapide du circuit fermé de données.


En comparaison, le coût de collecte de données dans le secteur de la conduite autonome est quasiment négligeable. Le système de perception embarqué peut transmettre les données en continu, formant ainsi une boucle fermée de données efficace.


À la fin de la vidéo de lancement du GO-1, tout le monde a découvert un clin d'œil : AGIbot Robotics a présenté en avant-première le prochain robot intelligent incarné, bien que la date précise n'ait pas encore été annoncée. Cependant, AGIbot a immédiatement annoncé sur Weibo qu'« il y aura une surprise demain », une nouvelle qui a immédiatement ravivé les attentes du secteur.


L'essor des grands modèles a entraîné une évolution explosive du secteur de l'IA. On s'interroge particulièrement sur la manière dont ces grands modèles peuvent promouvoir les secteurs de la robotique et de l'intelligence artificielle. Le GO-1 de Zhihuijun, fondateur de Zhiyuanhe, semble être un bon point de départ. Il est évident que l'IA artificielle est difficile à mettre en œuvre par une entreprise seule. Seule la coopération open source peut véritablement permettre l'évolution rapide du secteur de la robotique.

Publié par Léo Jiang
ARTICLE PRÉCÉDENT
Vous aimerez peut-être aussi

Laissez votre commentaire:

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *