
何が起こったか
- 3月7日、Zhiyuan Roboticsの共同創設者であるPeng Zhihui氏は「来週何か大きなことが起こる」と予告した。
- インターネットは大騒ぎとなり、10万人を超える人々がこの騒ぎの理由を知るために視聴しました。
- 3月10日、AGIbotは 魔神オペレーター1号(GO-1) — 彼らにとって初の大規模で普遍的な具現化されたベースモデルです。
その結果、3月10日の朝、AGIbot Roboticsは答えを公開しました。それは、AGIbot初の大型汎用具現化ベースモデルであるGenie Operator-1(GO-1)です。ビデオでは、ロボットがトーストを焼いたり、コーヒーを淹れたり、朝食を手元まで届けたりすることが問題なくできます。
当局は、 GO-1は強力な一般化能力を備えているだけでなく、非常に少ないデータやサンプルがゼロであっても、新しいシナリオや新しいタスクに素早く適応することができます。 AGIbotは2024年末に、100万以上の軌跡を含み、217のタスクをカバーし、5つの主要なシナリオを含む大規模で高品質のデータセットであるAgiBot Worldをリリースしました。この巨大な「データの金鉱」に基づいて、GO-1は短期間で効率的なトレーニングと広範な一般化を実現できます。AgiBot WorldはGO-1の背後にある「見えないヒーロー」であると言えます。では、GO-1ロボットベースモデルは実際にどのように機能し、ロボット業界にとって何を意味するのでしょうか。
公式発表によると、 GO-1はロボットの運動能力を拡大するだけでなく、AI機能を強化し、ロボットの実用価値を大幅に高めています。 .

AGIbot が公開したデモ動画では、GO-1 が強力な学習能力を示しました。人間の操作動画を視聴することで、新しいスキルを素早く習得し、実際のタスクに効率的に適用できます。たとえば、動画では GO-1 の強力なオブジェクト追跡能力が示されています。カップがランダムに動かされても、注ぐ動作を正確に完了できます。次に、GO-1 は非常に強力な一般化能力を示しています。
トレーニングに膨大なデータを必要とする従来のモデルとは異なり、 GO-1は数百個のデータだけで高速な一般化を達成できる 例えば、デモンストレーションでは、水を注ぐというタスクを完了した後、GO-1 は追加のトレーニングなしで、パンをトーストしてジャムを塗るという新しいタスクにシームレスに切り替えることができます。この能力は、GO-1 の多様なタスクへの適応性を示すだけでなく、ミニマリスト学習の核心的な利点も反映しています。

同時に、GO-1のクロスボディ機能は、複数のロボットのコラボレーションに強力な技術的サポートを提供します。AGIbotが公開したビデオでは、2台のロボットが協力して複雑なタスクを完了するシーンが示されています。1台のロボットがフロントデスクでゲストを出迎え、もう1台のロボットがコーヒーを作ることに集中しています。このコラボレーションは、GO-1の効率性と適応性を反映しています。
従来の具現化モデルは、通常、単一のロボット本体(ハードウェア具現化)用に設計されており、データ利用率の低さと展開の制限という2つの大きな問題を引き起こします。しかし、 GO-1は複数のボディを可能にし、異なるロボットフォーム間を素早く移行できるため、データ利用効率が大幅に向上し、導入コストが削減されます。 .

GO-1 大規模モデルは、AGIbot データ リフロー システムの完全なセットでも使用でき、実際の実行で発生した問題データから継続的に進化して学習できることも特筆に値します。このシステムは、実際の実行プロセスから問題データ、特に実行エラーや異常な状況をキャプチャし、手動レビューとモデル最適化を通じて GO-1 のパフォーマンスを継続的に向上させることができます。
たとえば、デモのシナリオでは、ロボットがコーヒーカップを置くときにミスを犯しました。システムは関連データをすぐにリフローし、モデルをターゲットに合わせて最適化して、次の操作がより正確になるようにします。
同時に、GO-1大型モデルではロボットに新しい音声対話方式も追加され、ユーザーが実際のシナリオで自由にニーズを表現できるようになりました。
GO-1 の驚異的なパフォーマンスの理由は、その異なるモデル アーキテクチャにあります。
GO-1 は、マルチモーダル大規模モデル (VLM) とハイブリッド エキスパート システム (MoE) を組み合わせた Vision-Language-Latent-Action (ViLLA) アーキテクチャを使用し、連携して動作する 3 つのモジュールに分かれています。
VLM (Very Large Multimodal Model): InternVL-2B をベースに、マルチビューの視覚、力信号、言語入力を処理して、シーン認識とコマンド理解を実現します。
潜在プランナー: 潜在アクショントークンを予測することで、異種のインターネットデータからアクション知識をロボットタスクに転送し、高品質の実機データが不足している問題を解決します。
アクション エキスパート: 拡散モデルに基づいて高頻度かつ柔軟なアクション シーケンスを生成し、正確な実行を保証します。
業界関係者は thatGO-1 モデルのアーキテクチャは非常にシンプルで、革新的な点はあまりありません。
主に既存の作業、データ、トレーニング方法を統合します 以前のモデルと比較すると、新しく追加されたのは Latent Planner のレイヤーのみですが、Transformer のレイヤーが数層追加されただけであり、複雑ではありません。

Digua Roboticsの副社長であるSui Wei氏は、AGIbotの取り組みは業界の悩みの種であるデータ問題に直接対処しており、具現化された知能産業に非常に良い促進効果をもたらしていると述べた。しかし、大きなモデルと比較すると、ここで最も価値があるのはデータセットです。
報道によると、GO-1の基盤となっているのは、AgiBot Worldと呼ばれる超大規模ロボットデータセットだ。AgiBot Worldデータセットには、100台の実際のロボットから収集された100万以上の軌跡が含まれており、100以上の現実世界のシナリオと217の特定のタスクをカバーしているとみられる。
このデータセットは、AgiBot G1 ハードウェア プラットフォーム上に構築され、100 台を超える同種ロボットによって収集されています。高品質のオープンソース ロボット操作データを提供し、さまざまな現実のシナリオでの困難なタスクの解決をサポートします。最新バージョンの AgiBot World データセットには、合計所要時間 2976.4 時間の 100 万の軌跡が含まれており、87 のスキルと 106 のシナリオをカバーしています。
一方、AgiBot World は、つかむ、置くといった実験室環境での基本的な卓上タスクを超えて、双腕操作、器用な手、共同作業を伴う現実世界のシナリオに重点を置いています。
業界の既存のデータセット(Open X-Embodiment)と比較すると、AGIbot のデータは量が多く、データ品質、標準化、一貫性が優れています。Open X-Embodiment データセットにはさまざまな形式のオントロジーが含まれており、データ形式が大きく異なるため、モデルのトレーニングに大きな支障をきたします。
しかし、AGIbot のデータセットは一定の規模に達しているものの、まだ小さな出発点に過ぎず、ロボットの機能の大幅な向上にはつながっていません。
テスト結果によると、GO-1 の性能は以前のモデルに比べて大幅に向上しましたが、水を注ぐ、テーブルを片付ける、飲み物を補充するといった作業の成功率は依然として 80% より低いです。
隋偉氏は、現段階では、モデルはロボット産業の核心的なボトルネックではないと述べた。本当の課題は2つの側面にある。1つ目は、ハードウェアの融合、例えば、グリッパー、器用な手、触覚センサーなどのバイオニック設計はまだ標準化されていないこと、2つ目は本体を大規模に推進できないため、データ量が常に不足していることである。
現在、ロボット産業はデータ収集の面では、主に遠隔操作技術に依存しており、その中には仮想現実(VR)機器、同形ストラップ型機器、モーションキャプチャー機器などが含まれています。しかし、ロボット産業のデータ収集コストは高く、明確な商業価値のサポートが不足しているため、データクローズドループのフライホイールを迅速に実行することは困難です。
それに比べて、自動運転業界におけるデータ収集コストはほぼ無視できるほど小さく、車載認識システムはデータを継続的に送り返すことができるため、効率的なデータ閉ループが形成されます。
GO-1の発表ビデオの最後に、誰もがイースターエッグを見つけました。AGIbot Roboticsが次の具現化された知能ロボット製品をプレビューしましたが、具体的な時間はまだ発表されていません。しかし、AGIbotはすぐにWeiboに「明日はサプライズがあります」と投稿し、このニュースはすぐに業界に再び期待感を与えました。
ビッグモデルの台頭は、AI産業の爆発的な進化をもたらしました。特に、ビッグモデルがロボット工学と身体知能産業をどのように推進できるかが人々の関心を集めています。知源河の創設者である知慧軍のGO-1は、良い出発点のようです。明らかに、身体知能は企業が単独で完成させることは困難です。オープンソースの協力だけが、ロボット工学産業の急速な進化を真に実現することができます。
最新のブログ投稿の更新情報を受け取るには購読してください
コメントを残す: