
发生了什么
- 3月7日,致远机器人联合创始人彭志辉透露,“下周会有大事发生。”
- 互联网上一片沸腾。超过 10 万人收看了直播,想知道这场热议的内容。
- 3 月 10 日,AGIbot 透露 精灵操作员-1(GO-1) — 他们的第一个大规模、通用的具体基础模型。
于是,3月10日上午,AGIbot Robotics揭晓了答案——Genie Operator-1(GO-1),AGIbot首款大型通用落地基座模型。视频中,这款机器人可以烤面包、煮咖啡,还可以轻而易举地把早餐送到你手上。
官员声称 GO-1不仅具有很强的泛化能力,还能在很少数据甚至零样本的情况下快速适应新场景、新任务 早在2024年底,AGIbot就推出了AgiBot World,这是一个包含超过100万条轨迹、覆盖217个任务、涉及五大场景的大规模高质量数据集。正是基于这个巨大的“数据金矿”,GO-1才能在短时间内实现高效训练和广泛泛化。可以说,AgiBot World是GO-1背后的“隐形英雄”。那么GO-1机器人基础模型究竟表现如何,对机器人行业又意味着什么呢?
根据官方声明, GO-1除了拓展机器人的运动能力外,更重要的是强化了其AI能力,从而大大提升了机器人的实用价值 .

在AGIbot发布的演示视频中,GO-1展现出了强大的学习能力:通过观看人类的操作视频,它能够快速掌握新技能,并高效地运用到实际任务中。例如视频展示了GO-1强大的物体追踪能力:即便杯子被随机移动,它依然能够精准地完成倒水动作。其次,GO-1展现出了非常强的泛化能力。
与需要大量数据进行训练的传统模型不同, GO-1仅用数百条数据就能实现快速泛化 例如在演示中,完成倒水任务后,GO-1 可以无缝切换到烤面包、涂果酱的新任务,无需额外训练。这一能力不仅展现了 GO-1 对多样化任务的适应能力,也体现了其极简学习的核心优势。

同时,GO-1的跨体能力为多机器人协作提供了强有力的技术支持。在AGIbot发布的视频中,展示了两台机器人协同完成一项复杂任务的场景:一台机器人在前台接待客人,另一台机器人专注于制作咖啡。这次协作体现了GO-1的高效性和适应性。
传统的具身模型通常是针对单个机器人本体(硬件具身)设计的,这导致数据利用率低和部署受限两个主要问题。然而, GO-1可赋能多体,并在不同机器人形态间快速迁移,大幅提升数据利用效率,降低部署成本 .

值得一提的是,GO-1 大模型还可以搭配一整套 AGIbot 数据回流系统使用,能够不断从实际执行中遇到的问题数据中进化和学习。这套系统能够从实际执行过程中捕捉问题数据,特别是执行错误或异常情况,并通过人工审核和模型优化不断提升 GO-1 的性能。
例如在演示场景中,机器人在摆放咖啡杯时出现了错误,系统会立刻回流相关数据,并有针对性地优化模型,确保下一步操作更加精准。
同时,GO-1大号机型还为机器人增加了全新的语音交互方式,大大方便用户在现实场景中自由表达自己的需求。
GO-1 表现出色的原因在于其不同的模型架构。
GO-1 采用视觉-语言-潜在-动作(ViLLA)架构,结合多模态大模型(VLM)与混合专家系统(MoE),分为三个协同工作的模块:
VLM(超大型多模态模型):基于InternVL-2B,处理多视角视觉、力信号和语言输入,实现场景感知和命令理解。
Latent Planner:通过预测Latent Action Tokens,将异构互联网数据中的动作知识转移到机器人任务中,解决优质真实机器数据不足的问题。
动作专家:根据扩散模型生成高频、灵活的动作序列,确保精准执行。
业内人士认为 该GO-1模型架构非常简单,没有太多的创新。
它主要整合现有的工作、数据和训练方法 与之前的模型相比,唯一新增加的就是一层Latent Planner,不过其实就Transformer的几层而已,并不复杂。

地瓜机器人副总裁隋伟表示,AGIbot的工作直击行业痛点——数据问题,对具身智能行业有非常好的推动作用。不过,相比于大模型,这里最有价值的还是数据集。
据介绍,GO-1的底层支撑是名为AgiBot World的超大规模机器人数据集。据了解,AgiBot World数据集包含超过100万条轨迹,由100个真实机器人采集,涵盖100多个真实场景和217个具体任务。
该数据集基于 AgiBot G1 硬件平台构建,由 100 多个同构机器人采集,提供高质量的开源机器人操作数据,支持解决各种现实场景中的挑战性任务。最新版本的 AgiBot World 数据集包含 100 万条轨迹,总时长为 2976.4 小时,涵盖 87 个技能和 106 个场景。
同时,AgiBot World 不仅限于实验室环境中的抓取和放置等基本桌面任务,还专注于涉及双臂操控、灵巧手和协作任务的真实场景。
与业界现有的数据集(Open X-Embodiment)相比,AGIbot 的数据量更大,且数据质量、标准化、一致性更好。Open X-Embodiment 数据集包含多种不同形式的本体,数据形态千差万别,会给模型的训练带来很大干扰。
不过,虽然AGIbot的数据集已经达到了一定的规模,但这仍然只是一个小小的起点,并未带来机器人能力的显著提升。
测试结果显示,GO-1的表现相较于前代机型有很大的提升,但在倒水、收拾桌子和补充饮料的成功率仍然不及80%。
隋伟表示,现阶段,模型还不是机器人产业最核心的瓶颈,真正的挑战在于两方面:第一,硬件的衔接,例如手爪、灵巧手、触觉传感器等仿生设计还没有形成标准化;第二,由于本体无法大规模推广,数据量始终不足。
目前,机器人行业在数据采集方面主要依赖遥操作技术,包括虚拟现实(VR)设备、同构绑带式设备、动作捕捉设备等,但机器人行业数据采集成本高且缺乏明确的商业价值支撑,导致数据闭环的飞轮难以快速运转。
相比较而言,自动驾驶行业的数据采集成本几乎可以忽略不计,车载感知系统可以源源不断地将数据回传,形成高效的数据闭环。
在GO-1发布视频的最后,大家发现了一个彩蛋——AGIbot Robotics预告了下一款具象化智能机器人产品,虽然具体时间尚未公布。不过AGIbot随即在微博发文称“明天会有惊喜”,这一消息瞬间让业界再次充满期待。
大模型的兴起带动了AI行业的爆发式进化,人们尤其好奇大模型能如何推动机器人和具身智能产业,智源合创始人智汇君的GO-1似乎是一个很好的切入点,显然具身智能很难由一家公司独立完成,只有开源合作才能真正实现机器人行业的快速进化。
订阅以获取最新博客文章更新
留下你的评论: