1티피1티

무슨 일이 일어났는가

  • 3월 7일, 주지안 로보틱스 공동 창립자 펑즈후이는 "다음 주에 큰 일이 일어날 거야"라고 암시했습니다.
  • 인터넷은 흥분했습니다. 10만 명이 넘는 사람들이 무슨 화제인지 보기 위해 시청했습니다.
  • 3월 10일 AGIbot이 공개 지니 오퍼레이터-1 (GO-1) — 최초의 대규모 보편적 체현 기반 모델입니다.

그 결과, 3월 10일 아침, AGIbot Robotics는 정답을 공개했습니다. Genie Operator-1(GO-1), AGIbot 최초의 대규모 범용 체현 기반 모델입니다. 영상에서 로봇은 아무런 문제 없이 토스트를 굽고, 커피를 내리고, 아침 식사를 당신의 손에 전달합니다.

공무원들은 다음과 같이 주장합니다. GO-1은 강력한 일반화 기능을 갖추고 있을 뿐만 아니라 데이터가 매우 적거나 샘플이 전혀 없어도 새로운 시나리오와 새로운 작업에 빠르게 적응할 수 있습니다. .AGIbot은 2024년 말에 100만 개 이상의 궤적을 포함하고 217개 작업을 포괄하며 5가지 주요 시나리오를 포함하는 대규모 고품질 데이터 세트인 AgiBot World를 출시했습니다. GO-1이 단시간에 효율적인 훈련과 광범위한 일반화를 달성할 수 있는 것은 이 거대한 "데이터 골드 마인"을 기반으로 합니다. AgiBot World는 GO-1의 "보이지 않는 영웅"이라고 할 수 있습니다. 그렇다면 GO-1 로봇 기반 모델은 실제로 어떻게 수행되며 로봇 산업에 어떤 의미가 있을까요?

공식 발표에 따르면, GO-1은 로봇의 운동 능력을 확장하는 것 외에도 더욱 중요하게 AI 기능을 강화해 로봇의 실용 가치를 크게 높였습니다. .

AGIbot이 공개한 데모 영상에서 GO-1은 강력한 학습 능력을 보여주었습니다. 인간의 작동 영상을 시청함으로써 새로운 기술을 빠르게 습득하고 실제 작업에 효율적으로 적용할 수 있습니다. 예를 들어, 이 영상은 GO-1의 강력한 객체 추적 능력을 보여줍니다. 컵을 무작위로 움직여도 붓는 동작을 정확하게 완료할 수 있습니다. 둘째, GO-1은 매우 강력한 일반화 능력을 보여주었습니다.

학습을 위해 엄청난 양의 데이터가 필요한 기존 모델과 달리 GO-1은 수백 개의 데이터만으로도 빠른 일반화를 달성할 수 있습니다. . 예를 들어, 이 시연에서 GO-1은 물을 붓는 작업을 완료한 후 추가 훈련 없이 빵을 굽고 잼을 바르는 새로운 작업으로 원활하게 전환할 수 있습니다. 이 능력은 GO-1이 다양한 작업에 적응할 수 있음을 보여줄 뿐만 아니라 최소한의 학습이라는 핵심적인 이점을 반영합니다.

동시에 GO-1의 크로스바디 기능은 다중 로봇 협업에 강력한 기술 지원을 제공합니다. AGIbot이 공개한 영상에서는 두 로봇이 함께 일하여 복잡한 작업을 완료하는 장면이 나옵니다. 한 로봇은 프런트 데스크에서 손님을 맞이하고, 다른 로봇은 커피를 만드는 데 집중합니다. 이 협업은 GO-1의 효율성과 적응력을 반영합니다.

기존의 구체화된 모델은 일반적으로 단일 로봇 본체(하드웨어 구체화)를 위해 설계되며, 이는 낮은 데이터 활용도와 제한된 배포라는 두 가지 주요 문제로 이어집니다. 그러나, GO-1은 여러 개의 본체를 활성화하고 다양한 로봇 형태 사이를 빠르게 이동시켜 데이터 활용 효율성을 크게 개선하고 배포 비용을 절감할 수 있습니다. .

GO-1 대형 모델은 AGIbot 데이터 리플로우 시스템의 전체 세트와 함께 사용할 수도 있으며, 실제 실행에서 발생하는 문제 데이터에서 지속적으로 진화하고 학습할 수 있다는 점도 언급할 가치가 있습니다. 이 시스템은 실제 실행 프로세스, 특히 실행 오류나 비정상 상황에서 문제 데이터를 캡처하고 수동 검토 및 모델 최적화를 통해 GO-1의 성능을 지속적으로 개선할 수 있습니다.

예를 들어, 데모 시나리오에서 로봇은 커피잔을 놓을 때 실수를 했습니다. 시스템은 관련 데이터를 즉시 리플로우하고 모델을 타겟팅된 방식으로 최적화하여 다음 작업이 더 정확하도록 합니다.

동시에 GO-1 대형 모델에는 로봇을 위한 새로운 음성 상호작용 방식이 추가되어 사용자가 실제 상황에서 자유롭게 자신의 요구 사항을 표현하는 것이 크게 용이해졌습니다.

GO-1이 놀라운 성능을 보이는 이유는 다른 모델과 다른 아키텍처 때문입니다.

GO-1은 멀티모달 대형 모델(VLM)과 하이브리드 전문가 시스템(MoE)을 결합한 Vision-Language-Latent-Action(ViLLA) 아키텍처를 사용하며 함께 작동하는 세 가지 모듈로 나뉩니다.

VLM(초대형 멀티모달 모델): InternVL-2B를 기반으로 다중 시점 시각, 힘 신호 및 언어 입력을 처리하여 장면 인식 및 명령 이해를 달성합니다.

잠재 플래너: 잠재 행동 토큰을 예측하여 이기종 인터넷 데이터에서 로봇 작업으로 행동 지식을 전달하고, 고품질 실제 기계 데이터가 부족하다는 문제를 해결합니다.

액션 전문가: 확산 모델을 기반으로 높은 빈도와 유연한 액션 시퀀스를 생성하여 정확한 실행을 보장합니다.

업계 관계자들은 다음과 같이 믿는다. thatGO-1모델 아키텍처는 매우 단순하고 혁신성이 크지 않습니다. 

기존 업무, 데이터, 교육방법 등을 통합하는 것이 주 목적이다. 이전 모델과 비교했을 때 유일하게 새로 추가된 기능은 Latent Planner 레이어뿐이며, Transformer 레이어는 몇 개에 불과하고 복잡하지 않습니다.

Digua Robotics의 부사장인 수이 웨이는 AGIbot의 작업이 업계의 고통스러운 점인 데이터 문제를 직접 해결하고 체현된 지능 산업에 매우 좋은 홍보 효과를 미친다고 말했습니다. 그러나 큰 모델과 비교했을 때 여기서 가장 가치 있는 것은 데이터 세트입니다.


보고에 따르면 GO-1의 기본 지원은 AgiBot World라는 초대형 로봇 데이터 세트입니다. AgiBot World 데이터 세트에는 100개의 실제 로봇이 수집한 100만 개 이상의 궤적이 포함되어 있으며, 100개 이상의 실제 시나리오와 217개의 특정 작업을 포괄하는 것으로 알려져 있습니다.


이 데이터 세트는 AgiBot G1 하드웨어 플랫폼에 구축되었으며 100개 이상의 동종 로봇에서 수집되었습니다. 고품질 오픈소스 로봇 작동 데이터를 제공하고 다양한 실제 시나리오에서 어려운 과제를 해결하는 것을 지원합니다. AgiBot World 데이터 세트의 최신 버전에는 총 지속 시간이 2976.4시간인 100만 개의 궤적이 포함되어 있으며 87개의 기술과 106개의 시나리오를 포함합니다.


AgiBot World는 실험실 환경의 기본적인 탁상 작업(예: 움켜잡기, 놓기)을 넘어, 양팔 조작, 능숙한 손, 협업 작업이 필요한 실제 상황에 초점을 맞춥니다.


업계의 기존 데이터 세트(Open X-Embodiment)와 비교했을 때, AGIbot의 데이터는 양이 더 많고 데이터 품질, 표준화 및 일관성이 더 좋습니다. Open X-Embodiment 데이터 세트에는 다양한 형태의 온톨로지가 포함되어 있으며 데이터 형태가 크게 다르기 때문에 모델 학습에 큰 방해가 됩니다.

하지만 AGIbot의 데이터 세트가 어느 정도 규모에 도달했다고 하더라도 여전히 작은 시작점일 뿐이며 로봇의 성능이 크게 향상되지는 않았습니다.
테스트 결과에 따르면 GO-1의 성능은 기존 모델에 비해 크게 향상되었지만, 물 붓기, 테이블 버싱, 음료 재보급 등의 성공률은 여전히 80%에 미치지 못했습니다.


수이웨이는 이 단계에서 이 모델이 로봇 산업의 핵심 병목 현상이 아니라고 말했습니다. 실제 과제는 두 가지 측면에 있습니다. 첫째, 하드웨어의 융합, 예를 들어 그리퍼, 손재주, 촉각 센서와 같은 생체 설계는 아직 표준화되지 않았습니다. 둘째, 본체를 대규모로 홍보할 수 없기 때문에 데이터 양이 항상 부족합니다.


현재 데이터 수집 측면에서 로봇 산업은 주로 가상 현실(VR) 장비, 동형 스트랩 유형 장비, 모션 캡처 장비를 포함한 원격 조작 기술에 의존하고 있습니다. 그러나 로봇 산업의 데이터 수집 비용은 높고 명확한 상업적 가치 지원이 부족하여 데이터 폐쇄 루프의 플라이휠이 빠르게 실행되기 어렵습니다.


비교해보면, 자율주행 산업의 데이터 수집 비용은 거의 무시할 수 있습니다. 온보드 인식 시스템은 데이터를 지속적으로 다시 전송할 수 있어 효율적인 데이터 폐쇄 루프를 형성합니다.


GO-1 출시 영상의 마지막에 모두가 이스터 에그를 발견했습니다. AGIbot Robotics가 다음 구체화된 지능형 로봇 제품을 미리 선보였지만 구체적인 시간은 아직 발표되지 않았습니다. 그러나 AGIbot은 즉시 Weibo에 "내일은 깜짝 놀랄 일이 있을 거야"라고 게시했고, 이 소식은 업계를 다시 한번 기대감으로 가득 채웠습니다.


대형 모델의 부상은 AI 산업의 폭발적인 진화로 이어졌습니다. 사람들은 특히 대형 모델이 로봇 및 체현된 지능 산업을 어떻게 촉진할 수 있는지에 대해 호기심을 가지고 있습니다. Zhiyuanhe 창립자 Zhihuijun의 GO-1은 좋은 시작점인 것 같습니다. 분명히 체현된 AI는 회사가 독립적으로 완성하기 어렵습니다. 오픈 소스 협력만이 로봇 산업의 급속한 진화를 진정으로 이룰 수 있습니다.

게시자 레오 지앙
이전 게시물
당신은 또한 좋아할 수 있습니다

댓글을 남겨주세요:

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다