Was ist passiert?

  • Am 7. März machte Peng Zhihui, Mitbegründer von Zhiyuan Robotics, eine Andeutung: „Nächste Woche kommt etwas Großes.“
  • Das Internet tobte. Über 100.000 Menschen schalteten ein, um zu erfahren, was es mit dem ganzen Hype auf sich hatte.
  • Am 10. März enthüllte AGIbot Genie Operator-1 (GO-1) – ihr erstes groß angelegtes, universelles Basismodell.

Am Morgen des 10. März präsentierte AGIbot Robotics die Lösung: Genie Operator-1 (GO-1), AGIbots erstes universelles Basismodell im Großformat. Im Video kann der Roboter problemlos toasten, Kaffee kochen und Frühstück servieren.

Beamte behaupten, dass GO-1 verfügt nicht nur über starke Generalisierungsfähigkeiten, sondern kann sich auch schnell an neue Szenarien und neue Aufgaben mit sehr wenigen Daten oder sogar null Stichproben anpassen Bereits Ende 2024 veröffentlichte AGIbot AgiBot World, einen umfangreichen, hochwertigen Datensatz mit über einer Million Trajektorien, der 217 Aufgaben und fünf Hauptszenarien abdeckt. Basierend auf dieser riesigen „Datengoldmine“ kann GO-1 in kurzer Zeit effizientes Training und umfassende Generalisierung erreichen. Man könnte sagen, AgiBot World ist der „unsichtbare Held“ hinter GO-1. Wie funktioniert das GO-1-Roboter-Basismodell tatsächlich und welche Bedeutung hat es für die Robotikbranche?

Offiziellen Angaben zufolge Zusätzlich zur Erweiterung der sportlichen Fähigkeiten des Roboters stärkt GO-1 vor allem seine KI-Fähigkeiten und erhöht dadurch den praktischen Wert des Roboters erheblich. .

Im von AGIbot veröffentlichten Demonstrationsvideo zeigte GO-1 eine ausgeprägte Lernfähigkeit: Durch das Ansehen von Videos menschlicher Bedienung kann er sich neue Fähigkeiten schnell aneignen und diese effizient auf reale Aufgaben anwenden. Das Video zeigt beispielsweise die leistungsstarke Objektverfolgungsfähigkeit von GO-1: Selbst wenn die Tasse zufällig bewegt wird, kann er den Ausgießvorgang präzise abschließen. Darüber hinaus hat GO-1 sehr starke Generalisierungsfähigkeiten bewiesen.

Im Gegensatz zu herkömmlichen Modellen, die große Datenmengen für das Training benötigen, GO-1 kann mit nur Hunderten von Daten eine schnelle Generalisierung erreichen In der Demonstration konnte GO-1 beispielsweise nach Abschluss der Aufgabe „Wasser einschenken“ ohne zusätzliches Training nahtlos zu einer neuen Aufgabe wechseln, nämlich Brot toasten und Marmelade verteilen. Diese Fähigkeit demonstriert nicht nur die Anpassungsfähigkeit von GO-1 an vielfältige Aufgaben, sondern spiegelt auch seinen zentralen Vorteil des minimalistischen Lernens wider.

Gleichzeitig bietet die Cross-Body-Fähigkeit des GO-1 eine starke technische Unterstützung für die Zusammenarbeit mehrerer Roboter. Das von AGIbot veröffentlichte Video zeigt eine Szene, in der zwei Roboter zusammenarbeiten, um eine komplexe Aufgabe zu erledigen: Ein Roboter empfängt Gäste an der Rezeption, der andere Roboter kocht Kaffee. Diese Zusammenarbeit spiegelt die Effizienz und Anpassungsfähigkeit des GO-1 wider.

Traditionelle verkörperte Modelle sind in der Regel für einen einzelnen Roboterkörper (Hardware-Verkörperung) konzipiert, was zu zwei Hauptproblemen führt: geringe Datennutzung und eingeschränkte Einsatzmöglichkeiten. GO-1 ermöglicht die Nutzung mehrerer Körper und die schnelle Migration zwischen verschiedenen Roboterformen, wodurch die Effizienz der Datennutzung deutlich verbessert und die Bereitstellungskosten gesenkt werden. .

Erwähnenswert ist, dass das große GO-1-Modell auch mit einem vollständigen Satz von AGIbot-Datenrückflusssystemen verwendet werden kann, die sich kontinuierlich weiterentwickeln und aus den bei der tatsächlichen Ausführung auftretenden Problemdaten lernen können. Dieses System kann Problemdaten aus dem tatsächlichen Ausführungsprozess erfassen, insbesondere Ausführungsfehler oder abnormale Situationen, und die Leistung von GO-1 durch manuelle Überprüfung und Modelloptimierung kontinuierlich verbessern.

Im Demonstrationsszenario machte der Roboter beispielsweise beim Abstellen einer Kaffeetasse einen Fehler. Das System führt umgehend einen Reflow der relevanten Daten durch und optimiert das Modell gezielt, um eine höhere Genauigkeit beim nächsten Vorgang zu gewährleisten.

Gleichzeitig verfügt das große Modell GO-1 auch über eine neue Methode zur Sprachinteraktion für den Roboter, die es den Benutzern erheblich erleichtert, ihre Bedürfnisse in realen Szenarien frei auszudrücken.

Der Grund für die erstaunliche Leistung des GO-1 ist seine unterschiedliche Modellarchitektur.

GO-1 verwendet die Vision-Language-Latent-Action (ViLLA)-Architektur, die ein multimodales Großmodell (VLM) und ein hybrides Expertensystem (MoE) kombiniert und in drei zusammenarbeitende Module unterteilt ist:

VLM (Very Large Multimodal Model): Basierend auf InternVL-2B verarbeitet es visuelle Multi-View-, Kraftsignale und Spracheingaben, um Szenenwahrnehmung und Befehlsverständnis zu erreichen.

Latent Planner: Durch die Vorhersage latenter Aktionstoken überträgt er Aktionswissen aus heterogenen Internetdaten auf Roboteraufgaben und löst so das Problem unzureichender, hochwertiger realer Maschinendaten.

Action Expert: Generiert hochfrequente und flexible Aktionssequenzen basierend auf dem Diffusionsmodell, um eine präzise Ausführung zu gewährleisten.

Branchenkenner glauben Die Architektur des Modells von GO-1 ist sehr einfach und weist nicht viele Neuerungen auf. 

Es integriert hauptsächlich bestehende Arbeits-, Daten- und Trainingsmethoden .Im Vergleich zum Vorgängermodell ist die einzige Neuerung eine Schicht Latent Planner, es handelt sich jedoch nur um wenige Schichten Transformer und es ist nicht kompliziert.

Sui Wei, Vizepräsident von Digua Robotics, sagte, dass die Arbeit von AGIbot direkt den Schwachpunkt der Branche – Datenprobleme – angeht und einen sehr positiven Einfluss auf die Branche der verkörperten Intelligenz hat. Im Vergleich zum großen Modell sei der Datensatz hier jedoch der größte Wert.


Berichten zufolge basiert GO-1 auf einem riesigen Roboterdatensatz namens AgiBot World. Dieser Datensatz enthält über eine Million Trajektorien, die von 100 echten Robotern erfasst wurden und mehr als 100 reale Szenarien und 217 spezifische Aufgaben abdecken.


Der Datensatz basiert auf der AgiBot G1-Hardwareplattform und wird von über 100 homogenen Robotern erfasst. Er liefert hochwertige Open-Source-Roboterbetriebsdaten und unterstützt die Lösung anspruchsvoller Aufgaben in einer Vielzahl realer Szenarien. Die neueste Version des AgiBot World-Datensatzes enthält 1 Million Trajektorien mit einer Gesamtdauer von 2976,4 Stunden und deckt 87 Fähigkeiten und 106 Szenarien ab.


Mittlerweile geht AgiBot World über grundlegende Tischaufgaben in Laborumgebungen wie Greifen und Platzieren hinaus und konzentriert sich auf reale Szenarien, die die Manipulation mit beiden Armen, geschickte Hände und kollaborative Aufgaben beinhalten.


Verglichen mit dem in der Branche vorhandenen Datensatz (Open X-Embodiment) sind die Daten von AGIbot umfangreicher und weisen eine bessere Datenqualität, Standardisierung und Konsistenz auf. Der Open X-Embodiment-Datensatz enthält viele verschiedene Formen von Ontologien, und die Datenformen variieren stark, was das Training des Modells erheblich beeinträchtigen wird.

Obwohl der Datensatz von AGIbot eine gewisse Größe erreicht hat, handelt es sich dabei immer noch nur um einen kleinen Ausgangspunkt und hat nicht zu einer signifikanten Verbesserung der Fähigkeiten des Roboters geführt.
Die Testergebnisse zeigen, dass die Leistung des GO-1 im Vergleich zu früheren Modellen erheblich verbessert wurde, die Erfolgsrate beim Einschenken von Wasser, Abräumen der Tische und Auffüllen von Getränken ist jedoch immer noch geringer als beim 80%.


Sui Wei sagte, dass das Modell derzeit nicht der zentrale Engpass der Robotikbranche sei. Die wahren Herausforderungen lägen in zweierlei Hinsicht: Erstens in der Konvergenz der Hardware, beispielsweise seien bionische Designs wie Greifer, geschickte Hände und taktile Sensoren noch nicht standardisiert; zweitens sei die Datenmenge immer unzureichend, da der Hauptteil nicht in großem Maßstab gefördert werden könne.


Derzeit setzt die Robotikbranche bei der Datenerfassung hauptsächlich auf Teleoperationstechnologie, darunter Virtual-Reality-Geräte (VR), isomorphe Gurtgeräte und Motion-Capture-Geräte. Die Kosten für die Datenerfassung in der Robotikbranche sind jedoch hoch und es fehlt an einer klaren kommerziellen Wertschöpfung, was einen schnellen Betrieb des Schwungrads des geschlossenen Datenkreislaufs erschwert.


Im Vergleich dazu sind die Kosten für die Datenerfassung im Bereich des autonomen Fahrens nahezu vernachlässigbar. Das integrierte Wahrnehmungssystem kann kontinuierlich Daten zurücksenden und so einen effizienten geschlossenen Datenkreislauf bilden.


Am Ende des GO-1-Release-Videos entdeckten alle ein Easter Egg: AGIbot Robotics gab eine Vorschau auf das nächste intelligente Roboterprodukt, obwohl der genaue Zeitpunkt noch nicht bekannt gegeben wurde. AGIbot postete jedoch sofort auf Weibo, dass es „morgen eine Überraschung geben wird“, was die Branche sofort wieder mit Spannung erwartete.


Der Aufstieg großer Modelle hat zu einer rasanten Entwicklung der KI-Branche geführt. Besonders gespannt ist man darauf, wie große Modelle die Robotik und die verkörperte Intelligenz voranbringen können. Der GO-1 von Zhiyuanhe-Gründer Zhihuijun scheint ein guter Ausgangspunkt zu sein. Offensichtlich ist es schwierig, verkörperte KI von einem Unternehmen allein zu realisieren. Nur Open-Source-Kooperationen können die rasante Entwicklung der Robotikbranche wirklich vorantreiben.

Veröffentlicht von Leo Jiang
VORHERIGER BEITRAG
Das gefällt dir vielleicht auch

Hinterlassen Sie Ihren Kommentar:

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert