
Apa yang Terjadi
- Pada tanggal 7 Maret, salah seorang pendiri Zhiyuan Robotics, Peng Zhihui, menggoda, “Sesuatu yang besar akan hadir minggu depan.”
- Internet menjadi heboh. Lebih dari 100.000 orang menonton untuk melihat apa yang sedang dibicarakan.
- Pada tanggal 10 Maret, AGIbot mengungkapkan Operator Jin-1 (GO-1) — model dasar universal berskala besar pertama mereka.
Hasilnya, pada pagi hari tanggal 10 Maret, AGIbot Robotics mengungkapkan jawabannya – Genie Operator-1 (GO-1), model dasar universal berskala besar pertama AGIbot. Dalam video tersebut, robot tersebut dapat memanggang roti, membuat kopi, dan mengantarkan sarapan ke tangan Anda tanpa masalah.
Para pejabat mengklaim bahwa GO-1 tidak hanya memiliki kemampuan generalisasi yang kuat, tetapi juga dapat dengan cepat beradaptasi dengan skenario baru dan tugas baru dengan data yang sangat sedikit atau bahkan nol sampel .Pada akhir tahun 2024, AGIbot meluncurkan AgiBot World, kumpulan data berkualitas tinggi berskala besar yang berisi lebih dari 1 juta lintasan, mencakup 217 tugas, dan melibatkan lima skenario utama. Berdasarkan "tambang emas data" yang besar inilah GO-1 dapat mencapai pelatihan yang efisien dan generalisasi yang luas dalam waktu yang singkat. Dapat dikatakan bahwa AgiBot World adalah "pahlawan tak terlihat" di balik GO-1. Jadi, bagaimana sebenarnya kinerja model dasar robot GO-1, dan apa artinya bagi industri robotika?
Menurut pernyataan resmi, selain memperluas kemampuan atletik robot, GO-1 lebih penting lagi memperkuat kemampuan AI-nya, sehingga sangat meningkatkan nilai praktis robot .

Dalam video demonstrasi yang dirilis oleh AGIbot, GO-1 menunjukkan kemampuan belajar yang kuat: dengan menonton video operasi manusia, ia dapat dengan cepat menguasai keterampilan baru dan menerapkannya secara efisien pada tugas-tugas aktual. Misalnya, video tersebut menunjukkan kemampuan pelacakan objek GO-1 yang kuat: bahkan jika cangkir dipindahkan secara acak, ia masih dapat menyelesaikan tindakan menuang dengan akurat. Kedua, GO-1 telah menunjukkan kemampuan generalisasi yang sangat kuat.
Tidak seperti model tradisional yang membutuhkan sejumlah besar data untuk pelatihan, GO-1 dapat mencapai generalisasi cepat hanya dengan ratusan data Misalnya, dalam demonstrasi, setelah menyelesaikan tugas menuangkan air, GO-1 dapat dengan mudah beralih ke tugas baru memanggang roti dan mengoleskan selai tanpa pelatihan tambahan. Kemampuan ini tidak hanya menunjukkan kemampuan adaptasi GO-1 terhadap berbagai tugas, tetapi juga mencerminkan keunggulan utamanya dalam pembelajaran minimalis.

Pada saat yang sama, kemampuan lintas-tubuh GO-1 memberikan dukungan teknis yang kuat untuk kolaborasi multi-robot. Dalam video yang dirilis oleh AGIbot, terlihat adegan di mana dua robot bekerja sama untuk menyelesaikan tugas yang rumit: satu robot menerima tamu di meja depan, dan robot lainnya fokus membuat kopi. Kolaborasi ini mencerminkan efisiensi dan kemampuan beradaptasi GO-1.
Model perwujudan tradisional biasanya dirancang untuk satu badan robot (Perwujudan Perangkat Keras), yang menyebabkan dua masalah utama: pemanfaatan data yang rendah dan penyebaran yang terbatas. Namun, GO-1 dapat mengaktifkan beberapa badan dan dengan cepat bermigrasi di antara berbagai bentuk robot, secara signifikan meningkatkan efisiensi penggunaan data dan mengurangi biaya penerapan .

Perlu disebutkan bahwa model besar GO-1 juga dapat digunakan dengan seperangkat lengkap sistem reflow data AGIbot, yang dapat terus berkembang dan belajar dari data masalah yang ditemukan dalam eksekusi aktual. Sistem ini dapat menangkap data masalah dari proses eksekusi aktual, terutama kesalahan eksekusi atau situasi abnormal, dan terus meningkatkan kinerja GO-1 melalui peninjauan manual dan pengoptimalan model.
Misalnya, dalam skenario demonstrasi, robot melakukan kesalahan saat meletakkan cangkir kopi. Sistem akan segera mengatur ulang data yang relevan dan mengoptimalkan model secara tepat sasaran untuk memastikan bahwa operasi selanjutnya lebih akurat.
Pada saat yang sama, model besar GO-1 juga menambahkan metode interaksi suara baru untuk robot, yang sangat memudahkan pengguna untuk bebas mengekspresikan kebutuhan mereka dalam skenario nyata.
Alasan di balik kinerja GO-1 yang menakjubkan adalah arsitektur modelnya yang berbeda.
GO-1 menggunakan arsitektur Vision-Language-Latent-Action (ViLLA), yang menggabungkan model besar multimodal (VLM) dan sistem pakar hybrid (MoE) dan dibagi menjadi tiga modul yang bekerja bersama:
VLM (Very Large Multimodal Model): Berdasarkan InternVL-2B, ia memproses visual multi-tampilan, sinyal gaya, dan masukan bahasa untuk mencapai persepsi pemandangan dan pemahaman perintah.
Perencana Laten: Dengan memprediksi Token Tindakan Laten, ia mentransfer pengetahuan tindakan dari data Internet heterogen ke tugas robot, memecahkan masalah kurangnya data mesin nyata berkualitas tinggi.
Pakar Tindakan: Menghasilkan urutan tindakan yang fleksibel dan berfrekuensi tinggi berdasarkan Model Difusi untuk memastikan eksekusi yang tepat.
Orang dalam industri percaya Arsitektur model thatGO-1 sangat sederhana, tidak banyak inovasi.
Ini terutama mengintegrasikan pekerjaan, data, dan metode pelatihan yang ada Dibandingkan dengan model sebelumnya, satu-satunya tambahan baru adalah lapisan Latent Planner, tetapi itu hanya beberapa lapisan Transformer dan tidak rumit.

Sui Wei, wakil presiden Digua Robotics, mengatakan bahwa karya AGIbot secara langsung mengatasi masalah industri – masalah data, dan memiliki efek promosi yang sangat baik pada industri kecerdasan buatan. Namun, dibandingkan dengan model besar, hal yang paling berharga di sini adalah kumpulan data.
Menurut laporan, dukungan mendasar GO-1 adalah kumpulan data robot berskala super besar yang disebut AgiBot World. Diketahui bahwa kumpulan data AgiBot World berisi lebih dari 1 juta lintasan, yang dikumpulkan oleh 100 robot sungguhan, yang mencakup lebih dari 100 skenario dunia nyata dan 217 tugas khusus.
Kumpulan data ini dibangun pada platform perangkat keras AgiBot G1 dan dikumpulkan oleh lebih dari 100 robot homogen. Kumpulan data ini menyediakan data operasi robot sumber terbuka berkualitas tinggi dan mendukung penyelesaian tugas-tugas yang menantang dalam berbagai skenario kehidupan nyata. Versi terbaru dari kumpulan data AgiBot World berisi 1 juta lintasan dengan total durasi 2976,4 jam, yang mencakup 87 keterampilan dan 106 skenario.
Sementara itu, AgiBot World melampaui tugas-tugas meja dasar di lingkungan laboratorium, seperti memegang dan meletakkan, untuk berfokus pada skenario dunia nyata yang melibatkan manipulasi dua lengan, tangan yang cekatan, dan tugas-tugas kolaboratif.
Dibandingkan dengan kumpulan data yang ada di industri (Open X-Embodiment), data AGIbot lebih banyak jumlahnya dan memiliki kualitas data, standarisasi, dan konsistensi yang lebih baik. Kumpulan data Open X-Embodiment berisi berbagai bentuk ontologi, dan bentuk datanya sangat bervariasi, yang akan sangat mengganggu pelatihan model.
Akan tetapi, meskipun kumpulan data AGIbot telah mencapai skala tertentu, itu masih merupakan titik awal yang kecil dan belum menghasilkan peningkatan signifikan dalam kemampuan robot.
Hasil pengujian menunjukkan bahwa kinerja GO-1 jauh lebih baik dibandingkan model sebelumnya, tetapi tingkat keberhasilan dalam menuangkan air, membersihkan meja, dan mengisi kembali minuman masih kurang dari 80%.
Sui Wei mengatakan bahwa pada tahap ini, model bukanlah hambatan utama industri robotika. Tantangan sebenarnya terletak pada dua aspek: pertama, konvergensi perangkat keras, misalnya, desain bionik seperti gripper, tangan cekatan, dan sensor taktil belum distandarisasi; kedua, karena badan utama tidak dapat dipromosikan dalam skala besar, jumlah data selalu tidak mencukupi.
Saat ini, dalam hal pengumpulan data, industri robotika terutama bergantung pada teknologi teleoperasi, termasuk peralatan realitas virtual (VR), peralatan tipe tali isomorfik, dan peralatan penangkapan gerak. Namun, biaya pengumpulan data industri robotika tinggi dan tidak memiliki dukungan nilai komersial yang jelas, yang menyulitkan roda gila data loop tertutup untuk berjalan cepat.
Sebagai perbandingan, biaya pengumpulan data dalam industri kendaraan otonom hampir dapat diabaikan. Sistem persepsi di dalam kendaraan dapat terus menerus mengirimkan data kembali, membentuk siklus data tertutup yang efisien.
Di akhir video peluncuran GO-1, semua orang menemukan telur Paskah – AGIbot Robotics mempratinjau produk robot cerdas yang akan segera diluncurkan, meskipun waktu spesifiknya belum diumumkan. Namun, AGIbot segera memposting di Weibo bahwa “akan ada kejutan besok”, dan berita ini langsung memenuhi industri dengan harapan lagi.
Munculnya model-model besar telah menyebabkan evolusi eksplosif dalam industri AI. Orang-orang khususnya ingin tahu tentang bagaimana model-model besar dapat mempromosikan industri robotika dan kecerdasan buatan. GO-1 milik pendiri Zhiyuanhe, Zhihuijun, tampaknya menjadi titik awal yang baik. Jelas, AI buatan sendiri sulit diselesaikan oleh perusahaan secara mandiri. Hanya kerja sama sumber terbuka yang benar-benar dapat mencapai evolusi pesat industri robotika.
Berlangganan untuk Mendapatkan Pembaruan Posting Blog Terbaru
Tinggalkan Komentar Anda: