اگه همیشه از تا کردن لباسا و جمع کردن حولهها فراری بودی، باید این خبر رو بشنوی! شرکت Figure یه ویدیو از جدیدترین ربات خودش به اسم Figure 02 گذاشته که داره حولهها رو با یه دقت عجیب و دستای مشابه آدمیزادی تا میکنه و مرتب تو سبد میچینه. این ربات یه مغز هوش مصنوعی خفن به اسم Helix داره که کل قصه رو متحول کرده.
داستان از این قراره که Helix در اصل یه مدل Vision-Language-Action یا همون VLAه. حالا VLA یعنی چی؟ خیلی ساده: این مدل هم میتونه اطرافش رو ببینه (بینایی)، هم حرف بفهمه (زبون)، هم کار انجام بده (عمل). دقیقاً مثل یه آدم که میفهمه، میبینه و دست به کار میشه!
توی ویدیو Figure 02 خیلی باحال میره سراغ یه عالمه حوله. یکی یکی برمیدارتشون، صافشون میکنه (نسبتاً صاف، چون هنوز بینقص نیست اما خیلی خوبه)، بعد تا میکنه و توی سبد میذاره. حرکاتش نرم و تقریباً شبیه به حرکت آدمهاست؛ اگه جایی اشتباه تا کنه، خودش درستش میکنه و ادامه میده. کل تمرکزش روی تموم کردن کاره، نه وسواس داشتن رو صددرصد صاف و بیخط بودنش!
خود Helix کلی ویژگی خفن داره. مثلا این ربات میتونه همزمان با یه ربات دیگه زیر نظر همین مدل Helix کار کنه و حتی با هم روی کارهای پیچیده و اشیای ناشناخته همکاری کنن. یعنی فرض کن دو تا ربات باشن، هیچوقت حولهی قبلی رو ندیدن، اما با هم بدون مشکل اونا رو جمع میکنن.
از تکنولوژی پشت این ربات اگه بپرسی، میرسیم به مفهوم VLMs. این VLMs همون Visual-Language Models هستن، یعنی مدلی که تصویر رو میفهمه و با زبان ترکیب میکنه. به خاطر همین Helix اینقدر هوشمنده که حتی اگه وسیلهای رو تا حالا ندیده باشه، باز با دستور صوتی و خیلی طبیعی میتونه اون رو جمع و جور کنه.
یه نکته جالب اینه که Helix فقط با یه مجموعه شبکه عصبی (همون neural network weights) آموزش دیده و کاملاً میتونه کارهای مختلف مثل برداشتن و گذاشتن اشیا، باز و بسته کردن کشو یا یخچال و حتی همکاری با یه ربات دیگه رو انجام بده. این یعنی لازم نیست برای هر کار جدا جدا آموزش داده بشه و همین باعث میشه خیلی سریعتر و راحتتر واسه مصارف واقعی آماده بشه.
یه بخش خفن دیگه اینه که Helix روی پردازندههای کممصرف (GPUهای embedded) اجرا میشه، یعنی هم بهصرفهست، هم میشه توی محیطهای واقعی ازش استفاده کرد. دیگه لازم نیست یه عالم کابل و سر و صدا موقع استفاده ازش تحمل کنی.
تو بحث یادگیری، رباتهای قبلی همیشه واسه هر کار جدید باید کلی برنامهنویسی یا آموزش دستی میدیدن، اما Helix اومده اینو عوض کنه. این ربات با دو بخش اصلی ساخته شده: S1 (که کارهای فیزیکی و سریع مثل گرفتن و گذاشتن رو انجام میده) و S2 (که آدمیه تو اینترنت کلی آموزش دیده، مسیرها و منطقها رو میفهمه و تصمیم میگیره). اینطوری S2 ذهن رباته که همه چی رو تجزیهوتحلیل میکنه و S1 بدنشه که سریع و دقیق حرکت میکنه.
خود فرآیند یادگیری هم خیلی جالبه. حدود ۵۰۰ ساعت حرکاتی که به صورت دستی کنترل شدن (teleoperation) بهش نشون دادن و بعد با یه مدل VLM، خودش توضیحات متنی طبیعی براش ساختن. این باعث شده خیلی زود و بهتر کارهای روزمره رو یاد بگیره.
برای اینکه توی کارهای مختلف سازگار و سریع باشه، Helix با یه ترنسفورمر ۸۰ میلیون پارامتری برای کنترل حرکات و یه مدل VLM هفت میلیارد پارامتری واسه درک زبان و موقعیت، ترکیب شده. حالا ترنسفورمر (transformer) یه نوع معماری شبکه عصبیه که مخصوص پردازش دادههای پیچیده و متنیه – اینو این روزا تو هوش مصنوعی زیاد میشنوی.
در کل، Helix باعث شده رباتها دیگه وابسته به آموزشها یا برنامهنویسیهای همیشگی نباشن و خیلی شبیهتر به رفتار و یادگیری انسانی بشن. الان دیگه داریم کم کم به روزی نزدیک میشیم که جمع کردن لباس و کارای خونه رو میسپریم به ربات و میریم حالش رو میبریم! اگه هنوز باورت نمیشه، همین الان ویدیوهای Figure رو سرچ کن و ببین رباتا چطور دارن حوله تا میکنن!
منبع: +