ربات انسان‌نمای آمریکایی بالاخره یاد گرفت مثل آدم حوله‌ها رو تا کنه!

اگه همیشه از تا کردن لباسا و جمع کردن حوله‌ها فراری بودی، باید این خبر رو بشنوی! شرکت Figure یه ویدیو از جدیدترین ربات خودش به اسم Figure 02 گذاشته که داره حوله‌ها رو با یه دقت عجیب و دستای مشابه آدمیزادی تا می‌کنه و مرتب تو سبد می‌چینه. این ربات یه مغز هوش مصنوعی خفن به اسم Helix داره که کل قصه رو متحول کرده.

داستان از این قراره که Helix در اصل یه مدل Vision-Language-Action یا همون VLAه. حالا VLA یعنی چی؟ خیلی ساده: این مدل هم می‌تونه اطرافش رو ببینه (بینایی)، هم حرف بفهمه (زبون)، هم کار انجام بده (عمل). دقیقاً مثل یه آدم که می‌فهمه، می‌بینه و دست به کار میشه!

توی ویدیو Figure 02 خیلی باحال می‌ره سراغ یه عالمه حوله. یکی یکی برمی‌دارتشون، صافشون می‌کنه (نسبتاً صاف، چون هنوز بی‌نقص نیست اما خیلی خوبه)، بعد تا می‌کنه و توی سبد می‌ذاره. حرکاتش نرم و تقریباً شبیه به حرکت آدمهاست؛ اگه جایی اشتباه تا کنه، خودش درستش می‌کنه و ادامه میده. کل تمرکزش روی تموم کردن کاره، نه وسواس داشتن رو صددرصد صاف و بی‌خط بودنش!

خود Helix کلی ویژگی خفن داره. مثلا این ربات می‌تونه هم‌زمان با یه ربات دیگه زیر نظر همین مدل Helix کار کنه و حتی با هم روی کارهای پیچیده و اشیای ناشناخته همکاری کنن. یعنی فرض کن دو تا ربات باشن، هیچ‌وقت حوله‌ی قبلی رو ندیدن، اما با هم بدون مشکل اونا رو جمع می‌کنن.

از تکنولوژی پشت این ربات اگه بپرسی، می‌رسیم به مفهوم VLMs. این VLMs همون Visual-Language Models هستن، یعنی مدلی که تصویر رو می‌فهمه و با زبان ترکیب می‌کنه. به خاطر همین Helix اینقدر هوشمنده که حتی اگه وسیله‌ای رو تا حالا ندیده باشه، باز با دستور صوتی و خیلی طبیعی می‌تونه اون رو جمع و جور کنه.

یه نکته جالب اینه که Helix فقط با یه مجموعه شبکه عصبی (همون neural network weights) آموزش دیده و کاملاً می‌تونه کارهای مختلف مثل برداشتن و گذاشتن اشیا، باز و بسته کردن کشو یا یخچال و حتی همکاری با یه ربات دیگه رو انجام بده. این یعنی لازم نیست برای هر کار جدا جدا آموزش داده بشه و همین باعث میشه خیلی سریع‌تر و راحت‌تر واسه مصارف واقعی آماده بشه.

یه بخش خفن دیگه اینه که Helix روی پردازنده‌های کم‌مصرف (GPUهای embedded) اجرا میشه، یعنی هم به‌صرفه‌ست، هم میشه توی محیط‌های واقعی ازش استفاده کرد. دیگه لازم نیست یه عالم کابل و سر و صدا موقع استفاده ازش تحمل کنی.

تو بحث یادگیری، ربات‌های قبلی همیشه واسه هر کار جدید باید کلی برنامه‌نویسی یا آموزش دستی می‌دیدن، اما Helix اومده اینو عوض کنه. این ربات با دو بخش اصلی ساخته شده: S1 (که کارهای فیزیکی و سریع مثل گرفتن و گذاشتن رو انجام میده) و S2 (که آدمیه تو اینترنت کلی آموزش دیده، مسیرها و منطق‌ها رو می‌فهمه و تصمیم‌ می‌گیره). اینطوری S2 ذهن رباته که همه چی رو تجزیه‌وتحلیل می‌کنه و S1 بدنشه که سریع و دقیق حرکت می‌کنه.

خود فرآیند یادگیری هم خیلی جالبه. حدود ۵۰۰ ساعت حرکاتی که به صورت دستی کنترل شدن (teleoperation) بهش نشون دادن و بعد با یه مدل VLM، خودش توضیحات متنی طبیعی براش ساختن. این باعث شده خیلی زود و بهتر کارهای روزمره رو یاد بگیره.

برای اینکه توی کارهای مختلف سازگار و سریع باشه، Helix با یه ترنسفورمر ۸۰ میلیون پارامتری برای کنترل حرکات و یه مدل VLM هفت میلیارد پارامتری واسه درک زبان و موقعیت، ترکیب شده. حالا ترنسفورمر (transformer) یه نوع معماری شبکه عصبیه که مخصوص پردازش داده‌های پیچیده و متنیه – اینو این روزا تو هوش مصنوعی زیاد می‌شنوی.

در کل، Helix باعث شده ربات‌ها دیگه وابسته به آموزش‌ها یا برنامه‌نویسی‌های همیشگی نباشن و خیلی شبیه‌تر به رفتار و یادگیری انسانی بشن. الان دیگه داریم کم کم به روزی نزدیک می‌شیم که جمع کردن لباس و کارای خونه رو می‌سپریم به ربات و میریم حالش رو می‌بریم! اگه هنوز باورت نمیشه، همین الان ویدیوهای Figure رو سرچ کن و ببین رباتا چطور دارن حوله تا می‌کنن!

منبع: +