خب بچهها بذارین یه موضوع خیلی باحال رو توضیح بدم براتون. توی دنیای رباتیک، همیشه یه مشکل بزرگ وجود داره: کمبود داده! یعنی چی؟ یعنی معمولاً نمونههای کافی از حرکتهای رباتی نداریم که بتونیم به رباتها یاد بدیم چجوری اجسام رو جابجا کنن یا مثلاً چیزی رو بردارن و بذارن یه جای دیگه.
حالا یه سری مدل هوش مصنوعی جدید اومدن که اسمشون هست diffusion models. این مدلها میتونن ویدیو یا تصویر بسازن — ولی تا الان بیشترشون با حرکتهای دو بعدی کار میکردن؛ یعنی فقط صفحه رو میدیدن نه عمق رو! اینجاست که مشکل 3D Spatial Ambiguity پیش میاد، یعنی ربات دقیقاً نمیدونه تو فضای سهبعدی باید چی کار کنه.
اینا که گفتم مقدمه بود. برسیم به اصل مطلب! یه تحقیق جدید اومده به اسم ManipDreamer3D که حسابی کار رو جلو برده. این روش جدیده که توی arXiv هم معرفی شده، میتونه بر اساس یه عکس و یه دستور متنی (مثلاً “این لیوان رو از روی میز بردار و بذار تو قفسه”)، یه ویدیوی واقعی و قابل باور از حرکت ربات بسازه که توش همه چی سهبعدیه و انگار واقعاً داره رخ میده!
حالا ManipDreamer3D چی کار میکنه دقیقاً؟ پله به پله بریم جلو:
- اول از روی عکس محیط، با دید یه آدم سوم شخص (یعنی یکی که داره نگاه میکنه از بیرون)، یه نقشه occupancy سهبعدی میسازه. Occupancy Map یعنی یه مدل سهبُعدی از محیط که مشخص میکنه کجاها پر هست و کجاها خالی — دقیقاً مثل اون بازیهایی که باید نقطه خالی پیدا کنی بری جلو!
- بعدش، مسیر دست ربات رو (بهش میگن trajectory یا همون “مسیر حرکت”) بهینه میکنه. این یعنی کوتاهترین راهو پیدا میکنه که به چیزی نخوره یا با چیزی تصادف نکنه.
- حالا با استفاده از یه تکنیک به اسم Latent Editing (یعنی ویرایش تصاویر توی فضای مخفی یا همون latent space که به هوش مصنوعی کمک میکنه خیلی سریع تصویرسازی کنه)، میاد ویدیو رو از عکس اولیه و حرکت بهینه شده میسازه. این ویدیوها دقیقاً نشون میدن ربات باید چه مسیری رو بره.
- همه این کارها رو براساس یه مدل diffusion که مخصوص تبدیل مسیر (trajectory) به ویدیو آموزش دیده، انجام میدن. یعنی این مدل هوشمند یاد گرفته که از یه مسیر سهبعدی، یه ویدیوی واقعی بسازه که انگار ربات زنده هست!
آخرش هم یه چیز خیلی جذاب داره: با این روش، رباتها میتونن کاملاً خودجوش و بدون اینکه آدمها دخالت کنن، ویدیوهای واقعاً جالب و قابل قبول بسازن. آزمایشها هم نشون داده کیفیت تصویری که این روش تولید میکنه، از روشهای قبلی سرتره و خیلی طبیعیتر نشون میده که ربات واقعاً داره حرکت میکنه.
اگه بخوای خلاصه بدونی: ManipDreamer3D کاری کرده که رباتها بتونن خیلی بهتر و هوشمندانهتر، تو ویدیوها اجسام رو جابجا کنن و ما دیگه برای ساختن این ویدیوها نیازی به کلی نمونه واقعی یا دخالت انسان نداریم! کلی دنیای رباتیک و آموزش رباتها رو راحتتر و سریعتر کرده.
منبع: +