ManipDreamer3D: ویدیوهای واقعی‌تر برای ربات‌ها با حرکت سه‌بعدی!

خب بچه‌ها بذارین یه موضوع خیلی باحال رو توضیح بدم براتون. توی دنیای رباتیک، همیشه یه مشکل بزرگ وجود داره: کمبود داده! یعنی چی؟ یعنی معمولاً نمونه‌های کافی از حرکت‌های رباتی نداریم که بتونیم به ربات‌ها یاد بدیم چجوری اجسام رو جابجا کنن یا مثلاً چیزی رو بردارن و بذارن یه جای دیگه.

حالا یه سری مدل هوش مصنوعی جدید اومدن که اسمشون هست diffusion models. این مدل‌ها می‌تونن ویدیو یا تصویر بسازن — ولی تا الان بیشترشون با حرکت‌های دو بعدی کار می‌کردن؛ یعنی فقط صفحه رو می‌دیدن نه عمق رو! اینجاست که مشکل 3D Spatial Ambiguity پیش میاد، یعنی ربات دقیقاً نمی‌دونه تو فضای سه‌بعدی باید چی کار کنه.

اینا که گفتم مقدمه بود. برسیم به اصل مطلب! یه تحقیق جدید اومده به اسم ManipDreamer3D که حسابی کار رو جلو برده. این روش جدیده که توی arXiv هم معرفی شده، می‌تونه بر اساس یه عکس و یه دستور متنی (مثلاً “این لیوان رو از روی میز بردار و بذار تو قفسه”)، یه ویدیوی واقعی و قابل باور از حرکت ربات بسازه که توش همه چی سه‌بعدیه و انگار واقعاً داره رخ می‌ده!

حالا ManipDreamer3D چی کار می‌کنه دقیقاً؟ پله به پله بریم جلو:

اول از روی عکس محیط، با دید یه آدم سوم شخص (یعنی یکی که داره نگاه می‌کنه از بیرون)، یه نقشه occupancy سه‌بعدی می‌سازه. Occupancy Map یعنی یه مدل سه‌بُعدی از محیط که مشخص می‌کنه کجاها پر هست و کجاها خالی — دقیقاً مثل اون بازی‌هایی که باید نقطه خالی پیدا کنی بری جلو!
بعدش، مسیر دست ربات رو (بهش می‌گن trajectory یا همون “مسیر حرکت”) بهینه می‌کنه. این یعنی کوتاه‌ترین راهو پیدا می‌کنه که به چیزی نخوره یا با چیزی تصادف نکنه.
حالا با استفاده از یه تکنیک به اسم Latent Editing (یعنی ویرایش تصاویر توی فضای مخفی یا همون latent space که به هوش مصنوعی کمک می‌کنه خیلی سریع تصویرسازی کنه)، میاد ویدیو رو از عکس اولیه و حرکت بهینه شده می‌سازه. این ویدیوها دقیقاً نشون می‌دن ربات باید چه مسیری رو بره.
همه این کارها رو براساس یه مدل diffusion که مخصوص تبدیل مسیر (trajectory) به ویدیو آموزش دیده، انجام می‌دن. یعنی این مدل هوشمند یاد گرفته که از یه مسیر سه‌بعدی، یه ویدیوی واقعی بسازه که انگار ربات زنده هست!

آخرش هم یه چیز خیلی جذاب داره: با این روش، ربات‌ها می‌تونن کاملاً خودجوش و بدون اینکه آدم‌ها دخالت کنن، ویدیوهای واقعاً جالب و قابل قبول بسازن. آزمایش‌ها هم نشون داده کیفیت تصویری که این روش تولید می‌کنه، از روش‌های قبلی سرتره و خیلی طبیعی‌تر نشون می‌ده که ربات واقعاً داره حرکت می‌کنه.

اگه بخوای خلاصه بدونی: ManipDreamer3D کاری کرده که ربات‌ها بتونن خیلی بهتر و هوشمندانه‌تر، تو ویدیوها اجسام رو جابجا کنن و ما دیگه برای ساختن این ویدیوها نیازی به کلی نمونه واقعی یا دخالت انسان نداریم! کلی دنیای رباتیک و آموزش ربات‌ها رو راحت‌تر و سریع‌تر کرده.

منبع: +