داستان چیه؟ فرض کن میخوام به یه ربات یا هوش مصنوعی بگم «برو تا اون اتاق قرمز، از کنار مبل رد شو، سمت راست بپیچ». این دقیقاً کاریه که بهش میگن Vision-Language Navigation یا همون مسیریابی بر اساس تصویر و زبان—یعنی هوش مصنوعی با خوندن دستورهای متنی و دیدن محیط، مسیرشو پیدا کنه.
حالا این مسیریابی تو محیطهای واقعی که بهش میگن Continuous Environment (یعنی جایی که محدود نیست و هوش مصنوعی میتونه آزادانه توش حرکت کنه)، مشکلی داره: معمولاً این مدلها وقتی زاویه دوربین یا ارتفاعش کمی تغییر کنه، گیج میشن و میرن اشتباه. یعنی اگه دوربین از یه جای دیگه فیلم بگیره یا کمی بالا پایین بشه، هوش مصنوعی نمیتونه خوب بفهمه کجاست.
تو این مقاله، یه آپدیت جذاب اومده: دانشمندها یه مدل جدید پیشنهاد دادن به اسم V2-VLNCE. این مدل دقیقاً همون داستان قبلیه، فقط دیگه دنبال این نیست که حتماً زاویه دوربین ثابت باشه. یعنی اگه دوربین جابهجا بشه، باز هم هوش مصنوعی باید بتونه مسیرشو درست بره.
مثلاً یه قابلیتی آوردن به اسم View Invariant Learning (VIL)، یعنی یادگیری مقاوم به زاویه دید—در واقع این مدل میخواد مطمئن بشه ربات براش مهم نیست دوربین از چپ گرفته یا راست، بالا یا پایین؛ به هر حال بتونه مسیر رو پیدا کنه!
واسه این کار از یه تکنیک استفاده کردن به اسم contrastive learning. اگه برات سوال شد یعنی چی: contrastive learning یعنی مدل طوری یاد میگیره که بتونه تفاوتهای مهم و شباهتهای کلیدی بین تصاویر مختلف رو درک کنه، مخصوصاً وقتی از زاویههای متفاوت گرفته شدن. اینجوری مدل میفهمه «ای وای! این هنوز همون مبله، فقط دوربین رفته بالاتر!». پس دیگه خیلی گم نمیشه.
یه ابتکار دیگه هم به کار بردن که اسمش teacher-student framework هست. یعنی یه مدل معلم داریم که اطلاعات بیشتری درباره زاویه دید داره (view-dependent teacher)، این معلم اطلاعاتشو به یه مدل دانشآموز یاد میده که از زاویه دید بیتفاوت میشه (view-invariant student). انگار معلم همیشه از راهنماییهای خودش استفاده میکنه تا شاگردش رو قوی کنه و شاگرد هم کمکم مستقل میشه و به زاویه دوربین حساس نیست.
ضمناً کل فرایند رو end-to-end یاد گرفتن، یعنی همه بخشهای مدل رو با هم آموزش دادن و دیگه لازم نیست جدا جدا هر قسمتش رو تمرین بدن—که خب کلی وقت و هزینه صرفهجویی میشه.
حالا بریم سراغ نتایج: امتحانشون رو روی دو دیتاست معروف به اسم R2R-CE و RxR-CE (اینا مجموعه دادههایی هستن واسه سنجش مسیریابی با زبان تو محیطهای مختلف) انجام دادن. جالب اینجاست که مدلشون تونسته روی شاخص Success Rate (یعنی درصد موفقیت تو رسیدن به هدف)، بین ۸ تا ۱۵ درصد بیشتر از بهترین مدلهای موجود فعلی نتیجه بگیره!
یه نکته جالبتر: حتی وقتی مدلشون رو تو شرایط معمولی (یعنی با همون زاویه دوربین استاندارد و بدون تغییر خاص) امتحان کردن، باز هم خیلی وقتها بهتر جواب داده—یعنی دیدن اضافه کردن این روش جدید، عملکرد تو حالت عادی رو خراب نکرده. مخصوصاً تو دیتاست سخت RxR-CE هم مدلی که ساختن تونسته بین همه مدلهایی که بدون نقشه کل فضا کار میکنن (به اینا میگن map-free methods)، بهترین عملکرد رو تو همه معیارها ثبت کنه.
در کل، این روش به این درد میخوره که میتونه بعد از آموزش اصلی به مدلتون اضافه بشه (plug-and-play post-training method). یعنی لازم نیست کل کار رو از اول شروع کنید و مدلهاتون رو به دردسر بندازین! فقط همینو به آموزشهای قبلی اضافه کنید، مدلتون حسابی مقاومتر میشه و دیگه با دیدن محیط از زاویه جدید گیج نمیشه.
خلاصه: اگه دوست داری رباتهات یا هوش مصنوعی مسیریابت تو خونه و محیطهای واقعی، زاویه دوربین یا تغییراتش براش مهم نباشه و همیشه بهترین مسیر رو بره، این تکنیک جدید خیلی میتونه کمکت کنه. حس خوبیه یکی رو داری که بهش میگی «بیا»، اونم هر جایی باشه میتونه راهشو پیدا کنه، نه؟ 😁
منبع: +