یادگیری مقاوم به زاویه دید: هوش مصنوعی توی مسیر‌یابی تصویری-متنی دیگه گیج نمی‌شه!

داستان چیه؟ فرض کن میخوام به یه ربات یا هوش مصنوعی بگم «برو تا اون اتاق قرمز، از کنار مبل رد شو، سمت راست بپیچ». این دقیقاً کاریه که بهش میگن Vision-Language Navigation یا همون مسیر‌یابی بر اساس تصویر و زبان—یعنی هوش مصنوعی با خوندن دستورهای متنی و دیدن محیط، مسیرشو پیدا کنه.

حالا این مسیر‌یابی تو محیط‌های واقعی که بهش می‌گن Continuous Environment (یعنی جایی که محدود نیست و هوش مصنوعی می‌تونه آزادانه توش حرکت کنه)، مشکلی داره: معمولاً این مدل‌ها وقتی زاویه دوربین یا ارتفاعش کمی تغییر کنه، گیج می‌شن و میرن اشتباه. یعنی اگه دوربین از یه جای دیگه فیلم بگیره یا کمی بالا پایین بشه، هوش مصنوعی نمی‌تونه خوب بفهمه کجاست.

تو این مقاله، یه آپدیت جذاب اومده: دانشمندها یه مدل جدید پیشنهاد دادن به اسم V2-VLNCE. این مدل دقیقاً همون داستان قبلیه، فقط دیگه دنبال این نیست که حتماً زاویه دوربین ثابت باشه. یعنی اگه دوربین جا‌به‌جا بشه، باز هم هوش مصنوعی باید بتونه مسیرشو درست بره.

مثلاً یه قابلیتی آوردن به اسم View Invariant Learning (VIL)، یعنی یادگیری مقاوم به زاویه دید—در واقع این مدل می‌خواد مطمئن بشه ربات براش مهم نیست دوربین از چپ گرفته یا راست، بالا یا پایین؛ به هر حال بتونه مسیر رو پیدا کنه!

واسه این کار از یه تکنیک استفاده کردن به اسم contrastive learning. اگه برات سوال شد یعنی چی: contrastive learning یعنی مدل طوری یاد می‌گیره که بتونه تفاوت‌های مهم و شباهت‌های کلیدی بین تصاویر مختلف رو درک کنه، مخصوصاً وقتی از زاویه‌های متفاوت گرفته شدن. اینجوری مدل می‌فهمه «ای وای! این هنوز همون مبله، فقط دوربین رفته بالاتر!». پس دیگه خیلی گم نمی‌شه.

یه ابتکار دیگه هم به کار بردن که اسمش teacher-student framework هست. یعنی یه مدل معلم داریم که اطلاعات بیشتری درباره زاویه دید داره (view-dependent teacher)، این معلم اطلاعاتشو به یه مدل دانش‌آموز یاد میده که از زاویه دید بی‌تفاوت می‌شه (view-invariant student). انگار معلم همیشه از راهنمایی‌های خودش استفاده می‌کنه تا شاگردش رو قوی کنه و شاگرد هم کم‌کم مستقل می‌شه و به زاویه دوربین حساس نیست.

ضمناً کل فرایند رو end-to-end یاد گرفتن، یعنی همه بخش‌های مدل رو با هم آموزش دادن و دیگه لازم نیست جدا جدا هر قسمتش رو تمرین بدن—که خب کلی وقت و هزینه صرفه‌جویی میشه.

حالا بریم سراغ نتایج: امتحانشون رو روی دو دیتاست معروف به اسم R2R-CE و RxR-CE (اینا مجموعه داده‌هایی هستن واسه سنجش مسیر‌یابی با زبان تو محیط‌های مختلف) انجام دادن. جالب اینجاست که مدلشون تونسته روی شاخص Success Rate (یعنی درصد موفقیت تو رسیدن به هدف)، بین ۸ تا ۱۵ درصد بیشتر از بهترین مدل‌های موجود فعلی نتیجه بگیره!

یه نکته جالب‌تر: حتی وقتی مدلشون رو تو شرایط معمولی (یعنی با همون زاویه دوربین استاندارد و بدون تغییر خاص) امتحان کردن، باز هم خیلی وقت‌ها بهتر جواب داده—یعنی دیدن اضافه کردن این روش جدید، عملکرد تو حالت عادی رو خراب نکرده. مخصوصاً تو دیتاست سخت RxR-CE هم مدلی که ساختن تونسته بین همه مدل‌هایی که بدون نقشه کل فضا کار می‌کنن (به اینا میگن map-free methods)، بهترین عملکرد رو تو همه معیارها ثبت کنه.

در کل، این روش به این درد می‌خوره که می‌تونه بعد از آموزش اصلی به مدل‌تون اضافه بشه (plug-and-play post-training method). یعنی لازم نیست کل کار رو از اول شروع کنید و مدل‌هاتون رو به دردسر بندازین! فقط همینو به آموزش‌های قبلی اضافه کنید، مدل‌تون حسابی مقاوم‌تر میشه و دیگه با دیدن محیط از زاویه‌ جدید گیج نمی‌شه.

خلاصه: اگه دوست داری ربات‌هات یا هوش مصنوعی مسیر‌یابت تو خونه و محیط‌های واقعی، زاویه دوربین یا تغییراتش براش مهم نباشه و همیشه بهترین مسیر رو بره، این تکنیک جدید خیلی می‌تونه کمکت کنه. حس خوبیه یکی رو داری که بهش میگی «بیا»، اونم هر جایی باشه می‌تونه راهشو پیدا کنه، نه؟ 😁

منبع: +