چطور مدل‌های هوش مصنوعی رو به فکر فضا و مکان وادار کنیم؟ با تُرفندهای جالب و یادگیری تقویتی!

Fall Back

بیا یه ذره از مدل‌های ویژن-لنگویج (Vision-Language Models یا VLM، همون هوش مصنوعی‌های خفن که هم عکس می‌تونن بفهمن هم متن!) حرف بزنیم. یکی‌ از چیزایی که هنوز حسابی براشون سخته، همین استدلال‌های فضاییه. منظورم چیه؟ خب، اینکه مثلاً بفهمن توی یه عکس، فلان شی کنار اون یکیه یا بالای اونه. حالا قراره بهت درباره یه تحقیق بامزه بگم که اومده همین قضیه رو بررسی کرده و کلی راه حل خفن داده!

اولش دانشمندا اومدن سراغ یه روش مرسوم به اسم Chain-of-Thought prompt یا به اختصار CoT. یه توضیح کوچیک: این مدل پِرامپت‌ها یعنی مدل رو دعوت کنیم به مرحله به مرحله فکر کردن و جواب دادن، نه اینکه زودی فقط راه حل رو بگه. مثلاً میگی: «اول فکر کن، بعد نتیجه بگیر». (Chain-of-Thought یعنی زنجیره تفکر – پله پله جواب دادنه!)

ولی نکته جالب اینجاست که اومدن تست کردن دیدن این روشِ ساده نه تنها کمکی به مدل نمی‌کنه، حتی می‌تونه بدترش کنه! یعنی مدل گیج‌تر هم میشه و دقیق بودنش حتا پایین میاد.

ولی امیدتون رو از دست ندین! یه ترفند دیگه کارسازتره: اومدن از صحنه‌های تصویری یه جور نقشه ساختن که بهش میگن Scene Graph (یعنی گراف صحنه – یه جور نمودار که نشون میده چیزا توی عکس کجان نسبت به هم). بعد به مدل یاد دادن که با این گراف مرحله به مرحله سوال رو حل کنه. نتیجه؟ دقت مدل تو استدلال‌های فضایی کلی بهتر شد!

اما تحقیق اینجا تموم نشد. یه روش توپ دیگه هم اومد وسط به اسم Reinforcement Learning (یادگیری تقویتی؛ یعنی یه مدل خودش یاد می‌گیره و هروقت جواب درست بده، جایزه می‌گیره تا کم کم قوی‌تر بشه!). اونا از یه مدل خاص به اسم Group Relative Policy Optimization یا GRPO استفاده کردن (یه جور الگوریتم برد-برد توی یادگیری تقویتی که کمک می‌کنه مدل بهتر تصمیم بگیره). داده‌های تست هم از دیتاستی به اسم SAT و برای ارزیابی هم ابزار CVBench رو گرفتن.

یه نکته طلایی اینه که این GRPO رو مقایسه کردن با روش متداول سوپروایزد فاین-تیونینگ یا SFT (یعنی همون فاین‌تیون کردنِ معمولی، که مدل رو با مثال‌های زیاد و جواب‌های درست آموزش میدن تا یاد بگیره کارش رو). اتفاق باحال این بود که GRPO نه تنها دقتِ بیشتری توی Pass@1 (این یعنی مدل اولین جوابی که می‌ده خیلی وقتا درسته!) داشت، بلکه تو شرایط عجیب و غریب یا داده‌های متفاوت (OOD: Out-Of-Distribution – یعنی داده‌هایی که مدل قبلاً ندیده)، هم کمتر دمق میشه و قاطی نمی‌کنه.

توی SFT معمولاً مدل یه جورایی به ظاهر جمله‌ها گیر می‌ده و اگه توی سوال، فرمول کلمات رو عوض کنین، راحت به هم می‌ریزه. مثلاً اگه به جای «closer to» بنویسی «farther from» یا مشابهش. ولی GRPO جون‌سخت‌تره و بهتر با این تغییرها کنار میاد.

جمع‌بندی باحال تحقیق اینه که ترکیب یادگیری تقویتی و هکای هوشمندانه توی پرسش (مثل استفاده از Scene Graph) مدل‌های هوش مصنوعی رو تو استدلال فضایی قوی‌تر و خوش‌فکرتر می‌کنه و باعث میشه تو شرایط ناآشنا نشکنن و قشنگ جواب بدن. ضمناً کل کد تحقیق هم اوپن‌سورسه و می‌تونی بری از این آدرس گیت‌هاب دانلود کنی:
https://github.com/Yvonne511/spatial-vlm-investigator

خلاصه، مدل‌های هوش مصنوعی دارن هر روز قوی‌تر و باهوش‌تر می‌شن، مخصوصاً وقتی بلد باشیم چطوری بهشون درست درس بدیم و فضا و مکان رو عین بچه آدم بهشون توضیح بدیم!

منبع: +