بیا یه ذره از مدلهای ویژن-لنگویج (Vision-Language Models یا VLM، همون هوش مصنوعیهای خفن که هم عکس میتونن بفهمن هم متن!) حرف بزنیم. یکی از چیزایی که هنوز حسابی براشون سخته، همین استدلالهای فضاییه. منظورم چیه؟ خب، اینکه مثلاً بفهمن توی یه عکس، فلان شی کنار اون یکیه یا بالای اونه. حالا قراره بهت درباره یه تحقیق بامزه بگم که اومده همین قضیه رو بررسی کرده و کلی راه حل خفن داده!
اولش دانشمندا اومدن سراغ یه روش مرسوم به اسم Chain-of-Thought prompt یا به اختصار CoT. یه توضیح کوچیک: این مدل پِرامپتها یعنی مدل رو دعوت کنیم به مرحله به مرحله فکر کردن و جواب دادن، نه اینکه زودی فقط راه حل رو بگه. مثلاً میگی: «اول فکر کن، بعد نتیجه بگیر». (Chain-of-Thought یعنی زنجیره تفکر – پله پله جواب دادنه!)
ولی نکته جالب اینجاست که اومدن تست کردن دیدن این روشِ ساده نه تنها کمکی به مدل نمیکنه، حتی میتونه بدترش کنه! یعنی مدل گیجتر هم میشه و دقیق بودنش حتا پایین میاد.
ولی امیدتون رو از دست ندین! یه ترفند دیگه کارسازتره: اومدن از صحنههای تصویری یه جور نقشه ساختن که بهش میگن Scene Graph (یعنی گراف صحنه – یه جور نمودار که نشون میده چیزا توی عکس کجان نسبت به هم). بعد به مدل یاد دادن که با این گراف مرحله به مرحله سوال رو حل کنه. نتیجه؟ دقت مدل تو استدلالهای فضایی کلی بهتر شد!
اما تحقیق اینجا تموم نشد. یه روش توپ دیگه هم اومد وسط به اسم Reinforcement Learning (یادگیری تقویتی؛ یعنی یه مدل خودش یاد میگیره و هروقت جواب درست بده، جایزه میگیره تا کم کم قویتر بشه!). اونا از یه مدل خاص به اسم Group Relative Policy Optimization یا GRPO استفاده کردن (یه جور الگوریتم برد-برد توی یادگیری تقویتی که کمک میکنه مدل بهتر تصمیم بگیره). دادههای تست هم از دیتاستی به اسم SAT و برای ارزیابی هم ابزار CVBench رو گرفتن.
یه نکته طلایی اینه که این GRPO رو مقایسه کردن با روش متداول سوپروایزد فاین-تیونینگ یا SFT (یعنی همون فاینتیون کردنِ معمولی، که مدل رو با مثالهای زیاد و جوابهای درست آموزش میدن تا یاد بگیره کارش رو). اتفاق باحال این بود که GRPO نه تنها دقتِ بیشتری توی Pass@1 (این یعنی مدل اولین جوابی که میده خیلی وقتا درسته!) داشت، بلکه تو شرایط عجیب و غریب یا دادههای متفاوت (OOD: Out-Of-Distribution – یعنی دادههایی که مدل قبلاً ندیده)، هم کمتر دمق میشه و قاطی نمیکنه.
توی SFT معمولاً مدل یه جورایی به ظاهر جملهها گیر میده و اگه توی سوال، فرمول کلمات رو عوض کنین، راحت به هم میریزه. مثلاً اگه به جای «closer to» بنویسی «farther from» یا مشابهش. ولی GRPO جونسختتره و بهتر با این تغییرها کنار میاد.
جمعبندی باحال تحقیق اینه که ترکیب یادگیری تقویتی و هکای هوشمندانه توی پرسش (مثل استفاده از Scene Graph) مدلهای هوش مصنوعی رو تو استدلال فضایی قویتر و خوشفکرتر میکنه و باعث میشه تو شرایط ناآشنا نشکنن و قشنگ جواب بدن. ضمناً کل کد تحقیق هم اوپنسورسه و میتونی بری از این آدرس گیتهاب دانلود کنی:
https://github.com/Yvonne511/spatial-vlm-investigator
خلاصه، مدلهای هوش مصنوعی دارن هر روز قویتر و باهوشتر میشن، مخصوصاً وقتی بلد باشیم چطوری بهشون درست درس بدیم و فضا و مکان رو عین بچه آدم بهشون توضیح بدیم!
منبع: +