مدل‌های هوش مصنوعی تصویری واقعاً چشم عقاب ندارن! ضعف VLMها تو فهم تصویر رو ببینیم

تا حالا شده فکر کنی این مدل‌های هوش مصنوعی که عکس رو می‌فهمن (یا همون Visual Language Models – یه جور مدل هوش مصنوعی هستش که عکس می‌دیم، توضیح می‌ده یا جواب سوال می‌ده) چقدر واقعاً قدرت فهم تصویر دارن؟ همه جا حرف از اینه که فلان مدل مثل Gemini 2.5 Pro، Claude Vision 3.7 یا GPT-4o-mini واقعاً کارشون درسته و مثلاً تو فهم نمودارها و جواب دادن به پرسش‌های تصویری (VQA یعنی Visual Question Answering) عالی عمل می‌کنن. اما یه مشکلی هست؛ اخیراً تحقیقات نشون داده که اگه کار از سطح خیلی ساده‌تر بره بالاتر و بخوایم یکم پیچیده‌تر تصویر رو بفهمن—مثلاً لازم باشه اطلاعات رو از جاهای مختلف تصویر جمع کنن و کنار هم بذارن—واقعاً کم میارن!

توی این مطالعه یه تیم تصمیم گرفتن یه آزمون طراحی کنن واسه این مدل‌ها که ببینن آیا می‌تونن “دوربین چشم انسان” رو شبیه‌سازی کنن یا نه. خلاصه بگم، این آزمون‌ها به مدل‌ها کاری می‌دن که مثل ما آدم‌ها باید چشمشون رو این‌ور اون‌ور بگردونن و اطلاعات از چند نقطه تصویر رو به هم وصل کنن (به این کار می‌گن nonlocal visual reasoning، یعنی اینکه بتونن دلایل و سرنخ‌ها رو از بخش‌های جدا یا دور تصویر کنار هم بذارن تا به نتیجه برسن).

حالا چه جور تست‌هایی گرفتن؟ سه مدل مسئله واسه این مدل‌ها طراحی کردن:

ادراک مقایسه‌ای (Comparative perception): یعنی مدل باید دو تا تصویر رو هم‌زمان تو ذهنش نگه داره و با هم مقایسه کنه. مثلاً ببینه کدوم دایره بزرگتره یا کدوم خط بلندتره.
جستجوی ساکادیک (Saccadic search): این یه اصطلاح خیلی باحاله که از کار چشم ما الهام گرفته شده. ساکادیک یعنی حرکات سریع چشم وقتی داریم دنبال چیزی می‌گردیم. تو این تست، مدل باید بر اساس شواهد موجود، با جهش‌های منطقی، هدف رو پیدا کنه. مثلاً مرحله‌به‌مرحله اطلاعات رو جمع کنه تا به جواب برسه.
جستجوی خطی و پیوسته (Smooth visual search): این دیگه مثل وقتی که چشم روی یه خط منحنی رد می‌گیره و آروم‌آروم دنبال یه نقطه خاص می‌گرده. مدل باید بتونه مسیر رو پیوسته دنبال کنه.

حالا نتیجه چی شد؟ شاید فکر کنید مدل‌هایی مثل Gemini یا Claude Vision که همه جا معروف شدن و قبلاً تو تست‌های ساده خوش درخشیدن، اینجا هم همه رو ترکوندن. اما متاسفانه این‌طور نشد! حتی تو دو تا نوع از این تست‌ها که واقعاً برای آدم‌ها خیلی راحت بودن (تقریباً هیچ خدایی نتونست توش اشتباه کنه)، این مدل‌ها تقریباً اندازه آدمی که «شانسی جواب بده» درست گفتن! یعنی کارشون اصلاً بهتر از حدس تصادفی نبود.

تیم محقق‌ها اومدن یه مجموعه آزمون کاملاً ساختاریافته هم درست کردن که بشه دقیق بررسی کرد آیا این مدل‌ها می‌تونن مثل آدم‌ها الگوریتم بصری اجرا کنن یا نه. نتیجه کلی چی شد؟ با وجود اینکه دقت تصویری خام (یعنی توانایی تشخیص اجزای تصویر، بدون فهمیدن مفهوم) تو این مدل‌ها بهتر شده، اما واقعاً کمبود حس reasoning تصویری رو دارن. یعنی هنوز نمی‌تونن مثل آدم‌ها اطلاعات مختلف رو از تصویر جمع کنن و دلیل بیارن یا مقایسه کنن.

خلاصه قصه اینکه اگه تا الان فکر می‌کردی VLMها مثل انسان‌ها تصویر رو می‌فهمن و از هر زاویه و گوشه‌ای به سرنخ‌ها نگاه می‌کنن، باید بدونی فعلاً «دید تونلی» دارن! (Tunnel vision یعنی فقط یه نقطه رو می‌بینن و به بقیه توجه ندارن). دیدن‌شون گسترده نیست و هر چی هم اسم و رسمشون باشه، تو همین تست‌های ساده گیر می‌افتن! پس باید خیلی امیدوار نشیم که بتونن جای مغز و چشم ما رو تو فهم عمقی تصویر بگیرن.

منبع: +