تا حالا شده فکر کنی این مدلهای هوش مصنوعی که عکس رو میفهمن (یا همون Visual Language Models – یه جور مدل هوش مصنوعی هستش که عکس میدیم، توضیح میده یا جواب سوال میده) چقدر واقعاً قدرت فهم تصویر دارن؟ همه جا حرف از اینه که فلان مدل مثل Gemini 2.5 Pro، Claude Vision 3.7 یا GPT-4o-mini واقعاً کارشون درسته و مثلاً تو فهم نمودارها و جواب دادن به پرسشهای تصویری (VQA یعنی Visual Question Answering) عالی عمل میکنن. اما یه مشکلی هست؛ اخیراً تحقیقات نشون داده که اگه کار از سطح خیلی سادهتر بره بالاتر و بخوایم یکم پیچیدهتر تصویر رو بفهمن—مثلاً لازم باشه اطلاعات رو از جاهای مختلف تصویر جمع کنن و کنار هم بذارن—واقعاً کم میارن!
توی این مطالعه یه تیم تصمیم گرفتن یه آزمون طراحی کنن واسه این مدلها که ببینن آیا میتونن “دوربین چشم انسان” رو شبیهسازی کنن یا نه. خلاصه بگم، این آزمونها به مدلها کاری میدن که مثل ما آدمها باید چشمشون رو اینور اونور بگردونن و اطلاعات از چند نقطه تصویر رو به هم وصل کنن (به این کار میگن nonlocal visual reasoning، یعنی اینکه بتونن دلایل و سرنخها رو از بخشهای جدا یا دور تصویر کنار هم بذارن تا به نتیجه برسن).
حالا چه جور تستهایی گرفتن؟ سه مدل مسئله واسه این مدلها طراحی کردن:
- ادراک مقایسهای (Comparative perception): یعنی مدل باید دو تا تصویر رو همزمان تو ذهنش نگه داره و با هم مقایسه کنه. مثلاً ببینه کدوم دایره بزرگتره یا کدوم خط بلندتره.
- جستجوی ساکادیک (Saccadic search): این یه اصطلاح خیلی باحاله که از کار چشم ما الهام گرفته شده. ساکادیک یعنی حرکات سریع چشم وقتی داریم دنبال چیزی میگردیم. تو این تست، مدل باید بر اساس شواهد موجود، با جهشهای منطقی، هدف رو پیدا کنه. مثلاً مرحلهبهمرحله اطلاعات رو جمع کنه تا به جواب برسه.
- جستجوی خطی و پیوسته (Smooth visual search): این دیگه مثل وقتی که چشم روی یه خط منحنی رد میگیره و آرومآروم دنبال یه نقطه خاص میگرده. مدل باید بتونه مسیر رو پیوسته دنبال کنه.
حالا نتیجه چی شد؟ شاید فکر کنید مدلهایی مثل Gemini یا Claude Vision که همه جا معروف شدن و قبلاً تو تستهای ساده خوش درخشیدن، اینجا هم همه رو ترکوندن. اما متاسفانه اینطور نشد! حتی تو دو تا نوع از این تستها که واقعاً برای آدمها خیلی راحت بودن (تقریباً هیچ خدایی نتونست توش اشتباه کنه)، این مدلها تقریباً اندازه آدمی که «شانسی جواب بده» درست گفتن! یعنی کارشون اصلاً بهتر از حدس تصادفی نبود.
تیم محققها اومدن یه مجموعه آزمون کاملاً ساختاریافته هم درست کردن که بشه دقیق بررسی کرد آیا این مدلها میتونن مثل آدمها الگوریتم بصری اجرا کنن یا نه. نتیجه کلی چی شد؟ با وجود اینکه دقت تصویری خام (یعنی توانایی تشخیص اجزای تصویر، بدون فهمیدن مفهوم) تو این مدلها بهتر شده، اما واقعاً کمبود حس reasoning تصویری رو دارن. یعنی هنوز نمیتونن مثل آدمها اطلاعات مختلف رو از تصویر جمع کنن و دلیل بیارن یا مقایسه کنن.
خلاصه قصه اینکه اگه تا الان فکر میکردی VLMها مثل انسانها تصویر رو میفهمن و از هر زاویه و گوشهای به سرنخها نگاه میکنن، باید بدونی فعلاً «دید تونلی» دارن! (Tunnel vision یعنی فقط یه نقطه رو میبینن و به بقیه توجه ندارن). دیدنشون گسترده نیست و هر چی هم اسم و رسمشون باشه، تو همین تستهای ساده گیر میافتن! پس باید خیلی امیدوار نشیم که بتونن جای مغز و چشم ما رو تو فهم عمقی تصویر بگیرن.
منبع: +