راز و رمز کپشن‌نویسی برای عکس‌ها با مدل‌های بزرگ: همه چی درباره تنظیمات جادویی In-Context!

خب بچه‌ها، امروز میخوام درباره موضوع خیلی داغ و جالبی براتون بگم که احتمالاً اسمش به گوشتون نخورده: ماجراهای In-Context Learning (یا به اختصار ICL) تو دنیای کپشن‌نویسی برای عکس‌ها!

اگه با هوش مصنوعی‌های جدید حال کردین، احتمالاً با مدل‌های زبونی بزرگ مثل GPTها که بهشون میگن LLM (Large Language Models، یعنی مدل‌هایی که کلی داده بلدن و می‌تونن براتون جواب بنویسن) آشنا شدین. حالا جالبیش اینجاست که این داستان فقط محدود به متن نیست. دانشمندا برای تصاویر هم اومدن مدل‌های چندرسانه‌ای (یا همون Multimodal Models) ساختن که به انگلیسی بهشون میگن LMM. یعنی مدلایی که هم با عکس کار می‌کنن هم با متن.

حالا چیه این In-Context Learning؟ خلاصه و خودمونی بخوام بگم، یعنی مدل به جای اینکه فقط یک بار آموزش ببینه و بس، می‌تونه وقتی ورودی جدید می‌گیره با چندتا مثال (که بهش میگن In-Context Examples یا ICEs) هوشمندانه‌تر رفتار کنه، انگار تازه داره از مثال‌ها یاد می‌گیره یا خودش رو با اون‌ها تنظیم می‌کنه. فرض کن بجای اینکه به مادرتون بگین «بیا کیک بپز»، بهش دستور پخت و چندتا نمونه کیک نشون بدین، احتمالاً بهتر درمیاد!

تو حوزه پردازش زبان (NLP)، کلی تحقیق نشون داده ICL خیلی جواب میده و کمک می‌کنه مدل‌ها هوشمندتر بشن. دانشمندا دیدن این ایده تو مدل‌های چندرسانه‌ای هم ممکنه کار کنه اما هنوز خیلی روش کار نکردن — مخصوصاً درباره این که چه جوری این مثال‌ها یا ICEها رو بچینیم که مدل بهترین خروجی رو بده، یا همون «تنظیمات دمو» که داستان اصلی این مقاله‌ست.

خب حالا این تیم تو مقاله‌شون اومدن دو تا زاویه متفاوت رو بررسی کردن:

۱. بررسی بیرونی یا خارجی: چطوری میشه این مثال‌های داخل کانتکست رو برای کپشن‌نویسی تصویر بچینیم و چه چیزی مهمه؟ سه بعد مختلف بررسی شده:

چندتا مثال بدیم (بهش میگن shot number، همون چند-نمونه‌ای)،
چجوری تصویرها رو انتخاب کنیم (image retrieval، یعنی کدوم عکس‌ها رو به مدل نشون بدیم)،
و چی بنویسیم براشون (caption assignment، یعنی کپشن گذاشتن برای اون عکس‌ها).

برای اینکه کار رو جدی بگیرن، از چند تا معیار ارزشیابی مختلف هم استفاده کردن تا بفهمن کدوم تنظیمات اثر بیشتری دارن — اینجوری دیگه حرفشون از روی هوا نیست!

۲. بررسی درونی یا داخلی:
اومدن داخل مغز مدل رو زیر ذره‌بین گذاشتن! دیدن که مدل چطوری توجه می‌کنه (attention، یه مفهومی تو شبکه‌های عصبیه که مشخص می‌کنه مدل روی کدوم قسمت تصویر یا متن بیشتر تمرکز کرده)، و کلی معیار نوآورانه (جدید و باحال) ساختن تا رفتار مدل رو موشکافی کنن. خلاصه حوصله‌شون سر نرفته و یه گوشه کوچیک ماجرا رو نگاه نکردن!

علاوه بر این، بررسی کردن ببینن میشه با همین تکنیکای Attenton، مدل رو سریع‌تر کرد و حجمش رو کمتر کرد (که بشه راحت‌تر روی دستگاه‌های معمولی‌تر اجراش کرد). یه جورایی دنبال راهی بودن که مدل هم باهوش بمونه هم خوش‌فرم‌تر بشه!

یه نکته مهم دیگه اینه که اومدن چندتا مدل با معماری و آموزش یکسان رو با هم مقایسه کردن و دیدن حتی با ظاهر شبیه، خروجی‌هاشون فرق داره. دلیلشم تو تفاوت داده‌های پیش‌آموزش مدل‌ها بوده (pre-training data features، یعنی خصوصیات داده‌هایی که مدل قبلاً باهاش آموزش دیده).

در آخر، نتیجه این شد که چه مدلی و چجوری این ICEها رو انتخاب کنی، تأثیر زیادی رو کارایی مدل داره. تازه با بررسی درونی هم کلی الگو و رفتار جالب کشف کردن که دید بهتری به محقق‌ها میده.

خلاصه اگه بخوام همه رو جمع‌بندی کنم: این مقاله با نگاه متفاوت، هم از بیرون مدل و هم از درون، نشون میده که با تنظیمات هوشمندانه و تحلیل دقیق ICEها میشه مدل‌های کپشن‌نویسی تصویر رو به شدت قوی‌تر و بهتر کرد. تازه متریک‌ها و رویکردهایی که معرفی کردن می‌تونه تو کلی تحقیق دیگه هم کاربرد داشته باشه.

اگه کل موضوع برات پیچیده بود، خودت رو اذیت نکن — کافی بدونی هوش مصنوعی الان می‌تونه با مثال‌هایی که ما بهش می‌دیم رفتار خودش رو بهتر تنظیم کنه، مخصوصاً وقتی باید درباره عکس‌ها حرف بزنه یا کپشن بنویسه! و حالا داریم روزبه‌روز بهتر یاد می‌گیریم این مثال‌ها رو چطوری انتخاب کنیم که مدل مثل یه رفیق زرنگ‌تر کار کنه.

منبع: +