خب بچهها، امروز میخوام درباره موضوع خیلی داغ و جالبی براتون بگم که احتمالاً اسمش به گوشتون نخورده: ماجراهای In-Context Learning (یا به اختصار ICL) تو دنیای کپشننویسی برای عکسها!
اگه با هوش مصنوعیهای جدید حال کردین، احتمالاً با مدلهای زبونی بزرگ مثل GPTها که بهشون میگن LLM (Large Language Models، یعنی مدلهایی که کلی داده بلدن و میتونن براتون جواب بنویسن) آشنا شدین. حالا جالبیش اینجاست که این داستان فقط محدود به متن نیست. دانشمندا برای تصاویر هم اومدن مدلهای چندرسانهای (یا همون Multimodal Models) ساختن که به انگلیسی بهشون میگن LMM. یعنی مدلایی که هم با عکس کار میکنن هم با متن.
حالا چیه این In-Context Learning؟ خلاصه و خودمونی بخوام بگم، یعنی مدل به جای اینکه فقط یک بار آموزش ببینه و بس، میتونه وقتی ورودی جدید میگیره با چندتا مثال (که بهش میگن In-Context Examples یا ICEs) هوشمندانهتر رفتار کنه، انگار تازه داره از مثالها یاد میگیره یا خودش رو با اونها تنظیم میکنه. فرض کن بجای اینکه به مادرتون بگین «بیا کیک بپز»، بهش دستور پخت و چندتا نمونه کیک نشون بدین، احتمالاً بهتر درمیاد!
تو حوزه پردازش زبان (NLP)، کلی تحقیق نشون داده ICL خیلی جواب میده و کمک میکنه مدلها هوشمندتر بشن. دانشمندا دیدن این ایده تو مدلهای چندرسانهای هم ممکنه کار کنه اما هنوز خیلی روش کار نکردن — مخصوصاً درباره این که چه جوری این مثالها یا ICEها رو بچینیم که مدل بهترین خروجی رو بده، یا همون «تنظیمات دمو» که داستان اصلی این مقالهست.
خب حالا این تیم تو مقالهشون اومدن دو تا زاویه متفاوت رو بررسی کردن:
۱. بررسی بیرونی یا خارجی: چطوری میشه این مثالهای داخل کانتکست رو برای کپشننویسی تصویر بچینیم و چه چیزی مهمه؟ سه بعد مختلف بررسی شده:
- چندتا مثال بدیم (بهش میگن shot number، همون چند-نمونهای)،
- چجوری تصویرها رو انتخاب کنیم (image retrieval، یعنی کدوم عکسها رو به مدل نشون بدیم)،
- و چی بنویسیم براشون (caption assignment، یعنی کپشن گذاشتن برای اون عکسها).
برای اینکه کار رو جدی بگیرن، از چند تا معیار ارزشیابی مختلف هم استفاده کردن تا بفهمن کدوم تنظیمات اثر بیشتری دارن — اینجوری دیگه حرفشون از روی هوا نیست!
۲. بررسی درونی یا داخلی:
اومدن داخل مغز مدل رو زیر ذرهبین گذاشتن! دیدن که مدل چطوری توجه میکنه (attention، یه مفهومی تو شبکههای عصبیه که مشخص میکنه مدل روی کدوم قسمت تصویر یا متن بیشتر تمرکز کرده)، و کلی معیار نوآورانه (جدید و باحال) ساختن تا رفتار مدل رو موشکافی کنن. خلاصه حوصلهشون سر نرفته و یه گوشه کوچیک ماجرا رو نگاه نکردن!
علاوه بر این، بررسی کردن ببینن میشه با همین تکنیکای Attenton، مدل رو سریعتر کرد و حجمش رو کمتر کرد (که بشه راحتتر روی دستگاههای معمولیتر اجراش کرد). یه جورایی دنبال راهی بودن که مدل هم باهوش بمونه هم خوشفرمتر بشه!
یه نکته مهم دیگه اینه که اومدن چندتا مدل با معماری و آموزش یکسان رو با هم مقایسه کردن و دیدن حتی با ظاهر شبیه، خروجیهاشون فرق داره. دلیلشم تو تفاوت دادههای پیشآموزش مدلها بوده (pre-training data features، یعنی خصوصیات دادههایی که مدل قبلاً باهاش آموزش دیده).
در آخر، نتیجه این شد که چه مدلی و چجوری این ICEها رو انتخاب کنی، تأثیر زیادی رو کارایی مدل داره. تازه با بررسی درونی هم کلی الگو و رفتار جالب کشف کردن که دید بهتری به محققها میده.
خلاصه اگه بخوام همه رو جمعبندی کنم: این مقاله با نگاه متفاوت، هم از بیرون مدل و هم از درون، نشون میده که با تنظیمات هوشمندانه و تحلیل دقیق ICEها میشه مدلهای کپشننویسی تصویر رو به شدت قویتر و بهتر کرد. تازه متریکها و رویکردهایی که معرفی کردن میتونه تو کلی تحقیق دیگه هم کاربرد داشته باشه.
اگه کل موضوع برات پیچیده بود، خودت رو اذیت نکن — کافی بدونی هوش مصنوعی الان میتونه با مثالهایی که ما بهش میدیم رفتار خودش رو بهتر تنظیم کنه، مخصوصاً وقتی باید درباره عکسها حرف بزنه یا کپشن بنویسه! و حالا داریم روزبهروز بهتر یاد میگیریم این مثالها رو چطوری انتخاب کنیم که مدل مثل یه رفیق زرنگتر کار کنه.
منبع: +