تا حالا به این فکر کردی چطور میشه برای یه سری عکس، نه فقط توضیح کوتاه یا کپشن، بلکه یه داستان کامل و منسجم ساخت؟ خب، این کاریه که توی دنیای هوش مصنوعی بهش میگن «Visual Storytelling»؛ یعنی قصهگویی تصویری. میشه گفت این کار ترکیبیه از دو تا دنیا: «بینایی کامپیوتری» (یعنی اینکه کامپیوترها بتونن عکسها و تصاویر رو بفهمن) و «پردازش زبان طبیعی» (که همون فهمیدن و تولید کردن متن توسط ماشینهاست).
خیلی از پروژههای قبلی بیشتر روی کپشننویسی برای عکس تمرکز داشتن. کپشننویسی یعنی همون نوشتن یه جمله کوتاه برای یه عکس، مثلاً: «یه بچه داره بستنی میخوره». ولی بچهها، قصهگویی تصویری سطحش بالاتره! اینجا باید برای یه سری عکس که مثلاً نشون میده یه دختر بچه داره میره پارک، بستنی میخره و بعد با دوستاش بازی میکنه، یه داستان قشنگ و منسجم بنویسی که نه فقط به هر عکس، بلکه به کل دنباله تصویرها مربوط باشه، و در عین حال روایت درست و قابل فهمی هم داشته باشه.
حالا این تیم هوش مصنوعی یه روش متفاوت رو امتحان کردن. اونا گفتن: ما اول با مدلهای vision-to-language (یعنی مدلهایی که عکس رو به متن تبدیل میکنن) برای هر عکس کپشن مینویسیم. مثلاً عکس اول: «دختر بچه داره راه میره»، عکس دوم: «دختر بچه بستنی گرفته»، و الی آخر. بعدش با روشهایی که بهشون میگن language-to-language (یعنی تبدیل یا بازنویسی متنها توسط خود مدلهای زبانی)، همین کپشنها رو به یه داستان جذاب، منسجم و مربوط تبدیل میکنن. این کاملاً متفاوته با قبلیها که یا فقط روی کپشننویسی تمرکز کردن یا سعی کردن یکی یکی برن سراغ داستان.
نتیجه چی شد؟ بررسیهاشون (که بهش میگن «ارزیابی چندگانه» یا multifarious evaluation) نشون داد که این مدل ترکیبی واقعاً جواب داده! هم داستانا بهتر و طبیعیتر شده، هم آموزش مدل سریعتر انجام شده، هم اینکه این فریمورک یا چارچوب به راحتی میتونه برای بقیه هم قابل استفاده و تکرار باشه. یعنی هر کسی خواست، میتونه این متد رو دوباره پیاده کنه و امتحانش کنه.
یه نکته جالب دیگه اینکه این تیم یه معیار یا ابزار جدید هم معرفی کردن که اسمش رو گذاشتن «ideality». حالا این چیکار میکنه؟ خیلی خلاصه بگم: ایدهآلی چیزی شبیه یه خطکش هوشمنده که نشون میده خروجی مدل چقدر شبیه بهترین حالت ممکنه (مثلاً شبیه یه انسان واقعی قصهگو)، یا اینکه چقدر با «مدل نمونه» یا همون oracle فاصله داره. این ابزار میتونه کمک کنه بفهمیم آیا مدل واقعاً تونسته حس و حال انسانی به قصه بده یا هنوز جا داره.
تو جمعبندی، این مقاله میگه اگه میخوای از کپشننویسی ساده برای عکسها فراتر بری و واقعاً قصهگو بشی، بهتره اول برای هر عکس کپشن درست حسابی بنویسی، بعد اونارو هوشمندانه به یه داستان تبدیل کنی. هم نتیجهها بهتر میشه، هم زمان آموزش کمتر، هم میشه راحتتر این روش رو به بقیه یاد داد و پخش کرد.
پس دفعه بعد که دوست داشتی برای یه سری عکس، داستان بسازی، این ترفند رو امتحان کن! هم جالبتره، هم حرفهایتر.
منبع: +