از کپشن‌نویسی برای عکس‌ها تا قصه‌گویی تصویری: چطور داستان بسازیم؟

Fall Back

تا حالا به این فکر کردی چطور میشه برای یه سری عکس، نه فقط توضیح کوتاه یا کپشن، بلکه یه داستان کامل و منسجم ساخت؟ خب، این کاریه که توی دنیای هوش مصنوعی بهش میگن «Visual Storytelling»؛ یعنی قصه‌گویی تصویری. میشه گفت این کار ترکیبیه از دو تا دنیا: «بینایی کامپیوتری» (یعنی اینکه کامپیوترها بتونن عکس‌ها و تصاویر رو بفهمن) و «پردازش زبان طبیعی» (که همون فهمیدن و تولید کردن متن توسط ماشین‌هاست).

خیلی از پروژه‌های قبلی بیشتر روی کپشن‌نویسی برای عکس تمرکز داشتن. کپشن‌نویسی یعنی همون نوشتن یه جمله کوتاه برای یه عکس، مثلاً: «یه بچه داره بستنی می‌خوره». ولی بچه‌ها، قصه‌گویی تصویری سطحش بالاتره! اینجا باید برای یه سری عکس که مثلاً نشون میده یه دختر بچه داره میره پارک، بستنی می‌خره و بعد با دوستاش بازی می‌کنه، یه داستان قشنگ و منسجم بنویسی که نه فقط به هر عکس، بلکه به کل دنباله تصویرها مربوط باشه، و در عین حال روایت درست و قابل فهمی هم داشته باشه.

حالا این تیم هوش مصنوعی یه روش متفاوت رو امتحان کردن. اونا گفتن: ما اول با مدل‌های vision-to-language (یعنی مدل‌هایی که عکس رو به متن تبدیل می‌کنن) برای هر عکس کپشن می‌نویسیم. مثلاً عکس اول: «دختر بچه داره راه میره»، عکس دوم: «دختر بچه بستنی گرفته»، و الی آخر. بعدش با روش‌هایی که بهشون میگن language-to-language (یعنی تبدیل یا بازنویسی متن‌ها توسط خود مدل‌های زبانی)، همین کپشن‌ها رو به یه داستان جذاب، منسجم و مربوط تبدیل می‌کنن. این کاملاً متفاوته با قبلی‌ها که یا فقط روی کپشن‌نویسی تمرکز کردن یا سعی کردن یکی یکی برن سراغ داستان.

نتیجه چی شد؟ بررسی‌هاشون (که بهش میگن «ارزیابی چندگانه» یا multifarious evaluation) نشون داد که این مدل ترکیبی واقعاً جواب داده! هم داستانا بهتر و طبیعی‌تر شده، هم آموزش مدل سریع‌تر انجام شده، هم اینکه این فریم‌ورک یا چارچوب به راحتی می‌تونه برای بقیه هم قابل استفاده و تکرار باشه. یعنی هر کسی خواست، می‌تونه این متد رو دوباره پیاده کنه و امتحانش کنه.

یه نکته جالب دیگه اینکه این تیم یه معیار یا ابزار جدید هم معرفی کردن که اسمش رو گذاشتن «ideality». حالا این چی‌کار می‌کنه؟ خیلی خلاصه بگم: ایده‌آلی چیزی شبیه یه خط‌کش هوشمنده که نشون میده خروجی مدل چقدر شبیه بهترین حالت ممکنه (مثلاً شبیه یه انسان واقعی قصه‌گو)، یا اینکه چقدر با «مدل نمونه» یا همون oracle فاصله داره. این ابزار می‌تونه کمک کنه بفهمیم آیا مدل واقعاً تونسته حس و حال انسانی به قصه بده یا هنوز جا داره.

تو جمع‌بندی، این مقاله میگه اگه می‌خوای از کپشن‌نویسی ساده برای عکس‌ها فراتر بری و واقعاً قصه‌گو بشی، بهتره اول برای هر عکس کپشن درست حسابی بنویسی، بعد اونارو هوشمندانه به یه داستان تبدیل کنی. هم نتیجه‌ها بهتر میشه، هم زمان آموزش کمتر، هم میشه راحت‌تر این روش رو به بقیه یاد داد و پخش کرد.

پس دفعه بعد که دوست داشتی برای یه سری عکس، داستان بسازی، این ترفند رو امتحان کن! هم جالب‌تره، هم حرفه‌ای‌تر.

منبع: +