اگه تا حالا با مبحث تحلیل احساسات سر و کار داشتی، حتما میدونی که فقط به متن بستگی نداره! این روزا نقش صدا و تصویر خیلی مهم شده. مثلاً وقتی یکی با لحن عصبی حرف میزنه یا چهرهش رو اخم میکنه، اینا کنار متن میتونن یه عالمه اطلاعات اضافی بهمون بدن. کاری که بهش میگن «Multimodal Sentiment Analysis» یعنی تحلیل احساسات با استفاده از چند تا نوع ورودی مختلف مثل صدا، تصویر و متن.
حالا مشکل چیه؟ بعضی وقتها تو همین اطلاعات تصویری یا صوتی یه عالمه نویز هست. منظورم از نویز (Noise) اینه که یه سری اطلاعات بیمورد یا حتی گمراهکننده میان وسط و ممکنه مدل رو به اشتباه بندازن. قبلاً چی کار میکردن؟ معمولاً کل اطلاعات مثلاً یه عکس کامل یا یه قطعه صدا رو به عنوان یه تیکه میذاشتن تو مدل و سعی میکردن با یه روش پکپارچه اون رو پاک و تمیز کنن. مشکل اینه که وقتی اینجوری نویز رو حذف میکنی ممکنه یه سری دادههای خیلی مهم هم همراهش حذف بشه. اصلاً برای همین ممکنه کلی اطلاعات ارزشمند از دست بره.
اینجاست که مقاله MoLAN وارد میشه! نویسندهها یه جور فریمورک جدید معرفی کردن به اسم MoLAN که مخففModaLity-aware Noise dynAmic editiNg ه. حالا یعنی چی؟ یعنی این فریمورک میاد و اطلاعات هر مدالیتی یا همون نوع داده (مثلاً فقط صدا یا فقط تصویر) رو به چند تا بلوک کوچیکتر تقسیم میکنه. بعد برای هر بلوک جدا جدا بررسی میکنه که چقدر نویز توش هست و چقدر به محتوا ربط داره. بعد بر اساس همین تشخیص، واسه هر قطعه یه مقدار خاص عملیات نویزگیری انجام میده! یعنی دیگه یه روش یکجور برای همه جا اجرا نمیشه.
مثلاً ممکنه تو یه تصویر یه گوشهش کلی نویز داشته باشه ولی قسمت دیگهش اطلاعات احساسی قویای بده. MoLAN این دو تا رو از هم جدا میکنه و روی هر کدوم جداگونه کار میکنه. به این میگن Fine-grained noise suppression یا همون نویزگیری ریز به ریز بر اساس محتوا. اینجوری نه فقط نویز حذف میشه، بلکه اطلاعات مهم هم حفظ میمونن.
یکی دیگه از باحالترین ویژگیهای MoLAN اینه که خیلی راحت میشه اونو به انواع مدلهای چندمدالیتی اضافه کرد. یعنی لازم نیست کل سیستم رو عوض کنی؛ فقط یه وصله بزنی به مدل قبلیت. از اون بهتر، یه نسخه پیشرفتهتر به اسم MoLAN+ هم درست کردن که قدرت تحلیل احساساتش حتی از قبلیا هم بالاتره.
توی آزمایشها MoLAN رو روی پنج تا مدل مختلف و چهار تا دیتاست معروف امتحان کردن، نتیجهش عالی بوده و MoLAN+ تونسته بهترین عملکرد در نوع خودش رو نشون بده. تازه سورسکدش هم روی گیتهاب رایگان قرار دادهشده و هرکسی میتونه بره و ازش استفاده کنه (github.com/betterfly123/MoLAN-Framework).
در کل MoLAN و MoLAN+ قراره مشکل اصلی مدلهای چندمدالیتی یعنی مقابله با نویز و حفظ اطلاعات ارزشمند رو به شکل هوشمندانه و دونهدونه حل کنن! هر روز داریم به مدلهایی میرسیم که احساسات آدمها رو با دقت و جزئیات بیشتری میخونن – حتی وقتی وسط کلی نویز و اطلاعات اضافی گیر کرده باشن.
منبع: +