یه فریم‌ورک باحال برای تحلیل احساسات با صدا، تصویر و متن: MoLAN

اگه تا حالا با مبحث تحلیل احساسات سر و کار داشتی، حتما می‌دونی که فقط به متن بستگی نداره! این روزا نقش صدا و تصویر خیلی مهم شده. مثلاً وقتی یکی با لحن عصبی حرف می‌زنه یا چهره‌ش رو اخم می‌کنه، اینا کنار متن می‌تونن یه عالمه اطلاعات اضافی بهمون بدن. کاری که بهش می‌گن «Multimodal Sentiment Analysis» یعنی تحلیل احساسات با استفاده از چند تا نوع ورودی مختلف مثل صدا، تصویر و متن.

حالا مشکل چیه؟ بعضی وقت‌ها تو همین اطلاعات تصویری یا صوتی یه عالمه نویز هست. منظورم از نویز (Noise) اینه که یه سری اطلاعات بی‌مورد یا حتی گمراه‌کننده میان وسط و ممکنه مدل رو به اشتباه بندازن. قبلاً چی کار می‌کردن؟ معمولاً کل اطلاعات مثلاً یه عکس کامل یا یه قطعه صدا رو به عنوان یه تیکه می‌ذاشتن تو مدل و سعی می‌کردن با یه روش پکپارچه اون رو پاک و تمیز کنن. مشکل اینه که وقتی اینجوری نویز رو حذف می‌کنی ممکنه یه سری داده‌های خیلی مهم هم همراهش حذف بشه. اصلاً برای همین ممکنه کلی اطلاعات ارزشمند از دست بره.

اینجاست که مقاله MoLAN وارد می‌شه! نویسنده‌ها یه جور فریم‌ورک جدید معرفی کردن به اسم MoLAN که مخففModaLity-aware Noise dynAmic editiNg ه. حالا یعنی چی؟ یعنی این فریم‌ورک میاد و اطلاعات هر مدالیتی یا همون نوع داده (مثلاً فقط صدا یا فقط تصویر) رو به چند تا بلوک کوچیک‌تر تقسیم می‌کنه. بعد برای هر بلوک جدا جدا بررسی می‌کنه که چقدر نویز توش هست و چقدر به محتوا ربط داره. بعد بر اساس همین تشخیص، واسه هر قطعه یه مقدار خاص عملیات نویزگیری انجام می‌ده! یعنی دیگه یه روش یک‌جور برای همه جا اجرا نمی‌شه.

مثلاً ممکنه تو یه تصویر یه گوشه‌ش کلی نویز داشته باشه ولی قسمت دیگه‌ش اطلاعات احساسی قوی‌ای بده. MoLAN این دو تا رو از هم جدا می‌کنه و روی هر کدوم جداگونه کار می‌کنه. به این می‌گن Fine-grained noise suppression یا همون نویزگیری ریز به ریز بر اساس محتوا. اینجوری نه فقط نویز حذف می‌شه، بلکه اطلاعات مهم هم حفظ می‌مونن.

یکی دیگه از باحال‌ترین ویژگی‌های MoLAN اینه که خیلی راحت می‌شه اونو به انواع مدل‌های چندمدالیتی اضافه کرد. یعنی لازم نیست کل سیستم رو عوض کنی؛ فقط یه وصله‌ بزنی به مدل قبلیت. از اون بهتر، یه نسخه پیشرفته‌تر به اسم MoLAN+ هم درست کردن که قدرت تحلیل احساساتش حتی از قبلیا هم بالاتره.

توی آزمایش‌ها MoLAN رو روی پنج تا مدل مختلف و چهار تا دیتاست معروف امتحان کردن، نتیجه‌ش عالی بوده و MoLAN+ تونسته بهترین عملکرد در نوع خودش رو نشون بده. تازه سورس‌کدش هم روی گیت‌هاب رایگان قرار داده‌شده و هرکسی می‌تونه بره و ازش استفاده کنه (github.com/betterfly123/MoLAN-Framework).

در کل MoLAN و MoLAN+ قراره مشکل اصلی مدل‌های چندمدالیتی یعنی مقابله با نویز و حفظ اطلاعات ارزشمند رو به شکل هوشمندانه و دونه‌دونه حل کنن! هر روز داریم به مدل‌هایی می‌رسیم که احساسات آدم‌ها رو با دقت و جزئیات بیشتری می‌خونن – حتی وقتی وسط کلی نویز و اطلاعات اضافی گیر کرده باشن.

منبع: +