قابلیت توضیح دادن مدل‌های تصویر-متن رو با MMEL بترکون!

تا حالا شده دلت بخواد بفهمی یه مدل هوش مصنوعی که هم عکس می‌بینه هم متن می‌فهمه، چجوری به نتیجه می‌رسه؟ مخصوصاً جاهایی که قضیه حساسه و نمی‌تونیم ریسک کنیم، مثل خودروهای خودران یا دستگاه‌های پزشکی؟ این دقیقاً همون مشکلیه که محقق‌ها دارن باهاش کلنجار می‌رن!

خیلی از مدل‌های تصویر-زبان (Vision-Language Models یعنی مدل‌هایی که می‌تونن عکس و متن رو باهم تحلیل کنن) تو یکی دو سال اخیر خیلی قوی شدن و مثلاً می‌تونن بگن تو یه عکس چه چیزی هست یا حتی توضیح نیازمند درک از متن بدن. ولی هنوزم اینکه این مدل‌ها دقیقاً چجوری تصمیم می‌گیرن، کمی مه‌آلود و نامعلومه – مخصوصاً وقتی قرار باشه تو جاهایی استفاده بشن که خطا واقعاً گرون درمیاد.

برای همین تو این مقاله اومدن یه چارچوب باحال به اسم “Multi-Modal Explainable Learning” که خودشون MMEL صداش می‌کنن، معرفی کردن. MMEL همونطور که از اسمش پیداست یعنی یادگیری توضیح‌پذیر چندرسانه‌ای؛ یعنی هوش مصنوعی‌ای که خودش حاضر و آماده میاد توضیح میده چرا همچین فکری کرده!

حالا MMEL چی داره؟ یه ماژول جدید با نام هولناک “Hierarchical Semantic Relationship Module” اضافه شده! بذار راحت بگم، این ماژول قراره رابطه بین اجزای مختلف عکس رو تو سطوح مختلف (مقیاس‌های مختلف) بررسی کنه و بفهمه داستان از چه قراره. مثلاً متوجه میشه هم گربه مهمه، هم اینکه کنارشه یه لیوان آب قرار داره و این دوتا چه ربطی به هم دارن.

برای اینکه این رابطه‌ها بهتر درک بشه، توی MMEL از چندتا تکنیک خاص استفاده شده:

Multi-scale feature processing: یعنی میاد اطلاعات تصویر رو تو چند لایه و مقیاس تجزیه می‌کنه تا هم جزئیات کوچیک رو ببینه، هم کلیات رو بفهمه.
Adaptive attention weighting: این یعنی اهمیت هر بخش رو با یه وزن قابل یادگیری مشخص می‌کنه؛ یعنی مدل خودش یاد می‌گیره به چی بیشتر توجه کنه و به چی کمتر.
Cross-modal alignment: یعنی مدل سعی می‌کنه بین مفهوم‌هایی که از تصویر درمیاره و مفهوم‌هایی که در متن هست یه هم‌راستایی ایجاد کنه تا بهتر بتونه محتوا رو درک کنه.

اینا نتیجه‌ش یه سری نقشه‌های تصویری یا اصطلاحاً visual explanations باحال‌تر و دقیق‌تره که نه فقط میگه فلان شیء مهمه، بلکه نشون میده این شیء با بقیه اجزای تصویر چه ارتباطی داره. مثلاً نشون میده چرا اون گربه به لیوان آب ربط داره!

یه مسئله دیگه که خیلی‌ها با مدل‌های هوش مصنوعی دارن اینه که: “آقا این‌ مدلا واقعاً مطمئنن؟ تو همه‌ی شرایط عملکردشون خوبه؟” تو MMEL جواب داده شده: بله! اون‌ها کلی آزمایش روی دیتاست‌های معروف انجام دادن (Datasets، یعنی مجموعه تصاویر استاندارد که محقق‌ها همیشه باهاشون مدل‌ها رو می‌سنجن)، و نشون دادن این روش واقعا باعث میشه خروجی مدل‌ها هم دقیق‌تر باشه و هم قابل توضیح‌تر.

در کل چیزی که MMEL به ما میده اینه که مدل‌های تصویر-زبانمون رو کمی به انسان نزدیک‌تر کنه؛ یعنی درک‌شون از تصویر و متن شبیه‌تر به نحوه‌ی فکر کردن آدم‌ها بشه و توضیح‌پذیری مدل‌ها بره بالا. مخصوصاً تو حوزه‌هایی که “شفافیت” و “اعتمادکردن” به هوش مصنوعی مهمه، این قضیه خیلی کاربردیه.

اگه دلت می‌خواد بدونی تو مدل جدیدت چی داره تو سرش می‌گذره یا می‌خوای مطمئن شی هوش مصنوعیت فقط درست کار نمی‌کنه بلکه می‌تونی مطمئن شی چطور کار می‌کنه، MMEL یه گزینه باحاله که می‌تونه کمکت کنه!

منبع: +