تا حالا شده دلت بخواد بفهمی یه مدل هوش مصنوعی که هم عکس میبینه هم متن میفهمه، چجوری به نتیجه میرسه؟ مخصوصاً جاهایی که قضیه حساسه و نمیتونیم ریسک کنیم، مثل خودروهای خودران یا دستگاههای پزشکی؟ این دقیقاً همون مشکلیه که محققها دارن باهاش کلنجار میرن!
خیلی از مدلهای تصویر-زبان (Vision-Language Models یعنی مدلهایی که میتونن عکس و متن رو باهم تحلیل کنن) تو یکی دو سال اخیر خیلی قوی شدن و مثلاً میتونن بگن تو یه عکس چه چیزی هست یا حتی توضیح نیازمند درک از متن بدن. ولی هنوزم اینکه این مدلها دقیقاً چجوری تصمیم میگیرن، کمی مهآلود و نامعلومه – مخصوصاً وقتی قرار باشه تو جاهایی استفاده بشن که خطا واقعاً گرون درمیاد.
برای همین تو این مقاله اومدن یه چارچوب باحال به اسم “Multi-Modal Explainable Learning” که خودشون MMEL صداش میکنن، معرفی کردن. MMEL همونطور که از اسمش پیداست یعنی یادگیری توضیحپذیر چندرسانهای؛ یعنی هوش مصنوعیای که خودش حاضر و آماده میاد توضیح میده چرا همچین فکری کرده!
حالا MMEL چی داره؟ یه ماژول جدید با نام هولناک “Hierarchical Semantic Relationship Module” اضافه شده! بذار راحت بگم، این ماژول قراره رابطه بین اجزای مختلف عکس رو تو سطوح مختلف (مقیاسهای مختلف) بررسی کنه و بفهمه داستان از چه قراره. مثلاً متوجه میشه هم گربه مهمه، هم اینکه کنارشه یه لیوان آب قرار داره و این دوتا چه ربطی به هم دارن.
برای اینکه این رابطهها بهتر درک بشه، توی MMEL از چندتا تکنیک خاص استفاده شده:
- Multi-scale feature processing: یعنی میاد اطلاعات تصویر رو تو چند لایه و مقیاس تجزیه میکنه تا هم جزئیات کوچیک رو ببینه، هم کلیات رو بفهمه.
- Adaptive attention weighting: این یعنی اهمیت هر بخش رو با یه وزن قابل یادگیری مشخص میکنه؛ یعنی مدل خودش یاد میگیره به چی بیشتر توجه کنه و به چی کمتر.
- Cross-modal alignment: یعنی مدل سعی میکنه بین مفهومهایی که از تصویر درمیاره و مفهومهایی که در متن هست یه همراستایی ایجاد کنه تا بهتر بتونه محتوا رو درک کنه.
اینا نتیجهش یه سری نقشههای تصویری یا اصطلاحاً visual explanations باحالتر و دقیقتره که نه فقط میگه فلان شیء مهمه، بلکه نشون میده این شیء با بقیه اجزای تصویر چه ارتباطی داره. مثلاً نشون میده چرا اون گربه به لیوان آب ربط داره!
یه مسئله دیگه که خیلیها با مدلهای هوش مصنوعی دارن اینه که: “آقا این مدلا واقعاً مطمئنن؟ تو همهی شرایط عملکردشون خوبه؟” تو MMEL جواب داده شده: بله! اونها کلی آزمایش روی دیتاستهای معروف انجام دادن (Datasets، یعنی مجموعه تصاویر استاندارد که محققها همیشه باهاشون مدلها رو میسنجن)، و نشون دادن این روش واقعا باعث میشه خروجی مدلها هم دقیقتر باشه و هم قابل توضیحتر.
در کل چیزی که MMEL به ما میده اینه که مدلهای تصویر-زبانمون رو کمی به انسان نزدیکتر کنه؛ یعنی درکشون از تصویر و متن شبیهتر به نحوهی فکر کردن آدمها بشه و توضیحپذیری مدلها بره بالا. مخصوصاً تو حوزههایی که “شفافیت” و “اعتمادکردن” به هوش مصنوعی مهمه، این قضیه خیلی کاربردیه.
اگه دلت میخواد بدونی تو مدل جدیدت چی داره تو سرش میگذره یا میخوای مطمئن شی هوش مصنوعیت فقط درست کار نمیکنه بلکه میتونی مطمئن شی چطور کار میکنه، MMEL یه گزینه باحاله که میتونه کمکت کنه!
منبع: +