آشنایی با MultiFair؛ روشی متفاوت برای یادگیری منصفانه از داده‌های پزشکی مختلف

خب بچه‌ها، بذارین یه موضوع خفن از دنیای یادگیری ماشین و پزشکی رو براتون تعریف کنم! می‌دونستین الان دیگه سیستم‌های تصمیم‌گیر پزشکی فقط به یه نوع داده اکتفا نمی‌کنن و از «داده‌های چندرسانه‌ای» استفاده می‌کنن؟ یعنی فقط با عکس یا فقط با متن کار نمی‌کنن، کلی اطلاعات مختلف رو با هم قاطی می‌کنن تا تشخیص درست‌تر و غیرجانبدارانه‌تر بدن.

ولی! این وسط یه مشکلی هست… مدل‌های الان، وقتی از چند مدل داده (مثلاً عکس و متن و صدا) استفاده می‌کنن، معمولا دچار دو تا مشکل بزرگ می‌شن:

۱. همه داده‌ها رو یکسان یاد نمی‌گیرن. یعنی مثلا شاید مدل رو عکس‌ها خیلی خوب قوی شه، ولی رو متن ضعیف بمونه؛ خلاصه یه‌جورایی بیشتر به یه مدل داده علاقه نشون می‌ده!

۲. تازه مدل نامردانه رفتار می‌کنه! یعنی ممکنه روی بعضی گروه‌های جمعیتی (مثلاً سن یا جنسیت خاصی) کارش از بقیه بهتر باشه و واسه بعضیا ضعیف‌تر بشه. این یعنی مدل «بی‌انصاف» یا «نابرابر» عمل می‌کنه.

همین دو تا مشکل قشنگ روی هم تاثیر می‌ذارن؛ یعنی مدل هر جور که با هر نوع داده حال کنه ممکنه همونطوری به یه گروه جمعیتی خاص هم بیشتر حال بده، و نتیجه این می‌شه که یادگیری مدل هم همون‌قدر نامتعادل و ناعادلانه می‌شه.

اینجا یه ایده جدید اومده به اسم MultiFair! بذارین بگم این اسم یعنی چی: Multi یعنی چندتا (اینجا داده‌های چندرسانه‌ای منظورشه)، Fair یعنی عادلانه یا منصفانه. پس MultiFair یعنی مدلی که سعی می‌کنه یادگیری منصفانه بین همه نوع داده و همه نوع آدم حفظ بشه.

اما این MultiFair چطور کار می‌کنه؟ یه حرکت باحال که داره اینه که از چیزی به اسم «Dual-Level Gradient Modulation» استفاده می‌کنه. حالا Gradient Modulation یعنی دستکاری کردن نحوه آموزش مدل با تغییراتی روی “گرادیان‌ها” (گرادیان یه روش ریاضی برای فهمیدن شیب و جهت پیشرفت تو یادگیری مدل‌هاست!). دو سطحی بودنش هم یعنی همزمان حواسش به یادگیری از هر نوع داده و از هر گروه جمعیتی هست. یعنی هر موقع می‌بینه داره یک طرفه می‌ره طرف یه مدل داده یا یه گروه خاص، سریع آموزش رو متعادل‌ترش می‌کنه.

این کار باعث می‌شه مدل نره فقط سراغ یه جور داده یا یه گروه خاص از مردم، بلکه عادلانه رو همه شون کار کنه!

حالا جالب‌تر اینکه برای ثابت کردن ادعاشون، نویسنده‌ها اومدن MultiFair رو روی دوتا دیتاست پزشکی امتحان کردن (دیتاست یعنی مجموعه داده‌ای که برای آموزش مدل استفاده می‌شه) که این دیتاست‌ها خودشون شامل گروه‌های جمعیتی مختلف بودن. نتیجه؟ MultiFair ترکوند و از همه مدل‌های روز دنیا که برای یادگیری چندرسانه‌ای یا حتی یادگیری منصفانه ساخته شدن بهتر ظاهر شد.

خلاصه بخوام جمع‌بندی کنم: مدل MultiFair یه ابزار جدیده که کمک می‌کنه سیستم‌های پزشکی با همه داده‌ها و برای همه گروه‌های آدمی، منصفانه‌تر و متعادل‌تر تصمیم بگیرن. اینجوری هم تشخیص پزشکی دقیق‌تر می‌شه، هم دیگه اون بی‌عدالتی‌ها تو سیستم‌های هوشمند کاهش پیدا می‌کنه.

منبع: +