این روزا هوش مصنوعی دیگه داره همه جا بهخصوص توی پزشکی سرک میکشه و به دکترا برای تشخیص بیماریها کمک میکنه. یه مثال معروفش سیستمهایی هستن که میخوان سرطان پوست رو فقط با نگاه به عکس تشخیص بدن و یه جورایی میخوان کار متخصص پوست رو راحتتر کنن. ولی مشکل اینجاست که خیلی وقتا این مدلهای هوش مصنوعی رفتار عادلانهای ندارن و باعث «Bias» میشن. Bias یعنی تعصب یا جانبداری، که یعنی مدل نسبت به یه قشر خاص مثل افراد با پوست تیره یا روشن بهتر یا بدتر عمل کنه.
حالا یه تیم محقق اومده یه مفهوم جدید به اسم «نمایندگی پیشبینیکننده» یا همون Predictive Representativity (PR) رو معرفی کرده. این PR در اصل راهیه برای اینکه بفهمیم مدل واقعاً انصاف رو تو نتایجش رعایت میکنه یا نه. مثلاً قبلاً همه فکر میکردن اگه توی دیتاست یا همون مجموعه داده ما از همه نوع پوست باشه، پس دیگه مدل هم برای همه خوب کار میکنه. ولی این مقاله میگه نه! نمایندگی باید توی نتیجه مدل هم دیده بشه، نه فقط داخل دیتاست. یعنی ممکنه دادههای مناسب وارد مدل کنی اما خروجی فقط به نفع یه گروه خاص باشه.
توی این مطالعه، محققها اومدن دو تا مدل هوش مصنوعی برای تشخیص سرطان پوست رو روی دو تا دیتاست مختلف آموزش دادن: یکی همون دیتاست معروف HAM10000 که کلی عکس ضایعه پوستیه و همه جا استفاده میشه، و یکی هم یه دیتاست کاملاً مستقل از بیماران کلمبیا به اسم BOSQUE Test set. این BOSQUE Test set شامل کلی آدم با پوستهای مختلفه و مخصوصاً آدمهایی با پوست تیره هم توش حسابی هستن.
نتیجه جالب بود: مدلا توی هر دو دیتاست نسبت به پوست تیره ضعیفتر عمل کردن! یعنی با اینکه توی دیتاست عکسهای مربوط به پوست تیره رو گذاشتن و از هر دسته پوست هم تقریباً به اندازه داده داشتن، بازم مدلها برای آدمای با پوست تیره قشنگ کار نکردن. این نشون میده که فقط توزیع داده اهمیت نداره، بلکه خود مدل هم ممکنه توی پیشبینیاش بیانصافی کنه.
اینجا همون مفهوم PR وارد ماجرا میشه: PR یعنی بیای دقیقاً ببینی مدل توی نتایجش چهقدر برای هر دسته یا زیردسته (به انگلیسی: Subpopulation یعنی زیرگروه خاص از افراد، مثلاً کسایی با رنگ پوست مشخص) منصفانه عمل میکنه. اینجوری میفهمی مدل فقط برای درصد خاصی خوبه یا واقعاً برای همه جواب میده. PR یه جور ابزار یا چارچوب (Framework یعنی یه ساختار فکری که باهاش میتونی یه مسئله رو بررسی کنی) برای چک کردن همین انصاف در سطح نتایجه.
یه چیز دیگه هم توی مقاله هست به اسم External Transportability Criterion. این یعنی مدل باید بتونه انصاف رو حتی در دیتاستهای جدید و شرایط مختلف هم حفظ کنه. مثلاً فقط توی دیتاست خودش خوب نباشه و وقتی میره سراغ دادههای واقعیِ مردمِ واقعی (خارج از دیتاست اصلی)، باز هم برای همه انصاف داشته باشه.
یکی از نکتههای اصلی مقاله اینه که فقط به دیتاستهای آموزشی و تعداد عکس از هر نوع پوست اکتفا نکنیم. باید یه جور ممیزی یا Audit (یعنی بررسی و حسابرسی دقیق) بعد از ساخت مدل انجام بدیم تا مطمئن بشیم واقعی منصفانه کار میکنه. به این میگن Post-hoc Fairness Auditing یعنی بعد از ساخت مدل بیای انصافش رو بررسی کنی.
خلاصه حرف مقاله اینه: مدلهای هوش مصنوعی که آدمای با پوست تیره رو به خوبی آدمای با پوست روشن تشخیص نمیدن، حتی اگه تو دیتاشون از هر دو گروه داده داشته باشن، دارن به بیعدالتی دامن میزنن. پس نیاز داریم سیستمهایی داشته باشیم که نه تنها موقع جمعآوری داده عادلانه باشن، بلکه بعد از آموزش هم همیشه توی همه شرایط و همه زیرگروهها منصف بمونن.
اگه بازم برات سوال شد: این بحثها به موضوع «Data Justice» (عدالت داده: یعنی دادهها و نتیجه استفاده ازشون، به کسی ظلم نکنه و برای همه عادلانه باشه) و «Interpretability» (قابلیت فهمیدن و توضیح دادن مدلها) و اصلاً کل داستان انصاف توی پزشکی دیجیتال ربط داره.
راستی این چارچوب جدید PR، میتونه مثل یه ابزار یا فیلتر سریع به کار بره که بفهمیم کدوم مدلهای هوش مصنوعی واقعاً برابر و منصفانه کار میکنن و کدومها نه. اینجوری صنعت سلامت دیجیتال و کارشناسای اخلاق پزشکی خیلی راحتتر میتونن مشکلات رو ریشهای حل کنن و بفهمن کجا باید دوباره مدل رو بررسی کنن یا حتی عوضش کنن.
در آخر، اگه یه روز قراره هوش مصنوعی توی بیمارستاها همه چیزو تشخیص بده، دیگه بد نیست بدونیم دقیقاً چه کسایی دارن سودشو میبرن و چه کسایی ممکنه ازش آسیب ببینن. شفافیت توی اسناد دادهها، بررسیهای دقیق بعد از ساخت مدل و احترام به همه گروههای انسانی، رمز موفقیت هوش مصنوعی منصفانهس!
منبع: +