هوش مصنوعی و تشخیص سرطان پوست: چرا هنوزم با پوست تیره مشکل داره؟

Fall Back

این روزا هوش مصنوعی دیگه داره همه جا به‌خصوص توی پزشکی سرک می‌کشه و به دکترا برای تشخیص بیماری‌ها کمک می‌کنه. یه مثال معروفش سیستم‌هایی هستن که می‌خوان سرطان پوست رو فقط با نگاه به عکس تشخیص بدن و یه جورایی می‌خوان کار متخصص پوست رو راحت‌تر کنن. ولی مشکل اینجاست که خیلی وقتا این مدل‌های هوش مصنوعی رفتار عادلانه‌ای ندارن و باعث «Bias» می‌شن. Bias یعنی تعصب یا جانبداری، که یعنی مدل نسبت به یه قشر خاص مثل افراد با پوست تیره یا روشن بهتر یا بدتر عمل کنه.

حالا یه تیم محقق اومده یه مفهوم جدید به اسم «نمایندگی پیش‌بینی‌کننده» یا همون Predictive Representativity (PR) رو معرفی کرده. این PR در اصل راهیه برای اینکه بفهمیم مدل واقعاً انصاف رو تو نتایجش رعایت می‌کنه یا نه. مثلاً قبلاً همه فکر می‌کردن اگه توی دیتاست یا همون مجموعه داده ما از همه نوع پوست باشه، پس دیگه مدل هم برای همه خوب کار می‌کنه. ولی این مقاله می‌گه نه! نمایندگی باید توی نتیجه مدل هم دیده بشه، نه فقط داخل دیتاست. یعنی ممکنه داده‌های مناسب وارد مدل کنی اما خروجی فقط به نفع یه گروه خاص باشه.

توی این مطالعه، محقق‌ها اومدن دو تا مدل هوش مصنوعی برای تشخیص سرطان پوست رو روی دو تا دیتاست مختلف آموزش دادن: یکی همون دیتاست معروف HAM10000 که کلی عکس ضایعه پوستیه و همه جا استفاده می‌شه، و یکی هم یه دیتاست کاملاً مستقل از بیماران کلمبیا به اسم BOSQUE Test set. این BOSQUE Test set شامل کلی آدم با پوست‌های مختلفه و مخصوصاً آدم‌هایی با پوست تیره هم توش حسابی هستن.

نتیجه جالب بود: مدلا توی هر دو دیتاست نسبت به پوست تیره ضعیف‌تر عمل کردن! یعنی با اینکه توی دیتاست عکس‌های مربوط به پوست تیره رو گذاشتن و از هر دسته پوست هم تقریباً به اندازه داده داشتن، بازم مدل‌ها برای آدمای با پوست تیره قشنگ کار نکردن. این نشون می‌ده که فقط توزیع داده اهمیت نداره، بلکه خود مدل هم ممکنه توی پیش‌بینیاش بی‌انصافی کنه.

اینجا همون مفهوم PR وارد ماجرا می‌شه: PR یعنی بیای دقیقاً ببینی مدل توی نتایجش چه‌قدر برای هر دسته یا زیردسته (به انگلیسی: Subpopulation یعنی زیرگروه خاص از افراد، مثلاً کسایی با رنگ پوست مشخص) منصفانه عمل می‌کنه. اینجوری می‌فهمی مدل فقط برای درصد خاصی خوبه یا واقعاً برای همه جواب می‌ده. PR یه جور ابزار یا چارچوب (Framework یعنی یه ساختار فکری که باهاش می‌تونی یه مسئله رو بررسی کنی) برای چک کردن همین انصاف در سطح نتایجه.

یه چیز دیگه هم توی مقاله هست به اسم External Transportability Criterion. این یعنی مدل باید بتونه انصاف رو حتی در دیتاست‌های جدید و شرایط مختلف هم حفظ کنه. مثلاً فقط توی دیتاست خودش خوب نباشه و وقتی می‌ره سراغ داده‌های واقعیِ مردمِ واقعی (خارج از دیتاست اصلی)، باز هم برای همه انصاف داشته باشه.

یکی از نکته‌های اصلی مقاله اینه که فقط به دیتاست‌های آموزشی و تعداد عکس از هر نوع پوست اکتفا نکنیم. باید یه جور ممیزی یا Audit (یعنی بررسی و حسابرسی دقیق) بعد از ساخت مدل انجام بدیم تا مطمئن بشیم واقعی منصفانه کار می‌کنه. به این می‌گن Post-hoc Fairness Auditing یعنی بعد از ساخت مدل بیای انصافش رو بررسی کنی.

خلاصه حرف مقاله اینه: مدل‌های هوش مصنوعی که آدمای با پوست تیره رو به خوبی آدمای با پوست روشن تشخیص نمی‌دن، حتی اگه تو دیتاشون از هر دو گروه داده داشته باشن، دارن به بی‌عدالتی دامن می‌زنن. پس نیاز داریم سیستم‌هایی داشته باشیم که نه تنها موقع جمع‌آوری داده عادلانه باشن، بلکه بعد از آموزش هم همیشه توی همه شرایط و همه زیرگروه‌ها منصف بمونن.

اگه بازم برات سوال شد: این بحث‌ها به موضوع «Data Justice» (عدالت داده: یعنی داده‌ها و نتیجه استفاده ازشون، به کسی ظلم نکنه و برای همه عادلانه باشه) و «Interpretability» (قابلیت فهمیدن و توضیح دادن مدل‌ها) و اصلاً کل داستان انصاف توی پزشکی دیجیتال ربط داره.

راستی این چارچوب جدید PR، می‌تونه مثل یه ابزار یا فیلتر سریع به کار بره که بفهمیم کدوم مدل‌های هوش مصنوعی واقعاً برابر و منصفانه کار می‌کنن و کدوم‌ها نه. اینجوری صنعت سلامت دیجیتال و کارشناسای اخلاق پزشکی خیلی راحت‌تر می‌تونن مشکلات رو ریشه‌ای حل کنن و بفهمن کجا باید دوباره مدل رو بررسی کنن یا حتی عوضش کنن.

در آخر، اگه یه روز قراره هوش مصنوعی توی بیمارستاها همه چیزو تشخیص بده، دیگه بد نیست بدونیم دقیقاً چه کسایی دارن سودشو می‌برن و چه کسایی ممکنه ازش آسیب ببینن. شفافیت توی اسناد داده‌ها، بررسی‌های دقیق بعد از ساخت مدل و احترام به همه گروه‌های انسانی، رمز موفقیت هوش مصنوعی منصفانه‌س!

منبع: +