آیا هوش مصنوعی توی تشخیص چاقی و لاغری بین قشرهای مختلف توی هند عادلانه عمل می‌کنه؟!

یه موضوع جالب پیدا کردم که می‌خوام براتون تعریف کنم. قضیه اینه که یه تیم محقق، با کلی آدم خفن از نقاط مختلف دنیا، اومدن سراغ این سوال که: “آیا مدل‌های یادگیری ماشین (Machine Learning، همون برنامه‌ها و الگوریتم‌هایی که با داده‌ها یاد می‌گیرن و پیش‌بینی می‌کنن!) واقعاً می‌تونن عادلانه چاقی، لاغری یا میزان چربی وسط بدن (بهش می‌گن central adiposity) رو تو قشرهای اقتصادی اجتماعی و گروه‌های مختلف طبقه اجتماعی و کاست توی هند پیش‌بینی کنن یا نه؟!”

اونا دست گذاشتن روی یه دیتاست خیلی خفن از هند به اسم “مطالعه طولی سالمندی هند” یا LASI که اطلاعات بیش از ۵۵ هزار نفر بالای ۴۵ سال رو داره، یعنی کلی داده از آدم‌های واقعی. می‌خواستن ببینن که این الگوریتم‌های معروف یادگیری ماشین – مثلاً Random Forest (یه مدل دسته‌بندی که شبیه ساختن جنگل از درختای تصمیم‌گیری عمل می‌کنه!)، XGBoost، Gradient Boosting، LightGBM (این دوتا هم مدل‌های پیشرفته درختی‌ان که خیلی تو حوزه AI استفاده می‌شن!)، شبکه‌های عصبی عمیق (Deep Neural Networks، یعنی مدل‌هایی که شبیه مغز کار می‌کنن!) و Deep Cross Networks (یه مدل پیچیده دیگه)، کنار مدل کلاسیک‌تر مثل رگرسیون لجستیک – واقعاً دقت و عدالت دارن یا نه؟!

خب روش کارشون این بود که ۸۰٪ از داده‌ها رو گذاشتن برای آموزش، ۲۰٪ رو برای تست. بعد با پارامترهای مختلف ارزیابی کردن، مثلاً AUROC (معیاری برای سنجش عملکرد مدل، هرچی بالاتر باشه بهتره)، دقت، حساسیت، ویژگی و صحت (sensitivity, specificity, precision). تازه اومدن همه اینا رو تو گروه‌های مختلف اقتصادی و کاستی هم بررسی کردن تا ببینن تبعیض اتفاق می‌افته یا نه. واسه بررسی عدالت، از چیزایی مثل Equalized Odds (یعنی مدل برای همه گروه‌ها به یه نسبت درست یا اشتباه پیش‌بینی کنه) و Demographic Parity (یعنی مدل واسه همه گروه‌ها به تعداد مشابه جواب مثبت یا منفی بده) استفاده کردن.

یادگیری ماشین معمولاً مشخص نمی‌کنه چرا یه تصمیم خاص گرفته، ولی اینا از SHAP استفاده کردن (Shapley Additive Explanations – یعنی روشی واسه فهمیدن اینکه کدوم ویژگی‌ها تو پیش‌بینی بیشتر تاثیر داشتن)، تا بفهمن مثلاً قدرت دست، جنسیت یا محل سکونت چه نقشی تو مدل ایفا می‌کنه.

نتیجه‌ها چی شد؟ مدل‌های درختی مخصوصاً LightGBM و Gradient Boosting بهترین عملکرد رو داشتن — AUROC بالای ۰.۷۹ تا ۰.۸۴ (عدد بدی نیست!). وقتی اطلاعات اقتصادی و سلامتی رو وارد می‌کردن، پیش‌بینی‌ها بهتر می‌شد. با این حال عدالتش کامل نبود: توی افراد از کاست‌های پایین‌تر یا گروه‌هایی مثل scheduled tribes (یعنی قبایل خاصی که معمولاً دسترسی کم‌تری به منابع دارن) مدل‌ها ضعیف‌تر عمل می‌کردن. یعنی تو همون قشرهایی که معمولاً بیشتر نیاز دارن، مدل‌ها اشتباه بیشتری داشتن!

با SHAP معلوم شد قدرت دست، جنسیت و محل زندگی مهم‌ترین دلیل اختلاف پیش‌بینی‌ها بودن. یعنی مثلاً اگه کسی زن باشه، دستش قوی باشه یا تو روستا زندگی کنه، مدل بیشتر براش خطا می‌زد یا کمتر درست پیش‌بینی می‌کرد.

حالا برای رفع این بی‌عدالتی‌ها، اومدن چند تکنیک ضد-سوگیری امتحان کردن. مثلاً Reject Option Classification (یه روش که مدل رو مجبور می‌کنن تو شرایط مبهم، تصمیم‌گیری رو متوقف کنه یا با احتیاط بیشتری جواب بده)، یا Equalized Odds Post-processing (در واقع سعی می‌کنن پیش‌بینی‌ها رو بین گروه‌ها منصفانه‌تر کنن). اینا تا حدی کمک می‌کردن اختلافات رو کم کنن، ولی بعضی وقتا باعث می‌شدن مدل کلاً دقتش بیاد پایین! بقیه روش‌ها هم خیلی معجزه نکردن.

در کل، محقق‌ها نتیجه گرفتن که مدل‌های یادگیری ماشین برای پیش‌بینی چاقی و ریسک چربی وسط بدن تو هند، ابزار باحالی هستن، ولی اگه دنبال عدالت و انصاف واقعی باشیم، باید بیشتر روشون کار کنیم و سوگیری‌هاشون رو بهتر در بیاریم. پس خلاصه‌اش این شد:هوش مصنوعی می‌تونه تو سلامت آدم‌ها خیلی کمک کنه، ولی اگه ردپای بی‌عدالتی توش بمونه، نمی‌تونیم انتظار داشته باشیم تصمیم‌هاش واقعاً به نفع همه باشه. هنوز کلی کار مونده تا الگوریتمایی بسازیم که واقعاً بدون تبعیض و برای همه کار کنن!

منبع: +