هوش مصنوعی و سن چشم: چرا باید حواسمون به تبعیض در مدل‌های یادگیری ماشین باشه؟

بذار با یه سؤال ساده شروع کنیم: فکر می‌کنی مدل‌های هوش مصنوعی که برای تحلیل عکس‌های شبکیه چشم (یعنی همون لایه پشتی چشم که عکس می‌گیره) ساخته شدن، واقعاً برای همه عادلانه کار می‌کنن؟

تو سال‌های اخیر، دانشمندا اومدن یه چیزی به اسم «اختلاف سن شبکیه» یا “Retinal Age Gap” رو بررسی کردن. یعنی چی؟ یعنی تفاوت بین سنی که مدل‌های هوش مصنوعی با نگاه به عکس شبکیه پیش‌بینی می‌کنن و سن واقعی طرف! این عدد الان داره تبدیل میشه به یه شاخص باحال برای فهمیدن خیلی از بیماری‌های چشم و حتی بعضی بیماری‌های غیرچشمی.

اما یه نکته مهم: مدل‌های یادگیری ماشین (Machine Learning یا همون الگوریتم‌های هوشمندی که از داده‌ها یاد می‌گیرن) همیشه هم کاملاً عادلانه نیستن. گاهی به بعضی گروه‌های جمعیتی (مثل زن و مرد یا قومیت‌های مختلف) پیش‌بینی‌های ناعادلانه میدن! خب این خودش باعث میشه تبعیض سلامتی بیشتر بشه و اوضاع جالب نشه.

حالا یه گروه از دانشمندا اومدن توی یه مطالعه بزرگ با اطلاعات UK Biobank (یه بانک اطلاعاتی خیلی بزرگ توی انگلیس با کلی داده پزشکی!)، حدود ۹۶۶۸ نفر رو که کاملاً سالم بودن بررسی کردن. میانگین سنشون ۵۶.۸ سال بوده و نزدیک به ۵۲٪ شون هم زن بودن. اونا با سه روش عکس‌برداری چشم کار کردن:

1. عکس رنگی شبکیه (CFP)،
2. عکس «OCT» که با جزییات کامل‌تر ساختار شبکیه رو نشون میده (OCT یعنی Optical Coherence Tomography، روشی پیشرفته برای اسکن سه‌بعدی و دقیق شبکیه)،
3. و ترکیب این دوتا.

برای پیش‌بینی سن شبکیه با این عکسا، از یه مدل هوش مصنوعی بنام RETFound (یه مدل پایه‌ای که بعداً با داده‌های مختلف تقویت و مخصوص این کارها میشه) استفاده کردن و براش آموزش‌های خاص خودش رو گذاشتن تا حسابی حرفه‌ای بشه.

خب نتایج چی شد؟

وقتی فقط عکس CFP رو به مدل می‌دادن، مدل سن رو با میانگین خطای ۳.۴ سال پیش‌بینی می‌کرد.
اگر فقط عکس OCT می‌دادن، مدل اشتباهش بیشتر می‌شد و حدود ۴.۳۷ سال خطا داشت.
ولی وقتی هر دوتا تصویر باهم بودن (CFP + OCT)، مدل گُل کاشت و خطاش رسید به ۳.۰۱ سال! یعنی بهترین حالت همین ترکیب بود.

اما بحث اصلی: تبعیض یا همون Bias چی؟

توی مدل CFP (عکس رنگی)، بین زن و مردها اختلاف معنی‌دار بود! یعنی مدل برای یه جنس بهتر یا بدتر کار می‌کرد (p < 0.001).
توی مدل OCT، اختلاف قابل توجه برای قومیت‌های مختلف دیده شد (بازم p < 0.001).
جالب اینکه توی مدلِ ترکیبی (CFP + OCT)، دیگه نه بین زن و مرد و نه بین قومیت‌ها تفاوت چشمگیری نبود.

خلاصه اینکه معلوم شد بسته به اینکه چه مدل تصویری استفاده کنی، هم دقت مدل تغییر می‌کنه هم میزان تبعیضش! پس اگه بخوایم از این مدل‌ها واقعاً تو دنیای واقعی و درمان استفاده کنیم، باید حسابی مواظب این قضیه باشیم.

حالا چرا این مهمه؟ چون اگه مدل یه قوم یا یه جنس رو همش بدتر پیش‌بینی کنه، ممکنه یه سری افراد تشخیص درست نگیرن و وضع سلامتشون بدتر شه. برای همین دانشمندها میگن باید همیشه مدل‌هارو از نظر «Bias» (یعنی همون تعصب/تبعیض آماری در پیش‌بینی‌ها) حسابی تست و بررسی کنیم تا هیچ گروهی ضرر نکنه.

در نهایت این تحقیق نشون داد که فقط دقت مدل مهم نیست؛ نبودن تبعیض هم به همون اندازه حیاتی و مهمه، مخصوصاً اگه قراره این هوش مصنوعی‌ها تو درمان مردم وارد بشن. خلاصه، هر وقت حرف از هوش مصنوعی و پزشکی شد، حواسمون به این دو تا نکته باشه: دقت بالا + عادل بودن برای همه!

منبع: +