بذار با یه سؤال ساده شروع کنیم: فکر میکنی مدلهای هوش مصنوعی که برای تحلیل عکسهای شبکیه چشم (یعنی همون لایه پشتی چشم که عکس میگیره) ساخته شدن، واقعاً برای همه عادلانه کار میکنن؟
تو سالهای اخیر، دانشمندا اومدن یه چیزی به اسم «اختلاف سن شبکیه» یا “Retinal Age Gap” رو بررسی کردن. یعنی چی؟ یعنی تفاوت بین سنی که مدلهای هوش مصنوعی با نگاه به عکس شبکیه پیشبینی میکنن و سن واقعی طرف! این عدد الان داره تبدیل میشه به یه شاخص باحال برای فهمیدن خیلی از بیماریهای چشم و حتی بعضی بیماریهای غیرچشمی.
اما یه نکته مهم: مدلهای یادگیری ماشین (Machine Learning یا همون الگوریتمهای هوشمندی که از دادهها یاد میگیرن) همیشه هم کاملاً عادلانه نیستن. گاهی به بعضی گروههای جمعیتی (مثل زن و مرد یا قومیتهای مختلف) پیشبینیهای ناعادلانه میدن! خب این خودش باعث میشه تبعیض سلامتی بیشتر بشه و اوضاع جالب نشه.
حالا یه گروه از دانشمندا اومدن توی یه مطالعه بزرگ با اطلاعات UK Biobank (یه بانک اطلاعاتی خیلی بزرگ توی انگلیس با کلی داده پزشکی!)، حدود ۹۶۶۸ نفر رو که کاملاً سالم بودن بررسی کردن. میانگین سنشون ۵۶.۸ سال بوده و نزدیک به ۵۲٪ شون هم زن بودن. اونا با سه روش عکسبرداری چشم کار کردن:
- 1. عکس رنگی شبکیه (CFP)،
- 2. عکس «OCT» که با جزییات کاملتر ساختار شبکیه رو نشون میده (OCT یعنی Optical Coherence Tomography، روشی پیشرفته برای اسکن سهبعدی و دقیق شبکیه)،
- 3. و ترکیب این دوتا.
برای پیشبینی سن شبکیه با این عکسا، از یه مدل هوش مصنوعی بنام RETFound (یه مدل پایهای که بعداً با دادههای مختلف تقویت و مخصوص این کارها میشه) استفاده کردن و براش آموزشهای خاص خودش رو گذاشتن تا حسابی حرفهای بشه.
خب نتایج چی شد؟
- وقتی فقط عکس CFP رو به مدل میدادن، مدل سن رو با میانگین خطای ۳.۴ سال پیشبینی میکرد.
- اگر فقط عکس OCT میدادن، مدل اشتباهش بیشتر میشد و حدود ۴.۳۷ سال خطا داشت.
- ولی وقتی هر دوتا تصویر باهم بودن (CFP + OCT)، مدل گُل کاشت و خطاش رسید به ۳.۰۱ سال! یعنی بهترین حالت همین ترکیب بود.
اما بحث اصلی: تبعیض یا همون Bias چی؟
- توی مدل CFP (عکس رنگی)، بین زن و مردها اختلاف معنیدار بود! یعنی مدل برای یه جنس بهتر یا بدتر کار میکرد (p < 0.001).
- توی مدل OCT، اختلاف قابل توجه برای قومیتهای مختلف دیده شد (بازم p < 0.001).
- جالب اینکه توی مدلِ ترکیبی (CFP + OCT)، دیگه نه بین زن و مرد و نه بین قومیتها تفاوت چشمگیری نبود.
خلاصه اینکه معلوم شد بسته به اینکه چه مدل تصویری استفاده کنی، هم دقت مدل تغییر میکنه هم میزان تبعیضش! پس اگه بخوایم از این مدلها واقعاً تو دنیای واقعی و درمان استفاده کنیم، باید حسابی مواظب این قضیه باشیم.
حالا چرا این مهمه؟ چون اگه مدل یه قوم یا یه جنس رو همش بدتر پیشبینی کنه، ممکنه یه سری افراد تشخیص درست نگیرن و وضع سلامتشون بدتر شه. برای همین دانشمندها میگن باید همیشه مدلهارو از نظر «Bias» (یعنی همون تعصب/تبعیض آماری در پیشبینیها) حسابی تست و بررسی کنیم تا هیچ گروهی ضرر نکنه.
در نهایت این تحقیق نشون داد که فقط دقت مدل مهم نیست؛ نبودن تبعیض هم به همون اندازه حیاتی و مهمه، مخصوصاً اگه قراره این هوش مصنوعیها تو درمان مردم وارد بشن. خلاصه، هر وقت حرف از هوش مصنوعی و پزشکی شد، حواسمون به این دو تا نکته باشه: دقت بالا + عادل بودن برای همه!
منبع: +