هوش مصنوعی و تبعیض علیه جامعه LGBTQIA+ تو دنیای پزشکی: یه بررسی صادقانه

بیا با هم درباره یه موضوع مهم حرف بزنیم: این روزا مدل‌های زبانی بزرگ یا همون LLMها (مثلاً ChatGPT و رقباش)، دارن تو حوزه پزشکی کلی استفاده میشن. مثلاً برای جواب دادن به سوالای مریضا، راهنمایی دادن به پزشک‌ها و حتی کمک تو تصمیم‌گیری‌های بالینی. حالا این وسط بحث تبعیض بخصوص علیه جامعه LGBTQIA+ (یعنی کسایی که گرایش جنسی و هویت جنسیتیشون با هنجارای معمول فرق داره) کمتر بررسی شده. در حالی که می‌دونیم آدمای این جامعه هم توی سلامت و هم توی دسترسی به خدمات درمانی مشکلات خاص خودشون رو دارن.

یه تیم پژوهشی اومدن و دقیقاً همین سؤال رو بررسی کردن: آیا این مدل‌های هوش مصنوعی مدرن، ممکنه علیه جامعه LGBTQIA+ تو کارهای پزشکی تبعیض نشون بدن یا حتی اطلاعات غلط بدن؟ اونا چهار مدل معروف رو بررسی کردن: Gemini 1.5 Flash، Claude 3 Haiku، GPT-4o و یه نسخه اختصاصی از GPT-4 که توسط دانشکده پزشکی استنفورد ساخته شده.

روش تحقیق این طوری بود: ۳۸ تا سناریو ساختن که بعضیاش واقعی بودن و بعضیاش ساختگی ولی واقعی به نظر می‌رسیدن. این سناریوها رو متخصص‌های پزشکی و کارشناس‌های سلامت جامعه LGBTQIA+ نوشتن. توی بعضی پرسش‌ها هویت LGBTQIA+ رو واضح مطرح کردن، تو بعضی‌ها اصلاً اشاره نکردن. هدف این بود بفهمن مدل‌ها تو موقعیت‌هایی که قبلاً تبعیض تاریخی گزارش شده یا نشده، و هم تو موقعیت‌هایی که هویت جنسی به درمان مرتبط هست یا نیست، چطوری جواب میدن.

نتیجه تحقیقات خیلی جالب و البته نگران‌کننده اس! هر چهار مدل گاهی جواب‌های نامناسب تولید کردن، چه هویت LGBTQIA+ تو سوال بوده باشه چه نباشه. یعنی این مشکل فقط مخصوص یه گروه نیست و عمومیت بیشتری داره.

به طور دقیق‌تر، بین ۴۳ تا ۶۲ درصد از جوابا تو سوالای مربوط به LGBTQIA+ نامناسب بودن، و برای بقیه سوالا هم بین ۴۷ تا ۶۵ درصد جوابا مشکل داشتن. یعنی تقریباً نصف یا حتی بیشتر از نصف جوابا مشکل داشتن! حالا این جوابای “نامناسب” یعنی چی؟ یعنی یا اطلاعاتشون غلط بوده (که بهش Hallucination تو دنیای هوش مصنوعی می‌گن، یعنی حرف مفت زدن یا اشتباه گفتن)، یا متعصبانه برخورد کردن یا از لحاظ ایمنی و حریم خصوصی مشکل داشتن.

یه مورد خیلی جالب دیگه هم لو رفت: وقتی تو سوال، هویت LGBTQIA+ مطرح میشه، سطح تعصب و تبعیض تو جواب‌ها بدتره و بیشتر خودشو نشون میده. یعنی مدل‌ها تو این شرایط حتی بیشتر خطا می‌کنن.

پژوهشگرها اومدن یه معیار هم برای سنجش مفید بودن پاسخ گذاشتن که اسمش رو گذاشتن Likert Scale (مثلاً مثل نمره دادن از ۱ تا ۵). جوابای نامناسب میانگین امتیازشون ۲.۶ بوده ولی جوابای مناسب‌تر ۳.۷ گرفتن. پس واقعاً فرق محسوسی دیده شده.

در نهایت، تیم تحقیق پیشنهاد کرده که مدل‌ها باید به صورت خاص‌تری برای هر نوع استفاده (Use Case) تنظیم بشن. مثلاً موقعی که حرف از بیماران LGBTQIA+ وسطه دقیق‌تر باشن، تملق بی‌جا نشه (Sycophancy یعنی شیرین‌زبونی یا تعارف بی‌مورد)، و حرفای نامربوط تو جوابشون کم بشه و مهم‌تر از همه، اطلاعات غلط و تعصب باید خیلی کمتر بشه.

در ضمن محقق‌ها تمام اون سوالا و جواب‌های ارزیابی شده رو به عنوان یه معیار برای مقایسه مدل‌های بعدی منتشر کردن، تا هر کی می‌خواد مدل جدید بسازه بتونه تست کنه و ببینه چقدر بهتر شده.

یک نکته مهم: این مقاله شامل سوالات و جواب‌هایی از مدل‌هاست که شاید برای بعضیا توهین آمیز یا آزاردهنده باشه؛ حواست باشه موقع خوندن چنین منابعی باید حساس بود. خلاصه، اگه از هوش مصنوعی تو سلامت استفاده می‌کنیم، باید دقت کنیم این ابزارا ناخواسته به بعضی گروه‌ها بیش‌تر آسیب نزنن.

منبع: +