وقتی هوش مصنوعی قراره تو داوری اخلاقی تحقیقات پزشکی کمک کنه! (ماجرای GPT و تیم ژاپنی‌ها)

خب بچه‌ها، بیاید یه موضوع خفن رو با هم بررسی کنیم: اینکه چطور دارن با هوش مصنوعی (همون AI خودمون) به کمیته‌های بررسی اخلاقی تحقیقات پزشکی در ژاپن کمک می‌کنن! این یه مطالعه آزمایشیه (Pilot Study)، یعنی تازه اول راهه، اما خب نتایج جالبی داشته.

ماجرا از این قراره که چند تا محقق ژاپنی (یاسوکو فوکاتاکی، واکاکو هایاشی و دوستانش!) دارن یه ابزار هوش مصنوعی درست می‌کنن تا به ارزیابی اخلاقی اسناد تحقیقات بالینی که به زبان ژاپنی نوشته شدن کمک کنه. دقت کن که اونا گفتن این ابزار نمی‌خواد متن بنویسه یا متن پیشنهاد بده—فقط می‌خواد موقع بررسی اخلاقی، اطلاعات مهم و حیاتی رو سریع بیرون بکشه. 🤖

حالا اوکی، از چه هوش مصنوعی استفاده کردن؟ اساس کارشون روی مدل‌های Generative AI بوده—یعنی همون هوش مصنوعی‌هایی که می‌تونن خودشون چیز تولید کنن، مثل ChatGPT. اینجا از دو مدل معروف GPT-4 و نسخه به‌روزتر اون یعنی GPT-4o استفاده کردن.

برای کارشون یه سری GPT اختصاصی (Custom GPT) ساختن، و در واقع GPTها رو با سوالات و دستورالعمل‌های مخصوص ژاپنی آموزش دادن. منظور از Custom GPT اینه که شما می‌تونی خودت یه نسخه ChatGPT بسازی که مخصوص کار خودت باشه—اینجا هم این کار رو کردن.

سوال اصلی این بوده که این مدل‌ها “می‌تونن به‌درستی اطلاعات اخلاقی مهم رو از اسناد تحقیقاتی پیدا کنن یا نه؟” مثلاً هدف تحقیق چیه، طراحی پژوهش چیه (یعنی مثلاً از چه روشی دارن استفاده می‌کنن) و اینکه چه ریسک‌ها و مزایا و توضیحاتی واسه داوطلبین شرکت‌کننده وجود داره.

خب بریم سر اصل نتیجه‌ها:

– اول اومدن GPT-4 و GPT-4o رو با هم مقایسه کردن، با همین GPTهای سفارشی. بعدش هم GPT-4o رو گرفتند و باهاش تست‌های بیشتری انجام دادن: یک بار با دستورهای ژاپنیِ مخصوص و یه بار هم با فرمان معمولی.

– نتیجه جالب: GPT-4o تونست توی پیدا کردن هدف و پیش‌زمینه تحقیقات توی ۸۰٪ موارد با نظر کارشناس موافق باشه (یعنی درست حدس زده)، و توی استخراج طراحی پژوهش ۱۰۰٪ دقیق بود! 😮 تازه هر بار که کار رو تکرار می‌کردن، جواباش تقریباً یکی می‌موند (یعنی قابل تکرار بودن نتایجش بالاست).

– و متوجه شدن اون GPTهایی که با دستورالعمل و عبارت‌های سفارشی ژاپنی آماده شدن، خیلی دقیق‌تر و ثابت‌تر جواب می‌دن تا اینکه فقط یه سوال معمولی بدی بهش.

حالا کلاً چی می‌خوان بگن؟ این تحقیق نشون می‌ده که این جور هوش مصنوعی‌ها می‌تونن به داوری‌های اولیه کمیته‌های اخلاقی (Pre-IRB review) کلی کمک کنن. حالا IRB همون کمیته‌ بررسی اخلاقی تحقیقات پزشکیه—یعنی یه تیم که می‌شنن بررسی می‌کنن تحقیق شما اخلاقیه یا نه.

نکته مهم: قراره این ابزار جایگزین انسان نشه یا خودش به طور اتومات تصمیم‌گیری کنه! هدف اینه که به اعضای کمیته کمک کنه اطلاعات سریع‌تر و دقیق‌تر جمع کنن. یعنی یه دستیار هوشمند برای تصمیم‌گیری بهتر.

یه سری محدودیت هم داشته این مطالعه:
– هیچ داده مرجع مطلقی (Gold Standard Reference Data) نداشتن، یعنی نمی‌تونن دقیق بگن جواب AI کاملاً درسته یا نه.
– فقط یه نفر کار رو ارزیابی کرده، پس شاید قضاوت شخصی بوده باشه.
– بررسی اینکه بقیه آدم‌ها هم اگه تکرار کنن به همین نتیجه می‌رسن، نشده (همون Inter-rater reliability).
– و در آخر، حتی بهترین AI هم نمی‌تونه چیزهایی مثل بازدید میدانی از پژوهش‌ها یا صحبت رو در رو با تیم تحقیق رو جایگزین کنه.

در کل، این تیم یه قدم مهم برداشته برای اینکه شاید تو آینده بتونن ابزارهایی بسازن که پیش از اینکه اسناد بره پیش کمیته اخلاق، AI کمک کنه اطلاعات مهم دربیاد. دارن هم داده پایه جمع می‌کنن برای مراحل بعدی: مثلاً روش‌هایی مثل Retrieval-Augmented Generation (یعنی مدل هایی که بتونن جواب رو با توجه به اطلاعات و اسناد جدید بهتر تولید کنن!) یا Fine-tuning (یعنی آموزش بیشتر AI برای کار خاص) رو هم تو برنامه دارند.

خلاصه اگه علاقه داری یا تو حوزه تحقیقات پزشکی کار می‌کنی، این ماجرا رو دنبال کن! احتمالاً هوش مصنوعی قراره تو بررسی اخلاقی تحقیقات نقش پررنگ‌تری پیدا کنه، البته فقط به عنوان یه کمک‌کننده باحال، نه یه داور نهایی.
منبع: +