آیا ChatGPT-4 می‌تونه امتحان تخصص پزشکی برامون طراحی کنه؟ تجربه‌ای جالب در طب خانواده!

اگه تا حالا امتحان پزشکی یا رزیدنسی تخصصی داده باشی، حتماً می‌دونی که طراحی سوالای باکیفیت چقدر چالش‌برانگیزه. درست کردن امتحان درست و حسابی برای تخصص‌ها مثل طب خانواده، واقعاً هم وقت می‌بره، هم گرون درمیاد و هم نیاز به کلی آموزش داره. حالا بیاید ببینیم ChatGPT-4 تو این داستان چه کمکی می‌تونه بکنه!

توی یه تحقیق جدید، اومدن بررسی کردن که ChatGPT-4 (همین هوش مصنوعیه که خیلیا سرش بحث دارن!) واقعاً می‌تونه تو ساختن سوالای امتحان تخصصی طب خانواده کمک‌مون کنه یا نه. منظور از طب خانواده همون رشته تخصصیه که پزشکاش به مشکلات عمومی و اولیه مردم می‌پردازن.

پژوهشگرها یه روش نسبتاً استاندارد درست کردن برای تولید سوالای تستی (MCQ یعنی Multiple Choice Question، همون سوالای ۴ گزینه‌ای خودمون!) تو امتحان‌های بعد از فارغ‌التحصیلی. اومدن و سوالا رو تو ۴ دسته جدا امتحان کردن:

سوال‌هایی که کاملاً توسط انسان نوشته شدن.
سوالایی که ChatGPT-4 بر اساس نمونه‌های انسانی کپی کرده (یعنی سعی کرده مثل سوالای اصلی بنویسه).
سوالای کاملاً جدید و ابتکاری که ChatGPT-4 خودش خلق کرده.
سوالایی که کار ChatGPT-4 بوده ولی بعدش یه آدم خبره ویرایششون کرده.

برای این ارزیابی ۸ تا متخصص طب خانواده جمع کردن تا این سوال‌ها رو تو ۱۷ تا معیار مختلف کیفیت، امتیاز بدن. یعنی مثلاً نگاه کنن ببینن سوالا چقدر کاربردی‌ان، قابل فهم‌ان یا ذهن رو به چالش می‌کشن؟ (Higher-order thinking یعنی سوالایی که فقط حفظیات نیست و باید واقعاً فکر کنی حین جواب دادن!)

جالب اینجاست که هم سوالای انسانی و هم سوالایی که ChatGPT-4 تولید کرده بود، کیفیت بالایی گرفتن و ذهن رو حسابی به چالش می‌کشیدن. اما یه نکته بامزه این بود که متخصصا خیلی راحت‌تر می‌تونستن تشخیص بدن کدوم سوال رو هوش مصنوعی نوشته و کدوم رو یه آدم. یعنی سوالای ساختگی توسط انسان، کمتر “ماشینی” به نظر می‌اومدن.

از لحاظ فنی، یکی از نکات مهم اینه که تو بعضی از معیارها، سوالای ChatGPT-4 به هیچ وجه از سوالای انسانی بدتر نبودن (حالا اصطلاح Non-inferior یعنی از لحاظ علمی قابل قبول و کمتر از ۱۰ درصد اختلاف نسبت به کار انسان)، ولی برتری خاصی هم نداشتن نسبت به سوالای انسانی.

نتیجه نهایی این شد که ChatGPT-4 می‌تونه سوالای تستی کاملاً باکیفیت تولید کنه و حداقل تو بعضی معیارها، واقعاً قابل قبوله. پس این مدل‌های زبانی خیلی بزرگ (Large Language Models یا همون LLMs، که یعنی هوش مصنوعی‌هایی که کلی متن خونده‌ن و می‌تونن متن جدید بسازن)، می‌تونن تو ساختن و حتی ارزیابی محتوای آموزشی کمک بزرگی بکنن. این کمک یعنی صرفه‌جویی تو وقت و هزینه—و البته شگفت‌زده شدن از هوش این ماشین‌ها!

در کل، این ماجرا نشون می‌ده که آینده آموزش پزشکی و امتحان‌ها ممکنه حسابی متحول بشه! ولی هنوز هم چک کردن کارهای هوش مصنوعی توسط آدم خبره مهمه تا یه وقت سوتی ندیم!

منبع: +