بررسی جالب عملکرد ChatGPT تو آزمون‌های تخصص پزشکی: وقتی هوش مصنوعی وارد دنیای پزشک‌ها میشه!

خب رفقا، این روزها دیگه هر جا رو نگاه می‌کنی، بحث هوش مصنوعی (Artificial Intelligence یا همون AI) داغه، مخصوصاً تو آموزش و پزشکی. یکی از چیزهایی که خیلی سر و صدا کرده، ChatGPT ـه؛ مثلاً همون مدل‌هایی مثل GPT-4 و تازه‌ترین نسخه‌ش GPT-4o. حالا اینا چیکار می‌کنن؟ می‌تونن کلی سؤال بهشون بدی و ببینی چقدر خوب جواب می‌دن!

یه سری محقق باحال اومدن و گفتن بذار ببینیم این ChatGPT واسه آزمون‌های تخصص پزشکی، واقعاً چقدر قوی عمل می‌کنه یا هنوز راه داره واسه پزشک شدن! واسه همین سراغ آزمون‌های رزیدنتی پزشکی تو برزیل رفتن و هزار و چهل‌ویک (۱۰۴۱ تا!) سؤال از این آزمون‌ها رو دادن به دوتا مدل: یکی GPT-4 و اون یکی GPT-4o که تازه‌تره و پیشرفته‌تر. گفتن بذاریم هوش مصنوعی زورش رو روی سؤالات تخصصی واقعی نشون بده.

خب نتیجه چی شد؟
بذار رک و پوست‌کنده بگم:

GPT-4 تونست حدود ۸۱/۳ درصد سؤالات رو درست جواب بده. (اگه دقیق‌تر بخوای: 81.27 درصد)
GPT-4o حتی بهتر کار کرد و به ۸۵/۹ درصد درست رسید! یعنی تقریباً یکی‌دو سؤال بیشتر هر ده تا سؤال رو درست زد. (دقیق‌تر: 85.88 درصد)
تازه این اختلاف کارشون هم خیلی معنی‌دار بود (یه جورهایی علمیش p<0.05 بود، این یعنی شانسی نبوده)

حالا یه نکته بامزه — سؤالات رو دو دسته کردن: اونایی که فقط حفظی و سطحیه (یعنی: سؤالات پایین‌تر تو طبقه‌بندی Bloom. این Bloom’s taxonomy یه نوع دسته‌بندی سطوح یادگیریه؛ مثلاً اینکه یه نفر فقط حفظ کنه یا واقعاً بفهمه)، و اونایی که پیچیده‌تر و نیاز به تحلیل و فکر کردن داره. مدل‌ها رو سؤالات سخت‌تر (یا همون بالاتر تو Bloom)، ضایع‌تر شدن و درستیشون اومد پایین‌تر. خلاصه هوش مصنوعی هم وقتی باید بیشتر فکر کنه، گاهی کم میاره!

حالا اینجا محقق‌ها کم نیاوردن و گفتن سؤالاتی که هر دو مدل اشتباه جواب دادن رو می‌دیم به چند مدل دیگه که براشون زنجیره تفکر یا chain-of-thought reasoning فعال شده (یعنی طوری تربیت شدن که اول فکر کنن بعد جواب بدن!) مثل مدل‌های o1-preview یا o3 یا o4-mini-high. این مدل‌ها رو سال ۲۰۲۴ و حتی ۲۰۲۵ تست کردن؛ یعنی کار رو دراز مدت بررسی کردن (یعنی longitudinal assessment).

جواب چطور بود؟

o1-preview حدود ۵۳/۳ درصد درست جواب داد
o3 حدود ۴۷/۸ درصد
o4-mini-high: فقط ۳۵/۹ درصد
جالبه که این مدل‌ها روی سؤالات پیچیده بهتر بودن تا سؤالات آسون‌تر! شاید به خاطر همون زنجیره تفکره.

نتیجه آخرش؟ هوش مصنوعی واقعاً می‌تونه به دانشجوهای پزشکی کمک کنه، چه برای آمادگی کنکور تخصص، چه واسه فهمیدن مباحث سخت یا پیدا کردن راه‌های متفاوت برای تدریس. ولی یه نکته خیلی مهمی هست که نباید فراموش بشه: باید مواظب بود چون هوش مصنوعی همیشه همه چی رو درست نمی‌گه، گاهی خطا داره و تازه کلی صحبت اخلاقی و «در حوزه درمان، انسان همیشه باید نظارت کنه» وجود داره.

آخرش؟ هوش مصنوعی مثل یک کمک‌دست باحال تو پزشکی داره جا می‌افته، ولی هیچ وقت جای آدم رو نمی‌گیره و مراقبت باید همیشه باشه!

منبع: +