خب رفقا، این روزها دیگه هر جا رو نگاه میکنی، بحث هوش مصنوعی (Artificial Intelligence یا همون AI) داغه، مخصوصاً تو آموزش و پزشکی. یکی از چیزهایی که خیلی سر و صدا کرده، ChatGPT ـه؛ مثلاً همون مدلهایی مثل GPT-4 و تازهترین نسخهش GPT-4o. حالا اینا چیکار میکنن؟ میتونن کلی سؤال بهشون بدی و ببینی چقدر خوب جواب میدن!
یه سری محقق باحال اومدن و گفتن بذار ببینیم این ChatGPT واسه آزمونهای تخصص پزشکی، واقعاً چقدر قوی عمل میکنه یا هنوز راه داره واسه پزشک شدن! واسه همین سراغ آزمونهای رزیدنتی پزشکی تو برزیل رفتن و هزار و چهلویک (۱۰۴۱ تا!) سؤال از این آزمونها رو دادن به دوتا مدل: یکی GPT-4 و اون یکی GPT-4o که تازهتره و پیشرفتهتر. گفتن بذاریم هوش مصنوعی زورش رو روی سؤالات تخصصی واقعی نشون بده.
خب نتیجه چی شد؟
بذار رک و پوستکنده بگم:
- GPT-4 تونست حدود ۸۱/۳ درصد سؤالات رو درست جواب بده. (اگه دقیقتر بخوای: 81.27 درصد)
- GPT-4o حتی بهتر کار کرد و به ۸۵/۹ درصد درست رسید! یعنی تقریباً یکیدو سؤال بیشتر هر ده تا سؤال رو درست زد. (دقیقتر: 85.88 درصد)
- تازه این اختلاف کارشون هم خیلی معنیدار بود (یه جورهایی علمیش p<0.05 بود، این یعنی شانسی نبوده)
حالا یه نکته بامزه — سؤالات رو دو دسته کردن: اونایی که فقط حفظی و سطحیه (یعنی: سؤالات پایینتر تو طبقهبندی Bloom. این Bloom’s taxonomy یه نوع دستهبندی سطوح یادگیریه؛ مثلاً اینکه یه نفر فقط حفظ کنه یا واقعاً بفهمه)، و اونایی که پیچیدهتر و نیاز به تحلیل و فکر کردن داره. مدلها رو سؤالات سختتر (یا همون بالاتر تو Bloom)، ضایعتر شدن و درستیشون اومد پایینتر. خلاصه هوش مصنوعی هم وقتی باید بیشتر فکر کنه، گاهی کم میاره!
حالا اینجا محققها کم نیاوردن و گفتن سؤالاتی که هر دو مدل اشتباه جواب دادن رو میدیم به چند مدل دیگه که براشون زنجیره تفکر یا chain-of-thought reasoning فعال شده (یعنی طوری تربیت شدن که اول فکر کنن بعد جواب بدن!) مثل مدلهای o1-preview یا o3 یا o4-mini-high. این مدلها رو سال ۲۰۲۴ و حتی ۲۰۲۵ تست کردن؛ یعنی کار رو دراز مدت بررسی کردن (یعنی longitudinal assessment).
جواب چطور بود؟
- o1-preview حدود ۵۳/۳ درصد درست جواب داد
- o3 حدود ۴۷/۸ درصد
- o4-mini-high: فقط ۳۵/۹ درصد
جالبه که این مدلها روی سؤالات پیچیده بهتر بودن تا سؤالات آسونتر! شاید به خاطر همون زنجیره تفکره.
نتیجه آخرش؟ هوش مصنوعی واقعاً میتونه به دانشجوهای پزشکی کمک کنه، چه برای آمادگی کنکور تخصص، چه واسه فهمیدن مباحث سخت یا پیدا کردن راههای متفاوت برای تدریس. ولی یه نکته خیلی مهمی هست که نباید فراموش بشه: باید مواظب بود چون هوش مصنوعی همیشه همه چی رو درست نمیگه، گاهی خطا داره و تازه کلی صحبت اخلاقی و «در حوزه درمان، انسان همیشه باید نظارت کنه» وجود داره.
آخرش؟ هوش مصنوعی مثل یک کمکدست باحال تو پزشکی داره جا میافته، ولی هیچ وقت جای آدم رو نمیگیره و مراقبت باید همیشه باشه!
منبع: +