بذارید اول یه خورده درباره موضوع حرف بزنیم، بعد بریم سراغ اصل قضیه! ماجرا اینه که یه بیماری هست به اسم «استئیت مزمن غیر باکتریایی» یا Chronic non-bacterial osteitis (CNO). حالا خیلیا حتی اسمشم نشنیدن! واسه همینم کلی اختلاف تو تشخیص و درمانش وجود داره و لازم دارن مردم و حتی پزشکا بیشتر دربارهش بدونن.
حالا بیایید بریم سراغ تکنولوژی! تو چین، مدلهای زبانی هوشمند (همون هوش مصنوعیهایی که خودشون متن درست میکنن و جواب سوال میدن – دقیقاً مثل همین چیزی که الان داری میخونی!) حسابی دارن طرفدار پیدا میکنن. سه مدل معروفشون اسمشون Deepseek V3، Doubao و Kimi1.5 هست. ما میخوایم بدونیم اینا اصلاً چقدر خوب جواب سوالات تخصصی پزشکی مثل همین CNO رو میدن و آیا هربار یهجور جواب میدن یا نه.
یه تیم اومدن طبق آخرین توافق متخصصها، ۱۶ تا سوال متفاوت درباره بیماری CNO رو جمع کردن. بعد این سؤالارو هر سه تا مدل AI پرسیدن، اونم نه یه بار بلکه سه بار تو زمانهای مختلف! بعدم دو تا متخصص ارتوپدی جوابها رو جداجدا بررسی کردن و نمره دادن.
حالا نتایج چی شد؟
- تو کل جوابای این سه مدل به اون ۱۶ سوال تو سه مرحله، فقط مدل Doubao یکی دوبار جواب کاملاً اشتباه داشت (۶.۲۵ درصد از جوابهاش تو دور سوم از نگاه یکی از داورا درست نبود).
- از نظر سرعت جواب دادن، Doubao زودتر از همه جواب میداد و بیشترم توضیح میداد یعنی جواباش «حرف حساب» و پرجزئیاتتر بودن!
- در دور اول و سوم، مدل Kimi1.5 از نظر یکی از داورها بالاترین نمره رو گرفت (مثلاً ۳.۹۳۸ و ۳.۸۷۵ از ۵). اما تو دور دوم، Doubao اومد رو دست بقیه و بیشتر نمره گرفت (۳.۸۷۵).
- جالبه که از نظر داور دوم، تو دور دوم بازم Doubao برنده شد (۳.۸۱۲)، اما تو دور اول و سوم، بالاترین نمره رفت به Kimi1.5 (۳.۸۱۲ تو هر دو دور).
در نهایت چی میشه جمعبندی کرد؟ تقریباً هر سه تا مدل Deepseek V3، Doubao و Kimi1.5 میتونن به بیشتر سوالای درباره این بیماری استخونی با دقت مناسبی جواب بدن و نکته جالب اینه که تو عملکردشون تفاوت معنیداری نبود. یعنی اگه از هرکدومشون سوال میپرسیدی، خیالت جمع باشه معمولاً جواب درست میشنوی!
راستی اگه اصطلاحاتی مثل “AI language models” یا “مدلهای زبانی هوش مصنوعی” یه کم برات گنگه، بدون منظور همونا هستن که دارن تلاش میکنن به سوالات تخصصی (چه پزشکی چه عمومی) با توجه به دیتایی که یاد گرفتن جواب بدن. خلاصه آینده داره جالبتر و هوشمندانهتر میشه!
منبع: +