مقایسه هوش مصنوعی‌های معروف چینی تو جواب دادن به سوالات بیماری استخون: کدومش بهتره؟

بذارید اول یه خورده درباره موضوع حرف بزنیم، بعد بریم سراغ اصل قضیه! ماجرا اینه که یه بیماری هست به اسم «استئیت مزمن غیر باکتریایی» یا Chronic non-bacterial osteitis (CNO). حالا خیلیا حتی اسمشم نشنیدن! واسه همینم کلی اختلاف تو تشخیص و درمانش وجود داره و لازم دارن مردم و حتی پزشکا بیشتر درباره‌ش بدونن.

حالا بیایید بریم سراغ تکنولوژی! تو چین، مدل‌های زبانی هوشمند (همون هوش مصنوعی‌هایی که خودشون متن درست می‌کنن و جواب سوال می‌دن – دقیقاً مثل همین چیزی که الان داری می‌خونی!) حسابی دارن طرفدار پیدا می‌کنن. سه مدل معروفشون اسمشون Deepseek V3، Doubao و Kimi1.5 هست. ما می‌خوایم بدونیم اینا اصلاً چقدر خوب جواب سوالات تخصصی پزشکی مثل همین CNO رو می‌دن و آیا هربار یه‌جور جواب می‌دن یا نه.

یه تیم اومدن طبق آخرین توافق متخصص‌ها، ۱۶ تا سوال متفاوت درباره بیماری CNO رو جمع کردن. بعد این سؤالارو هر سه تا مدل AI پرسیدن، اونم نه یه بار بلکه سه بار تو زمان‌های مختلف! بعدم دو تا متخصص ارتوپدی جواب‌ها رو جداجدا بررسی کردن و نمره دادن.

حالا نتایج چی شد؟

تو کل جوابای این سه مدل به اون ۱۶ سوال تو سه مرحله، فقط مدل Doubao یکی دوبار جواب کاملاً اشتباه داشت (۶.۲۵ درصد از جواب‌هاش تو دور سوم از نگاه یکی از داورا درست نبود).
از نظر سرعت جواب دادن، Doubao زودتر از همه جواب می‌داد و بیشترم توضیح می‌داد یعنی جواباش «حرف حساب» و پرجزئیات‌تر بودن!
در دور اول و سوم، مدل Kimi1.5 از نظر یکی از داورها بالاترین نمره رو گرفت (مثلاً ۳.۹۳۸ و ۳.۸۷۵ از ۵). اما تو دور دوم، Doubao اومد رو دست بقیه و بیشتر نمره گرفت (۳.۸۷۵).
جالبه که از نظر داور دوم، تو دور دوم بازم Doubao برنده شد (۳.۸۱۲)، اما تو دور اول و سوم، بالاترین نمره رفت به Kimi1.5 (۳.۸۱۲ تو هر دو دور).

در نهایت چی می‌شه جمع‌بندی کرد؟ تقریباً هر سه تا مدل Deepseek V3، Doubao و Kimi1.5 می‌تونن به بیشتر سوالای درباره این بیماری استخونی با دقت مناسبی جواب بدن و نکته جالب اینه که تو عملکردشون تفاوت معنی‌داری نبود. یعنی اگه از هرکدومشون سوال می‌پرسیدی، خیالت جمع باشه معمولاً جواب درست می‌شنوی!

راستی اگه اصطلاحاتی مثل “AI language models” یا “مدل‌های زبانی هوش مصنوعی” یه کم برات گنگه، بدون منظور همونا هستن که دارن تلاش می‌کنن به سوالات تخصصی (چه پزشکی چه عمومی) با توجه به دیتایی که یاد گرفتن جواب بدن. خلاصه آینده داره جالب‌تر و هوشمندانه‌تر می‌شه!

منبع: +